# eBird sampling completeness progress report 20231123-1211 ## 參考Toria et al.(2016)發表文章 有關Kolmogorov–Smirnov (K–S) goodness-of-fit tests D值是在用來確定一個樣本的分佈是否與另一個參考樣本的累積概率分佈(Cumulative Distribution Function,CDF)是否相符,或者確定兩個樣本是否來自同一分佈。 * D=max∣F1​(x)−F2​(x)∣ * D值表示樣本分佈與參考分佈之間的最大差異 在Toria et al.(2016)為了解檢示Gbif與BBS,FFS三種不同資料庫的Survey coverage,並檢示調查網格在空間與環境變數的分佈是否與背景的網格有所差異 Survey coverage只考慮1990~2013年期間的代表性 * (背景網格為0.1°x0.1°約11.1kmx7.2~10.1km,全美國共有83,545個網格) 而每一組K–S tests為dataset-by-taxon-by-gradient combination 其中包含了物種分類資訊、環境梯度、與調查覆蓋度等三項資訊 * 比較GIBF,BBS與FFS資料庫在環境因子與各taxon的調查覆蓋度分析為例 * 使用檢定統計值(D值)作為強或弱的指標,了解每個調查資料集與背景環境之間的一致性。 * 檢示與平均D值的差異,此篇文章未探討P值的結果或影響 ### 以下圖為例是探討不同分類群的資料集在合併了11個環樈梯度參數的覆蓋度指標 (每個資料集又分成所有網格以及中度覆蓋度以上的調查網格的D值呈現) ![Toria_enfactor_Dvalue](https://hackmd.io/_uploads/Hy0Oo7iEp.gif) ### 以下圖例是探討美國BBS和FFS的資料集在不同環境參數的覆蓋度指標 (每個環境參數又分成所有網格以及中度覆蓋度以上的調查網格的D值呈現) ![Toria_bbsffs_enfactor_Dvalue](https://hackmd.io/_uploads/SJDKi7jNT.gif) ## 將環境因子先取log值再進行K–S test ### 11個因子取log值後,well-survey網格和所有網格的分佈與KS test分析結果 #### 海拔與氣候 ![log_enfactor_1_20231123](https://hackmd.io/_uploads/BktpjHhET.png) #### 土地覆蓋 ![log_enfactor_2_20231123](https://hackmd.io/_uploads/rJYTsHnV6.png) ### 以直方圖呈現平均值D值與其各個環境因子分佈之情形 * 紅色虛線表示以11個環境因子的D值平均值(0.150)當作參考比較 ![KS_Dvalue_histogram](https://hackmd.io/_uploads/Bk5QINiEp.png) ## 考慮從Effect size檢示 假設檢定的結果可見變量間的關聯性或自變量的影響是否達到統計上的顯著,例如以特定的檢定統計量的機率(p值),或檢定統計量可作為影響的判斷標準。 衡量自變項效果大小的指標,應計算effect size(效應值),才能有效評估統計結果的效果大小。 Effect size是一種評估變量之間差異大小的統計方法,它是用來表示兩組數據之間差異的重要性,同時Effect size較不受樣本大小的影響。Eeffect size是為自變量效果大小或變項間關聯程度的一種客觀與標準化的測量方法。 Cohen's d為一種常見的effect size指標,計算兩組獨立樣本的平均值之差,並除以它們的合併的標準差。 * Cohen's d = (M2 - M1) ⁄ SD(pooled) * Cohen's d的判讀 ![image](https://hackmd.io/_uploads/Syj1yNjEa.png) 九個環境因子的effect size的檢視 ![Cohens_d_forestplot](https://hackmd.io/_uploads/BJciSVo46.png) *參考文獻來源(https://drfishstats.com/inferential-stats/effect-size/) & ChatGPT4.0 ## 目前依篩選條件重新分析不同空間與時間尺度,折線圖反映調查覆蓋度隨其組合的變化 ![period_change_20231211](https://hackmd.io/_uploads/SyK9z4EU6.png) ### 1公里與每隔10年之網格調查覆蓋度變化 ![1km_10yr](https://hackmd.io/_uploads/Hkz0E4E86.gif) ### 5公里與每隔10年之網格調查覆蓋度變化 ![5km_10yr](https://hackmd.io/_uploads/SJLkHVE8p.gif) ### 10公里與每隔10年之網格調查覆蓋度變化 ![10km_10yr](https://hackmd.io/_uploads/rJdxSVELp.gif)