## 緣起 AI/DS team最近在跟南山人壽合作預計要一起寫一份有關長照生態的白皮書,想當然爾,整合智齡和鎧琳的資料並著手進行分析、找出值得著墨見解的任務就落下來了。順利地開始分析、做簡報,但直到跟Peter討論時,才發現我在分析時一直落入一個盲區-沒有去處理樣本偏差的狀況...所以這次的分享會主要是整理我看到有關偏差處理方法的筆記並作為警惕! ## 母體 vs 樣本 這種大規模大範圍的研究,理想上最可信的解法是針對所有符合研究假設的對象(母體)進行「普查」,但很顯然的,這麼做是非常耗費人力、金錢與時間,所以在多數情況下會選擇「抽樣調查」。 > 抽樣調查:從母體中抽選一部分樣本進行調查,並將其結果推論至母體的一種調查方法。  在統計理論的基礎上,使用**隨機**抽樣方法所抽出的樣本去推論母體時,根據中央極限定理,並不會有樣本代表性的問題。但**隨機**並不容易,在選樣的過程中,可能因為特定族群較易接觸、業務擴展或是現實生活中的任何因素,造成特定族群的樣本佔比特別重,進而導致樣本人口的特徵跟母體分佈不一致,亦即缺乏樣本代表性。 > 樣本代表性會影響到對母體特質推估的可信度。 ## 補救措施 當發現樣本出現偏差、缺乏代表性時,常見的處理方法有2種「事後分層加權(post-stratification)」和「反覆多重加權(raking)」。 1. 事後分層加權(post-stratification)  舉例來說,母體的性別比為50%:50%時,如果樣本中有60位女性、40位男性,其權重應該為:  在這個樣本中女性太多,男性太少,所以女性應該乘以較小的權重、男性要乘以較大的權重來予以調整到接近母體50%:50%的程度。 適用時機:欲檢定的變項僅有一個或有多個變項但能知道變項間的聯合機率分配(Joint probability distribution)。  2. 反覆多重加權(raking) 但現實總是沒那麼美好,調查研究的變項通常有多個,而母體的多變數聯合機率分配往往未知,僅可得知母體的單變項邊際機率分配(Marginal probability distribution)。 進行加權時,一次僅加權一個變項,直到確認每一個變項分佈與母體之間沒有差異為止。 適用時機:欲檢定的變項有多個且僅可得知邊際機率。 ## 驗證樣本代表性 在前面我們已經針對樣本進行加權處理了,但要怎麼知道處理後的樣本跟母體分佈是一致的?也就是我們是不是在做正確的事,是否讓樣本更具代表性? 這時就需要用到卡方適合度檢定(Goodness-of-fit test)。 該檢定有一些前提假說: 1. 變項需為類別變項(categorical variable)。 3. 每一檢定細格(cell)內的數據應該為計數數目,而不是百分比或是經過轉換之數據。 3. 至少有80%以上的細格,其數據至少大於5。 4. 樣本數目至少要為細格數目的五倍。 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up