Try   HackMD

Sampling survey

小補充 :

SRSWOR 是 隨機抽出不放回(Simple Random Sample Without Replacement)
SRSWR
是 隨機抽出放回(Simple Random Sample With Replacement)

Part 1. 基礎統計量計算

首先會先分成 SRSWOR 或是 SRSWR
因為計算時會有些許差異

SRSWOR

求出母體均數(

Y ),以及母體變異數 (
σ2, S2
)
Y=ΣN yiNσ2=ΣN (yiY)2NS2=ΣN (yiY)2N1

分別列出樣本均數(

y ),樣本變異數(
s2
)
y=Σn yins2=Σn (yiy)2n1

一些重要觀念 :

E(y)=Y
E(s2)=S2

V(y)=1fnS2, f=nN=E( y2 )[ E(y) ]2

判斷是否是 unbiased(不偏) :

YE(y)=0unbiased


下方是例題 :

題目給定 :

N=3,母體 :
{5, 7, 9}, n=2, SRSWOR

求出 :
(1)
y, unbias?

(2)
s2, prove E(s2)=S2?

(3)
prove V(y)=1fnS2?

解法 :
首先把已知的樣本估計做成表格 :

yi
(5,7)
(5,9)
(7,9)
yi
6
7
8
P(y)
13
13
13
s2
(56)2+(76)221=2
(57)2+(97)221=8
(78)2+(98)221=2

接著計算出一些基本會用到的值 :

Y=5+7+93=7
S2=(57)2+(77)2+(97)231=4

V(y)=E(y2)(E(y))2=13×(62+72+82)(13×(6+7+8))2=23

最後就可以開始解上述題目
(1)

E(y)=6+7+83=7
YE(y)=77=0

unbias

(2)
s2
已經在表格中顯示
E(s2)=132+138+132=4

E(s2)=4=S2
得証
(3)
1fnS2=123214=23

V(y)=23=1fnS2
得証

SRSWR

求出母體均數(

Y ),以及母體變異數 (
σ2, S2
)
Y=ΣN yiNσ2=ΣN (yiY)2NS2=ΣN (yiY)2N1

分別列出樣本均數(

y ),樣本變異數(
s2
)
y=Σn yins2=Σn (yiy)2n1

一些重要觀念 :

E(y)=Y
E(s2)=σ2

V(y)=σ2n

判斷是否是 unbiased(不偏) :

YE(y)=0unbiased


下方是例題 :

題目給定 :

N=3,母體 :
{5, 7, 9}, n=2, SRSWR

求出 :
(1)
y, unbias?

(2)
s2, prove E(s2)=σ2?

(3)
prove V(y)=σ2n?

解法 :
首先把已知的樣本估計做成表格 :

yi
(5,5)
(5,7)
(5,9)
(7,7)
(7,9)
(9,9)
yi
5
6
7
7
8
9
P(y)
19
29
29
19
29
19
s2
(55)2+(55)221=0
2
8
0
2
0

接著計算出一些基本會用到的值 :

Y=5+7+93=7
σ2=(57)2+(77)2+(97)23=83

V(y)=E(y2)(E(y))2=[ 19×(52+72+92)+29×(62+72+82) ][ 7 ]2=43

最後就可以開始解上述題目
(1)

E(y)=19×(5+7+9)+29×(6+7+8)=7
YE(y)=77=0

unbias

(2)
s2
已經在表格中顯示
E(s2)=292+298+292=83

E(s2)=83=σ2
得証
(3)
σ2n=3/82=43

V(y)=43=σ2n
得証

Part 2. 估計比例差&其信賴區間

估計比例差,並列出 95% 信賴區間(CI)

P1P2=x1n1x2n2
接著就可以求出信賴區間 :
se(P1P2)=V(P1P2)

95% CI:(P1P2)±2×se(P1P2)

除此之外,當這個 CI 包含
0
的話,就代表沒有顯著差異

但計算

V(P1P2) 有 2 個不同算法,使用時機有差異
{i.\colorred:V(P1P2)=p1q1n1+p2q2n2ii.\colorred:V(P1P2)=1n(p1q1+p2q2+2p1p2)


下方是例題 :

題目給定 :

次數 男性(M) 女性(F) 合計
贊成(1) 180 240 420
不贊成(2) 160 300 460
沒意見(3) 60 60 120
合計 400 600 1000

n=1000, nM=400, nF=600

(1) 估計男性與女性贊成的比例差(

PMPF),列出
95%CI
,並說明有無顯著差異
(2) 估計女性中贊成與不贊成的比例差(
P1P2
),列出
95%CI
,並說明有無顯著差異

解法 :
(1)
可以先看出重點是比較 男性、女性 的贊成數
因此使用第 1 個公式(組別)

PMPF=180400240600=0.05
V(PMPF)=180400220400400+240600360600600=0.0062+0.0004=0.0012

se(PMPF)=V(PMPF)=0.0012=0.03464

95%CI:0.05±(2×0.03464)=0.05±0.06928

區間包含
0
無顯著差異
(2)
可以先看出重點是比較女性中的 贊成、不贊成
因此使用第 2 個公式(選項)
P1P2=240600300600=0.1

V(P1P2)=1600(240600360600+300600300600+2240600300600)=0.00148

se(P1P2)=V(PMPF)=0.00148=0.03847

95%CI:0.1±(2×0.03847)=0.1±0.07694

區間不包含
0
有顯著差異

Part 3. 計算估計量

總共有 3 種估計量

  • 比率估計量(ratio estimator,

    yR)
    估計平均(
    Y
    ),標準誤(
    se(yR)
    )
    R^=yx, yR=R^X=Y

    se(yR)=V(yR)=NnNn(sy2+R^2sx22R^sxy)

  • 回歸估計量(regression estimator,

    ylr)
    估計平均(
    Y
    ),標準誤(
    se(ylr)
    )
    ylr=y+sxysx2(Xx)

    se(ylr)=V(ylr)=NnNnsy2(1(sxysxsy)2)(n1n2)

  • 單位估計量(mean per unit estimator,

    y)
    y=Σ yin

    V(y)=NnNnsy2

  • 計算上述估計量的相對效率(relative efficiency)

    RE^(yRylr)=V(ylr)V(yR), if>1yR better
    以此類推
    (也可以看標準誤越小越好)

補充 :

  • sy2=Σ yi2n(Σ yin)2n1
  • sx2=Σ xi2n(Σ xin)2n1
  • sxy=Σ xyn(Σ xin)(Σ yin)n1

下方是例題 :

題目給定 :

N=600, n=60, X=20, Σ160x=900, Σ160y=1350, sx2=3600, sy2=6400, sxy=4320
求出上述
yR, ylr, V(y), V(yR), V(ylr)

並且計算出相對效率以及比較分析其精確度

解法 :
首先可以先做出

x, y, R^
x=Σ160x60=90060=15

y=Σ160y60=135060=22.5

R^=yx=22.515=1.5

接著就可以計算出

yR=R^X=1.520=30

ylr=y+sxysx2(Xx)=22.5+43203600(2015)=28.5

V(y)=6006060060sy2=540360006400=96

V(yR)=6006060060(sy2+R^2sx22R^sxy)=23.1

V(ylr)=6006060060sy2(1(sxysxsy)2)(n1n2)=540360006400(1(43206080)2)(601602)=18.55

最後就可以比較他們之間的相對效率&精確度

RE^(yRy)=V(y)V(yR)=9623.1, >1yR better

RE^(ylry)=V(y)V(ylr)=9618.55, >1ylr better

RE^(yRylr)=V(ylr)V(yR)=18.5523.1, <1ylr better

precision : ylr>yR>y

Part 4. 估計樣本大小

估計樣本大小,總共有 2 種估計法

  • 估計母體比例 :
    通常題目會提到 : 支持率、比例介在之間

    P(|pP|d)=1α
    n0=t2PQd2

    通常
    t=2, P
    會取最接近
    50%
    , Q=1P, d
    為題目給定(通常會是
    3
    )
    最終計算出樣本大小
    n

    nn011N+n0N

    最後是把
    n
    無條件進位

  • 估計母體均數 :
    通常題目會提到 : 在平均

    (Y)
    5%
    內,這樣就代表求出
    95% CI

    P(|yY|d)=1α

    n0=t2S2d2

    通常
    t=2, S
    是標準差
    , d
    為題目給定(通常會是
    0.05
    )
    最終計算出樣本大小
    n

    nn01+n0N

    最後是把
    n
    無條件進位

最終選取樣本大小時,應該採用這 2 種方法的最大值


下方是例題 :

題目給定 :

N=1000, S=20, P=65%85%, CI:95%
精確度要求 :
P(|pP|0.03)=0.95, P(|yY|2.5)=0.95

解法 :
首先先做估計母體比例 :

P(|pP|0.03)=0.95
d=0.03, P
0.65
(因為最接近
50%
)
n0=220.65(10.65)(0.03)2=1011.11

n=1011.11111000+1011.111000=503.0127

無條件進位取
n=504

接著做估計母體均數 :

P(|yY|2.5)=0.95
d=2.5

n0=22202(2.5)2=256

n=2561+2561000=203.82

無條件進位取
n=204

最終得到答案

max(504, 204)=504