統計筆記

敘述性統計

動差生成函數(Moment Generation Function)

k階動差
μk=E[(xμ)k]
動差生成函數(m.g.f.)
Mx(t)=E(etx)
平均數
x¯=i=0nxin
變異數
V(X)=E(X2)[E(X)]2
σ2=i=1n(xix¯)2n=i=1nxi2n+nx¯2
偏態係數(skewness)
大於0正偏右偏、小於0負偏左偏、等於0不偏
b1=μ3(μ2)3=E[(xμ)3](E[(xμ)]2)3
峰態係數(kurtosis)
大於3高狹峰、小於3低闊峰、等於3常態峰
b2=μ4(μ2)4=E[(xμ)4](E[(xμ)]2)4

統計量(母數皆知)

Cov(X,Y)=E[(XμX)(YμY)]=E(XY)E(X)E(Y)
ρX,Y=E[(XμX)σx(YμY)σy]

樞紐量(包含未知的母數)

樣本平均
E(x¯)=μ
樣本平均變異數
Var(x¯)=σ2n

機率

聯合機率&條件機率

probability mass function(pmf)
i=0nf(x)=1
probability density function(pdf)
f(x)=1
cumulative distribution function(cdf)
F(x)=P(xX)
prior probability
f(x)=dF(x)dx=f(x,y)dy
posterior probability
f(x|y)=f(x,y)f(y)
全變異數定理(總變異=組內變異+組間變異)
V(X)=E[V(X|Y)]+V[E(X|Y)]
雙重期望值定理
E(XY)=E[E(XY|X)]=E[XE(Y|X)]

機率上下界

Markov's inequality
P(xc)E(x)c
Chebyshev's inequality
P(|xμ|kσ)1k2
單邊柴比雪夫
P(xk)=σ2σ2+k2

伯努力分配 bernouli

二元試驗進行一次,投擲一次一枚硬幣正面的機率分配

xBer(p)
f(x)
px(1p)1x
E(X)
p
Var(x)
pq
Mx(t)
q+pet

二項分配 binomial

二元試驗進行n次,投擲n次一枚硬幣的正面x次的機率分配

xBin(p)
f(x)
Cxnpx(1p)nx
E(X)
np
Var(x)
npq
Mx(t)
(q+pet)n

超幾何分配 hyper geometry

母體共N個抽n個、母體目標個數K個抽到x個目標的機率分配,且取出不放回

xHyper(N,K,n)
f(x)
(xk)(nxNk)(nN)
E(X)
nkN
Var(x)
nkN(1KN)NnN1

幾何分配 geometry

一直試驗到成功為止所需要的次數x的機率分配

xGeo(p)
f(x)
(1p)xp
E(X)
1p
Var(x)
qp2
Mx(t)
pet1qet
無記憶性
P(X>a+b|X>a)=P(X>b)

負二項分配 negative binomial

一直試驗到成功n次為止所需要的次數x的機率分配

xNB(n,p)
f(x)
(k1x1)pkqxk
E(X)
kp
Var(x)
kqp2
Mx(t)
(pet1qet)k

連續均勻分配

xU(a,b)
f(x)
1ba,axb
E(X)
a+b2
Var(x)
(ba)212
Mx(t)
ebteat(ba)t

卜瓦松分配 poisson

在到達率

λ在某一時間同時抵達x個的機率分配
等同於
p=λtnt=1binomial

xPoi(λ)
f(x)
eλλxx!
E(X)
λ
Var(x)
λ
Mx(t)
eλ(et1)

指數分配 exponential

在到達率

λ抵達一個所需要時間x的機率分配

xExp(λ)
f(x)
λeλx
E(X)
1λ
Var(x)
1λ2
Mx(t)
λλt;t<λ

Gamma分配

在到達率

λ抵達
α
個所需要時間x的機率分配

xGamma(α,λ)
f(x)
λαΓ(α)xα1ex
E(X)
αλ
Var(x)
αλ2
Mx(t)
(λλt)α;t<λ
分部積分(integration by part)
左邊取微分 每隔一個取負數
- -
x2
\ (+)
x \ (-)
1

Beta分配

xbeta(a,b)
f(x)
1β(a,b)xa1(1x)b1
E(X)
aa+b
Var(x)
ab(a+b+1)(a+b)2

常態分配(高斯分布)

xnorm(μ,σ2)
f(x)
12πσe12(xμσ)2
E(X)
μ
Var(X)
σ2
MX(t)
eμt+σ2t22
Z=xμσ
ZN(0,1)
MZ(t)
et22

卡方分配 chi-square

f(x)
xv21ex22v2Γ(v2)
χ2
i=0n(xiμσ)2
~
χ(n)2
χ2
(n1)S2σ2
~
χ(n1)2
Zχ(1)2
χ(1)2F(1,)
E(X)
v
Var(X)
2v
Mt(X)
(12t)v2

t分配

t=Zχ2df

F分配

F=χ(n11)2χ(n21)2=(n1)S12σ12(n1)S22σ2=S12σ22S22σ12F(n11,n21)
Fα(n1,n2)=1F1α(n2,n1)

抽樣分配

S2
i=1n(xix¯)2n1
E(X)
μ
E(S2)
σ2
E(i=1n(xix¯)2n)
n1nσ2
E(S)
不為樣本變異數的開根號
2σn1Γ(n2)Γ(n12)
S2
~
Gamma(α=n12,λ=n12σ2)

點估計

性質

不偏性
不偏估計式
E(θn^)=0
偏誤估計式
E(θn^)0
漸進不偏估計式
limnE(θn^)=0
有效性
相對有效
Var(θi^)
越小越好
絕對有效 Minimum Variance Unbiased Estimation
CRLB(Cramer-Rao Lower Bound)
1nE(2lnf(x;θ)θ2)Var(θ^)
充分性
Fisher-Neyman factorization
f(x1,..xn;θ)=g(θ^;θ)h(x1,...xn)
一致性
不偏
limnVar(θn^)=0
偏誤
limnMSE(θn^)=0

Maximum Likelihood Estimator
θ^MLE

likelihood function
L(θ)=Πi=1nf(xi;θ)
L(θ)convex
θ^MLEL(θ)
L(θ)
兩面逼近法
L(N)L(N1)

L(N)L(N+1)
超幾何分配兩面逼近法
N^MLE[nKx1,nKx]
L(θ)
θ^MLE=max{x1...xn}
θ^MLE
~
N(θ,CRLB)

Method of Moments Estimator
θ^MME

母體k階原動差
μk=E(Xk)
樣本k階原動差
mk=i=1nxikn
母體一階動差等於樣本平均
E(x)=x¯
母題二階動差等於樣本變異數加平均平方
E(x2)=s^2+x¯2

區間估計

算式表示方法

1α=P(x^e<x<x^+e)
x(1α)%(x^e,x^+e)

兩獨立母體
μ1μ2

情境 誤差
σ12σ22=>Z
Zα2α12n1+α22n2
σ12σ22n130n230

C.L.T.
Zα2S12n1+S22n2
σ12=σ22n1<30n2<30

Sp=(n11)S12+(n21)S22n1+n22(n11)S12+(n21)S22σ2
~
χ(n1+n22)2
tα2(n1+n22)Sp2n1+Sp2n2
σ12σ22n1<30n2<30
tα2(df)S12n1+S22n2
df=(S12n1+S12n1)2(S12n1)2n11+(S22n2)2n21
母體不為常態且n<30 無母數統計

兩相依母體差期望值
μD

變異數(Di為兩者差異) 誤差
SD2=1n1i=0m(DiD¯2)
tα2(n1)SDn

兩獨立常態母體變異數比例
σ12σ22

查表時可以進行以下變換
Fα(n11,n21)=1F1α(n21,n11)
信賴度
1α
的區間
(S12S221Fα(n11,n21),S12S221F1α(n11,n21))

兩母體比例差
p1p2

Zα2p1^(1p1^)n1p2^(1p2^)n2

單一母體p

zα2p^(1p^)n

單一母體變異數
σ2

(

nS2Xα22(n),
nS2X1α22(n)
)

單一母體預測區間

tα2(n1)S2(1+1n)

單一母體樣本數

誤差 樣本數
E=Zα2σn
n=(Zα2)2σ2E2

假設檢定

結論\真實 H0為真 H0為假
拒絕H0
α(I)
1β()
接受H0
1α
β(II)

C{H0|H0}=P(Z>x|x=X)=α
C{H0|H0}=P(Z<x|x=X)=1β

最強力檢定與抽樣數

情境 臨界值 抽樣數
右尾檢定
k=μ0+zασn=μazβσn
n=(Zα+Zβ)2σ2(μ1μ0)2
左尾檢定
k=μ0zασn=μa+zβσn
n=(Zα+Zβ)2σ2(μ1μ0)2
雙尾檢定
k=μ0+zα2σn=μazβσn
n=(Zα2+Zβ)2σ2(μ1μ0)2

變異數分析 ANOVA

單因子

|

xij=μ+αi+ϵij|
|-|-|
|
(xijμ)=(xiμ)+(xijxi)
|
|
SST()=SSTR()+SSE()
|
|
SST=i=1Kj=1ni(xijx..¯)2=i=1Kj=1nixij2T..2N
|
|
SSTR=i=1Kj=1ni(xi.x..¯)2=i=1KTi.2niT..2N=i=1Kni(xi.¯x..¯)2
|
|
SSE=i=1Kj=1ni(xijxi.¯)2=i=1Kj=1nixij2Ti.2ni=i=1K(ni1)Si2
|

Variance
Component
SS df MS F
Between SSTR K-1 MSTR
MSTRMSE
Within SSE N-K MSE
Total SST N-1

隨機集區Randomized Block Design

Variance
Component
SS df MS F
Between SSR c-1 MSR
MSRMSE
Block SSB r-1 MSB
MSBMSE
Within SSE (r-1)(c-1) MSE
Total SST rc-1

二因子未重複

Variance
Component
SS df MS F
Row SSR r-1 MSR
MSRMSE
Column SSC c-1 MSC
MSCMSE
Within SSE (r-1)(c-1) MSE
Total SST rc-1

二因子重複試驗

Variance
Component
SS df MS F
Row SSR r-1 MSR
MSRMSE
Column SSC c-1 MSC
MSCMSE
Interaction SSI (r-1)(c-1) MSI
MSIMSE
Within SSE rc(n-1) MSE
Total SST rcn-1

變異數同質性檢定 Hartley's Test

H0:σ12=σ22=...=σk2=σ2
H1:σi2
H=Max(Si2)Min(Si2)

簡單回歸

變異符號

SSx=(xixi¯)2
SSxy=(xixi¯)(yiyi¯)
Sx2=1n1(xixi¯)2
Sxy=1n1(xixi¯)(yiyi¯)

回歸變異數

yi^=α^+β^xi
SST=(yi^yi¯)2=SSy
SSR=(yiyi¯)2=β^2SSx
SSE=(yiyi^)2=yi2α^yiβ^xiyi
MSE=SSEn2
Variance
Component
SS df MS F
Regression SSR 1 MSR
MSRMSE
Error SSE N-1 MSE
Total SST N-2

迴歸係數求解

SSE=(yiα^β^xi)2
SSEα^=SSEβ^=0
β^=xiyi(xi)(yi)nxi2(xi)2n
α=Y¯β^x¯
E(MSE)=E(SSEn2)=σ2

回歸模型檢定

斜率是否為
β
t=β^βMSESSx
截距是否為
α
t=α^αMSE(xi2)nSSx
給定x=X,求y平均(期望值)區間
V(μy|x)=σ2[1n+(xx¯)2SSx]
給定x=X,求y值區間
V(y^x)=σ2[1+1n+(xx¯)2SSx]
檢定相關係數
ρ
是否等於零
t=rn21r2
~
t(n2)
檢定相關係數
ρ
是否等於
ρ0
Zr=12ln(1+r1r)

Zρ0=12ln(1+ρ01ρ0)

Z=ZrZρ01n3

皮爾森相關係數

相關係數
r=SxySxSy=SSxySSxSSy=(xx¯)(yy¯)(xx¯)2(yy¯)2
判定係數
R2=r2=SSRSST

多元回歸

s(β)=ϵϵ=(yxβ)(yxβ)=yyβxyyxβ+βxxβ=yy2βxy+βxxβ

Sβ^=2xy+2xxβ^=0Σxxβ^=xyβ^=(xx)1xy

SSR=β^xy(Σyi)2n

SSE=yyβ^xy

SST=yy(Σyi)2n

Cov(β^)=σ2(xx)1Cov(β^i,β^j)=σ2Cij

殘差分析

ei=yiyi^

e=yy^=yX(XX)1Xy=yHy=(IH)y=(IH)(Xβ+ϵ)

V(e)=(IH)V(ϵ)(IH)=σ2(IH)(IH)=σ2(IH)

  1. standardized Residuals

    di=eiMSE

  2. Studentized Residuals

    ri=eiMSE(1hii)

  3. Press Residuals

    PRESS=eiσ2(1hii)

  4. R-student

    s(i)i=(np)MSEei21hiinp1
    ti=eiS(i)2(1hii)

無母數統計 nonparametric statistic

卡方檢定

  • 適合度檢定(檢定資料是否符合某種分配)(卜瓦松、二項、常態分配)
理論值
ei=nPi
拒絕域
C={χ2|χ2>χα2(k1m)}
統計量
χ2=i=1k(Oiei)2ei
次數 0 1 2
Oi觀察值 30 27 10 3
ei理論值 29.53 29.53 9.84 1.1
  • 獨立性檢定(檢定兩個名義變項是否獨立,又稱列聯檢定)
理論值
ei=nPij=nPiPj=nTinTjn=TiTjn
拒絕域
C={χ2|χ2>χα2(r1)(c1)}
統計量
χ2=i=1ri=1c(Oiei)2ei
Oi(ei) 合計Ti
項目1
436(84816916913=207)
1255(1483) 1691
項目2 208(292) 2174(2089) 2382
項目3 204(304) 2636(2176) 2480
合計Tj 848 6065 6913