--- tags: 應用統計 --- # 應用統計 R 101-4 ### 常態分布 1.f(x) 圖形對稱 (symmetric),鐘型 (bell-shaped) 形狀 2.變數值散佈在一定的範圍, 散佈範圍的長度大約是變數標準差的6倍.(全距6倍標準差.) 3.變數的IQR (InterQuartile Range) 大約是 1.35 倍的標準差. 4.以平均數為中心, 左右各一倍標準差, (μ−σ, μ+σ) 約佔68.3%. 在 (μ−2σ, μ+2σ) 範圍, 約佔95.4%. 在 (μ−3σ, μ+3σ) 範圍, 約佔99.7%. ← 回想經驗法則 ### 常態分布與機率密度函數 連續型變數 X 服從常態分布, 記為 $X∼N(μ,σ^2)$ $$ f(x)=\dfrac{1}{\sqrt{2π}σ}\rm exp \left[-\dfrac{1}{2} \left(\dfrac{x-μ}{σ} \right)^2 \right]\\ E(X)=\int_{-\infty}^{\infty}{xf(x)} \,{\rm d}x=μ\\ V(X)=\int_{-\infty}^{\infty}{(x-μ)^2f(x)}\,{\rm d}x=σ^2 $$ #### 例子 據估計, 80% 的 18 歲女性的體重在 103.5 到 144.5 磅之間. 假設體重分佈可以透過常態曲線建模, 並且 103.5 和 144.5 與平均體重 μ 等距, 計算 σ. ### 標準常態分布機率密度函數與累積分配函數曲線 任何 $X∼N(μ,σ^2)$ 可以透過 $$ \dfrac{X-μ}{σ}=Z $$ 轉換成標準常態分布. 且注意 E(Z)=0, V(Z)=1. ### 以常態分布近似二項分佈 1.假設柏努力母體 $Y∼\rm Ber(p)$, 則 $E(Y)=p, V(Y)=p(1−p)=pq$ 2.從柏努力母體 $\rm Ber(p)$ 抽出一組隨機樣本, 大小為 n. 以 X 表示試驗中成功的次數 $$ X_i∼\rm Ber(p),i=1,2,...,n,則X=X_1+X_2+...+X_n ∼Bin(n,p)\\ 因為是柏努力母體, 樣本平均數\ \bar X\ 實為樣本比例\ \hat p\\ \hat p=\dfrac{\sum_{i=1}^nX_i}{n}\\ 當 n 夠大時, n 次試驗中成功的次數\ \bar X\ 或樣本比例\ \hat p的抽樣分配\\ Z=\dfrac{\sum X_i-np}{\sqrt{np(1-p)}}=\dfrac{\hat p-p}{\sqrt{\dfrac{p(1-p)}{n}}}\\ 知道\ \hat p或成功次數 X 的抽樣分配可將二項分佈近似常態分布 $$ ### 指數分佈 它通常用於對事件之間經過的時間進行模型建立 連續隨機變量 X 具有參數為 λ 的指數分佈 $X∼Exp(λ)$. 機率密度函數為 $$ f_X(x)= \begin{cases} λe^{-λx}&, x>0\\\ 0&, \ \rm otherwise\\ \end{cases}\\ E(X)=\int_{0}^{\infty}{xλe^{-λx}}\rm {d}x=\dfrac{1}{λ}\\ E(X^2)=\int_{0}^{\infty}{x^2λe^{-λx}}\rm {d}x=\dfrac{2}{λ^2}\\ V(X)=Var(X)=E(X^2)-(E(X))^2=\dfrac{2}{λ^2}-\dfrac{1}{λ^2}=\dfrac{1}{λ^2} $$ 指數分佈 X 是無記憶的隨機變數: $P(X>x+a|X>a)=P(X>x),\ \rm for\ a,x≥0.$ $$ \begin{split} P(X>x+a\mid X>a)&=\dfrac{P(X>x+a,X>a)}{P(X>a)}\\ &=\dfrac{P(X>x+a)}{P(X>a)}\\ &=\dfrac{1-F_X(x+a)}{1-F_X(a)}\\ &=\cfrac{e^{-λ(x+a)}}{e^{-λa}}\\ &=e^{-λx}=P(X>a)\\ \end{split} $$ ### Poisson 分配與指數分配 事件 {T>t} 代表稀有事件第一次發生的時間大於 t. 即, t 之前都沒事件發生. 卜瓦松隨機變數 X (設發生率λ) 代表在 (0,t] 事件發生的次數 $$ (T>t)=P(X=0)=e^{-λt} \\P(T≤t)=1−P(T>t)=1−e^{-λt} ← 指數分布 $$ ![](https://i.imgur.com/OZwS9dN.png) $$ P(X=x)=\dfrac{e^{-λ}λ^x}{x!} \\其中λ為\dfrac{發生事件的次數}{時間}*時間周期 \\x為時間周期中發生次數 $$ #### 例子 假設學生到當地的酒吧的平均速度服從 根據泊松過程以每小時 30 個學生. 則門口保鏢需檢查學生證件. 則門口保鏢(檢查完一個學生後) 必須等待超過 3 分鐘才有下一個學生進來的機率是多少? ![](https://i.imgur.com/SKGcKXk.png)