--- title: 卜瓦松分佈和連續型分佈|第七週 tags: 機率 --- # 卜瓦松分布 Poisson distribution :::warning 卜瓦松分布適合於描述單位時間內隨機事件發生的次數的機率分布 [By wiki](https://zh.wikipedia.org/zh-tw/%E5%8D%9C%E7%93%A6%E6%9D%BE%E5%88%86%E5%B8%83) ::: 在固定的連續時間或空間的區間內,某個隨機事件發生的次數的分佈。 其中參數 $\lambda$ 代表平均發生的次數 要滿足下面三大條件,才能說是卜瓦松分佈 - 非重疊 non overlapping subintervals 子區間,都是獨立的 - 在足夠短的,長度為 h 的子區間,恰好只發生一個事件的機率為 λh - 這代表機率是跟區間長度的關係是線性的,區間越大則機率越大,越小則機率越小 - 在足夠短的,長度為 h 的子區間,發生兩次以上事件的機率為0 - 也就是說在足夠小的區間內,只能容納一件事發生 ## 隨機變數 $$ P(X=x) $$ 代表了在某個單位長度的區間,事件發生了 $x$ 次的機率,那機率是怎麼算的? 首先要把那個區間分成 n 個子區間,並且那個 n 要遠大於我們要的次數 x $$ n >> x $$ 而我們要的機率,就是在那 n 個區間,剛好發生 x 個的機率是多少 根據上面的條件,在一個子區間發生兩次的機率為 0 $$ P(two\ or\ more\ occurrences\ occur\ in\ any\ one\ subinterval) ≅ 0 $$ 然後在任何子區間恰好發生 1 次的機率等於子區間長度乘上參數 λ $$ P(one\ occurrence\ occur\ in\ any\ one\ subinterval) ≅ \frac{\lambda}{n} $$ 最後根據第一個條件,不重疊的子區間,發生的機率是獨立的,也就是說其實這 n 個區間 **就好像做 n 次 Bernoulli 試驗**;而成功機率 p,就是上面的 λ×1/n 於是我們就得到我們的卜瓦松機率 $$ P(X=x)≈C(n,x)p^x(1-p)^{n-x} $$ 但是這還不夠,因為這只是近似 我們要做的事就是讓 n 趨近無限大;那麼我們的 p 就越來越小,因為 $\lambda$ 是個平均次數,是個常數 $$ np = \lambda,\ \lim_{n\rightarrow\infty} np = \lambda $$ 所以接下來就是算極限 $$ C(n,x)p^x(1-p)^{n-x}=\frac{n!}{x!(n-x)!}(\frac{\lambda}{n})^{x}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-x} $$ 將上面左邊的階乘化簡,然後稍微移動一些位置 $$ \frac{n(n-1)...(n-x+1)}{n^{x}}\frac{\lambda^{x}}{x!}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-x} $$ 仔細看可以發現左邊的分母有 x 個 n 相乘,剛好可以各分配一個給上面的分子 $$ \frac{n(n-1)...(n-x+1)}{n^{x}}=\frac{n(n-1)...(n-x+1)}{n×n...×n}\\ =\frac{n}{n}×\frac{n-1}{n}...×\frac{n-x+1}{n}=1×(1-\frac{1}{n})...×(1-\frac{x-1}{n}) $$ 當 n 趨近無限大的時候,上面的乘積就剛好是 1;接著來看右邊的部分 $$ (1-\frac{\lambda}{n})^{-x} $$ 這個趨近無限大的時候剛好也是 1 $$ \lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^{n}=\lim_{n\rightarrow\infty}(1+\frac{-\lambda}{n})^{n}=e^{-\lambda} $$ 這個的極限就是微積分講到的自然指數;所以我們最後就得到 $$ P(X=x)=\frac{\lambda^{x}}{x!}e^{-\lambda} $$ 並且從上面的推導可以知道,卜瓦松跟 Bernoulli 圖形其實蠻像的 :::warning 在二項分布的伯努利試驗中,如果試驗次數 n很大,二項分布的機率 p 很小,且乘積 $\lambda =np$ 比較適中,則事件出現的次數的機率可以用卜瓦松分布來逼近 [By wiki](https://zh.wikipedia.org/zh-tw/%E5%8D%9C%E7%93%A6%E6%9D%BE%E5%88%86%E5%B8%83) 所以卜瓦松的使用時機,可以知道用於發生機率非常低的情況 [參見1](https://wiki.mbalib.com/zh-tw/%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83) [參見2](https://cyhsumd.blogspot.com/2020/09/blog-post.html) ::: ## 檢查是否符合 來檢測符不符合機率空間的定義,就是把他從頭加起來看機率有沒有等於 1 $$ \sum_{x=0}^{\infty}\frac{\lambda^{x}}{x!}e^{-\lambda}=e^{-\lambda}\sum_{x=0}^{\infty}\frac{\lambda^{x}}{x!} $$ 注意看,右手邊的極限,其實就是指數函數的馬克勞林級數,所以就可以寫成 $$ e^{-\lambda}\sum_{x=0}^{\infty}\frac{\lambda^{x}}{x!}=e^{-\lambda}e^{\lambda}=1 $$ ## MGF $$ M(t)=E[e^{tX}]=\sum_{x=0}^{\infty}e^{tx}\frac{\lambda^{x}}{x!}e^{-\lambda}\\ =e^{-\lambda}\sum_{x=0}^{\infty}\frac{(e^{t}\lambda)^{x}}{x!}=e^{-\lambda}e^{e^{t}\lambda}=e^{\lambda(e^{t}-1)}\\ M'(t)=e^{\lambda(e^{t}-1)}\lambda e^{t}=\lambda(e^{\lambda(e^{t}-1)} e^{t})\\ M''(t)=\lambda((\lambda(e^{\lambda(e^{t}-1)} e^{t}))e^{t}+e^{\lambda(e^{t}-1)}e^{t})\\ $$ 所以我們便知道期望值跟變異數分別為 $$ \mu=E[X]=M'(0)=\lambda\\ \sigma^{2}=Var[X]=M''(0)-(M'(0))^{2}=\lambda(\lambda-1)-\lambda ^{2}=\lambda\\ $$ --- # 連續型分佈 從離散世界到連續的世界。 原本離散型的隨機變數是將實驗得到的數據,映射到離散的集合;而連續型隨機變數,則是映射到**實數**內 ## 值域 Space - 離散型 $S_{X}$ 是個離散的數字集合 - 連續型 $S_{X}$ 是個連續或相連(union)連續的區間 有些表記方式變得不一樣了 - 機率函數從 $P_{X}(x)$ 變成了 $f_{X}(x)$ - 累積分佈函數一樣都是 $F_{X}(x)$ - 有另外的名稱叫做 distribution function - 隨機變數的機率從 $P(X=x)$ 變成了 $P[X=x]$ ## 機率密度函數 Probability density function / PDF 定義為 $$ f_{X}(x)=\frac{dF_{X}(t)}{dt} $$ 所以可以知道跟 CDF 的關係為 $$ F_{X}(x)=\int_{-\infty}^{x}f_{X}(t)dt $$ 而 PDF 一樣要符合三大性質 - $$f_{X}(x) \ge 0,\forall\ -\infty<x<\infty$$ - 跟以前一樣機率要大於等於 0 - $$\int_{-\infty}^{\infty}f_{X}(x)dx= 1$$ - 全部範圍積分起來要是 1,也就是說機率總和要是 1 - $$\forall\ -\infty<a<b<\infty,\ P[a<X\le b]=F_{X}(b)-F_{X}(a)=\int^{b}_{a}f_{X}(x)dx$$ - 這個是在求隨機變數對應到某個區間的機率 - 並且從定義可以知道,對於連續型隨機變數,**在任意一點的機率都是0**,也就是說 - $$P[X=a]=0$$ :::warning 如果 PDF 在某點連續的話,那麼 CDF 在該點就可導,並且 $F'_{X}(x)=f_{X}(x)$ ::: ## 均勻分布 Uniform distribution $$ F_{X}(x)=\begin{Bmatrix} 0 & x < a\\ \frac{x-a}{b-a} & a \le x \le b\\ 1 & x > b\\ \end{Bmatrix} $$ $$ f_{X}(x)=\begin{Bmatrix} 0 & x < a\ or\ x > b\\ \frac{1}{b-a} & a \le x \le b \end{Bmatrix} $$ PDF是一個常數,也就是居間長度的導數,可以很輕鬆的證明整個範圍積分為 1 也可以輕鬆的得到 CDF $$ P[a\le x]=\int_{a}^{x}\frac{1}{b-a}dt=\frac{x-a}{b-a} $$ :::info 程式語言用到的偽隨機就是利用均一分佈 ::: ## 相關 $$ E[X]=\frac{a+b}{2}\\ Var[X]=\sigma ^{2}=\frac{(b-a)^{2}}{12} $$ # Moment 和 MGF 只要把以前的總和換成積分就可以了 ### n 階 moment $$ E[X^{n}]=\int_{-\infty}^{\infty}x^{n}f_{X}(x)dx $$ 回顧離散型的 $$ E[X^{k}]=\sum_{x_{i}\in S}x_{i}^{k}P_{X}(x_{i}) $$ ### General 的 期望值 $$ E[g(X)]=\int_{-\infty}^{\infty}g(x)f_{X}(x)dx $$ 回顧離散型的 $$ E[u(X)]=\sum_{x_{i}\in S}u(x_{i})P_{X}(x_{i}) $$ ### MGF 就是使用上面 General 的期望值 $$ E[e^{tX}]=\int_{-\infty}^{\infty}e^{tx}f_{X}(x)dx $$
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up