# 補充:Poisson Distribution ## 背景與定義 在一些 experiments 裡面,我們會去數: ++在給定的一段時間內,或是在一些物理條件下,某些特定的 event 發生的次數。++ 舉例來說,我們可能會想要紀錄: - 在早上九點到十點之間,穿過一個信號中繼站的電話數目 - 從中午十二點到下午兩點之間,去某個售票站買票的顧客人數 像這樣去數特定 events 的發生次數,如果再加上滿足下方的條件,那我們就可以把這件事視為一個和 approximate poisson process 有關的 random variable 的 observations。 approximate poisson process 的定義如下: :::info 假設我們數了某個 event 在一段給定的連續區間(a given continuous interval)裡發生的次數,那麼如果滿足以下三個條件,我們就說我們有一個 <font color = "blue">approximate poisson process with parameter $\lambda > 0$</font>: 1. 在沒有重疊的 subintervals 裡,event 發生的次數相互獨立。 2. 如果我們有一段夠短的(sufficiently short)subinterval,它的長度是 $h$,則 event 在這個區間內恰好發生一次的機率「大約是」$\lambda h$。 3. 在一段夠短的 subinterval 裡,這個 event 發生兩次或以上的機率「基本上」為 $0$。 ::: > $\rightarrow$ ==$\lambda$==:unit interval 裡 event 的平均發生次數。 > - 我們用 "approximate" 去對 poisson process 的定義做一些調整,是因為我們在第二點和第三點裡用「大約是」、「基本上」,來避免使用 little-o notation。 > - 不過有時候我們還是會直接省略 approximate,直接用 poisson process 稱呼。 $\rightarrow$ 因為 poisson distribution 是在數「發生次數」,所以它是 <font color = "green">discrete</font> 的。 $\rightarrow$ poisson distribution 是一種 count distribution,它的 parameter 是 $\lambda$。 --- ## probability distribution 假設我們有一個 experiment 滿足上方 approximate poisson process 的三個條件,並且我們定義: ==$X$==:在長度為 $1$ 的 interval 裡 event 發生的次數。 :::warning 我們想要去找到: \begin{equation} P(X = x) \qquad x \in \mathbb{Z^+} \end{equation} 的 approximation。 ::: > 也就是說: > > 我們想要找到「在長度為 $1$ 的 interval 裡 event 發生 $x$ 次的機率」。 >> 因為發生次數不可能為負,也不可能是小數,且 $\lambda>0$,代表單位區間裡 event 的平均發生次數為正,所以我們的 $x$ 必為正整數。 要如何去估計這個值 $P(X = x)$,我們的做法是: ++將 unit interval partition 成 $n$ 個等長的 subintervals++(每個 subinterval 的長度為 $\frac{1}{n}$。) 當 $n$ 夠大的時候,我們就能透過去找 ++$n$ 個 subintervals 中恰好有 $x$ 個 subintervals 發生這個 event 一次的機率++,來估算在這個 unit interval 中 event 發生 $x$ 次的機率。 > sufficiently large 的意思是遠比發生次數 $x$ 來得大。 根據 approximate poisson process 定義的第二個條件,++一個 subinterval 中恰好有一次 event 發生的機率為++: \begin{equation} \lambda\frac{1}{n} \end{equation} > 因為一個 unit interval 中平均發生的次數為 $\lambda$,每一段 subinterval 長度又是 unit interval 的 $\frac{1}{n}$。 Q:但是這樣算下來,會不會有可能 $\lambda\frac{1}{n}>1$?(也就是有某個 subinterval 中發生 event 兩次以上) $\rightarrow$ 不會,因為我們的 $n$ sufficiently large,而在定義的第三點裡面規定了在夠小的 subinterval 中,event 發生兩次以上的機率等於零。 如果我們++把每個 subinterval 中有發生 event 和沒發生 event 視為一個 Bernoulli trial++,再加上根據定義的第一點,這些 subintervals 之間的發生次數相互獨立,所以我們就會得到: :::warning $n$ 個 Bernoulli trials with probability $p \sim \lambda\frac{1}{n}$ ::: > 關於 Bernoulli distribution 的定義和簡單說明可參考筆記 $A.3$ 部分的「A.3.1 Bernoulli Distribution」。 因此,最終我們可以算出 $P(X = x)$ 的 approximation 為 binomial probability: :::success \begin{equation} P(X = x) \sim \frac{n!}{x!(n-x)!}(\frac{\lambda}{n})^x(1 - \frac{\lambda}{n})^{n-x} \end{equation} ::: > 前面的 $\frac{n!}{x!(n-x)!}$ 為 $\binom{n}{x}$,也就是從 unit interval 切出的 $n$ 個 subintervals 中挑出 $x$ 個為有發生一次 event 的。 > > 因為每個 subinterval 發生一次 event 的機率為 $\frac{\lambda}{n}$,所以乘上 $x$ 次。 > > 剩下的 $n-x$ 個 subintervals 的 event 發生次數為零,且因為我們的每個 subinterval 是否有發生 event 為 Bernoulli,所以共有 $n-x$ 次沒發生的機率 $1-\frac{\lambda}{n}$ 如果無止境的增加分割的 subintervals 數,也就是 $n\rightarrow \infty$,則: ![image](https://hackmd.io/_uploads/B14u36f8C.png) ## pmf 由上方的結果,我們定義: :::info 如果一個 random variable $X$ 的 pmf 滿足: \begin{equation} f(x) = \frac{\lambda^xe^{-\lambda}}{x!}, \qquad x = 0,1,2,... \end{equation} 其中 $\lambda>0$,則我們說 $X$ 具 <font color = "blue">Poisson distribution</font> ::: > pmf:probability mass function >> 因為 event 的發生次數為 discrete,所以用 pmf 而非 pdf。 檢查這個 $f(x)$ 是否真的滿足 pmf 的兩個性質: ![image](https://hackmd.io/_uploads/S19NCpGLC.png) ## 特性 另外,關於 parameter $\lambda$,它也代表了 Poisson distribution 的特性,先說結論: :::success Poisson distribution 的特性: \begin{equation} \lambda = \mu = \sigma^2 \end{equation} ::: 要得出這樣的結果有兩種證明方式。 ### 證明一:用 mgf > 關於 mgf (moment generating function) 的相關內容,可參考筆記 $A.3$「補充:moment generating function (mgf)」。 根據定義再整理得到 Poisson distribution 的 mgf: ![image](https://hackmd.io/_uploads/S1-Lq8LLR.png) 接著由微分一次、微分兩次,在 $t=0$ 的時候求 $\mu,\sigma^2$: ![image](https://hackmd.io/_uploads/r19K5LULC.png) ### 證明二:不用 mgf,用定義 不用 mgf,而是用 mean 和 variance 的原始定義求 $\mu, \sigma^2$ 的方法如下: 求 $\mu$: ![image](https://hackmd.io/_uploads/r18REwIIA.png) 求 $\sigma^2$: ![image](https://hackmd.io/_uploads/HJoeSDUIR.png) ## 例子 如定義第二點,我們知道: :::warning 假如 approximate Poisson process 中的 events 發生的頻率平均為 $\lambda \ / \ \text{(unit)}$,則在長度為 $t$ 的 interval 中,expected number of occurences 為: \begin{equation} \lambda t \end{equation} ::: 假設 $X$ 代表的是「用蓋格計數器測量一秒鐘鋇 133 所釋放的 $\alpha$ 粒子數」,且這個 random variable $X$ 的 distribution 是 Poisson distribution。 $\rightarrow$ 我們的 event 就是「鋇 133 釋放 $\alpha$ 粒子」,unit interval 是一秒鐘。 假設平均來說一秒鐘鋇 133 釋放 $60$ 個 $\alpha$ 粒子,則根據定義 unit interval 中 event 的發生次數為 $\lambda = 60 = \mu$。 如果我們的 subinterval 是 $0.1$ 秒,則這 $0.1$ 秒內鋇 133 所釋放的 $\alpha$ 粒子數為 $60 \times 0.1 = 6$。 如果要推廣成一個通式,在 time interval $= t$ 的情況下,釋放粒子數 $X$ 的 (Poisson)pmf 為: \begin{equation} f(x) = \frac{(\lambda t)^x e^{-\lambda t}}{x!} \qquad x = 0,1,2,... \end{equation} > 也就是我們把長度為 $t$ 的 interval 視為 unit interval,所以我們的 mean 就從 $\lambda$ 變成 $\lambda t$。 # 參考資料 - Hogg,Tanis,Zimmerman, Probability and Statistical Inference, 9th ed(2015), p.79-83 > 對應 $2.6$ 小節 The Poisson Distribution - Investopedia: [Poisson Distribution: Formula and Meaning in Finance](https://www.investopedia.com/terms/p/poisson-distribution.asp)