# 補充:Poisson Distribution
## 背景與定義
在一些 experiments 裡面,我們會去數:
++在給定的一段時間內,或是在一些物理條件下,某些特定的 event 發生的次數。++
舉例來說,我們可能會想要紀錄:
- 在早上九點到十點之間,穿過一個信號中繼站的電話數目
- 從中午十二點到下午兩點之間,去某個售票站買票的顧客人數
像這樣去數特定 events 的發生次數,如果再加上滿足下方的條件,那我們就可以把這件事視為一個和 approximate poisson process 有關的 random variable 的 observations。
approximate poisson process 的定義如下:
:::info
假設我們數了某個 event 在一段給定的連續區間(a given continuous interval)裡發生的次數,那麼如果滿足以下三個條件,我們就說我們有一個 <font color = "blue">approximate poisson process with parameter $\lambda > 0$</font>:
1. 在沒有重疊的 subintervals 裡,event 發生的次數相互獨立。
2. 如果我們有一段夠短的(sufficiently short)subinterval,它的長度是 $h$,則 event 在這個區間內恰好發生一次的機率「大約是」$\lambda h$。
3. 在一段夠短的 subinterval 裡,這個 event 發生兩次或以上的機率「基本上」為 $0$。
:::
> $\rightarrow$ ==$\lambda$==:unit interval 裡 event 的平均發生次數。
> - 我們用 "approximate" 去對 poisson process 的定義做一些調整,是因為我們在第二點和第三點裡用「大約是」、「基本上」,來避免使用 little-o notation。
> - 不過有時候我們還是會直接省略 approximate,直接用 poisson process 稱呼。
$\rightarrow$ 因為 poisson distribution 是在數「發生次數」,所以它是 <font color = "green">discrete</font> 的。
$\rightarrow$ poisson distribution 是一種 count distribution,它的 parameter 是 $\lambda$。
---
## probability distribution
假設我們有一個 experiment 滿足上方 approximate poisson process 的三個條件,並且我們定義:
==$X$==:在長度為 $1$ 的 interval 裡 event 發生的次數。
:::warning
我們想要去找到:
\begin{equation}
P(X = x) \qquad x \in \mathbb{Z^+}
\end{equation}
的 approximation。
:::
> 也就是說:
>
> 我們想要找到「在長度為 $1$ 的 interval 裡 event 發生 $x$ 次的機率」。
>> 因為發生次數不可能為負,也不可能是小數,且 $\lambda>0$,代表單位區間裡 event 的平均發生次數為正,所以我們的 $x$ 必為正整數。
要如何去估計這個值 $P(X = x)$,我們的做法是:
++將 unit interval partition 成 $n$ 個等長的 subintervals++(每個 subinterval 的長度為 $\frac{1}{n}$。)
當 $n$ 夠大的時候,我們就能透過去找 ++$n$ 個 subintervals 中恰好有 $x$ 個 subintervals 發生這個 event 一次的機率++,來估算在這個 unit interval 中 event 發生 $x$ 次的機率。
> sufficiently large 的意思是遠比發生次數 $x$ 來得大。
根據 approximate poisson process 定義的第二個條件,++一個 subinterval 中恰好有一次 event 發生的機率為++:
\begin{equation}
\lambda\frac{1}{n}
\end{equation}
> 因為一個 unit interval 中平均發生的次數為 $\lambda$,每一段 subinterval 長度又是 unit interval 的 $\frac{1}{n}$。
Q:但是這樣算下來,會不會有可能 $\lambda\frac{1}{n}>1$?(也就是有某個 subinterval 中發生 event 兩次以上)
$\rightarrow$ 不會,因為我們的 $n$ sufficiently large,而在定義的第三點裡面規定了在夠小的 subinterval 中,event 發生兩次以上的機率等於零。
如果我們++把每個 subinterval 中有發生 event 和沒發生 event 視為一個 Bernoulli trial++,再加上根據定義的第一點,這些 subintervals 之間的發生次數相互獨立,所以我們就會得到:
:::warning
$n$ 個 Bernoulli trials with probability $p \sim \lambda\frac{1}{n}$
:::
> 關於 Bernoulli distribution 的定義和簡單說明可參考筆記 $A.3$ 部分的「A.3.1 Bernoulli Distribution」。
因此,最終我們可以算出 $P(X = x)$ 的 approximation 為 binomial probability:
:::success
\begin{equation}
P(X = x) \sim \frac{n!}{x!(n-x)!}(\frac{\lambda}{n})^x(1 - \frac{\lambda}{n})^{n-x}
\end{equation}
:::
> 前面的 $\frac{n!}{x!(n-x)!}$ 為 $\binom{n}{x}$,也就是從 unit interval 切出的 $n$ 個 subintervals 中挑出 $x$ 個為有發生一次 event 的。
>
> 因為每個 subinterval 發生一次 event 的機率為 $\frac{\lambda}{n}$,所以乘上 $x$ 次。
>
> 剩下的 $n-x$ 個 subintervals 的 event 發生次數為零,且因為我們的每個 subinterval 是否有發生 event 為 Bernoulli,所以共有 $n-x$ 次沒發生的機率 $1-\frac{\lambda}{n}$
如果無止境的增加分割的 subintervals 數,也就是 $n\rightarrow \infty$,則:

## pmf
由上方的結果,我們定義:
:::info
如果一個 random variable $X$ 的 pmf 滿足:
\begin{equation}
f(x) = \frac{\lambda^xe^{-\lambda}}{x!}, \qquad x = 0,1,2,...
\end{equation}
其中 $\lambda>0$,則我們說 $X$ 具 <font color = "blue">Poisson distribution</font>
:::
> pmf:probability mass function
>> 因為 event 的發生次數為 discrete,所以用 pmf 而非 pdf。
檢查這個 $f(x)$ 是否真的滿足 pmf 的兩個性質:

## 特性
另外,關於 parameter $\lambda$,它也代表了 Poisson distribution 的特性,先說結論:
:::success
Poisson distribution 的特性:
\begin{equation}
\lambda = \mu = \sigma^2
\end{equation}
:::
要得出這樣的結果有兩種證明方式。
### 證明一:用 mgf
> 關於 mgf (moment generating function) 的相關內容,可參考筆記 $A.3$「補充:moment generating function (mgf)」。
根據定義再整理得到 Poisson distribution 的 mgf:

接著由微分一次、微分兩次,在 $t=0$ 的時候求 $\mu,\sigma^2$:

### 證明二:不用 mgf,用定義
不用 mgf,而是用 mean 和 variance 的原始定義求 $\mu, \sigma^2$ 的方法如下:
求 $\mu$:

求 $\sigma^2$:

## 例子
如定義第二點,我們知道:
:::warning
假如 approximate Poisson process 中的 events 發生的頻率平均為 $\lambda \ / \ \text{(unit)}$,則在長度為 $t$ 的 interval 中,expected number of occurences 為:
\begin{equation}
\lambda t
\end{equation}
:::
假設 $X$ 代表的是「用蓋格計數器測量一秒鐘鋇 133 所釋放的 $\alpha$ 粒子數」,且這個 random variable $X$ 的 distribution 是 Poisson distribution。
$\rightarrow$ 我們的 event 就是「鋇 133 釋放 $\alpha$ 粒子」,unit interval 是一秒鐘。
假設平均來說一秒鐘鋇 133 釋放 $60$ 個 $\alpha$ 粒子,則根據定義 unit interval 中 event 的發生次數為 $\lambda = 60 = \mu$。
如果我們的 subinterval 是 $0.1$ 秒,則這 $0.1$ 秒內鋇 133 所釋放的 $\alpha$ 粒子數為 $60 \times 0.1 = 6$。
如果要推廣成一個通式,在 time interval $= t$ 的情況下,釋放粒子數 $X$ 的 (Poisson)pmf 為:
\begin{equation}
f(x) = \frac{(\lambda t)^x e^{-\lambda t}}{x!} \qquad x = 0,1,2,...
\end{equation}
> 也就是我們把長度為 $t$ 的 interval 視為 unit interval,所以我們的 mean 就從 $\lambda$ 變成 $\lambda t$。
# 參考資料
- Hogg,Tanis,Zimmerman, Probability and Statistical Inference, 9th ed(2015), p.79-83
> 對應 $2.6$ 小節 The Poisson Distribution
- Investopedia: [Poisson Distribution: Formula and Meaning in Finance](https://www.investopedia.com/terms/p/poisson-distribution.asp)