# 互いに独立に時間軸上で繰り返し生じる出来事のモデル
###### tags: `probability-theory`
## 前提
時間軸上で繰り返し、しかしぽつぽつと生じる特定の種類の出来事を考える。英語ではeventと呼び、通常は事象と訳すが、ここでは出来事と呼ぶ。標本空間の加法族に含まれ、確率を評価できる部分集合も英語ではeventと呼び、事象と訳されているが、それとは区別して考えて欲しい。
想定する出来事の例を掲げる。
* 宇宙線の観測のために設置した観測装置を、実際に宇宙線が通過する
* ある一定の地域で、交通事故が生じる
* 飲食店に、来客がある
* インターネット検索サイトに、検索のリクエストが来る
* ジョブを必要な時間と作業量をかけてこなすサーバに、ジョブのリクエストが投じられる
* 押しボタン信号が押される
* 病気の発作が繰り返し生じる
* 咳
* 心臓発作
* 動悸
以下では、これらの出来事を念頭に、発生確率を考えたり、極限を取ったりするが、元の出来事に手を加えることはないことを、始めに記しておく。
## モデル化
ここからは特定の種類の出来事を単に、事象と言い換える。
### 同じ長さの区間の期待頻度は一定かつ定常
任意の間隔$\delta$の目盛で時間軸を、区切った時に、目盛と目盛の間の各区間において、事象の期待発生頻度は、次のように表現できる。
$$
E\left[X_\delta\right] = \lambda_\delta
$$
ただし$\lambda_\delta$は、区間の幅$\delta$を変えても、一定の長さの区間における発生頻度が変わらないように設定する。観測される事象に手を加えては、何をしようとしているか分からない。
$$
\lambda_\delta = \lambda_0/\delta
$$
こう設定すると、例えば長さが$d$の区間の事象の発生頻度の平均は常に
$$
\frac{d}{\delta} \lambda_0 \delta = d\lambda_0
$$
となる。
以上のモデル化は、この発生頻度の平均は、時刻$t$に依存して変化することがないことを暗に仮定している。
### 独立性
事象の発生は互いに独立とする。例えば、必ず同時に複数発生する事象は、対象としない。また、単独の発生と複数の事象が混在する事象も対象としない。観測時においても、相異なる区間での事象の発生は互いに独立とする。
### 稀少性
任意の区間での事象の発生回数は、$\delta\rightarrow 0$につれて次の性質を有する。
$$
\begin{align}
\mathrm{Pr}\left[\mbox{区間}\mbox(\left(k-1\right)\delta, k\delta\mbox{に事象が1回発生する}\right] & = \lambda_\delta+ o\left(\delta\right) \notag \\
\mathrm{Pr}\left[\mbox{区間}\mbox(\left(k-1\right)\delta, k\delta\mbox{に事象が1回も発生しない}\right] & = 1-\lambda_\delta + o\left(\delta\right) \notag \\
\mathrm{Pr}\left[\mbox{区間}\mbox(\left(k-1\right)\delta, k\delta\mbox{に事象が2回以上発生する}\right] & = o\left(\delta\right) \notag \\
\end{align}
$$
事象が2回以上発生する確率は、$\delta$が小さくなると$0$となる。
## ポアソン分布の導出
### 一定の長さの時間中の事象の発生回数
期間$\left(a, b\right]$を$m$等分すると、一つの区間の幅$\delta$は
$$
\delta = \frac{b-a}{m}
$$
となる。この時、$m$区間の事象の発生回数は、それぞれの区間の発生回数の和となる。
$$
N_m = N_{\delta} = X_1 + X_2 + \cdots + X_m
$$
添え字は$m$をつけると区間数、$\delta$をつけると区間幅を表す。$m$と$\delta$は一対一の関係にある。
さて、$m$が十分に大きく、$\delta$が十分に小さいと、$X_j, j=1, \ldots, m$ は互いに独立に、ベルヌーイ分布に従うようになる。
$$
X_j \sim Bernoulli\left(p_\delta\right)
$$
数え方の違いでしかない$m$や$\delta$の変化に応じて、期間$\left(a, b\right]$中の事象発生の総回数が変化するはずはない。そのため、このパラメータ$p_\delta$は
$$
E\left[X_1+X_2+\cdots+X_m\right] = m p_\delta = \mbox{一定}
$$
という条件を満たさなければならない。これより、期間中の事象発生回数の期待値を$\lambda_{a,b}$と置くと、
$$
p_\delta = \frac{\lambda_{a, b}}{m}
$$
を満たす。
以上から$N_m$は二項分布$Bin\left(m, \lambda_{a, b}/m\right)$に従う。
### 期間を固定したまま$m$を大きくし$\delta$を小さくする
$N_m$が従う二項分布の確率関数は
$$
p\left(n\right) = \frac{m!}{n!\left(m-n\right)!}\left(\frac{\lambda_{a,b}}{m}\right)^{n}\left(1-\frac{\lambda_{a,b}}{m}\right)^{m-n}
$$
である。これを少し変形すると、
$$
\begin{align}
p\left(n\right)
&= \frac{{\lambda_{a,b}}^n}{m^n}\frac{m!}{n!\left(m-n\right)!}\left(1-\frac{\lambda_{a,b}}{m}\right)^{-n}\left(1-\frac{\lambda_{a,b}}{m}\right)^m \notag \\
&= \frac{{\lambda_{a,b}}^n}{n!} \frac{\prod_{k=1}^n \left(m-k+1\right)}{m^n}\left(1-\frac{\lambda_{a,b}}{m}\right)^{-n}\left(1-\frac{\lambda_{a,b}}{m}\right)^m \notag \\
&= \frac{{\lambda_{a,b}}^n}{n!} \left\{\prod_{k=1}^n \frac{m-k+1}{m}\right\}\left(1-\frac{\lambda_{a,b}}{m}\right)^{-n}\left(1-\frac{\lambda_{a,b}}{m}\right)^m \notag \\
&= \frac{{\lambda_{a,b}}^n}{n!} \left\{\prod_{k=1}^n \left(1-\frac{k+1}{m}\right)\right\}\left(1-\frac{\lambda_{a,b}}{m}\right)^{-n}\left(1-\frac{\lambda_{a,b}}{m}\right)^m \notag \\
&= \frac{{\lambda_{a,b}}^n}{n!} \left\{\prod_{k=1}^n \frac{1-\left(k+1\right)/m}{1-\lambda_{a,b}/m}\right\}\left(1-\frac{\lambda_{a,b}}{m}\right)^m
\end{align}
$$
ここで
$$
\lim_{m\rightarrow\infty} \frac{1-\left(k+1\right)/m}{1-\lambda_{a,b}/m} = 1
$$
および
$$
\lim_{m\rightarrow\infty} \left(1-\frac{\lambda_{a,b}}{m}\right)^m = e^{-\lambda_{a,b}}
$$
より、$p\left(n\right)$の$m\rightarrow\infty$ の極限は
$$
\lim_{m\rightarrow\infty} p\left(n\right) = \frac{{\lambda_{a,b}}^n}{n!} e^{-\lambda_{a,b}}
$$
となる。
変数$n$の代わりに$x$を、$\lambda$の添字をなくすと
$$
p\left(x\right) = \frac{\lambda^x}{x!} e^{-\lambda}
$$
となる。この確率関数を持つ確率分布を、ポアソン分布という。
## 指数分布の導出
### 一定の長さの時間中の事象の発生回数
期間$\left(a, b\right]$を$m$等分すると、一つの区間の幅$\delta$は
$$
\delta = \frac{b-a}{m}
$$
となる。この時、$m$区間の事象の発生回数は、それぞれの区間の発生回数の和となる。
$$
N_m = N_{\delta} = X_1 + X_2 + \cdots + X_m
$$
添え字は$m$をつけると区間数、$\delta$をつけると区間幅を表す。$m$と$\delta$は一対一の関係にある。
今、$m$が十分に大きいとする。事象を観測する試行は、互いにベルヌーイ分布$Bernoulli\left(p_m\right)$に従う。この確率$p_m$も、先の議論と同様
$$
p_m = \frac{\lambda_{a,b}}{m}
$$
である。この時、最初に事象が発生した試行から、次に事象が発生する試行までの間の、発生が観測されない試行の回数を考える。それを$X$と置くと、これは幾何分布に従う。
$$
X \sim p\left(x\right) = \left(1-p_m\right)^x p_m = \left(1-\frac{\lambda_{a,b}}{m}\right)^x \frac{\lambda_{a,b}}{m}
$$
### $m$を大きくし$\delta$を小さくする
このまま$m\rightarrow\infty$を考えると、$x\rightarrow\infty$と発散してしまう。そのため$m$を大きくしても単位が変わらないように、間隔を試行回数から間隔の長さに変更する。
$$
Y = \frac{X}{m}
$$
こうした$Y$が従う確率関数を求めると
$$
\begin{align}
p_Y\left(y\right)
&= p_X\left(my\right) \notag \\
&= \left(1-\frac{\lambda_{a,b}}{m}\right)^{my} \frac{\lambda_{a,b}}{m} \notag \\
&= \lambda_{a,b} \left\{\left(1-\frac{\lambda_{a,b}}{m}\right)^{m}\right\}^y \frac{1}{m} \notag \\
&= \lambda_{a,b} \left\{\left(1-\frac{\lambda_{a,b}}{m}\right)^{-\frac{m}{\lambda_{a,b}}}\right\}^{-\lambda_{a,b}y} \frac{1}{m}
\end{align}
$$
ここで、
$$
\lim_{m\rightarrow\infty} \left(1-\frac{\lambda_{a,b}}{m}\right)^{-\frac{m}{\lambda_{a,b}}} = e
$$
である。また$m\rightarrow\infty$で$y$が連続な変数となる。$m$が有限の値では不要だが、$m\rightarrow\infty$の極限では、確率密度関数は積分に用いる被積分関数であることから
$$
\int f\left(y\right)dy = \int \lim_{m\rightarrow\infty} p_X\left(x\right)dx
$$
が成り立たなければならず、
$$
\int \lim_{m\rightarrow\infty} p_X\left(x\right)dx = \int \lim_{m\rightarrow\infty} p\left(y\right) \left|m\right| dy = \int \lim_{m\rightarrow\infty} p_X\left(my\right) \left|m\right|dy
$$
のように、変換$y=x/m$のヤコビアン$\left|m\right|$をdyにかける必要がある。以上から
$$
f\left(y\right) = \lambda_{a,b}e^{-\lambda_{a,b}y}
$$
を得る。
変数$y$の代わりに$x$を、$\lambda$の添字をなくすと
$$
f\left(x\right) = \lambda e^{-\lambda x}
$$
となる。この確率密度関数を持つ確率分布を、ポアソン分布という。