Try   HackMD

互いに独立に時間軸上で繰り返し生じる出来事のモデル

tags: probability-theory

前提

時間軸上で繰り返し、しかしぽつぽつと生じる特定の種類の出来事を考える。英語ではeventと呼び、通常は事象と訳すが、ここでは出来事と呼ぶ。標本空間の加法族に含まれ、確率を評価できる部分集合も英語ではeventと呼び、事象と訳されているが、それとは区別して考えて欲しい。

想定する出来事の例を掲げる。

  • 宇宙線の観測のために設置した観測装置を、実際に宇宙線が通過する
  • ある一定の地域で、交通事故が生じる
  • 飲食店に、来客がある
  • インターネット検索サイトに、検索のリクエストが来る
  • ジョブを必要な時間と作業量をかけてこなすサーバに、ジョブのリクエストが投じられる
  • 押しボタン信号が押される
  • 病気の発作が繰り返し生じる
  • 心臓発作
  • 動悸

以下では、これらの出来事を念頭に、発生確率を考えたり、極限を取ったりするが、元の出来事に手を加えることはないことを、始めに記しておく。

モデル化

ここからは特定の種類の出来事を単に、事象と言い換える。

同じ長さの区間の期待頻度は一定かつ定常

任意の間隔

δの目盛で時間軸を、区切った時に、目盛と目盛の間の各区間において、事象の期待発生頻度は、次のように表現できる。

E[Xδ]=λδ

ただし

λδは、区間の幅
δ
を変えても、一定の長さの区間における発生頻度が変わらないように設定する。観測される事象に手を加えては、何をしようとしているか分からない。

λδ=λ0/δ

こう設定すると、例えば長さが

dの区間の事象の発生頻度の平均は常に

dδλ0δ=dλ0

となる。

以上のモデル化は、この発生頻度の平均は、時刻

tに依存して変化することがないことを暗に仮定している。

独立性

事象の発生は互いに独立とする。例えば、必ず同時に複数発生する事象は、対象としない。また、単独の発生と複数の事象が混在する事象も対象としない。観測時においても、相異なる区間での事象の発生は互いに独立とする。

稀少性

任意の区間での事象の発生回数は、

δ0につれて次の性質を有する。

Pr[区間((k1)δ,kδに事象が1回発生する]=λδ+o(δ)Pr[区間((k1)δ,kδに事象が1回も発生しない]=1λδ+o(δ)Pr[区間((k1)δ,kδに事象が2回以上発生する]=o(δ)

事象が2回以上発生する確率は、

δが小さくなると
0
となる。

ポアソン分布の導出

一定の長さの時間中の事象の発生回数

期間

(a,b]
m
等分すると、一つの区間の幅
δ

δ=bam

となる。この時、
m
区間の事象の発生回数は、それぞれの区間の発生回数の和となる。
Nm=Nδ=X1+X2++Xm

添え字は
m
をつけると区間数、
δ
をつけると区間幅を表す。
m
δ
は一対一の関係にある。

さて、

mが十分に大きく、
δ
が十分に小さいと、
Xj,j=1,,m
は互いに独立に、ベルヌーイ分布に従うようになる。

XjBernoulli(pδ)

数え方の違いでしかない

m
δ
の変化に応じて、期間
(a,b]
中の事象発生の総回数が変化するはずはない。そのため、このパラメータ
pδ

E[X1+X2++Xm]=mpδ=一定

という条件を満たさなければならない。これより、期間中の事象発生回数の期待値を
λa,b
と置くと、
pδ=λa,bm

を満たす。

以上から

Nmは二項分布
Bin(m,λa,b/m)
に従う。

期間を固定したまま
m
を大きくし
δ
を小さくする

Nmが従う二項分布の確率関数は
p(n)=m!n!(mn)!(λa,bm)n(1λa,bm)mn

である。これを少し変形すると、
p(n)=λa,bnmnm!n!(mn)!(1λa,bm)n(1λa,bm)m=λa,bnn!k=1n(mk+1)mn(1λa,bm)n(1λa,bm)m=λa,bnn!{k=1nmk+1m}(1λa,bm)n(1λa,bm)m=λa,bnn!{k=1n(1k+1m)}(1λa,bm)n(1λa,bm)m=λa,bnn!{k=1n1(k+1)/m1λa,b/m}(1λa,bm)m

ここで
limm1(k+1)/m1λa,b/m=1

および
limm(1λa,bm)m=eλa,b

より、
p(n)
m
の極限は
limmp(n)=λa,bnn!eλa,b

となる。

変数

nの代わりに
x
を、
λ
の添字をなくすと
p(x)=λxx!eλ

となる。この確率関数を持つ確率分布を、ポアソン分布という。

指数分布の導出

一定の長さの時間中の事象の発生回数

期間

(a,b]
m
等分すると、一つの区間の幅
δ

δ=bam

となる。この時、
m
区間の事象の発生回数は、それぞれの区間の発生回数の和となる。
Nm=Nδ=X1+X2++Xm

添え字は
m
をつけると区間数、
δ
をつけると区間幅を表す。
m
δ
は一対一の関係にある。

今、

mが十分に大きいとする。事象を観測する試行は、互いにベルヌーイ分布
Bernoulli(pm)
に従う。この確率
pm
も、先の議論と同様

pm=λa,bm

である。この時、最初に事象が発生した試行から、次に事象が発生する試行までの間の、発生が観測されない試行の回数を考える。それを

Xと置くと、これは幾何分布に従う。

Xp(x)=(1pm)xpm=(1λa,bm)xλa,bm

m
を大きくし
δ
を小さくする

このまま

mを考えると、
x
と発散してしまう。そのため
m
を大きくしても単位が変わらないように、間隔を試行回数から間隔の長さに変更する。
Y=Xm

こうした
Y
が従う確率関数を求めると
pY(y)=pX(my)=(1λa,bm)myλa,bm=λa,b{(1λa,bm)m}y1m=λa,b{(1λa,bm)mλa,b}λa,by1m

ここで、
limm(1λa,bm)mλa,b=e

である。また
m
y
が連続な変数となる。
m
が有限の値では不要だが、
m
の極限では、確率密度関数は積分に用いる被積分関数であることから
f(y)dy=limmpX(x)dx

が成り立たなければならず、
limmpX(x)dx=limmp(y)|m|dy=limmpX(my)|m|dy

のように、変換
y=x/m
のヤコビアン
|m|
をdyにかける必要がある。以上から
f(y)=λa,beλa,by

を得る。

変数

yの代わりに
x
を、
λ
の添字をなくすと
f(x)=λeλx

となる。この確率密度関数を持つ確率分布を、ポアソン分布という。