# ベルヌーイ試行とベルヌーイ分布
###### tags: `probability-theory`
## 最も単純な確率モデルの一つ
* コインを投げて、表が出るか、裏が出るか
* 試合を行なって、勝つか、負けるか
* 合格・不合格の結果を貰う試験を受験して、合格するか、不合格になるか
* レポートを提出したり期末試験を受験したりして、科目の単位を取得するか、取得できないか
* 幅跳びの競技を行なって、飛距離が2mを超えたか、超えなかったか
* 今日に出掛けて、雨に降られるか、降られないか
これらのように、結果が2種類あり、それらが互いに二律背反であるような試行をベルヌーイ試行という。ベルヌーイ試行は、試行回数が1回のことが多い。

結果が現れる前の試行を、大文字の変数$X, Y, Z, U, V, W, \ldots$で表す。これを確率変数と呼ぶ。結果を表す変数は小文字の変数$x, y, z, u, v, w, \ldots$で表す。これらはただの変数と呼ぶ。
2種類の結果をそのまま文字で表さず、試行の結果を片方が現れた回数で表す。

例えばコインを投げて表か裏が出る試行の結果を、「表」や「裏」といった文字ではなく、表が出た回数で表す。
$$
\begin{eqnarray}
\mbox{コインを投げて表が出た} & \Leftrightarrow & x=1 \\
\mbox{コインを投げて裏が出た} & \Leftrightarrow & x=0
\end{eqnarray}
$$
ある結果が起こる確率確率を求める際には、実際には思考が行われていないと考えて、大文字の変数$X$を用いる。
$$
\begin{eqnarray}
\mathrm{Pr}\left[X=1\right] &=& \mbox{コインを投げて表が出る確率} \\
\mathrm{Pr}\left[X=0\right] &=& \mbox{コインを投げて裏が出る確率}
\end{eqnarray}
$$
$\mathrm{Pr}\left[\cdot\right]$は、確率を求める関数です。引数は事象である。
$$
\begin{eqnarray}
\mathrm{Pr}\left[コインを投げて表が出る\right]
&=& \mathrm{Pr}\left[\left\{表が出る\right\}\right]
\\
&=& \mathrm{Pr}\left[表\right] \\
&=& \mathrm{Pr}\left[X=1\right] \\
&=& \mathrm{Pr}\left[\left\{X=1\right\}\right] \\
&=& P\left(1\right) \\
&=& P\left(\left\{\mbox{表}\right\}\right) \\
&=& P\left(\mbox{表}\right)
\end{eqnarray}
$$
これらは全て、コインを投げて表が出る確率を表します。事象の書き方は様々ある。事象は標本空間の部分集合なので、$\left\{\cdot\right\}$のように中括弧で囲むことに違和感がない。でも、事象の記述をそのまま記すことも多いです。他にもバリエーションがありますが、とても網羅しにくく、キリがないので他は省略します。各自、類推で判断してほしい。
また確率を求める関数も$\mathrm{Pr}\left(\cdot\right)$や$\mathrm{Pr}\left\{\cdot\right\}$など様々な括弧が用いられる。この関数を$P\left(\cdot\right)$で表す書籍もある。この場合にも、$P\left[\cdot\right]$や$P\left\{\cdot\right\}$もある。
試行の結果が得られていたら、その確率は$1$である。だから、既に表が出ていたら、その確率は$1$になる。
$$
\mathrm{Pr}\left[x=1\right] = 1
$$
もし、裏が出ていたら、表が出る確率は$0$である。
$$
\mathrm{Pr}\left[x=0\right] = 1
$$
尚、大文字と小文字で引っ掛けるような問いを、試験に出すことはない。試験問題で試行実施前の変数を小文字で表していたら、その人は大文字と小文字を区別しない、と考えてほしい。
## ベルヌーイ分布
確率変数$X$が標本空間$\mathcal{X}$上の確率分布$F$に従う、という形式でのベルヌーイ試行の説明を試みる。
ベルヌーイ試行$X$の標本空間は
$$
\mathcal{X} = \left\{0, 1\right\}
$$
である。確率分布$F$は、次の4つの場合(事象)の確率を定める。
$$
\begin{eqnarray}
P\left( \emptyset \right) &=& 0 \\
P\left(\left\{0\right\}\right) &=& 1-p \\
P\left(\left\{1\right\}\right) &=& p \\
P\left(\left\{0, 1\right\}\right) &=& 1 \\
\end{eqnarray}
$$
このようにすべての事象の確率を列挙するのは、確率を論じる上で効率がよくない。確率の公理を理解し、確率の加法法則と乗法法則が活用できるなら、ベルヌーイ試行の確率分布$F$の表現は、次の関数に集約できる。
$$
p\left(x\right) = p^{x}\left(1-p\right)^{1-x}, \,\, x=0, 1
$$
このことを、次に説明する。
## 確率関数
標本空間$\mathcal{X}$が実数全体の集合$\mathcal{R}$の部分集合のときに、確率変数が標本空間の各点を取る確率 $\mathrm{Pr}\left[X=x\right]=P\left(x\right)$を、関数$p\left(x\right)$で表す。
$$
p\left(x\right) = \mathrm{Pr}\left[X=x\right]
$$
確率変数$X$を明示したい時には
$$
p_X\left(x\right) = \mathrm{Pr}\left[X=x\right]
$$
と書き、確率分布$F$を明示したい時には
$$
p_F\left(x\right) = \mathrm{Pr}\left[X=x\right]
$$
と書く。
$p=0.5$の場合のベルヌーイ分布の確率関数は次のグラフで表した通り、$x=0, 1$の2点のみに値を持つ。

確率関数の定義域は標本空間$\mathcal{X}$である。そもそも、$x\not\in \mathcal{X}$では確率が定義されていない。しかし便宜上は$x$が$\mathcal{X}$の中の値でなければ、確率は$0$とする。
$$
x\not\in \mathcal{X} \Rightarrow p\left(x\right) = 0
$$
ベルヌーイ試行を論じる際には、二律背反な試行の片方を成功、もう一方を失敗とする。そして成功する確率を$p$、失敗する確率を$q$と置く。
まずコルモノロフの公理から、
$$
q = 1-p
$$
でなければならない。そのため、成功する確率$p$だけで、ベルヌーイ試行のすべての事象の確率が表せる。
ベルヌーイ試行の確率関数は、
$$
p\left(x\right) = p^{x}\left(1-p\right)^{1-x}
$$
である。場合分けを用いて
$$
p\left(x\right) = \left\{
\begin{array}{ll}
p & x=1 \\
1-p & x=0 \\
0 & \mbox{上記以外の場合}
\end{array}\right.
$$
と記しても良いが、定義域が$\left\{0, 1\right\}$なので、上のような関数表現が使える。
$p=0.1, 0.3, 0.5, 0.7, 0.9$と変えて、ベルヌーイ分布の確率関数を重ねて描いたグラフを掲げておく。

## ベルヌーイ分布、再び
ベルヌーイ試行を表現する確率分布をベルヌーイ分布と言う。ベルヌーイ分布の確率関数は
$$
p\left(x\right) = p^x\left(1-p\right)^{1-x}, \,\, x=0,1
$$
また累積分布関数は
$$
\begin{eqnarray}
F\left(x\right) &=& p I\left(x\geq 0\right) + \left(1-p\right) I\left(x\geq 1\right) \\
&=& p I\left(0\leq x < 1\right) + I\left(1 \leq x\right)
\end{eqnarray}
$$
と表せる。

以下、ベルヌーイ分布の平均、分散、標準偏差を順に計算していく。そしてモーメントについて論じた後に、歪度、尖度も計算する。
## 平均
確率変数の期待値を、確率変数が従う分布の平均と呼ぶことを思い出して欲しい。ベルヌーイ試行の確率変数の期待値は、ベルヌーイ分布の平均である。
$$
X \sim Bernoulli\left(p\right) \Rightarrow E\left[X\right] = p
$$
これを求める計算はそれほど複雑ではない。期待値を式に表す勇気さえ持てば、そのすぐ先に計算の結果がある。
$$
\begin{eqnarray}
E\left[X\right] &=& \sum_{x\in \mathcal{X}} x p\left(x\right) \nonumber \\
&=& 0 \times \left(1-p\right) + 1 \times p \nonumber \\
&=& p
\end{eqnarray}
$$
一行目が理解できなければ、$X$が$0$と$1$のいずれかしか取らないので、それぞれの値にそれらを取る確率を掛けて足すと、$X$の期待値が得られると理解すると良い。これが期待値の定義である。
## 分散
確率変数$X$の分散$V\left[X\right]$は、確率変数の自身の期待値$E\left[X\right]$からの偏差
$$
X-E\left[X\right]
$$
の2乗の期待値
$$
V\left[X\right] = E\left[\left(X-E\left[X\right]\right)^2\right]
$$
である。確率変数が自身の期待値から、平均して、2乗距離でどれぐらい離れているかを、分散は表す。期待値$E\left[\cdot\right]$という計算が
$$
E\left[\cdot\right] = \sum_{x\in\mathcal{X}} \cdot \,\,p\left(x\right)
$$
であることを思い出すと、分散は
$$
E\left[\left(X-E\left[X\right]\right)^2\right] = \sum_{x\in\mathcal{X}} \left(x-\sum_{y\in\mathcal{X}} y p\left(y\right)\right)^2 p\left(x\right)
$$
と書き換えることができる。
ただ、$X$の期待値、$F$の平均はすでに計算してあるので、
$$
E\left[\left(X-p\right)^2\right] = \sum_{x=0}^1 \left(x-p\right)^2 p^{x}\left(1-p\right)^{1-x}
$$
となる。これは
$$
\sum_{x=0}^1 \left(x-p\right)^2 p^{x}\left(1-p\right)^{1-x} = \left(-p\right)^2\left(1-p\right) + \left(1-p\right)^2 p = p\left(1-p\right)\left(p + 1 - p\right) = p\left(1-p\right)
$$
と計算を進めて、ベルヌーイ分布の分散 $p\left(1-p\right)$ を得る。
## 標準偏差
分散の単位は、確率変数$X$や確率変数の期待値$E\left[X\right]$とは異なる。なにしろ2乗されているのだから、$X$が正方形の一辺の長さを表すなら$X^2$は面積であり、$X$が移動速度を表すなら$X^2$は運動エネルギーに比例する量となる。
通常は、分散の単位に別の単位を用いず、確率変数の単位の2乗の単位を用いる。そこで混乱が生じる。例えば分散が$0.25$とは一体、どれほど大きいのだろうか。あるいは小さいのだろうか。
後に統計学では確率論で設定する平均や分散を推定する考え方を学ぶ。その中の、信頼区間という考え方では、分散の平方根に比例する幅を用いて、平均の推定精度を評価する。
その類推で、分布のばらつきを表すのに、分散の代わりに分散の平方根を用いる。
$$
\sqrt{V\left[X\right]} = \sqrt{E\left[\left(X-E\left[X\right]\right)^2\right]} = \sqrt{p\left(1-p\right)}
$$
## モーメント
確率分布の確率を関数表現することで、確率分布の特徴を関数の特徴で表すことができる。モーメントには2種類ある。
平均や分散など、確率分布の特徴量としてのモーメントは中心モーメントと呼ばれる。平均が
$$
\mu = E\left[X\right]
$$
分散が
$$
V\left[X\right] = E\left[\left(X-E\left[X\right]\right)^2\right]
$$
であり、この類推から$k$次の中心モーメントは次のように定まる。
$$
\mu_k = E\left[\left(X-E\left[X\right]\right)^k\right]
$$
ここで$k$は正の整数である。小数は取らない。
確率論を用いた解析を行う際には、中心モーメントは使いにくい。平均は
$$
\mu = E\left[X\right]
$$
だが、分散が
$$
V\left[X\right] = E\left[\left(X-E\left[X\right]\right)^2\right] = E\left[X^2\right] - \left\{E\left[X\right]\right\}^2
$$
と表せることを思い出すと、確率変数$X$のべき乗の期待値
$$
m_k = E\left[X^k\right]
$$
にも名前を付けたくなる。これが原点モーメントと呼ばれる、もう一つのモーメントである。
中心モーメントと原点モーメントの間には、多項式関係がある。
$$
\begin{eqnarray}
\mu_2 &=& m_2 - {m_1}^2 \\
m_2 &=& \mu_2 + {m_1}^2 \\
\mu_3 &=& m_3 - 3 {m_2}^2 + 2 {m_1}^3 \\
m_3 &=& \mu_3 ...
\end{eqnarray}
$$
これらはすべて、期待値で表現すると、導出できる。$k=2$では
$$
\begin{eqnarray}
\mu_2 &=& E\left[\left(X-E\left[X\right]\right)^2\right] \\
&=& E\left[X^2-2X E\left[X\right]+E\left[X\right]^2\right] \\
&=& E\left[X^2\right] -2 \left\{E\left[X\right]\right\}^2 + \left\{E\left[X\right]\right\}^2 \\
&=& E\left[X^2\right] - \left\{E\left[X\right]\right\}^2 \\
&=& m_2-{\mu_1}^2
\end{eqnarray}
$$
この関係を$m_2$に関して整理すると
$$
m_2 = \mu_2 + {\mu_1}^2
$$
を得る。$k=3$の場合も同様に
$$
\begin{eqnarray}
\mu_3 &=& E\left[\left(X-E\left[X\right]\right)^3\right] \\
&=& E\left[X^3-3X^2 E\left[X\right]+3X E\left[X\right]^2+E\left[X\right]^3\right] \\
&=& E\left[X^3\right] -3 E\left[X^2\right] E\left[X\right] + 3 E\left[X\right] \left\{E\left[X\right]\right\}^2 - \left\{E\left[X\right]\right\}^3\\
&=& E\left[X^3\right] -3 E\left[X^2\right] E\left[X\right] + 2 \left\{E\left[X\right]\right\}^3 \\
&=& m_3-3m_1m_2+2{\mu_1}^3
\end{eqnarray}
$$
と、これを整理して
$$
m_3 = \mu_3+3 m_1 m_2 - 2{\mu_1}^3=\mu_3+3\mu_1\left(\mu_2+{\mu_1}^2\right)-2{\mu_1}^3 = \mu_3 + 3\mu_1\mu_2 + {\mu_1}^3
$$
を得る。
## 歪度
確率分布$F$の歪度${\beta_1}^{1/2}$の定義は、それに従う確率変数$X$を標準化した後の3次のモーメントである。
$$
{\beta_1}^{1/2} = E\left[\left(\frac{X-E\left[X\right]}{\sqrt{V\left[X\right]}}\right)^3\right]
$$
これは、期待値の計算の整理を進めると、
$$
{\beta_1}^{1/2} = E\left[\left(\frac{X-E\left[X\right]}{\sqrt{V\left[X\right]}}\right)^3\right] = \frac{E\left[\left(X-E\left[X\right]\right)^3\right]}{\left(\sqrt{V\left[X\right]}\right)^3} = \frac{\mu_3}{\left(\mu_2\right)^{3/2}}
$$
となる。
ベルヌーイ分布の3次の中心モーメントは
$$
\begin{eqnarray}
\mu_3 &=& E\left[\left(X-E\left[X\right]\right)^3\right] \\
&=& \sum_{x=0}^1 \left(x-p\right)^3 p^x\left(1-p\right)^{1-x} \\
&=& \left(-p\right)^3\left(1-p\right) + \left(1-p\right)^3 p \\
&=& p\left(1-p\right)\left\{(1-p)^2-p^2\right\} \\
&=& p\left(1-p\right)\left(1-2p\right) \\
\end{eqnarray}
$$
であり、分散が$p\left(1-p\right)$であることと合わせて、ベルヌーイ分布の歪度が
$$
{\beta_1}^{1/2} = \frac{1-2p}{\sqrt{p\left(1-p\right)}}
$$
と得られる。
歪度が$0$ならば、確率分布は期待値を軸として左右対称の確率関数を持つ。
ベルヌーイ分布では、方程式
$$
\frac{1-2p}{\sqrt{p\left(1-p\right)}} = 0
$$
を解くと、$p=1/2$の場合に対称となることが分かる。
## 尖度
確率分布$F$の歪度${\beta_2}$の定義は、それに従う確率変数$X$を標準化した後の4次のモーメントである。
$$
{\beta_2} = E\left[\left(\frac{X-E\left[X\right]}{\sqrt{V\left[X\right]}}\right)^4\right]
$$
これは、期待値の計算の整理を進めると、
$$
{\beta_2} = E\left[\left(\frac{X-E\left[X\right]}{\sqrt{V\left[X\right]}}\right)^4\right] = \frac{E\left[\left(X-E\left[X\right]\right)^4\right]}{\left(V\left[X\right]\right)^2} = \frac{\mu_4}{\left(\mu_2\right)^{2}}
$$
となる。
ベルヌーイ分布の3次の中心モーメントは
$$
\begin{eqnarray}
\mu_4 &=& E\left[\left(X-E\left[X\right]\right)^4\right] \\
&=& \sum_{x=0}^1 \left(x-p\right)^4 p^x\left(1-p\right)^{1-x} \\
&=& \left(-p\right)^4\left(1-p\right) + \left(1-p\right)^4 p \\
&=& p\left(1-p\right)\left\{(1-p)^3-p^3\right\} \\
&=& p\left(1-p\right)\left(1-3p+3p^2\right) \\
\end{eqnarray}
$$
であり、分散が$p\left(1-p\right)$であることと合わせて、ベルヌーイ分布の尖度が
$$
{\beta_2} = \frac{1-3p+3p^2}{p\left(1-p\right)}
$$
と得られる。
## 確率関数の形状
平均、分散、歪度、尖度をそれぞれ次のように導いた。
$$
\mu_1 = p, \,\, \mu_2 = p\left(1-p\right), \,\, {\beta_1}^{1/2} = \frac{1-2p}{\sqrt{p\left(1-p\right)}}, \,\, {\beta_2} = \frac{1-3p+3p^2}{p\left(1-p\right)}
$$
平均は分布の中心、分散は分布の散らばり、歪度は分布の対称性、尖度は分布の裾の重さを表す。すべてがベルヌーイ試行の成功確率$p$に依存して変化する。

グラフを描いてみると、ベルヌー分布は$p$によって形状が変わることが見て取れる。
## モーメント母関数
モーメント母関数の定義は次の通りである。
$$
M_F\left(t\right) = E\left[e^{tX}\right]
$$
確率変数$X$に変数$t$を掛け、指数変換した上で期待値を求める。これはラプラス変換と深い関係がある。
$$
M_F\left(t\right) = E\left[e^{tX}\right] = \sum_{x\in\mathcal{X}} e^{tx}p\left(x\right)
$$
ここまで表現を変えると、関数$p\left(x\right)$をラプラス変換して$M_F\left(t\right)$を得ていることに相当することが分かる。ただし、ラプラス変換との関係を論じても、逆変換は整備されていないので、ラプラス変換に不慣れでも気にすることはない。
この関数がモーメント母関数と呼ばれるのは、
$$
M_F\left(t\right) = \sum_{k=0}^{\infty} \frac{t^k}{k!} m_k
$$
という関係を持つためである。この関係は
$$
e^{tX} = \sum_{k=0}^{\infty} \frac{t^k}{k!} X^k
$$
の両辺の期待値を求めると、導かれる。
ベルヌーイ分布のモーメント母関数は
$$
\sum_{x=0}^1 e^{tx} p^{x}\left(1-p\right)^{1-x} = e^{t\times 0}\left(1-p\right)+e^{t \times 1}\times p = 1-p+pe^t
$$
と簡単に計算できる。このモーメント母関数から平均を求める。
$$
\left.\frac{\partial}{\partial t} M_F\left(t\right)\right|_{t=0} = \left.p e^t\right|_{t=0} = p
$$
2次のモーメントを求めると
$$
\left.\frac{\partial^2}{\partial t^2} M_F\left(t\right)\right|_{t=0} = \left. \frac{\partial}{\partial t}p e^t\right|_{t=0} = \left.p e^t\right|_{t=0} = p
$$
となり、分散は
$$
V\left[X\right] = E\left[X^2\right]-\left\{E\left[X\right]\right\}^2 = p - p^2 = p\left(1-p\right)
$$
と求まる。