# 確率の様々な表現 ###### tags: `probability-theory` ## 確率を考える 自国の通貨とある他国の通貨の間の為替レートが明日、今日よりも高めに動くか、低めに動くか、を考える。高低の基準は自国の通貨で、実際の高低は他国の通貨に発生するものとする。例えば円安ドル高は、単にドル高という。連続する2日間で為替レートが、小数点以下の小さな桁まで同じとなることはないので、高低の2つの場合のみを考えれば良い。そして * 今日よりも高めに動くなら買っておこう。 * 今日よりも低めに動くなら売っておこう。 こういう行動の検討のために、確率を評価したい。本来は今日よりもいくら以上高めに動くなら、今日よりもいくら以下低めに動くなら、と検討すべきだが、そこは単純化している。 以下では、これを例に、確率の様々な表現を紹介する。 * $\mathrm{Pr}\left[\mbox{事象の記述}\right]$ * $P\left(\mbox{事象}\right)$ * $\mathrm{Pr}\left[\mbox{事象}\right]$ * $X\sim F$ * $\mathrm{Pr}\left[X \in \mbox{事象}\right]$ * $p\left(\mbox{標本空間内の1点}\right)$ * $f\left(\mbox{標本空間内の1点}\right)$ * $F\left(\mbox{標本空間内の1点}\right)$ * $M_F\left(t\right)$ * $\varphi_F\left(t\right)$ ## 確率を数式で表現する 明日の為替レートが今日よりも高くなる確率が0.60、変わらない確率が0.05、低くなる確率は0.35と分かっているとする。これを $$ \mathrm{Pr}\left[\mbox{明日の為替レートが今日よりも高くなる}\right] = 0.60 $$ と $$ \mathrm{Pr}\left[\mbox{明日の為替レートが今日と同じになる}\right] = 0.05 $$ そして $$ \mathrm{Pr}\left[\mbox{明日の為替レートが今日よりも低くなる}\right] = 0.35 $$ と記す。記号$\mathrm{Pr}$は、確率を調べたい対象の記述を引き数に持ち、記述の確率を返す関数である。 対象の記述の表現方法は様々ある。上のように文で表現する以外に、範囲で表現したり、数式で表現することもある。今日の為替レートを$X$、明日の為替レートを$Y$と置くと、上の確率は次のようにも表せる。 $$ \begin{align} \mathrm{Pr}\left[X < Y\right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y - X > 0\right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y \in \left(X, \infty\right)\right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y - X \in \left(0, \infty\right) \right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y - X \in \mathscr{R}^{+} \right] &= 0.60 \notag \end{align} $$ 残りの確率も同様に $$ \begin{align} \mathrm{Pr}\left[X = Y\right] &= 0.05 \notag \\ \mathrm{Pr}\left[Y - X = 0\right] &= 0.05 \notag \\ \mathrm{Pr}\left[Y \in \left\{X\right\}\right] &= 0.05 \notag \\ \mathrm{Pr}\left[Y - X \in \left\{0\right\} \right] &= 0.05 \notag \end{align} $$ および $$ \begin{align} \mathrm{Pr}\left[X > Y\right] &= 0.35 \notag \\ \mathrm{Pr}\left[Y - X < 0\right] &= 0.35 \notag \\ \mathrm{Pr}\left[Y \in \left(-\infty, X\right)\right] &= 0.35 \notag \\ \mathrm{Pr}\left[Y - X \in \left(-\infty, 0\right) \right] &= 0.35 \notag \\ \mathrm{Pr}\left[Y - X \in \mathscr{R}^{-} \right] &= 0.35 \notag \end{align} $$ と表せる。 ## 事象 $A$ 確率を調べたい対象を事象と呼び、事象を集合で表す。上の表現のうち、 $$ \left(X,\infty\right), \,\, \left(0, \infty\right), \,\, \mathscr{R}^{+}, \,\, \left\{0\right\}, \left\{X\right\}, \left(-\infty, X\right), \,\, \left(-\infty, 0\right), \,\, \mathscr{R}^{-} $$ が集合である。これらの集合はすべて、実数空間$\mathscr{R}$の部分集合でもある。 実際に起こることは、今日の為替レート$X$と明日の為替レート$Y$の組$\left(X, Y\right)$であり、二次元平面上の点である。だが、調べたいのはその一組の数字の間の大小関係である。$X-Y$平面を直線$Y=X$を境に3つの領域 $$ X<Y, \,\, X=Y, \,\, X>Y $$ に分けて、どちらがどれぐらいの確率で生じるかを調べたい。これらを集合で表せば、 $$ \begin{align} A &= \left\{\left(x, y\right); x < y, x, y\in \mathscr{R}\right\} \notag \\ B &= \left\{\left(x, y\right); x = y, x, y\in \mathscr{R}\right\} \notag \\ C &= \left\{\left(x, y\right); x > y, x, y\in \mathscr{R}\right\} \notag \end{align} $$ となる。こう記した事象$A$と$B$について、確率を調べたい。 同じ事象を$X$と$Y$の組ではなく、$X$と$Y$の差で表現すると、 $$ \begin{align} A &= \left\{z; z = y-x, x < y, x, y\in \mathscr{R}\right\} = \left\{z; 0 < z, z\in \mathscr{R}\right\} = \left(0, \infty\right) = \mathscr{R}^{+} \notag \\ B &= \left\{z; z = y-x, x = y, x, y\in \mathscr{R}\right\} = \left\{z; z = 0\right\} = \left\{0\right\} \notag \\ C &= \left\{z; z = y-x, x > y, x, y\in \mathscr{R}\right\} = \left\{z; 0 > z, z\in \mathscr{R}\right\} = \left(-\infty, 0\right)= \mathscr{R}^{-} \end{align} $$ のように、他の表現にも至る。 このように確率を調べたい事象は、集合で表現できる。またコルモゴロフの公理自体が、事象が集合であり、相異なる複数の事象の間の和集合や差集合、積集合の計算を前提に記述されているので、事象は集合で表現できなければならない。 ## 事象の確率 $P\left(A\right)$, $\mathrm{Pr}\left[A\right]$ 事象が起こる確率を、事象を表現する集合を与えると確率を返す関数 $P$ を用いて表す。 $$ P\left(\left(0, \infty\right)\right) = 0.60, \,\, P\left(\{0\}\right) = 0.05, \,\, P\left(\left(-\infty, 0\right)\right) = 0.35 $$ $P$は集合を引き数に取って確率を返す関数なので、集合関数と呼ばれることがある。何がその集合に含まれるか、を明記するとき、変数と二項演算子$\in$を用いて $$ P_{Y-X}\left(\left(0, \infty\right)\right) = 0.60, \,\, P_{Y-X}\left(\left\{0\right\}\right) = 0.05, \,\, P_{Y-X}\left(\left(-\infty, 0\right)\right) = 0.35 $$ と記す。 誤解を与えない限り、最初の文による事象の表現の略記として、上の確率の表現を $$ \mathrm{Pr}\left[\left(0, \infty\right)\right] = 0.60, \,\, \mathrm{Pr}\left[\{0\}\right] = 0.05, \,\, \mathrm{Pr}\left[\left(-\infty, 0\right)\right] = 0.35 $$ と記しても構わない。 また教科書によっては、 $$ P\left(Y-X \in \left(0, \infty\right)\right) = 0.65, \,\, P\left(Y-X \in \left\{0\right\}\right) = 0.05, \,\, P\left(Y-X \in \left(-\infty, 0\right)\right) = 0.35 $$ と記すこともある。しかし二項演算子を含む式ならば、事象の表現として $$ \mathrm{Pr}\left[Y-X \in \left(0, \infty\right)\right] = 0.60, \,\, \mathrm{Pr}\left[Y-X \in \left\{0\right\}\right] = 0.05, \,\, \mathrm{Pr}\left[Y-X \in \left(-\infty, 0\right)\right] = 0.35 $$ のように$\mathrm{Pr}$を用いて、集合関数$P$と区別したい。 私にはこれぐらいの拘りしかない。 ## 標本空間 $\mathscr{X}$ 確率を調べたいすべての事象を含む集合を**標本空間**という。$\mathscr{X}$, $\mathscr{Y}$, $\mathscr{Z}$ など、アルファベットの後ろの方の大文字をスクリプト体にして、標本空間を表すことが多い。$\Omega$も用いられる。 上の例の場合には、起こり得る事象は $$ \left(-\infty, 0\right), \left\{0\right\}, \left(0, \infty\right) $$ の3つのいずれかである。では標本空間を $$ \mathscr{X} = \left\{\left(-\infty, 0\right), \left\{0\right\}, \left(0, \infty\right)\right\} $$ と定めればいいかというと、それは誤りである。確率の公理を思い出して欲しい。事象の和集合の確率も、確率の公理から求まるので、複数の事象同士の和集合(和事象)も標本空間に含まれなければならない。それらを列挙すると $$ \begin{align} \left(-\infty, 0\right) \cup \left\{0\right\} & = \left(-\infty, 0\right] \notag \\ \left\{0\right\} \cup \left(0, \infty\right)& = \left[0, \infty\right) \notag \\ \left(-\infty, 0\right) \cup \left(0, \infty\right) & = \mathscr{R}\backslash\left\{0\right\} \end{align} $$ である。これらも標本空間に含まれなければならない。また、この集合の補集合としての空集合 $$ \emptyset $$ も、標本空間に含まれなければならない。 以上から、この標本空間は $$ \mathscr{X} = \left\{ \left(-\infty, 0\right), \left\{0\right\}, \left(0, \infty \right), \left(-\infty, 0\right], \left[0, \infty \right), \left(-\infty, 0\right) \cup \left(0, \infty\right), \emptyset \right\} $$ と定める。 標本空間には、確率が$0$の事象が$\emptyset$以外にも含まれていても構わない。しかし確率が$0$の事象は、和集合の確率も$0$なので、複雑に記述してもあまり甲斐がない。そのため特に記さない限り、標本空間に記述する確率が$0$の事象は$\emptyset$のみとする。 また、起こり得るすべての事象を含む集合を標本空間という、と宣言することも少なくない。この定義でも構わないが、全事象$\mathscr{X}$と空事象$\emptyset$の確率を評価したくなるのが、事象の加法性の導入の後なので、ここでは確率を調べたいすべての事象を含む集合として定義する。 ## 加法族 $\mathscr{A}$ 少し惑わせるかもしれないが、標本空間は $$ \mathscr{X} = \left\{\left(x, y\right); x, y \in \mathscr{R}\right\} $$ と定義してもよい。標本空間をこのように定めたとき、確率を評価する興味のある部分集合は、当初は $$ \begin{align} & \left\{\left(x, y\right); x < y, x, y\in \mathscr{R}\right\}, \notag \\ & \left\{\left(x, y\right); x = y, x, y\in \mathscr{R}\right\}, \notag \\ & \left\{\left(x, y\right); x > y, x, y\in \mathscr{R}\right\}, \notag \\ \end{align} $$ の3つであった。これら3つは、2次元ユークリッド空間の部分集合で、互いに素である。 上の3つの事象それぞれを、$A_1$, $A_2$, $A_3$と名付ける。これらの事象同士の和集合 $$ A_1\cup A_2, \,\, A_1\cup A_3, \,\, A_2\cup A_3, \,\, A_1 \cup A_2 \cup A_3 $$ も事象として標本空間に含まれる。またこれらの和集合の補集合 $$ \begin{align} \left(A_1\cup A_2\right)^c &= A_3 \notag \\ \left(A_1\cup A_3\right)^c &= A_2 \notag \\ \left(A_2\cup A_3\right)^c &= A_1 \notag \\ \left(A_1 \cup A_2 \cup A_3\right)^c &= \emptyset \notag \end{align} $$ も、標本空間に含まれる。ここまでに現れた事象の、事象どうしの和集合、そして事象のすべての和集合の補集合はすべて尽くされている。こうして事象同士が互いに、加法性で表せる関係を持つような集合が完成する。 $$ \mathscr{A} = \left\{A_1, A_2, A_3, A_1 \cup A_2, A_1 \cup A_3, A_2 \cup A_3, \mathscr{X}, \emptyset\right\} $$ これを事象の**加法族**といい、$\mathscr{A}$で表す。 確率の公理に現れる事象は、標本空間$\mathscr{X}$の部分集合であり、また必ず事象の加法族$\mathscr{A}$の要素でなければならない。そうでなければ、その事象が関わる確率は、確率の公理を満たさず、確率と呼べない数字となる。 ## 確率変数 $X$ 確率現象を観測することを**試行**という。試行をアルファベットの後ろの方の大文字$X$, $Y$, $Z$, $U$, $V$, $W$などで表す。また試行は**確率変数**とも呼ばれる。 上の例では、今日の為替レート$X$と明日の為替レート$Y$が確率変数である。 試行を行なった結果、観測された値を**実現値**という。実現値に用いる変数は、同じアルファベットの小文字で表す。$x$, $y$, $z$, $u$, $v$, $w$などである。 ## 確率分布 $F$ 確率変数が従う確率法則のことを、確率分布という。確率分布にはアルファベットの大文字の$F$、$G$、$H$などが用いられる。 ## 起こる確率 $\mathrm{Pr}\left[ X \in A\right]$ もし今日の為替レートは観測済みで、明日の為替レートのみがこれから観測されるなら、これまでに記した式はすべて、次のように書き換えていく必要がある。 $$ \begin{align} \mathrm{Pr}\left[x < Y\right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y - x > 0\right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y \in \left(x, \infty\right)\right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y - x \in \left(0, \infty\right) \right] &= 0.60 \notag \\ \mathrm{Pr}\left[Y - x \in \mathscr{R}^{+} \right] &= 0.60 \notag \end{align} $$ ## 確率関数 $p\left(x\right)$ 標本空間が有限集合または可算集合の場合、確率変数$X$が標本空間の任意の点$x$を取る確率を返す関数を定めることができる。 $$ p\left(x\right) = \mathrm{Pr}\left[X=x\right] = P\left(\left\{x\right\}\right) $$ これを**確率関数**という。実際には、確率を返す関数を定義して嬉しいのは、標本空間が整数集合など、要素同士の差や比が意味を持つ集合である。 為替レートの差$Z=Y-x$の分布$F$が、$Z$がとり得る0.01円刻みの値で定義された関数$p\left(z\right)$で表現されているとする。このとき翌日の為替レートの平均は $$ \sum_z z p\left(z\right) $$ のように、取り得る値$z$とその値を取る確率$p\left(z\right)$の重み付き和で求められる。これは$\sum_z p\left(z\right) = 1$から、重み付き平均ともいう。 ## 確率密度関数 $f\left(x\right)$ 標本空間が連続集合の場合、標本空間の点の数は非可算であり、各点に対してその値を取る確率を定めることはできない。数え上げられない無限個の点に正の値を付与すると、必ず総和は無限大に発散する。そこで確率の表現を点に確率を与える関数ではなく、部分集合に対する確率を表現する関数を用いる。 確率変数$X$が標本空間の任意の範囲$\left(x_1, x_2\right]$を取る確率を定積分 $$ \mathrm{Pr}\left[x_1<X\leq x_2\right] = P\left(\left(x_1, x_2\right]\right) = \int_{x_1}^{x_2} f\left(x\right) dx $$ で定める関数$f\left(x\right)$が存在するとき、これを**確率密度関数**という。確率密度関数を定義して嬉しいのは、標本空間上で積分が定義できる場合である。 為替レートの差$Z=Y-x$の分布$F_Z$が、$Z$がとり得る連続の値の上で定義された関数$f\left(z\right)$で表現されているとする。このとき翌日の為替レートの平均は $$ \int_z z f\left(z\right) dz $$ のように、取り得る値$z$とその値を取る確率$p\left(z\right)$の重み付きの定積分で求められる。これは$\int_z f\left(z\right) dz = 1$から、重み付き平均ともいう。 ## 累積分布関数 $F\left(x\right)$ 標本空間が順序集合の場合、任意の点$x$に対して、$x$およびそれ以下の値を取る確率を定めることができる。 $$ F\left(x\right) = \mathrm{Pr}\left[X\in\left(-\infty, x\right]\right] = P\left(\left(-\infty, x\right]\right) $$ これを**累積分布関数**という。累積分布関数は、ユークリッド空間上のすべての確率分布に定義できるためか、また確率分布を表す$F$に引数をつけて関数とするためか、単に**分布関数**ということも多い。 もし$F\left(x\right)$が標本空間の上で連続かつ微分可能なとき、$F\left(x\right)$を微分すると、確率密度関数を得る。 $$ \frac{d}{dx}F\left(x\right) = f\left(x\right) $$ もし$F\left(x\right)$が可算個の点でのみ不連続であり、すべての隣接する2つの不連続点の間で傾きが$0$のとき、$F\left(x\right)$の差分から、確率関数を得る。 $$ p\left(x\right) = \lim_{\delta\rightarrow 0+} F\left(x+\delta\right) - \lim_{\delta\rightarrow 0-} F\left(x+\delta\right) $$ 各不連続点において、右極限と左極限の差が、その点を取る確率に等しい。 為替レートの差$Z=Y-x$の分布$F_Z$が、$Z$がとり得る0.01円刻みの値で定義された関数$F\left(z\right)$で表現されているとする。このとき翌日の為替レートの中央値は $$ m = F\left(0.5\right) $$ を解いた値で求めることができる。 為替レートの差$Z=Y-x$の分布$F_Z$が、$Z$がとり得る連続の値の上で定義された関数$F\left(z\right)$で表現されているとする。このときも、翌日の為替レートの中央値は $$ m = F\left(0.5\right) $$ を解いた値で求めることができる。 ## モーメント母関数 $M_F\left(t\right)$ 確率分布$F$のすべての原点モーメント $$ m_k = E_F\left[X^k\right], k=1, 2, \ldots $$ が発散せずに有限の値を取るとする。もし $$ M_F\left(t\right)=E\left[e^{tX}\right] $$ が$t=0$の周りで有限の値を取るなら、 $$ \sum_{k=0}^{n} \frac{m_k}{k!}t^k $$ は$t=0$の周りで、$M_F\left(t\right)$に収束する。この関数をモーメント母関数という。この名称は、この関数を$k$回微分して$t=0$と置くと、$k$次の原点モーメント$m_k$を得ることによる。 $$ m_k = \left.\frac{d}{dt} M_F\left(t\right)\right|_{t=0} $$ ## 特性関数 $\varphi_F\left(t\right)$ 確率分布$F$に対して $$ \varphi_F\left(t\right)=E\left[e^{itX}\right] $$ を特性関数という。 確率分布$F$の$k$次の原点モーメント $$ m_k = E_F\left[X^k\right] $$ が発散せずに有限の値を取るとする。このとき、特性関数は$k$階微分可能で、$k$回微分して$i^{-k}$を掛けて$t=0$と置くと、$k$次の原点モーメント$m_k$を得る。 $$ m_k = \left.i^{-k}\frac{d}{dt} \varphi_F\left(t\right)\right|_{t=0} $$ モーメント母関数はすべての確率分布に対して存在するとは限らないが、特性関数はすべての確率分布に対して存在する。 特性関数が与えられたとき、それが積分可能なら、累積分布関数$F\left(x\right)$は絶対連続であり、確率密度関数が $$ f\left(x\right)=\frac{1}{2\pi}\int_{-\infty}^{\infty} e^{-itx} \varphi_F\left(t\right)dt $$ で与えられる。 ## 標本空間、再び 確率関数、確率密度関数および累積分布関数は、確率をユークリッド空間の上の関数として扱うことを可能にする。またこのように関数で表された確率分布には、分布の中心やばらつきの大きさなど、分布の特徴を定量的に表現できるようになる。 当初は集合と部分集合から始まり、加法族によってコルモゴロフの公理に基づいて部分集合に確率を定める方法を整備した。そこまでは集合と位相、あるいは離散数学に近かった。それが関数による表現が整備されて、微積分学、あるいは解析学に近くなってきた。確率論はこの成り立ちから、少し広い範囲の数学を横断的に援用する理論となっている。