# 確率関数と期待値
###### tags: `probability-theory`
## 標本空間
標本空間$\mathcal{X}$を、整数集合$\mathcal{Z}$の部分集合とする。
* $\mathcal{X}=\left\{0, 1\right\}$ コイン投げ$1$回の表が出る回数
* $\mathcal{X}=\left\{1, 2, 3, 4, 5, 6\right\}$ サイコロ投げ$1$回の出目
* $\mathcal{X}=\left\{1, 2, 3, 4, 5, 6, \ldots 12\right\}$ サイコロ投げ$2$回の出目の和
* $\mathcal{X}=\left\{0, 1, 2, \ldots, n\right\}$ コイン投げ$n$回の表が出る回数
* $\mathcal{X}=\left\{0, 1, 2, \ldots,\right\}$ 1時間あたりの来客数、1年あたりの宇宙線の捕捉回数 (上限なし)
* $\mathcal{X}=\left\{1, 0\right\}$ 真偽 (真を1とする場合)
* $\mathcal{X}=\left\{0, -1\right\}$ 真偽 (真を0とする場合)
* $\mathcal{X}=\left\{0, 1, 2, 3, ..., 2500\right\}$ $mm$単位の身長測定や$100g$単位での体重測定
標本空間$\mathcal{X}$は、小数点以下第1位までの数字の集合でも構わない。
$$
\mathcal{X} = \left\{x; y = 0.1 x, x\in \mathcal{Z}\right\}
$$
いずれも、集合のすべての要素に番号付けができる、可算集合と呼ばれる特徴を共通に持つ。番号付けができる集合であれば、天気の種類なども例に挙げていいかもしれないが、番号が間隔尺度か比例尺度の意味を持たない集合は、以下の議論の対象ではない。
## 確率関数
標本空間$\mathcal{X}$の任意の要素$x$に対して、確率変数$X$がその値を取る確率を与える関数$p\left(x\right)$を確率関数と言う。ここでは
$$
p\left(x\right) = \mathrm{Pr}\left[X=x\right]
$$
と定める。教科書によっては、記号$f\left(x\right)$を用いて
$$
f\left(x\right) = \mathrm{Pr}\left[X=x\right]
$$
と定めることがある。これは統計学や、もっと高尚な確率論を意識しての定義である。ここでは$f\left(x\right)$と$p\left(x\right)$は別のものとして扱うとする。
## 累積分布関数
大小が定められた標本空間$\mathcal{X}$の任意の要素$x$に対して、確率変数$X$がその値またはその値より小さい値を取る確率を与える関数$F\left(x\right)$を累積分布関数と言う。ここでは
$$
F\left(x\right) = \mathrm{Pr}\left[X\leq x\right]
$$
と定める。
標本空間内の順序が$\prec$で与えられているときは
$$
F\left(x\right) = \mathrm{Pr}\left[X\preceq x\right]
$$
と記す。記号$\prec$は順序を表す記号で、記号$<$は大小という特別な順序を表す記号である。
確率関数と累積分布関数の定義域は共に、標本空間上である。ただし、累積分布関数は整数の数直線上ではなく、実数の数直線上に描かれて、定義域も実数に拡張されて扱われることが少なくない。
(図を挿入)
確率関数が与えられると、確率関数から累積分布関数が求まる。
$$
F\left(x\right) = \sum_{u\leq x} p\left(x\right)
$$
逆に累積分布関数が与えられると、累積分布関数から確率関数が求まる。
$$
p\left(x\right) = F\left(x\right) - F\left(x-\right) = F\left(x\right) - \lim_{a\rightarrow 0+} F\left(x-a\right)
$$
## 確率変数の期待値
$$
E\left[X\right] = \sum_{x\in\mathcal{X}} x p\left(x\right)
$$
期待値が重心の意味を持つためには、標本空間は比例尺度または間隔尺度でなければならない。距離が定義されている順序集合でなければならない、と言い換えてもいい。
## 期待値という演算
期待値$E\left[\cdot\right]$という演算は、確率変数の期待値を用いる際に使える。これは確率変数以外の、より広い量の期待値の計算にも使える。
定数$a$の期待値は
$$
E\left[a\right] = \sum_{x\in\mathcal{X}} a p\left(x\right) = a \sum_{x\in\mathcal{X}} p\left(x\right) = a\times 1 = a
$$
となり、$a$自身となる。
定数$a$および$b$を用いた線形変換$aX+b$の期待値は
$$
E\left[a X + b\right] = \sum_{x\in\mathcal{X}} \left(a x + b\right) p\left(x\right) = a \sum_{x\in\mathcal{X}} x p\left(x\right) + b \sum_{x\in\mathcal{X}} p\left(x\right) = a\times E\left[X\right] + b
$$
となり、$X$の期待値の$a$倍に$b$を加えた値となる。
このように期待値という計算は、線形性を有する。
$$
E\left[aX + b\right] = a E\left[X\right] + b
$$
## 確率変数の変換の期待値をどう求めるか
確率変数$X$が従う確率分布の確率関数を$p_X\left(x\right)$と置く。今、$Y=X^2$として定めた新たな確率変数$Y$の期待値を求めたい、とする。
期待値の定義に従えば、確率変数$Y$が従う確率分布の確率関数 $p_Y\left(y\right)$ を導いて、
$$
E\left[Y\right] = \sum_{y\in\mathcal{Y}} y p_Y\left(y\right)
$$
を計算するのが正しい。この方針に従うと、元の確率変数$X$が非負の値を取るなら、
$$
X=\sqrt{Y}
$$
であるから、
$$
p_Y\left(y\right) = \mathrm{Pr}\left[Y=y\right] = \mathrm{Pr}\left[X=\sqrt{y}\right] = p_X\left(\sqrt{Y}\right)
$$
を導き、
$$
E\left[Y\right] = \sum_{y\in\mathcal{Y}} y p_Y\left(y\right) = \sum_{y\in\mathcal{Y}} y p_X\left(\sqrt{y}\right)
$$
を計算する。
しかし、$Y=X^2$という関係は確定的なので、
$$
E\left[Y\right] = E\left[X^2\right] = \sum_{x\in\mathcal{X}} x^2 p_X\left(x\right)
$$
を計算しても良い。一つ目の計算式と二つ目の計算式が、値として同じになるのは、$y=x^2$より明らかである。
$$
\sum_{y\in\mathcal{Y}} y p_X\left(\sqrt{y}\right) = \sum_{x\in\mathcal{X}} x^2 p_X\left(x\right)
$$
期待値の計算を、期待値の中の量が従う確率分布の確率関数を導いてから、取り得る値と確率の積和を計算する、とは憶えるのではなく、中の量の値と変数の確との積和であり、計算が簡単な表現を得てから計算するのがよい、と憶えると良い。
以上の議論は$Y=aX+b$という線形変換でも同様である。$Y$の分布を求めてから、$Y$の期待値を計算しようとはせず、$aX+b$の期待値を求めるのがいい。
## 確率分布の平均
確率変数の期待値のこと。しばしば$\mu$と記す。
$$
E_X\left[X\right] = \mu
$$
計算は上の通り。
$$
E_X\left[X\right] = \sum_{x\in\mathcal{X}} xp\left(x\right)
$$
## 確率分布の分散
確率変数の期待値からの偏差の2乗(平方)の期待値のこと。
$$
V\left[X\right] = E\left[\left(X-E[\left[X\right]\right)^2\right] = E\left[\left(X-\mu\right)^2\right]
$$
平均からの2乗距離の期待値であり、確率変数が平均してどれぐらい自身の期待値かを離れているかを表す。単位は距離の2乗である。
計算は何通りかある。
$$
E_X\left[X\right] = \sum_{x\in\mathcal{X}} xp\left(x\right)
$$
を求めるのは平均と同じ。しかし分散の計算には、これを$\mu$と置いて、次に
$$
V_X\left[X\right] = E\left[\left(X-\mu\right)^2\right] = \sum_{x\in\mathcal{X}} \left(x-\mu\right)^2 p\left(x\right)
$$
を計算するか、
$$
E\left[\left(X-\mu\right)^2\right] = E\left[X^2\right] - \mu^2
$$
と展開してから
$$
V_X\left[X\right] = E\left[X^2\right] - \mu^2 = \sum_{x\in\mathcal{X}} x^2p\left(x\right) - \mu^2
$$
を計算するか、または
$$
E\left[\left(X-\mu\right)^2\right] = E\left[X\left(X-1\right)\right] + \mu - \mu^2
$$
と展開してから
$$
V_X\left[X\right] = E\left[X^2\right] + \mu - \mu^2 = \sum_{x\in\mathcal{X}} x\left(x-1\right) p\left(x\right) + \mu - \mu^2
$$
を計算するか、の3通りがある。