確率密度関数と期待値

# 確率密度関数と期待値 ###### tags: `probability-theory` ## 標本空間標本空間$\mathcal{X}$を、実数集合$\mathcal{R}$の部分集合とする。 * $\mathcal{X}=\left\{x; 0\leq x \leq 1\right\}$ $0$以上$1$以下の実数 * $\mathcal{X}=\left\{x; 0 < x\right\}$ 正の実数 * $\mathcal{X}=\left\{x; 0 \leq x\right\}$ 非負の実数 * $\mathcal{X}=\mathcal{R}$ 実数全体いずれも、集合のすべての要素に番号付けすると、要素の個数が数えられない無限個になる、非加算集合と呼ばれる特徴を共通に持つ。 ## 確率密度関数標本空間$\mathcal{X}$が連続集合の場合、任意の要素$x$に対して、確率変数$X$がその値を取る確率を与える関数$p\left(x\right)$を定めることができない。要素数が非可算無限個あるため、総和が必ず$\infty$に発散してしまうためである。よって任意の点を取るという事象に確率が与えられない。その代わりに、確率変数$X$が$\left(a, b\right]$に含まれるという事象を考える。この事象の確率を $$ \mathrm{Pr}\left[X\in\left(a, b\right]\right] = \int_{a}^{b} f\left(x\right)dx $$ と与えるような関数$f\left(x\right)$を、確率密度関数と言う。 ## 累積分布関数大小が定められた標本空間$\mathcal{X}$の任意の要素$x$に対して、確率変数$X$がその値またはその値より小さい値を取る確率を与える関数$F\left(x\right)$を累積分布関数と言う。ここでは $$ F\left(x\right) = \mathrm{Pr}\left[X\leq x\right] $$ と定める。確率関数と累積分布関数の定義域は共に、標本空間上である。ただし、累積分布関数は整数の数直線上ではなく、実数の数直線上に描かれて、定義域も実数に拡張されて扱われることが少なくない。 (図を挿入) 確率関数が与えられると、確率関数から累積分布関数が求まる。 $$ F\left(x\right) = \int_{u\leq x} f\left(u\right) du $$ 逆に累積分布関数が与えられると、累積分布関数から確率密度関数が求まる。 $$ f\left(x\right) = \frac{d}{dx}F\left(x\right) $$ ## 確率変数の期待値 $$ E\left[X\right] = \int_{x\in\mathcal{X}} x f\left(x\right) dx $$ 期待値が重心の意味を持つためには、標本空間は比例尺度または間隔尺度でなければならない。距離が定義されている順序集合でなければならない、と言い換えてもいい。 ## 期待値という演算期待値$E\left[\cdot\right]$という演算は、確率変数の期待値を用いる際に使える。これは確率変数以外の、より広い量の期待値の計算にも使える。定数$a$の期待値は $$ E\left[a\right] = \int_{x\in\mathcal{X}} a f\left(x\right) dx = a \int_{x\in\mathcal{X}} f\left(x\right)dx = a\times 1 = a $$ となり、$a$自身となる。定数$a$および$b$を用いた線形変換$aX+b$の期待値は $$ E\left[a X + b\right] = \int_{x\in\mathcal{X}} \left(a x + b\right) f\left(x\right) dx= a \int_{x\in\mathcal{X}} x f\left(x\right)dx + b \int_{x\in\mathcal{X}} f\left(x\right)dx = a\times E\left[X\right] + b $$ となり、$X$の期待値の$a$倍に$b$を加えた値となる。このように期待値という計算は、線形性を有する。 $$ E\left[aX + b\right] = a E\left[X\right] + b $$ ## 確率変数の変換の期待値をどう求めるか確率変数$X$が従う確率分布の確率関数を$p_X\left(x\right)$と置く。今、$Y=X^2$として定めた新たな確率変数$Y$の期待値を求めたい、とする。期待値の定義に従えば、確率変数$Y$が従う確率分布の確率関数 $p_Y\left(y\right)$ を導いて、 $$ E\left[Y\right] = \int_{y\in\mathcal{Y}} y f_Y\left(y\right)dy $$ を計算するのが正しい。この方針に従うと、元の確率変数$X$が非負の値を取るなら、 $$ X=\sqrt{Y} $$ であるから、 $$ f_Y\left(y\right) = f_X\left(\sqrt{Y}\right) $$ を導き、 $$ E\left[Y\right] = \int_{y\in\mathcal{Y}} y f_Y\left(y\right)dy = \int_{y\in\mathcal{Y}} y f_X\left(\sqrt{y}\right) dy $$ を計算する。しかし、$Y=X^2$という関係は確定的なので、 $$ E\left[Y\right] = E\left[X^2\right] = \int_{x\in\mathcal{X}} x^2 f_X\left(x\right)dx $$ を計算しても良い。一つ目の計算式と二つ目の計算式が、値として同じになるのは、$y=x^2$より明らかである。 $$ \int_{y\in\mathcal{Y}} y f_X\left(\sqrt{y}\right) dy = \int_{x\in\mathcal{X}} x^2 f_X\left(x\right) dx $$ 期待値の計算を、期待値の中の量が従う確率分布の確率関数を導いてから、取り得る値と確率の積和を計算する、とは憶えるのではなく、中の量の値と変数の確との積和であり、計算が簡単な表現を得てから計算するのがよい、と憶えると良い。以上の議論は$Y=aX+b$という線形変換でも同様である。$Y$の分布を求めてから、$Y$の期待値を計算しようとはせず、$aX+b$の期待値を求めるのがいい。 ## 確率分布の平均確率変数の期待値のこと。しばしば$\mu$と記す。 $$ E_X\left[X\right] = \mu $$ 計算は上の通り。 $$ E_X\left[X\right] = \int_{x\in\mathcal{X}} xf\left(x\right) dx $$ ## 確率分布の分散確率変数の期待値からの偏差の2乗(平方)の期待値のこと。 $$ V\left[X\right] = E\left[\left(X-E[\left[X\right]\right)^2\right] = E\left[\left(X-\mu\right)^2\right] $$ 平均からの2乗距離の期待値であり、確率変数が平均してどれぐらい自身の期待値かを離れているかを表す。単位は距離の2乗である。計算は何通りかある。 $$ E_X\left[X\right] = \int_{x\in\mathcal{X}} x f\left(x\right)dx $$ を求めるのは平均と同じ。しかし分散の計算には、これを$\mu$と置いて、次に $$ V_X\left[X\right] = E\left[\left(X-\mu\right)^2\right] = \int_{x\in\mathcal{X}} \left(x-\mu\right)^2 p\left(x\right) dx $$ を計算するか、 $$ E\left[\left(X-\mu\right)^2\right] = E\left[X^2\right] - \mu^2 $$ と展開してから $$ V_X\left[X\right] = E\left[X^2\right] - \mu^2 = \sum_{x\in\mathcal{X}} x^2p\left(x\right) - \mu^2 $$ を計算するか、または $$ E\left[\left(X-\mu\right)^2\right] = E\left[X\left(X-1\right)\right] + \mu - \mu^2 $$ と展開してから $$ V_X\left[X\right] = E\left[X^2\right] + \mu - \mu^2 = \sum_{x\in\mathcal{X}} x\left(x-1\right) p\left(x\right) + \mu - \mu^2 $$ を計算するか、の３通りがある。