# 期待値とモーメント (積率) ###### tags: `probability-theory` ## 確率変数の期待値 ある確率分布$F$に従う確率変数$X$の期待値 $$ E\left[X\right] $$ を分布$F$の平均といい、$\mu$で表す。 確率変数が$x=a$からどれぐらいずれることが期待されるかを、 $$ E\left[X-a\right] $$ を計算すると評価できる。例えば$X$がゴルフのあるクラブを用いてスイングした時のゴルフボールの飛距離として、 $$ E\left[X-180\right]=-3.5 $$ である場合は、飛距離と180mとの差の期待値は-3.5m、言い換えると、飛距離は平均して180mに3.5mだけ足りない、となる。 ## 確率変数に基づくモデル化と評価 ### モデル1 籤 ![](https://hackmd.io/_uploads/BkClhhIvn.jpg) ある籤は、確率$p$で当たり、確率$1-p$で外れが出るとする。また1回の抽籤に$c$円が必要で、当たると$w$円をもらえるが、外れると何も貰えない。 ```graphviz digraph A { rankdir = LR node [shape = rectangle, style = rounded] "籤" [shape = ellipse] "籤" -> "当たり" [label = "p"] "当たり" -> "-c + w" "籤" -> "外れ" [label = "1-p"] "外れ" -> "-c" subgraph cluster_2 { label = "抽籤の結果" "当たり" "外れ" } subgraph cluster_3 { label = "得失差" "-c + w" "-c" } } ``` 籤の結果を表す確率変数を$X$とし、この確率変数は当たりの時に$X=1$となり、外れの時に$X=0$となる。 ```graphviz digraph A { rankdir = LR node [shape = rectangle, style = rounded] X [shape = ellipse] X -> 1 [label = "p"] 1 -> "-c + w * 1" X -> 0 [label = "1-p"] 0 -> "-c + w * 0" subgraph cluster_1 { label = "籤" X } subgraph cluster_2 { label = "抽籤の結果" 1 0 } subgraph cluster_3 { label = "得失差" "-c + w * 1" "-c + w * 0" } } ``` このような状況を確率変数 $X$ を用いて表すと、籤を1回引く人の得失差は $$ -c + wX $$ と表現できる。この籤の期待損失は、得失差の期待値を求めて $$ E\left[-c+wX\right] = -c + w E\left[X\right] = pw - c $$ となる。 ### モデル2 計測誤差 長さを計測する機器がある。真値が$\mu_0$のものを計測すると、平均は$\mu$になるが、誤差を伴う。計測を確率変数$X$、誤差を確率変数$E$で表すと、 $$ X = \mu + E $$ の関係にある。 ![](https://hackmd.io/_uploads/H16cjh8D3.gif) この誤差$E$の従う確率分布は、$\mu_0$の影響を受けないものと仮定する。長いものを測ろうが、短いものを測ろうが、誤差の中心は$0$で、$E$が従う確率分布は真値$\mu$に依存せず共通とする。 このとき、計測値と真値の差は $$ E\left[X-\mu\right] = E\left[E\right] = 0 $$ また計測値と真値の差の2乗は $$ E\left[\left(X-\mu\right)^2\right] = E\left[E^2\right] = \sigma^2 $$ という期待値を持つ。 ### モデル3 嵌合 嵌合は私たちの身の回りにとても多い、複数のパーツをはめ合わせることである。 ![](https://hackmd.io/_uploads/ryO453Lwh.jpg) たとえばこのような持ち帰り食品の容器は、蓋の部分と器の部分は別々の製造工程で作られて、最後にはめ合わせる。もし蓋の部分の外径の内側の直径$X$の平均が$\mu_X$、容器の部分の外径の外側の直径$Y$の平均が$\mu_Y$であったとすると、 $$ \mathrm{Pr}\left[Y<X\right] $$ は蓋が嵌まらない確率を表わし、 $$ \mathrm{E}\left[Y-X\right] $$ は蓋と器の間の隙間の平均値を表し、 $$ \mathrm{E}\left[\left(Y-X\right)^2\right] $$ は隙間の大きさの二乗の期待値を表す。 ## 点と点の間の距離 1次元ユークリッド空間(=数直線)上の2点の間の距離を考える。すぐに思いつく距離は次の3種類。 $$ \begin{align} d_1\left(x, a\right) &= x-a \notag \\ d_A\left(x, a\right) &= \left|x-a\right| \notag \\ d_2\left(x, a\right) &= \left(x-a\right)^2 \notag \end{align} $$ $$ d_1\left(x, a\right) = x-a $$ は符号付き距離という。これは、多めと少なめが相殺される。 どれぐらい離れているかを調べる場合には、絶対距離 $$ d_a\left(x, a\right) = \left|x-a\right| $$ もしくは二乗距離 $$ d_a\left(x, a\right) = \left(x-a\right)^2 $$ など、方向を持たない距離が用いられる。 点$x$と点$a=2$との距離を、グラフに描いてみた。横軸は$x$、縦軸は$d$。 ![](https://hackmd.io/_uploads/BkScgILw3.png) 距離には符号のない距離と、符号のある距離がある。符号がないとは、向きがないことと同じである。<font color="red">赤色</font>と<font color="blue">青色</font>の向きのない距離を用いると、$x=0$と$x=4$は、$a=2$に対して同じ距離を持つ。<font color="green">緑色</font>の向きのある距離を用いると、この2点は$a=2$を堺に、互いに逆方向にあることが分かる。 ## 確率変数と点の間の距離 確率変数$X$は、一つの値に留まることはなく、試行の都度、移ろう。そのため確率変数と$x=a$との距離を考えるには、それらの間の距離の期待値を考えるしかない。 絶対距離の期待値 $$ E\left[\left|X-a\right|\right] $$ は、場合分けと条件付けの2つを用いて計算する。 $$ E\left[\left|X-a\right|\right] = E\left[X-a\left|X>a\right.\right]Pr\left[X>a\right] + E\left[a-X\left|X\leq a\right.\right]Pr\left[X\leq a\right] $$ 二乗距離の期待値 $$ E\left[\left(X-a\right)^2\right] $$ はそのまま計算できることが多い。このために、確率論では後者を確率変数$X$と点$x=a$の間の離れ具合の評価に用いることが多い。 他に4乗距離の期待値 $$ E\left[\left(X-a\right)^2\right] $$ や6乗距離の期待値 $$ E\left[\left(X-a\right)^2\right] $$ も、離れ具合の評価に用い得るが、これらは2乗距離に加えて必要ならば用いる程度である。 6次までの距離関数のグラフ。 ![](https://hackmd.io/_uploads/SJPwcIUwh.png) 被積分関数のグラフ。 ![](https://hackmd.io/_uploads/r1OriL8w2.png) 赤の点線は、確率変数$X$が従う確率分布の密度関数。 ところで、例えば確率変数$X$と点$x=a$の間の2乗距離は次のように計算する。 $$ E\left[\left(X-a\right)^2\right] = E\left[X^2-2X+a^2\right] = E\left[X^2\right] - 2 a E\left[X\right] + a^2 $$ この計算で必要になるのは、$E\left[\left(X-a\right)^2\right]$の計算、または$E\left[X\right]$と$E\left[X^2\right]$の計算である。この後者をモーメント、または原点モーメントという。 ## モーメント 確率変数のべき乗の期待値をモーメントという。確率変数そのもののべき乗、確率変数の期待値が$0$になるように変換してからのべき乗、確率変数を標準化してからのべき乗、それぞれで名前が異なる。 * 原点モーメント → 期待値の計算の基本量、確率分布の特徴の比較 * 中心モーメント → 平均を揃えた後の確率分布の特徴の比較 * 標準化モーメント → 平均と分散を揃えた後の確率分布の特徴の比較 ### 原点モーメント ある確率分布$F$に従う確率変数$X$の正の整数によるべき変換 $X^k$ の期待値 $$ E\left[X^k\right] $$ を、確率分布$F$の$k$次の原点モーメントという。最もよく用いられる原点モーメントは$k=1$とした平均 $$ \mu = E\left[X\right] $$ である。 ($y=x, x^2, x^3, x^4$と$y=f\left(x\right)$を重ね描いたグラフと、$y=xf\left(x\right), x^2f\left(x\right), x^3f\left(x\right), x^4f\left(x\right)$を重ね描いたグラフの2枚を挿入) ![](https://hackmd.io/_uploads/S1WZkU8v3.png) ![](https://hackmd.io/_uploads/SyULk8Uv2.png) ### 中心モーメント ある確率分布$F$に従う確率変数$X$の、平均$\mu$からの偏差$X-\mu$の正の整数によるべき変換 $\left(X-\mu\right)^k$ の期待値 $$ E\left[\left(X-\mu\right)^k\right] = \mu $$ を、確率分布$F$の$k$次の中心モーメントという。$k=1$のときは$0$となるため、中心モーメントは$k\geq 2$の場合のみを考える。 最もよく用いられる中心モーメントは$k=2$とした分散 $$ E\left[\left(X-\mu\right)^2\right] = V\left[X\right] = \sigma^2 $$ である。分散を$\sigma^2$と置くことが多い。 ($y=x-\mu, \left(x-\mu\right)^2, \left(x-\mu\right)^3, \left(x-\mu\right)^4$と$y=f\left(x\right)$を重ね描いたグラフと、$y=\left(x-\mu\right)f\left(x\right), \left(x-\mu\right)^2f\left(x\right), \left(x-\mu\right)^3f\left(x\right), \left(x-\mu\right)^4f\left(x\right)$を重ね描いたグラフの2枚を挿入) ### 標準化モーメント ある確率分布$F$に従う確率変数$X$を、平均$\mu$と標準偏差$\sigma$を用いた標準化$\left(X-\mu\right)/\sigma$の正の整数によるべき変換 $\left\{\left(X-\mu\right)/\sigma\right\}^k$ の期待値 $$ E\left[\left(\frac{X-\mu}{\sigma}\right)^k\right] $$ を、確率分布$F$の$k$次の中心モーメントという。$k=1$のときは$0$、$k=2$のときは$1$になるので、標準化モーメントは$k\geq 3$の場合のみを考える。 $k=3$の標準化モーメント $$ E\left[\left(\frac{X-\mu}{\sigma}\right)^3\right] = \beta_1^{1/2} $$ を歪度、$k=4$の標準化モーメント $$ E\left[\left(\frac{X-\mu}{\sigma}\right)^4\right] = \beta_2 $$ を尖度という。それぞれ $\beta_1^{1/2}$ および $\beta_2$ で表す。 ($y=\left(x-\mu\right)^2/\sigma^2, \left(x-\mu\right)^4/\sigma^4, \left(x-\mu\right)^6/\sigma^6$を重ね描いたグラフを挿入) ## 原点モーメントと中心モーメント 確率変数の期待値$E\left[X\right]$を$\mu$と置く。 原点モーメントを $$ m_k = E\left[X^k\right], k=1, 2, \ldots $$ と置く。$\mu=m_1$である。また中心モーメントを $$ \mu_k = E\left[\left(X-\mu\right)^k\right], k=1, 2, \ldots $$ と置く。$\mu_1=0$である。 二項定理から $$ \left(X-\mu\right)^k = \sum_{j=0}^k {}_kC_{j} X^j\left(-\mu\right)^{k-j} $$ であり、中心モーメントは $$ E\left[\left(X-\mu\right)^k\right] = E\left[\sum_{j=0}^k {}_kC_{j} X^j\left(-\mu\right)^{k-j}\right] = \sum_{j=0}^k {}_kC_{j} E\left[X^j\right]\left(-\mu\right)^{k-j} = \sum_{j=0}^k {}_kC_{j} m_j \left(-\mu\right)^{k-j} $$ のように原点モーメントで表せる。ただし$j=k-1$および$j=k$の項のみ、まとめることができて $$ {}_kC_{k-1} m_1 \left(-\mu\right)^{k-1} + {}_kC_{k} \left(-\mu\right)^{k} = k\mu\left(-\mu\right)^{k-1} - \mu \left(-\mu\right)^{k-1} = - \left(k-1\right) \left(-\mu\right)^{k} $$ となる。 例えば $$ \mu_2 = m_2-\mu^2 $$ $$ \mu_3 = m_3-3m_2\mu+2\mu^3 $$ また $$ \mu_4 = m_4-4m_3\mu+6m_2^2-3\mu^4 $$ などである。 中心モーメントから原点モーメントを求めるには、中心モーメントの定義から導く関係式を、原点モーメントについて順に解いていく。 $$ m_2 = \mu_2 + \mu^2 $$ $$ m_3 = \mu_3 + 3\left(\mu_2+\mu^2\right)\mu-2\mu^3 = \mu_3 + 3\mu_2\mu + \mu^3 $$ $$ \begin{align} m_4 &= \mu_4 + 4\left(\mu_3 + 3\mu_2\mu+\mu^3\right)\mu - 6 \left(\mu_2+\mu^2\right)^2 + 3\mu^4 \notag \\ & = \mu_4 + 4\mu_3\mu +12 \mu_2\mu^2 + 4\mu^4-6\mu_2^2 - 12\mu_2\mu^2 -6\mu^4 + 3\mu^4 \notag \\ &= \mu_4+4\mu_3\mu -6 \mu_2^2 + \mu^4 \end{align} $$ などである。