# 確率分布の特徴
###### tags: `probability-theory`
## 確率分布
次の二行は数学的に同等であり、どちらも$X$と$F$の関係を定める。
* 確率変数 $X$ が確率分布 $F$ に従う。
* 確率分布 $F$ に従う確率変数を $X$ とする。
また次の二行も数学的に同等であり、どちらも確率分布$F$の表現を与える。$F$ が数直線上の離散集合の上の確率分布のとき、
* $F$の確率関数を $p\left(x\right)$ と定める。
* $F$の累積分布関数を $F\left(x\right)$ と定める。
$F$ が数直線上の連続集合の上の確率分布のときも同様である。
* その確率密度関数を $f\left(x\right)$ と定める。
* $F$の累積分布関数を $F\left(x\right)$ と定める。
今回の主人公は確率分布の方。
## 確率分布は様々ある
例えば次の図は、平均の変化に対して、確率密度関数は形状が全く変わらない。

また次の図に表した確率分布では、確率分布の形状が原点を起点に伸び縮みすることで、平均が変化している。このため、形状は似ているが、同一ではない。

さらに次の図に表した確率分布では、平均の変化に伴い、確率密度関数の関数形が変化している。

このように、確率分布の特徴を捉えるには、平均だけでは足りない。
## モーメントを用いた確率分布の特徴の表現
まずは確率分布の特徴を表す4つの量
1. 平均
2. 分散
3. 歪度
4. 尖度
を順に復習しておく。これらはいずれも、モーメントを用いて定義される。
### 期待値
最初は期待値から。確率変数 $X$ の関数 $g\left(X\right)$ の期待値の計算は2通りが考えられる。
1. $Y=g\left(X\right)$ という新しい確率変数を定める。そして$Y$が従う確率分布$F_Y$を変換$g\left(x\right)$と$X$の確率分布$F_X$に基づいて導く。そして$Y$の期待値$E\left[Y\right]$を求める。
2. $E\left[g\left(X\right)\right]$を、そのまま計算する。
通常は、後者の方が段取りが少ない。
$$
E_F\left[g\left(X\right)\right] = \left\{\begin{array}{ll}
\displaystyle \sum_{g\left(x\right)>0} g\left(x\right) p\left(x\right) + \sum_{g\left(x\right)<0} g\left(x\right) p\left(x\right) & \\
\hspace{6cm}\mbox{離散分布} & \\
\displaystyle \int_{g\left(x\right) \geq 0} g\left(x\right) f\left(x\right) dx + \int_{g\left(x\right)<0} g\left(x\right) f\left(x\right) dx & \\
\hspace{6cm}\mbox{連続分布} & \\
\displaystyle \sum_{g\left(x\right)\geq 0, x\in\left\{F\left(x\right)\mbox{の不連続点}\right\}} g\left(x\right) f\left(x\right) + \sum_{g\left(x\right)<0, x\in\left\{F\left(x\right)\mbox{の不連続点}\right\}} g\left(x\right) f\left(x\right) & \\
\displaystyle +\int_{g\left(x\right) \geq 0, x\in\left\{F\left(x\right)\mbox{の連続点}\right\}} g\left(x\right) f\left(x\right) dx + \int_{g\left(x\right)<0, x\in\left\{F\left(x\right)\mbox{の連続点}\right\}} g\left(x\right) f\left(x\right) dx & \\
\hspace{6cm}\mbox{連続と離散が混在する分布} & \\
\end{array}\right.
$$
以下では、離散分布と連続分布のみに限って、説明する。
### 平均
平均は確率分布の1次の原点モーメントである。
$$
\mu = E_F\left[X\right] = \left\{\begin{array}{ll}
\displaystyle \sum_{x>0} x p\left(x\right) + \sum_{x<0} x p\left(x\right) & \\
\hspace{6cm}\mbox{離散分布} & \\
\displaystyle \int_{x \geq 0} x f\left(x\right) dx + \int_{x<0} x f\left(x\right) dx & \\
\hspace{6cm}\mbox{連続分布} &
\end{array}\right.
$$
いずれの定義でも、正の部分の$xp\left(x\right)$または$xf\left(x\right)$と負の部分の$xp\left(x\right)$または$xf\left(x\right)$の、バランスを取る点が確率分布の平均である。つまり平均は、確率分布自身を重みとする標本空間の重心である。
例えば下図のオレンジの曲線のような確率密度関数を考える。

この確率分布の密度関数に青色の直線$y=x$をかけた関数を緑色の曲線で表す。緑色の曲線はオレンジと青の積$x f\left(x\right)$である。$f\left(x\right)$が常に非負、そして全積分が$1$であることから、この定積分は標本空間の重心を与える。確率分布を重みとした標本空間の重心を、その確率分布の平均という。
負の値を取る別の分布では、緑色の曲線の面積の正と負が釣り合う箇所が平均となる。

平均は分布の中心を表す特徴量の一つである。通常はこれを$\mu$と記す。
確率分布の中心を表す特徴量には他に、中央値$\tilde{\mu}$がある。中央値は次の関係式を満たす。
$$
F\left(\tilde{\mu}\right) = \mathrm{Pr}\left[X\leq \tilde{\mu}\right] = 1/2
$$
### 分散
分散は確率分布の2次の中心モーメントである。
$$
\sigma^2 = V_F\left(X\right)=E_F\left[\left(X-E_F\left[X\right]\right)^2\right] = \left\{\begin{array}{ll}
\displaystyle \sum_{x\in\mathcal{X}} \left(x-\mu\right)^2 p\left(x\right) & \mbox{離散分布} \\
\displaystyle \int_{x \in \mathcal{X}} \left(x-\mu\right)^2 f\left(x\right) dx & \mbox{連続分布}
\end{array}\right.
$$
分散は平均からの2乗距離の期待値である。
今回も、平均のときに用いた一つ目の確率分布を考える。確率密度関数は下図のオレンジの曲線で与えられている。

この確率分布の平均は$2$であり、$2$からの2乗距離を青色の曲線で描く。2次関数なので非負であり、遠くに離れるほど大きくなる。緑色の曲線はオレンジと青の積$x f\left(x\right)$であり、これを積分した値が分散である。
分散が大きいとは、緑の曲線の標本区間上での積分が大きいことを表す。そしてそれは、2乗距離の意味で平均から離れた値が生じる確率が大きいことに相当する。これをばらつきが大きいという。
分散は確率分布のばらつきの指標の一つである。通常はこれを$\sigma^2$と記すが、確率分布のパラメータの関数としての表現がある場合にはそちらを優先させることも多い。
### 歪度
歪度は、標準化した確率変数が従う確率分布の3次の原点モーメントである。
$$
{\beta_1}^{1/2}=\frac{E_F\left[\left(X-E_F\left[X\right]\right)^3\right]}{\left(V_F\left(X\right)\right)^{3/2}}=E_F\left[\left(\frac{X-E_F\left[X\right]}{\sqrt{V\left[X\right]}}\right)^3\right]
$$
歪度は3乗距離の期待値である。これを${\beta_1}^{1/2}$と記す。
3乗距離は2乗距離よりも、より離れた値に大きな距離を与える上に、符号によって方向も示唆する。歪度は、3乗距離の期待値$E\left[\left(X-E_F\left[X\right]\right)^3\right]$の計算の中の正の部分と負の部分のバランスで正負のいずれかに傾き、特に距離が大きい値のバランスで絶対値が大きくなる。
$$
E\left[\left(X-E_F\left[X\right]\right)^3\right] = \left\{
\begin{array}{ll}
\sum_{\left(x-E_F\left[X\right]\right)^3>0} \left(x-E_F\left[X\right]\right)^3 p\left(x\right) & \mbox{} \\
\,\,\,\,+\sum_{\left(x-E_F\left[X\right]\right)^3<0} \left(x-E_F\left[X\right]\right)^3 p\left(x\right) & \mbox{離散の場合} \\
\int_{\left(x-E_F\left[X\right]\right)^3>0}\left(x-E_F\left[X\right]\right)^3 f\left(x\right)dx & \\
\,\,\,\,+\int_{\left(x-E_F\left[X\right]\right)^3<0} \left(x-E_F\left[X\right]\right)^3 f\left(x\right)dx & \mbox{離散の場合}
\end{array}
\right.
$$
分散と同じ例で、これを説明する。

緑色の曲線が$\left(x-2\right)^3 f\left(x\right)$である。この関数の標本空間上での定積分が正に大きいと、平均よりとても大きな値が出る確率が大きくなる。分散が表す程度よりも平均から離れた値なので、とても、を付けている。同様に、この定積分が負に大きいと、平均よりもとても小さな値が出る確率が大きくなる。合わせて、歪度の符号は、緑色の関数の正の部分の面積と負の部分の面積の差を表す。
絶対値が大きいと、3乗距離の意味で平均より離れた値が生じる確率が無視できない。歪度が正に大きいと、平均より極端に大きな値が出る確率が大きくなる。逆に負に大きいと、平均より極端に小さな値が出る確率が大きくなる。また歪度が正に大きいと単峰な確率密度は平均より小さい範囲に最大値を持ち、負に大きいと単峰な確率密度は平均より大きい範囲に最大値を持つ。
### 尖度
尖度は、標準化した確率変数が従う確率分布の4次の原点モーメントである。
$$
\beta_2=\frac{E_F\left[\left(X-E_F\left[X\right]\right)^4\right]}{
\left(V_F\left(X\right)\right)^2}=E_F\left[\left(\frac{X-E_F\left[X\right]}{\sqrt{V\left[X\right]}}\right)^4\right]
$$
尖度は4乗距離の期待値である。これを$\beta_2$と記す。
4乗距離は符号なし距離であり、平均から遠く離れた点に2乗距離のさらに2乗の距離を与える。上の3つのグラフと比べて、次のグラフのオレンジの確率密度関数が小さく見えるのは、そのためである。

4乗距離の意味で平均よりとてもとても離れた値が生じる確率が大きくなる。分散が表す程度よりも平均から離れた値に大きな距離を与えた上での期待値なので、とてもとても、を付けている。尖度が大きいと、平均より極端に遠い値が出る確率が大きくなる。これを外れ値が出る確率が大きい、ともいう。またこのことを指して、裾が重い、ともいう。
### 尖度と歪度
確率分布の標本空間が実数全体$\mathscr{R}$であり、ある基準となる確率分布の位置変換と尺度変換で特定される時、尖度と歪度は常に一定となる。
$$
\begin{align}
f\left(x\right) &= \frac{1}{\sigma}f_0\left(\frac{x-\mu}{\sigma}\right) \notag \\
F\left(x\right) &= F_0\left(\frac{x-\mu}{\sigma}\right) \notag
\end{align}
$$
$F_0$は通常、平均が$0$、分散が$1$の確率分布に取る。$X\sim F_0$のとき、$Y=\sigma X+\mu$が従う確率分布は、$F_0$に逆変換$X=\left(Y-\mu\right)/\sigma$を代入する。確率密度関数はその積分が確率を表すので、変数変換で変化してはならない。そのために変換のヤコビアンをかけて、定積分が変化しないことを保証する。
$$
\int_{a}^{b} f\left(x\right) dx = \int_{(a-\mu)/\sigma}^{(b-\mu)/\sigma} f\left(\frac{y-\mu}{\sigma}\right) \frac{1}{\sigma} dy
$$
そして$F$の尖度と歪度は、$F_0$の尖度と歪度に一致する。
### その他
同様に標準化後の5乗距離の期待値や、標準化後の6乗距離の期待値も定義できるが、確率論では4乗距離までに留めるのが通例である。
### 補足:重心について
区間$a, b$上の正の関数$w\left(x\right)$を考える。$f\left(x\right)$は、次の条件を満たすとする。
1. $w\left(x\right)>0$, $x\in\left[a,b\right]$
2. $\int_a^b w\left(x\right) dx = 1$
また別の、特に正負を制限しない関数$g\left(x\right)$を考える。このとき定積分
$$
\int_a^b g\left(x\right)w\left(x\right)dx
$$
を、区間$\left[a,b\right]$上の重み関数$w\left(x\right)$による関数$g\left(x\right)$の重心という。
これは、離散の場合に
1. $w_1, \ldots, w_n$は正の値を取る
2. $w_1, \ldots, w_n$の総和は$1$である
を満たす$n$個の重みを考え、これらの重みを数直線上の位置 $x_1, x_2, \ldots, x_n$ に置いた時の重心を
$$
\sum_{i=1}^n w_i x_i
$$
とすることと等価である。
## 離散分布
標本空間が数直線上の離散値の場合、確率分布の表現には確率関数または累積分布関数を用いることができる。例えば$\mathscr{X}=\left\{0, 1\right\}$の場合、確率関数$p\left(x\right)$は次のように2点のみで正の値を取る。

このときの累積分布関数を描くと、次の図のようになる。

$X=1$の確率を$p$と置く。$p$を変化させると、確率関数と累積分布関数は次のように変化する。


このような確率分布の変化に対して、モーメント特徴量はどう変化するか。この分布の平均、分散、歪度、尖度は次のように変化する。

青の線が平均である。$p$が$0$から$1$に向かうにつれて、$0$から$1$に増加する。
オレンジの線が分散である。$p$の増加につれて増加するが、$p=0.5$で最大となり、それ以降の$p$の増加につれて減少する。$p=0$および$p=1$では、分散は$0$になる。
歪度と尖度は標準化の後の中心モーメントである。標準化後の確率分布は平均と分散に依存しない。
緑の線は歪度である。$p<0.5$では右に歪み、$p>0.5$では左に歪む。
赤の線は尖度である。$p=0.5$が最小値で、$p<0.5$と$p>0.5$の範囲では$p=0.5$から離れるほど、裾が重くなる。
## 連続分布
標本空間が数直線上の実数またはその一部の範囲の場合、確率分布の表現には確率密度関数または累積分布関数を用いることができる。例えば$\mathscr{X}=\mathscr{R}$の場合、確率密度関数$f\left(x\right)$は有限の$x$に対して正の値を取る。

累積分布関数は、確率密度関数の$\left(-\infty, x\right]$の範囲での定積分となる。

$x$の増加につれて、$F\left(x\right)$も増加する。
この確率分布は標本空間が実数集合$\mathscr{R}$の全体なので、位置変換
$$
Y = X + \mu
$$
を施しても、確率分布の形状は変化しない。


しかし、標本空間が有界の場合は標本空間自体もずれていく。

原点からの尺度変換
$$
Y = X \times \sigma
$$
を施すと、原点を中心に伸び縮みする。


これらの変換に対して、平均、分散、歪度、尖度を見てみる。位置変換では、平均以外は変化しない。

対称な分布の場合、尺度変換を分布の中心から施せば、分散以外は変化しない。

対称な分布は、このような性質を有する。
標本空間が有界の場合は、標本空間の一方の端点からの尺度変換ならば同様に分散のみが変化する。

しかし例えば分布の平均が$0$ではないのに、$0$からの距離を尺度変換すると、分布の平均も変化する。

分布の形状が変わる場合には、歪度と尖度は変化する。次の図は、形状を変化させるように変換した例である。

確率密度関数に対応する累積分布関数も、変曲点の有無など、形状に変化が生じている。

この変換に対応して、平均、分散、歪度、尖度を描く。

黄色は平均と分散である。単調に増加している。緑は歪度で、$\alpha$の増加につれて減少していき、対称に近づいていく様子が窺える。オレンジは尖度で、$\alpha$の増加につれて増加しており、裾が重くなっていく様子が窺える。
これらの変化を、モーメント特徴量の意味と密度関数のグラフに照らして、確認してほしい。
## その他
モーメント以外にも、キュムラント、裾の確率など様々ある。ただしこのテキストには現れないので、ここでは言及しない。