多変量の離散分布

# 多変量の離散分布 ###### tags: `probability-theory` 離散分布は、標本空間が離散集合の場合に、要素に座標を与えて、座標の確率を返す関数を定義する。事象の考え方はそのまま適用される。 ## 二変量 ### 同時確率密度関数と同時累積分布関数 2つの確率変数の組$\left(X_1, X_2\right)$が従う確率分布は、2次元平面上に定義される。その確率分布の同時確率関数とは、$X_1\leq x_1$かつ$X_2\leq x_2$という事象の確率を次のような積分で表現できる関数$p\left(x_1, x_2\right)$のことをいう。 $$ \mathrm{Pr}\left[X_1\leq x_1, X_2\leq x_2\right] = \sum_{-\infty}^{x_1}\sum_{-\infty}^{x_2}p\left(u_1, u_2\right)du_1 du_2 $$ 例えば正方形の領域$\left[1,m\right]\times\left[1,m\right]$の整数の組で作られる点の上で$p\left(x_1,x_2\right)\equiv 1/m^2$という関数を考える。下図は$m=3$の場合を示している。 ![](https://hackmd.io/_uploads/r1ypawE42.png) この関数はこの領域の上で非負であり、この領域上のすべての整数の組の点での総和は$1$となる。正方形内に点が$m^2$個あり、すべての点で関数の値が$1/m^2$なので、総和が$1$となることは、計算するまでもない。上の確率を計算してみる。 $$ \begin{align} \mathrm{Pr}\left[X_1\leq x_1, X_2\leq x_2\right] & = \sum_{1}^{x_1}\sum_{1}^{x_2} \frac{1}{m^2} \notag \\ & = \frac{x_1 x_2}{m^2} \end{align} $$ となる。これが同時累積分布関数である。 ![](https://hackmd.io/_uploads/r1fBydV4h.png) ### 周辺確率密度関数と条件付き確率密度関数 2つの添え字$a, b$を考える。$a$と$b$は片方が$1$ならもう一方は$2$となる。 $X_a$の周辺確率密度関数は、$X_1$および$X_2$の同時密度関数から次のように導かれる。 $$ p\left(x_{a}\right) = \sum_{x_b}\left(x_1, x_2\right) $$ また$X_b$を所与としたときの、$X_a$の条件付き確率密度は、$X_1$および$X_2$の同時密度から次のように導かれる。 $$ p\left(x_{a}\left|x_{b}\right.\right) = \frac{p\left(x_1, x_2\right)}{p\left(x_{b}\right)} $$ これも同じ正方形上の連続一様分布で考えてみる。 $$ p\left(x_1\right) = \sum_{1}^{m} \frac{1}{m^2} = \frac{1}{m} $$ $$ f\left(x_1\left|x_2\right.\right) = \frac{1/m^2}{1/m} = \frac{1}{m} $$ どちらも$1/m$になる。 ![](https://hackmd.io/_uploads/HydR1OENn.png) このこと $$ f\left(x_1\left|x_2\right.\right) = f\left(x_1\right) $$ は、正方形上の一様分布は、確率変数同士が互いに独立なことを意味する。 ### 周辺累積分布関数と条件付き累積分布関数周辺確率密度関数から導かれる累積分布関数を周辺累積分布関数と呼び、条件付き確率密度関数から導かれる累積分布関数を条件付き確率密度関数と呼ぶことがある。周辺分布の累積分布関数、条件付き分布の累積分布関数と少し短く呼ばれることもある。 ## 多変量 2変量の場合の単純な拡張で、多変量の場合も説明しておく。 ### 同時確率密度関数 $$ \mathrm{Pr}\left[X_1\leq x_1, X_2\leq x_2, \ldots, X_p\leq x_p\right] = \sum_{u_1=-\infty}^{x_1}\sum_{u_2=-\infty}^{x_2}\cdots\sum_{u_p=-\infty}^{x_p} p\left(u_1, u_2, \ldots, u_p\right) $$ ### 同時累積分布関数 $$ F\left(x_1, x_2, \ldots, x_p\right) = \mathrm{Pr}\left[X_1\leq x_1, X_2\leq x_2, \ldots, X_p\leq x_p\right] $$ ### 周辺確率密度関数 2つの添え字集合$A, B$を$A\cup B=\left\{1,2,\ldots,p\right\}$、$A\cap B=\emptyset$を満たすように定める。$A$と$B$は添え字集合全体の被覆ともいう。集合$A$の大きさを$q$、集合$B$の大きさを$r$とする。 $$ A = \left\{a_1, a_2, \ldots, a_q\right\}, \,\, B = \left\{b_1, b_2, \ldots, b_r\right\} $$ $q+r=p$である。 $A$に含まれる変数の周辺同時確率密度関数は、全体の同時密度関数から次のように導かれる。 $$ p\left(x_{a_1}, x_{a_2}, \ldots, x_{a_q}\right) = \sum_{x_{b_1}}\sum_{x_{b_2}}\cdots\sum_{x_{b_r}} f\left(x_1, x_2, \ldots, x_p\right) $$ ### 条件付き確率密度関数 $B$に含まれる変数を所与としたときの、$A$に含まれる変数の条件付き確率密度は、全体の同時密度から次のように導かれる。 $$ f\left(x_{a_1}, x_{a_2}, \ldots, x_{a_q}\left|x_{b_1}, x_{b_2}, \ldots, x_{b_r}\right.\right) = \frac{f\left(x_1, x_2, \ldots, x_p\right)}{f\left(x_{b_1}, x_{b_2}, \ldots, x_{b_r}\right)} $$ ### 周辺累積分布関数 $$ F\left(x_{a_1}, x_{a_2}, \ldots, x_{a_q}\right) = \sum_{u_{a_1}=-\infty}^{x_{a_1}}\sum_{u_{a_2}=-\infty}^{x_{a_2}}\cdots\sum_{u_{a_q}=-\infty}^{x_{a_q}} f\left(u_{a_1}, u_{a_2}, \ldots, u_{a_q}\right) $$ ### 条件付き累積分布関数 $$ F\left(x_{a_1}, x_{a_2}, \ldots, x_{a_q}\left|x_{b_1}, x_{b_2}, \ldots, x_{b_r}\right.\right) = \sum_{u_{a_1}=-\infty}^{x_{a_1}}\sum_{u_{a_2}=-\infty}^{x_{a_2}}\cdots\sum_{u_{a_q}=-\infty}^{x_{a_q}} f\left(u_{a_1}, u_{a_2}, \ldots, u_{a_q}\left|x_{b_1}, x_{b_2}, \ldots, x_{b_r}\right.\right) $$