# 確率ベクトルとその変換 ###### tags: `probability-theory` ## 注意 この箇所は、高校の数学や理工系の大学生が1年で学ぶ、多変数関数の微積分の習得を前提としている。確率分布に関する変数変換は、定積分の値である確率 $$ \mathrm{Pr}\left[\boldsymbol{X}\in A\right] = \int\cdots\int_{\boldsymbol{x}\in A} f_X\left(\boldsymbol{x}\right)dx_1\cdots dx_p $$ を保存しなければならない。変換$\boldsymbol{Y}=T\left(\boldsymbol{X}\right)$の後の確率を保存するために、ヤコビアンが必要となる。 $$ \begin{align} \mathrm{Pr}\left[\boldsymbol{Y}\in T\left(A\right)\right] &= \int\cdots\int_{\boldsymbol{y}\in T\left(A\right)} f_Y\left(\boldsymbol{y}\right)dy_1\cdots dy_p \notag \\ &= \int\cdots\int_{\boldsymbol{y}\in T\left(A\right)} f_X\left(T^{-1}\left(\boldsymbol{y}\right)\right) \left|\frac{\partial \boldsymbol{x}}{\partial \boldsymbol{y}^{\top}}\right|dy_1\cdots dy_p \notag \\ \end{align} $$ 1組の確率変数 $\left(X, Y\right)$ の * 積 $XY$ の分布 * 比 $X/Y$ の分布 の導出に2変量の確率ベクトルを用いる。 * 多変量正規分布 * 楕円分布 これらの導出に$p$変量の確率ベクトルを用いる。 ## 2変量 ### 確率ベクトル $X_1, X_2$ を確率変数の組とする。これらを要素に持つベクトル $$ \boldsymbol{X} = \left( \begin{array}{c} X_1 \\ X_2 \end{array} \right) $$ を、確率ベクトルという。確率ベクトルは太字$\boldsymbol{X}$で表すことも、標準の書体$X$で表すこともある。 定数ベクトル$\boldsymbol{x}$は太字で表すように教わることが多い。しかしこれも標準の書体$x$で表すことがある。ベクトルとスカラーを誤認識しようがない状況では、これらを区別しない流儀もある。 ### 確率ベクトルの1対1の変換 $\mathscr{R}^2$から$\mathscr{R}^2$への1対1の変換$\boldsymbol{T}$を考える。 $$ \forall x_1, x_2 \in \mathscr{R}, \,\, \boldsymbol{x}=\left(\begin{array}{c} x_1 \\ x_2 \end{array}\right), \,\, \boldsymbol{y}=\left( \begin{array}{c} T_1\left(x_1, x_2\right) \\ T_2\left(x_1, x_2\right) \end{array} \right) = \boldsymbol{T}\left(\boldsymbol{x}\right) \in \mathscr{R}^2 $$ この変換 $\boldsymbol{T}$ は、ベクトルの各要素について微分可能とする。 $$ \frac{\partial}{\partial x_i} T_1\left(x_1, x_2\right), \,\, \frac{\partial}{\partial x_i} T_2\left(x_1, x_2\right) $$ この変換には逆変換$T^{-1}$がある。 $$ \forall y_1, y_2 \in \mathscr{R}, \,\, \boldsymbol{y}=\left(\begin{array}{c} y_1 \\ y_2 \end{array}\right), \,\, \boldsymbol{x}=\left( \begin{array}{c} T^{-1}_1\left(y_1, y_2\right) \\ T^{-1}_2\left(y_1, y_2\right) \end{array} \right) = \boldsymbol{T}^{-1}\left(\boldsymbol{y}\right)\in \mathscr{R}^2 $$ ### 変換のヤコビアン 多変数関数の重積分 $$ \int\int_{\boldsymbol{x}\in A} f\left(\boldsymbol{x}\right)dx_1 dx_2 $$ を、変数変換 $\boldsymbol{y}=T\left(\boldsymbol{x}\right)$ で表現し直すには、変換のヤコビアンを用いて $$ \int\int_{\boldsymbol{y}\in T\left(A\right)} f\left(T^{-1}\left(y_1, y_2\right)\right) \left| \begin{array}{cc} \frac{\partial}{\partial y_1}T^{-1}_1 \left(y_1, y_2\right) & \frac{\partial}{\partial y_2}T^{-1}_1 \left(y_1, y_2\right) \\ \frac{\partial}{\partial y_1} T^{-1}_2 \left(y_1, y_2\right) & \frac{\partial}{\partial y_2} T^{-1}_2 \left(y_1, y_2\right) \end{array} \right| dy_1 dy_2 $$ とする必要がある。 ### 重積分の例 ガウス関数の定積分 $$ \int_{-\infty}^{\infty} e^{-x^2} dx $$ を求めるのには、次のように定積分の二乗の計算と、$\left(x, y\right)$の極座標$\left(r\cos\theta, r\sin\theta\right)$への変数変換を用いる。 $$ \begin{align} \left\{\int_{-\infty}^{\infty} e^{-x^2} dx\right\}^2 &= \int_{-\infty}^{\infty} e^{-x^2} dx \times \int_{-\infty}^{\infty} e^{-y^2} dy \notag \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^2} e^{-y^2} dxdy \notag \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^2-y^2} dxdy \notag \\ &= \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-\left(x^2+y^2\right)} dxdy \notag \\ &= \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^2\cos^2\theta - r^2 \sin^2\theta} \left| \begin{array}{cc} \frac{\partial r\cos\theta}{\partial r} & \frac{\partial r\cos\theta}{\partial \theta} \\ \frac{\partial r\sin\theta}{\partial r} & \frac{\partial r\sin\theta}{\partial \theta} \end{array} \right| drd\theta \notag \\ &= \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^2} \left| \begin{array}{cc} \cos\theta & -r\sin\theta \\ \sin\theta & r\cos\theta \end{array} \right| \notag \\ &= \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^2} \left| r \left(\cos^2\theta + \sin^2\theta\right) \right| drd\theta \notag \\ &= \int_{0}^{2\pi} \int_{0}^{\infty} e^{-r^2} r drd\theta \notag \\ &= \int_{0}^{2\pi} d\theta \int_{0}^{\infty} r e^{-r^2} dr \notag \\ &= 2\pi \left[\frac{e^{-r^2}}{-2}\right]_{0}^{\infty} \notag \\ &= 2\pi \left[\frac{0}{-2}-\frac{1}{-2}\right] \notag \\ &= 2\pi \frac{1}{2} \notag \\ &= \pi \notag \end{align} $$ ### 積の分布 $\left(X, Y\right)$を$\left(U, V\right)=\left(XY, Y\right)$に変換する。逆変換は $$ \left(X, Y\right) = \left(U/V, V\right) $$ であり、この変換のヤコビアンは $$ \left| \begin{array}{cc} 1/v & -u/v^2 \\ 0 & 1 \end{array} \right| = \left|\frac{1}{v}\right| $$ である。 $$ \begin{align} f_{U,V}\left(u, v\right) &=f_{X, Y}\left(\frac{u}{v},v\right)\left|\frac{1}{v}\right| \end{align} $$ この後に$V$を積分して、$U$の周辺分布を導く。 $$ \begin{align} f_{U}\left(u\right) &= \int f_{X, Y}\left(\frac{u}{v},v\right)\left|\frac{1}{v}\right| dv \end{align} $$ ### 比の分布 $\left(X, Y\right)$を$\left(U, V\right)=\left(X/Y, Y\right)$に変換する。逆変換は $$ \left(X, Y\right) = \left(UV, V\right) $$ であり、この変換のヤコビアンは $$ \left| \begin{array}{cc} v & u \\ 0 & 1 \end{array} \right| = \left|v\right| $$ である。 $$ \begin{align} f_{U,V}\left(u, v\right) &=f_{X, Y}\left(uv,v\right)\left|v\right| \end{align} $$ この後に$V$を積分して、$U$の周辺分布を導く。 $$ \begin{align} f_{U}\left(u\right) &= \int f_{X, Y} \left(uv,v\right)\left|v\right| dv \end{align} $$ ## $p$変量 ### 確率ベクトル $X_1, X_2, \ldots, X_p$ を確率変数の列とする。これらを要素に持つベクトル $$ \boldsymbol{X} = \left( \begin{array}{c} X_1 \\ X_2 \\ \vdots \\ X_p \end{array} \right) $$ を、確率ベクトルという。確率ベクトルは太字$\boldsymbol{X}$で表すことも、標準の書体$X$で表すこともある。 定数ベクトル$\boldsymbol{x}$は太字で表すように教わることが多い。しかしこれも標準の書体$x$で表すことがある。ベクトルとスカラーを誤認識しようがない状況では、これらを区別しない流儀もある。 ### 確率ベクトルの1対1の変換 $\mathscr{R}^p$から$\mathscr{R}^p$への1対1の変換$T$を考える。 $$ \forall \boldsymbol{x}\in\mathscr{R}^p, \,\, \boldsymbol{y}=T\left(\boldsymbol{x}\right) \in \mathscr{R}^p $$ この変換 $T$ は、ベクトルの各要素について微分可能とする。 $$ \partial_{x_i} = \left.\frac{\partial}{\partial x_i} T\left(\boldsymbol{x}\right)\right|_{\boldsymbol{x}} $$ この変換には逆変換$T^{-1}$がある。 $$ \forall \boldsymbol{y}\in\mathscr{R}^p, \,\, \boldsymbol{x}=T^{-1}\left(\boldsymbol{y}\right) \in \mathscr{R}^p $$ ### 変換のヤコビアン 多変数関数の重積分 $$ \int\cdots\int_{\boldsymbol{x}\in A} f\left(\boldsymbol{x}\right)dx_1\cdots dx_p $$ を、変数変換 $\boldsymbol{y}=T\left(\boldsymbol{x}\right)$ で表現し直すには、変換のヤコビアンを用いて $$ \int\cdots\int_{\boldsymbol{y}\in T\left(A\right)} f\left(T^{-1}\left(\boldsymbol{y}\right)\right)\left|\frac{\partial \boldsymbol{T}^{-1}}{\partial \boldsymbol{y}^{\top}}\right| dy_1\cdots dy_p $$ とする必要がある。