# 正規分布について勉強したことのまとめ # 概要 この記事は[古川研究室 Workout_calendar](https://qiita.com/flab5420/private/aee38a24be700d146817) 22日目の記事です。 この記事は,ワークアウトカレンダーで自分が出した第3回目の記事です.第1回は,最尤推定とMAP推定を用いた回帰について,第2回はベイズを用いた回帰に関して記事を書きました.今回は,それら記事の中にも頻出したガウス分布について「[ガウス過程と機械学習](https://www.amazon.co.jp/dp/B07QMMJJV8/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1)」の第2章のガウス分布の数式を追って,ガウス分布について理解を深めたいと思います. #### この記事の構成は,「ガウス過程と機械学習」のガウス分布の数式の導出が中心となっています. また,この記事で行ったこと,これから行いたいことは以下にまとめています. #### 「記事内で行ったこと」 - [ ] 多変量ガウス分布の周辺化の公式の導出 #### 「今後,行いたいこと」 - [ ] 多変量ガウス分布の条件付き分布の公式の導出 - [ ] 多変量ガウス分布の畳み込み積分の公式の導出 # 2.3.3 多変量ガウス分布の周辺化 ベクトル$\boldsymbol{x}$が多変量ガウス分布に従っているとき,$\boldsymbol{x}$の一部の次元を周辺化をしても,残りの次元は正規分布になります.例えば,$p(\boldsymbol{x}_1,\boldsymbol{x}_2)$を$\boldsymbol{x}_2$に関して周辺化(無視)した$\boldsymbol{x}_1$の分布は,$p(\boldsymbol{x}_1)=\int p(\boldsymbol{x}_1,\boldsymbol{x}_2)d\boldsymbol{x}_2$となり,結果ガウス分布に従います. ここで,$D$次元のベクトル$x$が多変量ガウス分布$N(\mu,\Sigma)$から得られるとき,$\boldsymbol{x}$を適当に2分割し.最初の$L$次元を$\boldsymbol{x}_1$,残りの$D-L$次元を$\boldsymbol{x}_2$とすると, $$ \boldsymbol{x} = \left( \begin{array}{l} \boldsymbol{x}_{1}(L次元)\\ \hdashline \boldsymbol{x}_{2}(D-L次元)\\ \end{array} \right) \tag{2.36} $$ となります.ここで,$\boldsymbol{\mu}$および,$\boldsymbol{\Sigma}$に関しても$L$次元で分割すると, $$ \boldsymbol{x} = \left( \begin{array}{c} \boldsymbol{x}_{1}\\ \hdashline \boldsymbol{x}_{2}\\ \end{array} \right) ~N\left( \left( \begin{array}{c} \boldsymbol{\boldsymbol{\mu}}_{1}\\ \hdashline \boldsymbol{\boldsymbol{\mu}}_{2}\\ \end{array} \right), \left( \begin{array}{c:c} \begin{matrix} \boldsymbol{\Sigma}_{11} \end{matrix} & \boldsymbol{\Sigma}_{12} \\ \hdashline % \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{array} \right) \right) \tag{2.37} $$ となります(点線で分割するように修正する).このとき,同時分布$p(\boldsymbol{x})=p(\boldsymbol{x_1},\boldsymbol{x_2})$を$\boldsymbol{x}_{2}$に関して周辺化すると, 多変量ガウス分布の周辺化に関する公式$2.3$より, $p(\boldsymbol{x}_1)=\int p(\boldsymbol{x}_1,\boldsymbol{x}_2)dx_2=N(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_{11}) \tag{2.38}$ となります.この式は,$p(\boldsymbol{x_1})$を同時分布$p(\boldsymbol{x_1},\boldsymbol{x_2})$の式から求めようとしたときに,お互いが独立でない(共分散があるため)にも関わらず,$\boldsymbol{x}_1$と$\boldsymbol{x}_2$に関するすべての情報を見た後で$\boldsymbol{x}_2$について周辺化した結果と,初めから$\boldsymbol{x}_1$に関係ない部分を全て無視した結果が同じであるということを示しています.これも,ガウス分布の重要な性質の1つです. ## 多変量ガウス分布の周辺化の証明(公式2.3) ここから,多変量ガウス分布の周辺化の証明を行います. $N(\boldsymbol{\mu},\boldsymbol{\Sigma})=\boldsymbol{\mu}+N(0,\boldsymbol{\Sigma})$ $\int N(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})d\boldsymbol{x}=\boldsymbol{\mu}+\int N(\boldsymbol{x}|0,\boldsymbol{\Sigma})$なので, 式$(2.38)$は,$\boldsymbol{\mu}$の位置によらないので簡単化でき, $$ \boldsymbol{x} = \left( \begin{array}{c} \boldsymbol{x}_{1}\\ \hdashline \boldsymbol{x}_{2}\\ \end{array} \right) ~N\left( \left( \begin{array}{c} \boldsymbol{\boldsymbol{0}}\\ \hdashline \boldsymbol{\boldsymbol{0}}\\ \end{array} \right), \left( \begin{array}{c} \boldsymbol{\boldsymbol{\Sigma}}_{11}&{\boldsymbol{\Sigma}}_{12}\\ \boldsymbol{\boldsymbol{\Sigma}}_{21}&{\boldsymbol{\Sigma}}_{22}\\ \end{array} \right) \right) \tag{2.39} $$ となります.ここで,共分散の逆行列は頻出するので精度$\Lambda$とおくと, $$ \boldsymbol{\Lambda} = \left( \begin{array}{c} \boldsymbol{\Lambda}_{11}&{\boldsymbol{\Lambda}}_{12}\\ \boldsymbol{\Lambda}_{21}&{\boldsymbol{\Lambda}}_{22}\\ \end{array} \right) =\left( \begin{array}{c} \boldsymbol{\boldsymbol{\Sigma}}_{11}&{\boldsymbol{\Sigma}}_{12}\\ \boldsymbol{\boldsymbol{\Sigma}}_{21}&{\boldsymbol{\Sigma}}_{22}\\ \end{array} \right)^{-1} \tag{2.40} $$ と定義できます.式$(2.40)$を使うと式$(2.39)$は, $$ p\left( \begin{array}{c} \boldsymbol{x}_{1}\\ \boldsymbol{x}_{2}\\ \end{array} \right) =N\left( \left( \begin{array}{c} \boldsymbol{\boldsymbol{0}}\\ \boldsymbol{\boldsymbol{0}}\\ \end{array} \right), \left( \begin{array}{c} \boldsymbol{\boldsymbol{\Sigma}}_{11}&{\boldsymbol{\Sigma}}_{12}\\ \boldsymbol{\boldsymbol{\Sigma}}_{21}&{\boldsymbol{\Sigma}}_{22}\\ \end{array} \right) \right) \propto exp\left(-\frac{1}{2} \left( \begin{array}{c} \boldsymbol{x}_{1}\\ \boldsymbol{x}_{2}\\ \end{array} \right)^T \left( \begin{array}{c} \boldsymbol{\boldsymbol{\Lambda}}_{11}&{\boldsymbol{\Lambda}}_{12}\\ \boldsymbol{\boldsymbol{\Lambda}}_{21}&{\boldsymbol{\Lambda}}_{22}\\ \end{array} \right) \left( \begin{array}{c} \boldsymbol{x}_{1}\\ \boldsymbol{x}_{2}\\ \end{array} \right) \right) \tag{2.41} $$ となります.式$(2.41)$の右辺を$exp(-\frac{1}{2}L)$と置き,$\Sigma^{T}=\Sigma$を用いると, $$ L=\left( \begin{array}{c} \boldsymbol{x}_{1}\\ \boldsymbol{x}_{2}\\ \end{array} \right)^{T} \left( \begin{array}{c} \boldsymbol{\boldsymbol{\Lambda}}_{11}&{\boldsymbol{\Lambda}}_{12}\\ \boldsymbol{\boldsymbol{\Lambda}}_{21}&{\boldsymbol{\Lambda}}_{22}\\ \end{array} \right) \left( \begin{array}{c} \boldsymbol{x}_{1}\\ \boldsymbol{x}_{2}\\ \end{array} \right)\\ =\left( \begin{array}{c} \boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21} & \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{12}+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} \end{array} \right) \left( \begin{array}{c} \boldsymbol{x}_{1}\\ \boldsymbol{x}_{2}\\ \end{array} \right)\\ =\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{12}\boldsymbol{x}_2+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2\\ =\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1+\boldsymbol{x}_2^{T}(\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{12})+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2\\ =\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1+\boldsymbol{x}_2^{T}\boldsymbol{\Lambda}_{12}\boldsymbol{x}_1+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2\\ =\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+2\boldsymbol{x}_2^{T}\boldsymbol{\Lambda}_{12}\boldsymbol{x}_1+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 \tag{2.43} $$ と表せます($A^TB=B^TA$を使用).この$(2.43)$式を$\boldsymbol{x}_2$に対する積分を行う前に,テクニックとして平方完成の形に変形すると, $$ L=(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)-\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1 \tag{2.46} $$ このようにできます.この式は,第一項だけが$\boldsymbol{x}_2$を含んだ式となっています.また当然,この式$(2.46)$の平方完成の状態から式$(2.43)$になることは下記のように式を展開することで導けます. $$ L=(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1})^T\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1})-\boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}+(\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_{1})^T\boldsymbol{\Lambda}_{22})(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} + (\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1)^T(\boldsymbol{\Lambda}_{22}^{-1})^{T}\boldsymbol{\Lambda}_{22})(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T)(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{x}_2 + \boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T)(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{x}_2 + \boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\ =\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{x}_2 + \boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1\\ =\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + 2\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1 \tag{2.} $$ 次に,$\boldsymbol{x}_2$に関する積分(周辺化)を行いますが,第一項目だけが$\boldsymbol{x}_2$に関係した項で,式$(2.46)$を$\boldsymbol{x}_2$に関して積分を行うと$\boldsymbol{\Lambda}_{22}$に比例する定数項になります. $$ p(\boldsymbol{x}_1)=\int p(\boldsymbol{x}_1,\boldsymbol{x}_2)d\boldsymbol{x}_2 \propto \int exp\bigl(-\frac{L}{2}\bigr)d\boldsymbol{x}_2\\ =\int exp(-\frac{1}{2}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)-\boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1)d\boldsymbol{x}_2\\ =\int exp(-\frac{1}{2}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T))d\boldsymbol{x}_2 ・exp( - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1)\\ =(const)・exp(-\frac{1}{2}\{ - \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\})\\ \propto exp(-\frac{1}{2}\{\boldsymbol{x}_1^T(\boldsymbol{\Lambda}_{11} - \boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})\boldsymbol{x}_1\}) $$ 多変量ガウス分布の確率密度関数(公式$2.2$)と比較すると$(\boldsymbol{\Lambda}_{11} - \boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}$は共分散行列となっているので,$p(\boldsymbol{x}_1)$の確率分布は, $$ p(\boldsymbol{x}_1)=N(0,(\boldsymbol{\Lambda}_{11} - \boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}) \tag{2.50} $$ となります.ここで,行列の分割(ブロック行列)と逆行列の公式より,$A^{-1}$と$D^{-1}$が存在するとすると, $$ \left( \begin{array}{c} A&B\\ C&D\\ \end{array} \right)^{-1} =\left( \begin{array}{c} M&-MBD^{-1}\\ -D^{-1}CM&D^{-1}+D^{-1}CMBD^{-1}\\ \end{array} \right) \tag{A.1} $$ となります.$M$は,$M=(A-BD^{-1}C)^{-1}$です.また,$A$と$D$は共分散行列なので逆行列が存在し,この式$(A.1)$と式$(2.40)$を用いると, $$ \left( \begin{array}{c} \boldsymbol{\Sigma}_{11}&\boldsymbol{\Sigma}_{12}\\ \boldsymbol{\Sigma}_{21}&\boldsymbol{\Sigma}_{22}\\ \end{array} \right) =\left( \begin{array}{c} \boldsymbol{\Lambda}_{11}&\boldsymbol{\Lambda}_{12}\\ \boldsymbol{\Lambda}_{21}&\boldsymbol{\Lambda}_{22}\\ \end{array} \right)^{-1} =\left( \begin{array}{c} \boldsymbol{M} & \boldsymbol{M}\boldsymbol{\Lambda}_{12}\boldsymbol{\Lambda}_{22}\\ \boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21}M&\boldsymbol{\Lambda}_{22}^{-1} + \boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21}M\boldsymbol{\Lambda}_{12}\boldsymbol{\Lambda}_{22}^{-1} \end{array} \right) $$ となり,$\boldsymbol{\Lambda}_{12}=\boldsymbol{\Lambda}_{21}$,$\boldsymbol{\Lambda}^T=\boldsymbol{\Lambda}$の関係を用いると$\boldsymbol{M}$は, $\boldsymbol{M}=(\boldsymbol{\Lambda}_{11}-\boldsymbol{\Lambda}_{12}\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}=(\boldsymbol{\Lambda}_{11}-\boldsymbol{\Lambda}_{21}^{T}\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}$ で,更に$\boldsymbol{\Sigma}_{11}=\boldsymbol{M}$の関係を使うと,式$(2.50)$の共分散行列との関係は, $$ \boldsymbol{\Sigma_{11}}=(\boldsymbol{\Lambda}_{11}-\boldsymbol{\Lambda}_{21}^{T}\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1} $$ となる.よって,式$(2.50)$に代入すると, $$p(\boldsymbol{x}_1)=N(\boldsymbol{0},\boldsymbol{\Sigma}_{11}) \tag{2.52}$$ となり,多変量ガウス分布の周辺化の証明を求めることができた. # 参考文献 [1] [ガウス過程と機械学習 持橋大地 (著) 大羽成征 (著)](https://www.amazon.co.jp/dp/B07QMMJJV8/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1) [2] [ガウス過程と機械学習の正誤表](http://chasen.org/~daiti-m/gpbook/errata.html)