# 正規分布について勉強したことのまとめ
# 概要
この記事は[古川研究室 Workout_calendar](https://qiita.com/flab5420/private/aee38a24be700d146817) 22日目の記事です。
この記事は,ワークアウトカレンダーで自分が出した第3回目の記事です.第1回は,最尤推定とMAP推定を用いた回帰について,第2回はベイズを用いた回帰に関して記事を書きました.今回は,それら記事の中にも頻出したガウス分布について「[ガウス過程と機械学習](https://www.amazon.co.jp/dp/B07QMMJJV8/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1)」の第2章のガウス分布の数式を追って,ガウス分布について理解を深めたいと思います.
#### この記事の構成は,「ガウス過程と機械学習」のガウス分布の数式の導出が中心となっています.
また,この記事で行ったこと,これから行いたいことは以下にまとめています.
#### 「記事内で行ったこと」
- [ ] 多変量ガウス分布の周辺化の公式の導出
#### 「今後,行いたいこと」
- [ ] 多変量ガウス分布の条件付き分布の公式の導出
- [ ] 多変量ガウス分布の畳み込み積分の公式の導出
# 2.3.3 多変量ガウス分布の周辺化
ベクトル$\boldsymbol{x}$が多変量ガウス分布に従っているとき,$\boldsymbol{x}$の一部の次元を周辺化をしても,残りの次元は正規分布になります.例えば,$p(\boldsymbol{x}_1,\boldsymbol{x}_2)$を$\boldsymbol{x}_2$に関して周辺化(無視)した$\boldsymbol{x}_1$の分布は,$p(\boldsymbol{x}_1)=\int p(\boldsymbol{x}_1,\boldsymbol{x}_2)d\boldsymbol{x}_2$となり,結果ガウス分布に従います.
ここで,$D$次元のベクトル$x$が多変量ガウス分布$N(\mu,\Sigma)$から得られるとき,$\boldsymbol{x}$を適当に2分割し.最初の$L$次元を$\boldsymbol{x}_1$,残りの$D-L$次元を$\boldsymbol{x}_2$とすると,
$$
\boldsymbol{x} =
\left(
\begin{array}{l}
\boldsymbol{x}_{1}(L次元)\\
\hdashline
\boldsymbol{x}_{2}(D-L次元)\\
\end{array}
\right)
\tag{2.36}
$$
となります.ここで,$\boldsymbol{\mu}$および,$\boldsymbol{\Sigma}$に関しても$L$次元で分割すると,
$$
\boldsymbol{x} =
\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\hdashline
\boldsymbol{x}_{2}\\
\end{array}
\right)
~N\left(
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{\mu}}_{1}\\
\hdashline
\boldsymbol{\boldsymbol{\mu}}_{2}\\
\end{array}
\right),
\left(
\begin{array}{c:c}
\begin{matrix}
\boldsymbol{\Sigma}_{11}
\end{matrix} & \boldsymbol{\Sigma}_{12} \\
\hdashline %
\boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22}
\end{array}
\right)
\right)
\tag{2.37}
$$
となります(点線で分割するように修正する).このとき,同時分布$p(\boldsymbol{x})=p(\boldsymbol{x_1},\boldsymbol{x_2})$を$\boldsymbol{x}_{2}$に関して周辺化すると,
多変量ガウス分布の周辺化に関する公式$2.3$より,
$p(\boldsymbol{x}_1)=\int p(\boldsymbol{x}_1,\boldsymbol{x}_2)dx_2=N(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_{11}) \tag{2.38}$
となります.この式は,$p(\boldsymbol{x_1})$を同時分布$p(\boldsymbol{x_1},\boldsymbol{x_2})$の式から求めようとしたときに,お互いが独立でない(共分散があるため)にも関わらず,$\boldsymbol{x}_1$と$\boldsymbol{x}_2$に関するすべての情報を見た後で$\boldsymbol{x}_2$について周辺化した結果と,初めから$\boldsymbol{x}_1$に関係ない部分を全て無視した結果が同じであるということを示しています.これも,ガウス分布の重要な性質の1つです.
## 多変量ガウス分布の周辺化の証明(公式2.3)
ここから,多変量ガウス分布の周辺化の証明を行います.
$N(\boldsymbol{\mu},\boldsymbol{\Sigma})=\boldsymbol{\mu}+N(0,\boldsymbol{\Sigma})$
$\int N(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})d\boldsymbol{x}=\boldsymbol{\mu}+\int N(\boldsymbol{x}|0,\boldsymbol{\Sigma})$なので,
式$(2.38)$は,$\boldsymbol{\mu}$の位置によらないので簡単化でき,
$$
\boldsymbol{x} =
\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\hdashline
\boldsymbol{x}_{2}\\
\end{array}
\right)
~N\left(
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{0}}\\
\hdashline
\boldsymbol{\boldsymbol{0}}\\
\end{array}
\right),
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{\Sigma}}_{11}&{\boldsymbol{\Sigma}}_{12}\\
\boldsymbol{\boldsymbol{\Sigma}}_{21}&{\boldsymbol{\Sigma}}_{22}\\
\end{array}
\right)
\right)
\tag{2.39}
$$
となります.ここで,共分散の逆行列は頻出するので精度$\Lambda$とおくと,
$$
\boldsymbol{\Lambda} =
\left(
\begin{array}{c}
\boldsymbol{\Lambda}_{11}&{\boldsymbol{\Lambda}}_{12}\\
\boldsymbol{\Lambda}_{21}&{\boldsymbol{\Lambda}}_{22}\\
\end{array}
\right)
=\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{\Sigma}}_{11}&{\boldsymbol{\Sigma}}_{12}\\
\boldsymbol{\boldsymbol{\Sigma}}_{21}&{\boldsymbol{\Sigma}}_{22}\\
\end{array}
\right)^{-1}
\tag{2.40}
$$
と定義できます.式$(2.40)$を使うと式$(2.39)$は,
$$
p\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\boldsymbol{x}_{2}\\
\end{array}
\right)
=N\left(
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{0}}\\
\boldsymbol{\boldsymbol{0}}\\
\end{array}
\right),
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{\Sigma}}_{11}&{\boldsymbol{\Sigma}}_{12}\\
\boldsymbol{\boldsymbol{\Sigma}}_{21}&{\boldsymbol{\Sigma}}_{22}\\
\end{array}
\right)
\right)
\propto exp\left(-\frac{1}{2}
\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\boldsymbol{x}_{2}\\
\end{array}
\right)^T
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{\Lambda}}_{11}&{\boldsymbol{\Lambda}}_{12}\\
\boldsymbol{\boldsymbol{\Lambda}}_{21}&{\boldsymbol{\Lambda}}_{22}\\
\end{array}
\right)
\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\boldsymbol{x}_{2}\\
\end{array}
\right)
\right) \tag{2.41}
$$
となります.式$(2.41)$の右辺を$exp(-\frac{1}{2}L)$と置き,$\Sigma^{T}=\Sigma$を用いると,
$$
L=\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\boldsymbol{x}_{2}\\
\end{array}
\right)^{T}
\left(
\begin{array}{c}
\boldsymbol{\boldsymbol{\Lambda}}_{11}&{\boldsymbol{\Lambda}}_{12}\\
\boldsymbol{\boldsymbol{\Lambda}}_{21}&{\boldsymbol{\Lambda}}_{22}\\
\end{array}
\right)
\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\boldsymbol{x}_{2}\\
\end{array}
\right)\\
=\left(
\begin{array}{c}
\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21} & \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{12}+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}
\end{array}
\right)
\left(
\begin{array}{c}
\boldsymbol{x}_{1}\\
\boldsymbol{x}_{2}\\
\end{array}
\right)\\
=\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{12}\boldsymbol{x}_2+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2\\
=\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1+\boldsymbol{x}_2^{T}(\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{12})+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2\\
=\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+\boldsymbol{x}_{2}^{T}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1+\boldsymbol{x}_2^{T}\boldsymbol{\Lambda}_{12}\boldsymbol{x}_1+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2\\
=\boldsymbol{x}_{1}^{T}\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1+2\boldsymbol{x}_2^{T}\boldsymbol{\Lambda}_{12}\boldsymbol{x}_1+\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 \tag{2.43}
$$
と表せます($A^TB=B^TA$を使用).この$(2.43)$式を$\boldsymbol{x}_2$に対する積分を行う前に,テクニックとして平方完成の形に変形すると,
$$
L=(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)-\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1 \tag{2.46}
$$
このようにできます.この式は,第一項だけが$\boldsymbol{x}_2$を含んだ式となっています.また当然,この式$(2.46)$の平方完成の状態から式$(2.43)$になることは下記のように式を展開することで導けます.
$$
L=(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1})^T\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1})-\boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}+(\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21}\boldsymbol{x}_{1})^T\boldsymbol{\Lambda}_{22})(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} + (\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1)^T(\boldsymbol{\Lambda}_{22}^{-1})^{T}\boldsymbol{\Lambda}_{22})(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T)(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{x}_2 + \boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22} + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T)(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=(\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{x}_2 + \boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1}) - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\\
=\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{x}_2 + \boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1\\
=\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{22}\boldsymbol{x}_2 + 2\boldsymbol{x}_2^T\boldsymbol{\Lambda}_{21}\boldsymbol{x}_1 + \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}\boldsymbol{x}_1 \tag{2.}
$$
次に,$\boldsymbol{x}_2$に関する積分(周辺化)を行いますが,第一項目だけが$\boldsymbol{x}_2$に関係した項で,式$(2.46)$を$\boldsymbol{x}_2$に関して積分を行うと$\boldsymbol{\Lambda}_{22}$に比例する定数項になります.
$$
p(\boldsymbol{x}_1)=\int p(\boldsymbol{x}_1,\boldsymbol{x}_2)d\boldsymbol{x}_2 \propto \int exp\bigl(-\frac{L}{2}\bigr)d\boldsymbol{x}_2\\
=\int exp(-\frac{1}{2}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)-\boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1)d\boldsymbol{x}_2\\
=\int exp(-\frac{1}{2}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T)\boldsymbol{\Lambda}_{22}(\boldsymbol{x}_2+\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda_{21}\boldsymbol{x}_1}^T))d\boldsymbol{x}_2 ・exp( - \boldsymbol{x}_1^T\boldsymbol{\Lambda_{21}}\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1)\\
=(const)・exp(-\frac{1}{2}\{ - \boldsymbol{x}_1^T\boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda_{22}^{-1}\boldsymbol{\Lambda_{21}}\boldsymbol{x}_1+\boldsymbol{x}_1^T\boldsymbol{\Lambda}_{11}}\boldsymbol{x}_1\})\\
\propto exp(-\frac{1}{2}\{\boldsymbol{x}_1^T(\boldsymbol{\Lambda}_{11} - \boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})\boldsymbol{x}_1\})
$$
多変量ガウス分布の確率密度関数(公式$2.2$)と比較すると$(\boldsymbol{\Lambda}_{11} - \boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}$は共分散行列となっているので,$p(\boldsymbol{x}_1)$の確率分布は,
$$
p(\boldsymbol{x}_1)=N(0,(\boldsymbol{\Lambda}_{11} - \boldsymbol{\Lambda}_{21}^T\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}) \tag{2.50}
$$
となります.ここで,行列の分割(ブロック行列)と逆行列の公式より,$A^{-1}$と$D^{-1}$が存在するとすると,
$$
\left(
\begin{array}{c}
A&B\\
C&D\\
\end{array}
\right)^{-1}
=\left(
\begin{array}{c}
M&-MBD^{-1}\\
-D^{-1}CM&D^{-1}+D^{-1}CMBD^{-1}\\
\end{array}
\right)
\tag{A.1}
$$
となります.$M$は,$M=(A-BD^{-1}C)^{-1}$です.また,$A$と$D$は共分散行列なので逆行列が存在し,この式$(A.1)$と式$(2.40)$を用いると,
$$
\left(
\begin{array}{c}
\boldsymbol{\Sigma}_{11}&\boldsymbol{\Sigma}_{12}\\
\boldsymbol{\Sigma}_{21}&\boldsymbol{\Sigma}_{22}\\
\end{array}
\right)
=\left(
\begin{array}{c}
\boldsymbol{\Lambda}_{11}&\boldsymbol{\Lambda}_{12}\\
\boldsymbol{\Lambda}_{21}&\boldsymbol{\Lambda}_{22}\\
\end{array}
\right)^{-1}
=\left(
\begin{array}{c}
\boldsymbol{M} & \boldsymbol{M}\boldsymbol{\Lambda}_{12}\boldsymbol{\Lambda}_{22}\\
\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21}M&\boldsymbol{\Lambda}_{22}^{-1} + \boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21}M\boldsymbol{\Lambda}_{12}\boldsymbol{\Lambda}_{22}^{-1}
\end{array}
\right)
$$
となり,$\boldsymbol{\Lambda}_{12}=\boldsymbol{\Lambda}_{21}$,$\boldsymbol{\Lambda}^T=\boldsymbol{\Lambda}$の関係を用いると$\boldsymbol{M}$は,
$\boldsymbol{M}=(\boldsymbol{\Lambda}_{11}-\boldsymbol{\Lambda}_{12}\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}=(\boldsymbol{\Lambda}_{11}-\boldsymbol{\Lambda}_{21}^{T}\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}$
で,更に$\boldsymbol{\Sigma}_{11}=\boldsymbol{M}$の関係を使うと,式$(2.50)$の共分散行列との関係は,
$$
\boldsymbol{\Sigma_{11}}=(\boldsymbol{\Lambda}_{11}-\boldsymbol{\Lambda}_{21}^{T}\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21})^{-1}
$$
となる.よって,式$(2.50)$に代入すると,
$$p(\boldsymbol{x}_1)=N(\boldsymbol{0},\boldsymbol{\Sigma}_{11}) \tag{2.52}$$
となり,多変量ガウス分布の周辺化の証明を求めることができた.
# 参考文献
[1] [ガウス過程と機械学習 持橋大地 (著) 大羽成征 (著)](https://www.amazon.co.jp/dp/B07QMMJJV8/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1)
[2] [ガウス過程と機械学習の正誤表](http://chasen.org/~daiti-m/gpbook/errata.html)