# 第10メモ(熊田) ## はじめに **確率モデルを適用する際に中心的となるタスク**: * 観測データ$\mathbf{X}$が与えられたとき、潜在変数$\mathbf{Z}$の事後分布$p(\mathbf{Z}|\mathbf{X})$を求める or この分布を使った期待値を求める こと **実際の多くのモデルでは、以下の理由から$p(\mathbf{Z}|\mathbf{X})$やこの分布を使った期待値を解析的に求めることは不可能なことが多い。** * **連続変数の場合**:積分が閉形式の解析的な解を持たない場合や、空間の次元の問題や被積分項が複雑なため、数値積分を行えない場合がある。 * **離散変数の場合**:周辺化を行うためには隠れ変数の可能な全ての組合せの和を取る必要があり、これ自体は可能であるが、隠れ変数の状態数が指数的に増加し、厳密な計算は不可能に近い場合が多い。 このような場合には、近似法を用いる必要がある。 近似法は、(1)近似が確率的か(2)近似が決定的かによって2つに分けられる。 (1)**近似が確率的な場合**:11章で議論するマルコフ連鎖モンテカルロ法のような確率的な方法により、多くの分野でベイズ法を適用できるようになった(この方法では無限の計算資源があれば厳密解の計算が可能であるが、現実的な計算のため、近似をする必要がある)。しかし、以下の問題点を持つ。 * サンプリング法は計算量が多く、小さいスケールの問題のみにしか適用できない * サンプリング法が求める分布からの互いに独立なサンプルを生成しているかを確かめるのが難しい (2)**近似が決定的な場合** 事後分布を解析的に近似する方法に基づいている。 仮定:事後分布が特定の方法で分解されること、ガウス分布のような特別なパラメトリックな分布となること 厳密解を求めることはできないが、その長所と短所はサンプリング法の場合と対照的になっている。 4.4節で既に、分布のモードを使い、局所的にガウス分布で近似するラプラス近似について述べた。ここでは以下の2つの変分近似法について述べる。 * 変分推論法 * EP(Expectation Propagation)法 ## 10.1 変分推論 変分法自体はもともと近似的なものではないが、近似解を求める方法として、自然に用いることができる。つまりは、最適化を行う関数のクラスを制限することでなされる。 例えば、2次関数のみを考えたり、固定された基底関数の線型結合を考え、その係数のみを変えることをする。確率的推論の場合は、分布の分解を仮定におくような形式になる。 **変分最適化をどうやって推論問題に適用するか?** 仮定:全てのパラメータが事前分布を与えられた、完全にベイズ的なモデルがあるとする。 * $\mathbf{Z}$: モデルにはパラメータの他に潜在変数がある可能性があり、それらを全て表す変数。 * $\mathbf{X}$: 観測変数全て表す変数。 確率モデルにより、同時分布$p(\mathbf{X},\mathbf{Z})$が定められる。 **目標**:事後分布$p(\mathbf{Z}|\mathbf{X})$, モデルエビデンス$p(\mathbf{X})$の近似を求めること EM法の議論と同じように、周辺分布の対数は、 $$\ln p(\mathbf{X}) = L(q)+KL(q||p)\tag{10.2}$$ と分解できる。ここで、 $$L(q) =\int q(\mathbf{Z})\ln\left\{\frac{p(\mathbf{X},\mathbf{Z})}{q(\mathbf{Z})}\right\}d\mathbf{Z} \tag{10.3}$$ $$KL(p||q) =-\int q(\mathbf{Z})\ln\left\{\frac{p(\mathbf{Z}|\mathbf{X})}{q(\mathbf{Z})}\right\}d\mathbf{Z} \tag{10.4}$$ とした。これがEM法の議論と異なっているのは、$\theta$が現れず、$\mathbf{Z}$の中に含まれていることである。