# PRML第10章演習問題解答(10.19〜) <head> <style> div.panel-primary { border: 1px solid #000; margin: 10px 5px; padding: 16px 10px 0px; } </style> </head> ## 演習 10.19 <div class="panel-primary"> ベイズ混合ガウスモデルの変分ベイズ法における予測分布 $$p(\widehat{\mathrm{x}} \mid \mathbf{X}) \simeq \frac{1}{\widehat{\alpha}} \sum_{k=1}^{K} \alpha_{k} \operatorname{St}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k}, \mathbf{L}_{k}, \nu_{k}+1-D\right) \tag{10.81}$$ を導出せよ. </div> P.197の$(10.81)$式の導出を行うためにこの節での手順を一から踏む。 $$ p(\mathbf{Z} \mid \pi)=\prod_{n=1}^{N} \prod_{k=1}^{K} \pi_{k}^{z_{n k}} \tag{10.37} $$ $$ p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right)^{z_{n k}} \tag{10.38} $$ データセット$\mathbf{X}$に対する新しい観測値$\mathbf{\hat{x}}$の予測分布についてこれに対応する潜在分布$\mathbf{\hat{z}}$が存在し、よって予測分布はしたがって以下で与えられる(純粋なベイズの定理・周辺化を用いた)。 $$ p(\widehat{\mathbf{x}} \mid \mathbf{X})=\sum_{\widehat{\mathbf{z}}} \iiint p(\widehat{\mathbf{x}} \mid \widehat{\mathbf{z}}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\widehat{\mathbf{z}} \mid \pi) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \tag{10.78} $$ $(10.37)$と$(10.38)$を代入して、 $$ p(\widehat{\mathbf{x}} \mid \mathbf{X})=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \tag{10.79} $$ となる。真の事後分布$p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X})$を変分近似で置き換える。このとき $$ q(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda})=q(\boldsymbol{\pi}) \prod_{j=1}^{K} q\left(\boldsymbol{\mu}_{j}, \boldsymbol{\Lambda}_{j}\right) \tag{10.55} $$ を用いて、和$\displaystyle \sum_{k=1}^{K}$のうち1つの項に注目する(=$k$を固定する)。$j\neq k$であるような$j$についての$\displaystyle \int d\mu_{j}\int d\Lambda_{j}$を考えると、積分の中身は$\displaystyle \int q(\boldsymbol{\mu}_{j}, \boldsymbol{\Lambda}_{j})d\boldsymbol{\mu}_{j}d\boldsymbol{\Lambda}_{j} = 1$(確率の定義より)となるので、$k$番目の積分$\displaystyle \int d\mu_{k}\int d\Lambda_{k}$しか残らない。これより $$ \begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X}) &=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Lambda} \mid \mathbf{X}) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu} \mathrm{d} \boldsymbol{\Lambda} \\ &\simeq \sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \boldsymbol{\Lambda}_{k} \\ &=\sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \underbrace{\operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha})}_{(10.57)} \underbrace{\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} \mid \mathbf{W}_{k}, \boldsymbol{\nu}_{k}\right)}_{(10.59)} \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ &=\sum_{k=1}^{K} \int\pi_{k} \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\pi} \int \left[ \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathrm{d} \boldsymbol{\mu}_{k} \right]\mathcal{W}\left(\boldsymbol{\Lambda}_{k} \mid \mathbf{W}_{k}, \boldsymbol{\nu}_{k}\right) \mathrm{d} \boldsymbol{\Lambda}_{k} \cdots (\textrm{A})\\ \end{aligned} $$ $\boldsymbol{\pi}$の積分に関係するのは$\pi_{k}\operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha})$のみで、$\int\pi_{k} \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\pi}$はディリクレ分布以下での$\pi_{k}$の期待値であるから $$ \int\pi_{k} \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\pi} = \frac{\alpha_{k}}{\widehat{\alpha}}\ (\because{(B.17)}) $$ 次に$\displaystyle \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathrm{d} \boldsymbol{\mu}_{k}$について、これを $$ \begin{aligned} p\left(\boldsymbol{\mu}_{k}\right)&=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \\ p\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}\right)&=\mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \end{aligned} $$ とみなして$(2.115)$の公式を用いると $$ \begin{aligned} & \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) d \boldsymbol{\mu}_{k} \\ =&\ \mathcal{N}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k},\left(\boldsymbol{\Lambda}_{k}^{-1}+\beta_{k}^{-1} \boldsymbol{\Lambda}_{k}^{-1}\right)\right) \\ =&\ \mathcal{N}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k},\left(1+\beta_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}^{-1}\right) \end{aligned} $$ となる。以上から$(\textrm{A})$式に戻ると $$ \begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X})\simeq & \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \mathcal{N}\left(\widehat{\mathbf{x}} \mid \mathbf{m}_{k},\left(1+\beta_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \frac{1}{(2 \pi)^{D / 2}} \frac{\left|\boldsymbol{\Lambda}_{k}\right|^{1 / 2}}{\left(1+\beta_{k}^{-1}\right)^{D / 2}} \exp \left\{-\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)}{2\left(1+\beta_{k}^{-1}\right)}\right\} \\ & B\left(\mathbf{W}_{k}, \nu_{k}\right)\left|\boldsymbol{\Lambda}_{k}\right|^{\left(\nu_{k}-D-1\right) / 2} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{(2 \pi)^{D / 2}} \frac{\left|\boldsymbol{\Lambda}_{k}\right|^{\left((\nu_{k}+1)-D-1\right) / 2}}{\left(1+\beta_{k}^{-1}\right)^{D / 2}} \exp \left\{-\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)}{2\left(1+\beta_{k}^{-1}\right)}\right\} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \int \frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{(2 \pi)^{D / 2}} \frac{\left|\boldsymbol{\Lambda}_{k}\right|^{\left((\nu_{k}+1)-D-1\right) / 2}}{\left(1+\beta_{k}^{-1}\right)^{D / 2}} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\left(\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}}{1+\beta_{k}^{-1}}+\mathbf{W}_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \\ =&\ \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{(2 \pi)^{D / 2} \left(1+\beta_{k}^{-1}\right)^{D / 2}} \int \left|\boldsymbol{\Lambda}_{k}\right|^{\left((\nu_{k}+1)-D-1\right) / 2} \exp \left\{-\frac{1}{2} \operatorname{Tr}\left[\left(\frac{\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}}{1+\beta_{k}^{-1}}+\mathbf{W}_{k}^{-1}\right) \boldsymbol{\Lambda}_{k}\right]\right\} \mathrm{d} \boldsymbol{\Lambda}_{k} \end{aligned} $$ ここで、$\int$の中身は $$ \begin{aligned} \mathbf{W^{\prime}}_{k}^{-1} &=\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} + \mathbf{W}_{k}^{-1} \\ {\nu^{\prime}}_{k} &= \nu_{k}+1 \end{aligned} $$ としたときのウィシャート分布$\mathcal{W}(\boldsymbol{\Lambda}_{k}\mid \mathbf{W^{\prime}}_{k}, {\nu^{\prime}}_{k})$となっているので、この積分結果は正規化定数である$B(\mathbf{W^{\prime}}_{k}, {\nu^{\prime}}_{k})$の逆数になることがわかる。すなわち $$ p(\widehat{\mathbf{x}} \mid \mathbf{X}) \simeq \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{1}{(2 \pi)^{D / 2} \left(1+\beta_{k}^{-1}\right)^{D / 2}}\frac{B\left(\mathbf{W}_{k}, \nu_{k}\right)}{B(\mathbf{W^{\prime}}_{k}, {\nu^{\prime}}_{k})} \tag{B} $$ となる。この正規化定数部分をさらに展開していく。 $$ \begin{aligned} \frac{B(\mathbf{W}_k,\nu_k)}{B(\mathbf{W^{\prime}}_{k},\nu_k+1)} &=\frac{\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}\left(2^{\frac{\nu_{k} D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)\right)^{-1}}{\left|\mathbf{W}^{\prime}_{k}\right|^{-\frac{\nu_{k}+1}{2}}\left(2^{\frac{\left(\nu_{k}+1\right) D}{2}} \pi^{\frac{D(D-1)}{4}} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+2-i}{2}\right)\right)^{-1}} ~~~(\because\ (B.79)) \\ &=\frac{\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}}{\left|\mathbf{W}^{\prime}_{k}\right|^{-\frac{\nu_{k}+1}{2}}} 2^{\frac{D}{2}} \frac{\prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+2-i}{2}\right)}{\prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)} \\ &=2^{D/2}\frac{\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}}{\left|\left\{\mathbf{W}_{k}^{-1}+\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right\}^{-1}\right|^{-\frac{\nu_{k}}{2}}} \\ &~~~~\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right) \Gamma\left(\frac{\nu k}{2}\right) \Gamma\left(\frac{\nu_{k}-1}{2}\right) \cdots \Gamma\left(\frac{\nu_{k}+2-D}{2}\right)}{\Gamma\left(\frac{\nu k}{2}\right) \Gamma\left(\frac{\nu_{k}-1}{2}\right) \cdots \Gamma\left(\frac{\nu_{k}+2-D}{2}\right) \Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{-\frac{\nu_{k}}{2}}\left|\mathbf{W}_{k}^{-1}\left\{\mathbf{I}+\mathbf{W}_{k}\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right\}\right|^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{1/2}\left|\mathbf{I}+\mathbf{W}_{k}\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right|^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{1/2}\left[1+\left\{\mathbf{W}_{k}\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{\mathrm{T}}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right]^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} ~~ (\because (\textrm{C}.15))\\ &=2^{D/2}\left|\mathbf{W}_{k}\right|^{1/2}\left\{1+\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{-\frac{\nu_{k}+1}{2}}\frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)}~~ (\because \mathbf{W}_{k}^{\mathrm T} = \mathbf{W}_{k}) \end{aligned} $$ これを$(\textrm{B})$に代入して $$ \begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X}) &\simeq \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{\Gamma\left(\frac{\nu_{k}+1}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)}\frac{\left|\mathbf{W}_{k}\right|^{1/2}}{\pi^{D / 2} \left(1+\beta_{k}^{-1}\right)^{D / 2}}\left\{1+\left(1+\beta_{k}^{-1}\right)^{-1}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{-\frac{\nu_{k}+1}{2}} \\ &= \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{\Gamma\left(\frac{\nu_{k}+1-D}{2} + \frac{D}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \frac{\left|\frac{\nu_{k}+1-D}{1+\beta_{k}^{-1}}\mathbf{W}_{k}\right|^{1/2}}{\pi^{D / 2} \left(\nu_{k}+1-D\right)^{D / 2}} \\ &~~~~\left\{1+\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \left( \frac{1}{\nu_{k}+1-D}\frac{\nu_{k}+1-D}{1+\beta_{k}^{-1}}\mathbf{W}_{k} \right)\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)\right\}^{-\frac{\nu_{k}+1-D}{2} - \frac{D}{2}} \\ &= \sum_{k=1}^{K} \frac{\alpha_{k}}{\widehat{\alpha}} \frac{\Gamma\left(\frac{\nu_{k}+1-D}{2} + \frac{D}{2}\right)}{\Gamma\left(\frac{\nu_{k}+1-D}{2}\right)} \frac{\left|\mathbf{L}_{k}\right|^{1/2}}{\left\{\pi (\nu_{k}+1-D)\right\}^{D/2}}\left( 1 + \frac{\Delta^{2}}{\nu_{k}+1-D}\right)^{-\frac{\nu_{k}+1-D}{2} - \frac{D}{2}} \\ &= \frac{1}{\widehat{\alpha}}\sum_{k=1}^{K}\alpha_{k}\operatorname{St} \left( \widehat{\mathbf{x}} \mid \mathbf{m}_{k}, \mathbf{L}_{k}, \nu_{k}+1-D \right) ~~ (\because (\textrm{B}.68)) \end{aligned} $$ となる。ここで、 $$ \mathbf{L}_{k} =\frac{\nu_{k}+1-D}{1+\beta_{k}^{-1}} \mathbf{W}_{k} = \frac{(\nu_{k}+1-D)\beta_{k}}{(1+\beta_{k})} \mathbf{W}_{k} \tag{10.82} $$ $$ \Delta^{2} =\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{L}_{k}\left(\widehat{\mathbf{x}}-\mathbf{m}_{k}\right) $$ とした。これより$(10.81)$を得た。 ## 演習 10.20 <div class="panel-primary"> この演習問題では,データ集合のサイズ$N$が大きくなった場合の混合ガウスモデルの変分ベイズ法による解を考え,これが(期待通り)9章のEMアルゴリズムに基づく最尤推定の解に近づくことを示す.この演習問題を解くには,付録Bの結果が有用であろう.最初に,精度の事後分布$q^{\star}(\mathbf{\Lambda}_k)$が最尤推定値の周囲に鋭い分布を持つことを示せ.平均の事後分布$q^{\star}(\boldsymbol{\mu}_k \mid \mathbf{\Lambda}_k)$についても同様のことを示せ.次に,混合比の事後分布$q^{\star}(\boldsymbol{\pi})$について考え,これも最尤推定値の周囲に鋭く分布することを示せ.同様に,大きな$N$については負担率は対応する最尤推定値と等しくなることを,大きな$x$についてのディガンマ関数の次の漸近的な結果 $$ \psi(x)=\ln x+O(1 / x) $$ を利用して示せ.最後に $$ p(\widehat{\mathbf{x}} \mid \mathbf{X}) \simeq \sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \mathbf{\Lambda}_{k} \tag{10.80} $$ を用いて,大きな$N$については予測分布は混合ガウス分布になることを示せ. </div> (10.59)式の導出を考えると、(演習10.13より) $$ q^{\star}\left(\mathbf{\Lambda}_{k}\right)=\mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right)\\ q^{\star}\left(\boldsymbol{\mu}_{k} \mid \boldsymbol{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k}, \beta_{k} \boldsymbol{\Lambda}_{k}\right) $$ となる。 これらの分布について、$N \rightarrow \infty$のとき、 $N_{k} \rightarrow \infty$であり、 (10.60)~(10.63)式より、 $$ \beta_{k} \rightarrow N_{k}\\ \mathbf{m}_{k} \rightarrow \overline{\mathrm{x}}_{k}\\ \mathbf{W}_{k} \rightarrow N_{k}^{-1} \mathbf{S}_{k}^{-1}\\ \nu_{k} \rightarrow N_{k} $$ である。 これらと(B.79)~(B.81)式より, $$ \mathrm{E}\left[\boldsymbol{\Lambda}_{k}\right]=\nu_{k} \mathbf{W}_{k} \rightarrow \mathbf{S}_{k}^{-1} $$ $$ \begin{aligned} -\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)&=-\ln (|\mathbf{W}_{k}|^{-\nu_{k} / 2}\left(2^{\nu_{k} D / 2} \pi^{D(D-1) / 4} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)\right)^{-1})\\ &\rightarrow-\frac{N_{k}}{2}\left(D \ln N_{k}+\ln \left|\mathbf{S}_{k}\right|-D \ln 2\right)+\sum_{i=1}^{D} \ln \Gamma\left(\frac{N_{k}+1-i}{2}\right)\\ &\rightarrow-\frac{N_{k}}{2}\left(D \ln N_{k}+\ln \left|\mathbf{S}_{k}\right|-D \ln 2\right)+\sum_{i=1}^{D} \frac{N_{k}}{2}\left(\ln N_{k}-\ln 2-1\right)~~ (\because (\textrm1.146))\\ & \rightarrow-\frac{N_{k} D}{2}\left(\ln N_{k}-\ln 2-\ln N_{k}+\ln 2+1\right)-\frac{N_{k}}{2} \ln \left|\mathbf{S}_{k}\right| \\ &=-\frac{N_{k}}{2}\left(\ln \left|\mathbf{S}_{k}\right|+D\right) \end{aligned} $$ $$ \begin{aligned} \mathbb{E}[\ln |\boldsymbol{\Lambda}_{k}|] &=\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln |\mathbf{W}_{k}|\\ & \rightarrow D \ln \frac{N_{k}}{2}+D \ln 2-D \ln N_{k}-\ln \left|\mathbf{S}_{k}\right| \\ &=-\ln \left|\mathbf{S}_{k}\right| \end{aligned} $$ ただし、$\psi(\cdot)$は(10.241)式: $$\psi(x)=\ln x+O(1 / x)$$ のディガンマ分布。 よって(B.82)式より $$ \begin{aligned} \mathrm{H}[\boldsymbol{\Lambda}_{k}]&=-\ln B(\mathbf{W}_{k}, \nu_{k})-\frac{(\nu_{k}-D-1)}{2} \mathbb{E}[\ln |\boldsymbol{\Lambda}_{k}|]+\frac{\nu_{k} D}{2}\\ & \rightarrow 0 \end{aligned} $$ これにより $q^{\star}\left(\boldsymbol{\Lambda}_{k}\right)$ については示された。 また、 $$ \mathbf{m}_{k} \rightarrow \overline{\mathrm{x}}_{k}\\ \beta_{k} \mathbf{\Lambda}_{k} \rightarrow \beta_{k} \nu_{k} \mathbf{W}_{k} \rightarrow N_{k} \mathbf{S}_{k}^{-1} $$ より $q^{\star}\left(\boldsymbol{\mu}_{k} \mid \boldsymbol{\Lambda}_{k}\right)$ についても示された。 $q^{\star}(\pi)$については、 (10.56),(10.57)式にある通り $$ q^{\star}(\pi)=\operatorname{Dir}(\pi \mid \alpha)\\ \alpha_{k}=\alpha_{0}+N_{k} $$ であり、$\alpha_{k} \rightarrow N_{k}$である。 (B.17),(B.19)式より、 $$ \begin{aligned} \mathbb{E}\left[\pi_{k}\right]&=\frac{\alpha_{k}}{\overline{\alpha}}\\ &\rightarrow \frac{N_{k}}{N} \end{aligned} $$ $$ \begin{aligned} \operatorname{cov}\left[\mu_{j} \mu_{k}\right]&=-\frac{\alpha_{j} \alpha_{k}}{\widehat{\alpha}^{2}(\widehat{\alpha}+1)}\\ &\rightarrow 0 \end{aligned} $$ よって$q^{\star}(\pi)$についても示された。 最後に(10.80)式より、 $$ \begin{aligned} p(\widehat{\mathbf{x}} \mid \mathbf{X}) &\simeq \sum_{k=1}^{K} \iiint \pi_{k} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) q(\boldsymbol{\pi}) q\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\pi} \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \mathbf{\Lambda}_{k}\\ &\rightarrow \sum_{k=1}^{K} \frac{\alpha_{k}}{\bar{\alpha}} \iint \mathcal{N}\left(\widehat{\mathbf{x}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) q\left(\boldsymbol{\mu}_{k}, \boldsymbol{\Lambda}_{k}\right) \mathrm{d} \boldsymbol{\mu}_{k} \mathrm{~d} \boldsymbol{\Lambda}_{k}\\ &\rightarrow \sum_{k=1}^{K} \frac{N_{k}}{N} \mathcal{N}\left(\widehat{\mathbf{x}} \mid \overline{\mathbf{x}}_{k}, \mathbf{W}_{k}\right) \end{aligned} $$ ただし最後の行は$q^{\star}\left(\boldsymbol{\Lambda}_{k}\right)$と$q^{\star}\left(\boldsymbol{\mu}_{k} \mid \boldsymbol{\Lambda}_{k}\right)$が特定の位置についてのデルタ関数と近似した。 これにより示された。 ## 演習 10.21 <div class="panel-primary"> $K$個の混合要素を持つ混合モデルにおいて,混合要素の入れ替えについての対称性から得られる,同値なパラメータ設定の数は$K!$であることを示せ. </div> P.197によれば > 例として,一つの観測値$x$についての二混合のガウス混合分布を考えよう.パラメータの値は$\pi_{1} = a$,$\pi_{2} = b$,$\pi_{3} = c$,$\pi_{4} = d$,$\pi_{5} = e$,$\pi_{6} = f$とする.このとき,二つの混合要素を入れ替えた別の設定$\pi_{1} = b$,$\pi_{2} = a$,$\pi_{3} = d$,$\pi_{4} = c$,$\pi_{5} = f$,$\pi_{6} = e$も,対称性から同じ$p(x)$を与える. とあるように、もし$K$個の混合要素が存在する場合は、それらを入れ替えることで同値なパラメータ設定が可能なので、一般に$K!$個存在することは明らかである。 ## 演習 10.22 <div class="panel-primary"> これまでにガウス混合モデルの事後分布の持つそれぞれの峰は,$K!$個ある同値な峰の一つであることを見てきた.変分ベイズ推論のアルゴリズムを実行した結果,近似事後分布$q$がどれかの峰の周りに局所化して得られたとしよう.このとき,完全な事後分布はこうした分布$q$の$K!$個の混合分布となり,各混合要素が峰となって同じ混合係数を持つ.この混合分布$q$の混合要素の間の重なりが無視できる程度だと仮定すると,結果として得られる全体の下界は,$q$の一つの混合要素の下界に項$\ln K!$を加えたものになることを示せ. </div> 今、p166並びに、演習9.24より \begin{align} \ln p(\mathbf{X}) = L(q) + KL(q||p) \end{align} が成り立つ。 この時、$KL(q||p)$はKLダイバージェンスであり、1.6.1の議論から、$KL(q||p) \geq 0$である。よって、$\ln p(\mathbf{X}) \geq L(q)$であり、$L(q)$は、$\ln p(\mathbf{X})$の下界である。よって、本題は、求めたい真の分布を$p(\mathbf{Z}|\mathbf{X})$として、$L(p(\mathbf{Z}|\mathbf{X}))$を求めれば良い。 まず、各峰は、pの真の各峰を$r_i$ $(i \in \{1, 2... K!\})$とおくと、pは単純に各$r_i$の平均で表すことができる。 \begin{align} p(\mathbf{Z}|\mathbf{X}) \simeq \sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X}) \end{align} また、各峰の重なりが無視できるという仮定から、$r_k \neq 0 \rightarrow r_{i \neq k = 0}=0$が成り立つ。 ここで、ある真の峰$r_k$の近似の峰をqとおく。すなわち、この問題では、$p$を混合要素$r_i$を重ね合わせたものと見なし、その近似であるqによって下界を表すことを目指す。 すると、10.3式から、 \begin{align} L(p(\mathbf{Z}|\mathbf{X})) &= \int p(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{p(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \int\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \frac{1}{K!} \int r_1(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \frac{1}{K!} \int r_2(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \cdots \frac{1}{K!} \int r_{K!}(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\sum_i^{K!} \frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \frac{1}{K!} \int r_1(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\frac{1}{K!} r_1(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \frac{1}{K!} \int r_2(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{ \frac{1}{K!} r_2(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} + \cdots \frac{1}{K!} \int r_{K!}(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\frac{1}{K!} r_i{K!}\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} &\because r_k \neq 0 \rightarrow r_{i \neq k = 0}=0 \\ &= \frac{1}{K!} \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \ln \{\frac{p(\mathbf{Z}, \mathbf{X})}{\frac{1}{K!} r_i(\mathbf{Z}|\mathbf{X})} \} d\mathbf{Z} \\ &= \frac{1}{K!} \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \{ \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} + \ln K!\} d\mathbf{Z} \\ &= \frac{1}{K!} \{ \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} + \ln K! \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) d\mathbf{Z}\} \\ &= \frac{1}{K!} \sum_i^{K!} \int r_i(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} + \ln K! &\because \int r_i(\mathbf{Z}|\mathbf{X}) d\mathbf{Z} = r_i(\mathbf{X}|\mathbf{X}) = 1\\ &=\frac{1}{K!} \{ \int r_1 (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_1(\mathbf{Z}|\mathbf{X})} d\mathbf{Z}+ \int r_2 (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_2(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \}+\cdots + \int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_k(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \}+\cdots + \int r_{K!} (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_{K!}(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \}+ \ln K! \\ &=\frac{1}{K!} K! \int q(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ q(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} + \ln K! &\because r_i\text{はそれぞれ同値であり、積分は同じ。詳細は最後 }\\ &= L(q) + \ln K! &\because (10.3) \end{align} 今、$L(q)$は一つの混合要素の下界なので、題意は満たされた。 最後から2番目の式変形について、まず、自明に、$\int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_k(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} =\int q(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ q(\mathbf{Z}|\mathbf{X})} d\mathbf{Z}$が成り立つ。 そして、$i \neq k$について、 \begin{align} \int r_i (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ r_i(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} &= \int r_i (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{Z}| \mathbf{X})d\mathbf{Z} +\int r_i (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_i (\mathbf{Z}|\mathbf{X}) \ln r_i (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} \\ &= \int r_i (\mathbf{Z}|\mathbf{X}) \ln \frac{r_i(\mathbf{Z}| \mathbf{X})}{K!} d\mathbf{Z} +\int r_i (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_i (\mathbf{Z}|\mathbf{X}) \ln r_i (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} &\because r_i(\mathbf{Z} \notin \mathbf{Z}_i |\mathbf{X}) = 0\\ &= \int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{r_k(\mathbf{Z}| \mathbf{X})}{K!} d\mathbf{Z} +\int r_k (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_k (\mathbf{Z}|\mathbf{X}) \ln r_k (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} &\because r_i\text{はそれぞれ同値であり、積分は同じ}\\ &= \int r_k (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{Z}| \mathbf{X})d\mathbf{Z} +\int r_k (\mathbf{Z}|\mathbf{X}) \ln p(\mathbf{X}) d\mathbf{Z} -\int r_k (\mathbf{Z}|\mathbf{X}) \ln r_k (\mathbf{Z}|\mathbf{X}) d\mathbf{Z} &\because r_k(\mathbf{Z} \notin \mathbf{Z}_k |\mathbf{X}) = 0\\ &= \int r_k (\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{r_k (\mathbf{Z}|\mathbf{X})} d\mathbf{Z}\\ &= \int q(\mathbf{Z}|\mathbf{X}) \ln \frac{p(\mathbf{Z}, \mathbf{X})}{ q(\mathbf{Z}|\mathbf{X})} d\mathbf{Z} \end{align} 最後は冗長かもしれないのでその時はご教示ください。 ## 演習 10.23 <div class="panel-primary"> 混合係数$\{ \pi_k \}$に事前分布を与えない変分ベイズガウス混合モデルを考えよう.代わりに混合係数はパラメータとして扱い,対数周辺尤度の下界を最大化する際に値を求める.ラグランジュ乗数法を用いて,混合係数の和が$1$になる制約条件の下でこの下界を混合係数について最大化すると,再推定式 $$\pi_{k}=\frac{1}{N} \sum_{n=1}^{N} r_{n k} \tag{10.83}$$ の結果が得られることを示せ.この際,下界のすべての項を考える必要はなく,$\{\pi_k\}$に依存する項だけを考えればよいことに注意せよ. </div> 変分ベイズガウス混合モデルでは、下界は(10.70)式で与えられる。 本問では、**混合係数$\{ \pi_k \}$に事前分布を与えない**パラメータとして扱うため、対数周辺尤度として第2項のみを考えれば良い。つまり、 $$ \mathscr{L} \propto \mathbb{E}[\ln p(\mathbf{Z} \mid \pi)]=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \pi_{k} \tag{10.72} $$ $$ L=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \pi_{k}+\lambda \cdot\left(\sum_{k=1}^{K} \pi_{k}-1\right) $$ 上式のLagrangianについて、$\pi_k$について微分し、=0とおくと、 $$ \frac{\partial L}{\partial \pi_{k}}=\frac{\sum_{n=1}^{N}r_{nk}}{\pi_{k}}+\lambda=\frac{N_{k}}{\pi_{k}}+\lambda=0 \tag{A} $$ (A)の両辺に$\pi_k$をかけ、$\sum_{k=1}^{K}$をとると、 $$ \sum_{k=1}^{K} N_{k}+\lambda \sum_{k=1}^{K}\pi_{k}=0 $$ $\sum_{k=1}^{K} N_{k}=N$, $\sum_{k=1}^{K}\pi_{k}=1$より、$$\lambda=-N$$(A)に代入し、$\pi_{k}$について解くと、$$\pi_{k}=\frac{N_{k}}{N}=\underline{\frac{1}{N} \sum_{n=1}^{N} r_{n k}}$$ ## 演習 10.24 <div class="panel-primary"> 10.2節でガウス混合モデルを最尤推定で扱う際に現れる特異性は,ベイズ的な解では現れないことを見た.こうした特異性は,ベイズモデルを最大事後機率(MAP)推定を使って解く際には現れるかどうか議論せよ. </div> 最尤推定で現れる特異性とは、9.2.1節で議論した$\left|\boldsymbol{\Lambda}_{k}\right| \rightarrow \infty$に発散してしまうことを意味している。ベイズモデルではこのようなことが起きないことを示す。 混合ガウス分布の事後確率は、(10.9),(10.38),(10.40),(10.50)を利用すれば以下となる。 $$ \begin{aligned} \mathbb{E}_{q(\mathbf{Z})} &[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ =& \frac{1}{2} \sum_{n=1}^{N} r_{k n}\left(\ln \left|\boldsymbol{\Lambda}_{k}\right|-\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right) \\ &+\ln \left|\boldsymbol{\Lambda}_{k}\right|-\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \boldsymbol{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) \\ &+\left(\nu_{0}-D-1\right) \ln \left|\boldsymbol{\Lambda}_{k}\right|-\operatorname{Tr}\left[\mathbf{W}_{0}{ }^{1} \boldsymbol{\Lambda}_{k}\right]+\text { const. } \end{aligned} $$ これを(10.51)-(10.53)を利用して$\mathbf{\Lambda}_{k}$について整理すると($\mathbf{\Lambda}_{k}$と無関係な項は無視) $$ \left(\nu_{0}+N_{k}-D\right) \ln \left|\boldsymbol{\Lambda}_{k}\right|-\operatorname{Tr}\left[\left(\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}+N_{k} \mathbf{S}_{k}\right) \boldsymbol{\Lambda}_{k}\right] $$ (C.24),(C.28)を使用して$\mathbf{\Lambda}_{k}$で微分してゼロとおくと以下になる。 $$ \mathbf{\Lambda}_{k}^{-1}=\frac{1}{\nu_{0}+N_{k}-D}\left(\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}+N_{k} \mathbf{S}_{k}\right) $$ ウィシャート分布の正式より、$\left|\boldsymbol{\Lambda}_{k}^{-1}\right|$はゼロになることはない。 よって、ベイズモデルでは、$\left|\boldsymbol{\Lambda}_{k}\right| \rightarrow \infty$に発散することはないことが示された。 ## 演習 10.25 <div class="panel-primary"> 10.2節で議論したベイズ混合ガウス分布の変分ベイス法による解では,事後分布について分解した近似 $$q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right) \tag{10.5}$$ を用いた図10.2で見たように,こうした分解の仮定はパラメータ空間で、の事後分布の特定の方向の分散を過小評価してしまう.この影響がモデルエピデンスの変分近似に及ぼす影響について質的に議論せよ.さらに,この影響が混合モデルの混合要素数に関してどう変わるか述べよ.これから,変分ガウス混合モデルが最適な混合要素数を過小評価しがちか,過大評価しがちか説明せよ. </div> 混合成分の数が増えると、相関している可能性のある変数の数も増える一方、平均場近似の式(10.5)を用いるとそれらの相関を表現することができない(図10.2,3)。その結果、KLダイバージェンスの最小化を行うときに複数の山をつぶして近似してしまうことが考えられるため、過小評価する。 ## 演習 10.26 <div class="panel-primary"> ベイズ線形回帰モデルの変分ベイズ法による解法を拡張し,$\beta$についてガンマ超事前分布$\textrm{Gam}(\beta\mid c_0, d_0)$を導入して,分解された変分事後分布$q(\mathbf{w}) q(\alpha) q(\beta)$を仮定して変分ベイズ法によって解け.変分事後分布の三つの因子の更新式を導出し,さらに下界および予測分布の式を求めよ. </div> ※ $\beta$を含めた全ての変数の同時分布は $$ p(\mathbf{t}, \mathbf{w}, \alpha, \beta)=p(\mathbf{t}|\mathbf{w}, \beta)p(\mathbf{w}|\alpha)p(\alpha)p(\beta) $$ と書くことができる.本文中の議論をなぞって,$\mathbf{w}, \alpha, \beta$の尤度関数と事前分布を $$ \begin{aligned} &p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X})=\prod_{n=1}^{N} N\left(\mathbf{t}_{n} \mid \mathbf{w}^{\mathrm{T}} \phi_{n}, \beta^{-1}\right) \\ &p(\mathbf{w} \mid \alpha)=N\left(\mathbf{w} \mid 0, \alpha^{-1} \mathbf{I}\right) \\ &p(\alpha)=\operatorname{Gam}\left(\alpha \mid a_{0}, b_{0}\right) \\ &p(\beta)=\operatorname{Gam}\left(\beta \mid c_{0}, d_{0}\right) \end{aligned} $$ と書くことができる. ここで変分推論の枠組みで考え,問題中の設定から変分事後分布は $$ q(\mathbf{w}, \alpha, \beta) = q(\mathbf{w})q(\alpha)q(\beta) $$ と分解できるとする. $q(\mathbf{w}),q(\alpha),q(\beta)$の更新式を求める.まず$q(\alpha)$から10.1節で導出した一般的な結果(10.9)を用いて $$ \begin{aligned} \ln q^*(\alpha)&=\mathbb{E}_{\mathbf{w}, \beta}[\ln p(\mathbf{t}, \mathbf{w}, \alpha, \beta \mid \mathbf{X})]\\ &=\mathbb{E}_{\mathbf{w}, \beta}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X}) p(\mathbf{w} \mid \alpha) p(\alpha) p(\beta)]\\ &=\mathbb{E}_{\mathbf{w}, \beta}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X})]+\mathbb{E}_{\mathbf{w}}[\ln \beta(\mathbf{w} \mid \alpha)]+\ln p(\alpha)+\mathbb{E}_{\beta}[\ln p(\beta)]\\ &=\mathbb{E}_{\mathbf{w}}\left[\ln N\left(\mathbf{w} \mid 0, \alpha^{-1} \mathbf{I}\right)\right]+\ln \operatorname{Gam}\left(\alpha \mid a_{0}, b_{0}\right)+\textrm{const}\\ &=\mathbb{E}_{\mathbf{w}}\left[\ln \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{\left(\alpha^{-1}\right)^{\frac{1}{2}}} \operatorname{exp}\left(-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right)\right]+\ln \frac{1}{\Gamma\left(a_{0}\right)} b_{0}^{a_{0}} \alpha^{a_{0}-1} e^{-b_{0} \alpha}+ \textrm{const.}\\ &=\frac{M}{2} \ln \alpha-\frac{\alpha}{2} \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+\left(a_{0}-1\right) \ln \alpha-b_{0} \alpha+ \textrm{const.}\\ &=\left(\frac{M}{2}+a_{0}-1\right) \ln \alpha-\left(\frac{1}{2} \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+b_{0}\right) \alpha+ \textrm{const.} \end{aligned} $$ ここで$\beta$を導入した場合にも$\alpha$に依存しない項はconstに押し込んで計算することができるため,(10.92)-(10.95)式までの議論をそのまま用いることができる. $$ q^*(\alpha)=\operatorname{Gam}\left(\alpha \mid a_{N}, b_{N}\right) , a_N=\frac{M}{2} + a_0, b_N=\frac{1}{2}\mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right]+b_0 $$ を得る.次に$q(\mathbf{w})$について(10.9)より $$ \begin{aligned} \ln q^*(\mathbf{w})&=\mathbb{E}_{\alpha, \beta}[\ln \beta(\mathbf{t}, \mathbf{w}, \alpha, \beta \mid x)]\\ &=\mathbb{E}_{\alpha, \beta}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, X) p(\mathbf{w} \mid \alpha) \gamma(\alpha) p(\beta)]\\ &=\mathbb{E}_{\beta}\left[\ln \prod_{n=1}^{N} N\left(\mathbf{t}_{n} \mid \mathbf{w}^{\mathrm{T}} \phi_{n}, \beta^{-1}\right)\right]+\mathbb{E}_{\alpha}\left[\ln N\left(w \mid 0, \alpha^{-1} I\right)\right]+ \textrm{const.}\\ &=\mathbb{E}_{\beta}\left[\sum_{n=1}^N\ln \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{\left(\beta^{-1}\right)^{\frac{1}{2}}} \operatorname{exp}\left\{-\frac{\beta}{2}(\mathbf{t}_n-\mathbf{w}^{\mathrm{T}}\phi_{n})^2 \right\}\right]+\mathbb{E}_{\alpha}\left[\ln \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{\left(\alpha^{-1}\right)^{\frac{1}{2}}} \operatorname{exp}\left(-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right)\right]+ \textrm{const.}\\ &=\mathbb{E}_{\beta}\left[\beta\right]\left(\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\mathbf{t}-\frac{1}{2}\mathbf{w}^{\mathrm{T}}\Phi^{\mathrm{T}}\Phi\mathbf{w}\right)-\frac{1}{2}\mathbb{E}_{\alpha}\left[\alpha\right]\mathbf{w}^{\mathrm{T}}\mathbf{w}+ \textrm{const.}\\ &=-\frac{1}{2}\mathbf{w}^{\mathrm{T}}\left(\mathbb{E}_{\beta}[\beta] \Phi^{\mathrm{T}} \Phi+\mathbb{E}_{\alpha}[\alpha]\mathbf{I}\right) \mathbf{w}+\mathbb{E}_{\beta}[\beta] \mathbf{w}^{\mathrm{T}} \Phi^{\mathrm{T}} \mathbf{t}+ \textrm{const.}\\ \end{aligned} $$ これは$\mathbf{w}$に関して2次形式なのでガウス分布になり,平方完成すると $$ q^*(\mathbf{w})=\mathcal{N}(\mathbf{w}\mid \mathbf{m}_N, \mathbf{S}_N) $$ $$ \mathbf{m}_N=\mathbb{E}_{\beta}[\beta]\mathbf{S}_N\mathbf{\Phi}^{\mathrm{T}}\mathbf{t} $$ $$ \mathbf{S}_N=\mathbb{E}_{\alpha}[\alpha]\mathbf{I}+\mathbb{E}_{\beta}[\beta]\mathbf{\Phi}^{\mathrm{T}}\mathbf{\Phi} $$ を得る.最後に$q(\beta)$について(10.9)より $$ \begin{aligned} \ln q^{\star}(\beta) &=\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{t}, \mathbf{w}, \alpha, \beta \mid \mathbf{X})]\\ &=\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta, \mathbf{X}) p(\mathbf{w} \mid \alpha) p(\alpha) p(\beta)]\\ &=\mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} \mid \mathbf{w}, \beta)]+\ln p(\beta)+\text { const } \\ &= \frac{N}{2} \cdot \ln \beta-\frac{\beta}{2} \cdot \mathbb{E}\left[\sum_{n=1}^{N}\left(t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}\right)^{2}\right]+\left(c_{0}-1\right) \ln \beta-d_{0} \beta +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\frac{\beta}{2} \cdot \mathbb{E}\left[\left\|\mathbf{\Phi}_{\mathbf{w}}-\mathbf{t}\right\|^{2}\right]-d_{0} \beta +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \mathbb{E}\left[\|\mathbf{\Phi} \mathbf{w}-\mathbf{t}\|^{2}\right]+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \mathbb{E}\left[\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}_{\mathbf{w}}-2 \mathbf{t}^{\mathrm{T}} \mathbf{\Phi}_{\mathbf{w}}+\mathbf{t}^{\mathrm{T}} \mathbf{t}\right]+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right]\right]-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbb{E}[\mathbf{w}]+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \cdot \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right]-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot\left\{\frac{1}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{S}_{N}\right]+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}-\mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{m}_{N}+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+d_{0}\right\} +\text { const }\\ &=\left(\frac{N}{2}+c_{0}-1\right) \cdot \ln \beta-\beta \cdot \frac{1}{2}\left\{\operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{S}_{N}\right]+\left\|\mathbf{\Phi} \mathbf{m}_{N}-\mathbf{t}\right\|^{2}+2 d_{0}\right\}+\text { const } \end{aligned} $$ これより $$ q^{\star}(\beta)=\operatorname{Gam}\left(\beta \mid c_{N}, d_{N}\right) $$ $$ c_N=\frac{N}{2}+c_0 $$ $$ d_N=d_{0}+\frac{1}{2}\left\{\operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{S}_{N}\right]+\left\|\mathbf{\Phi} \mathbf{m}_{N}-\mathbf{t}\right\|^{2}\right\} $$ 以上から各因子の更新式が得られた. 次に変分下界を求める.変分下界は本文中の式(10.107)を$\beta$を考慮した形に修正すれば得られ,考えるべき項は$\mathbb{E}\left[\ln p(\beta)\right], -\mathbb{E}\left[\ln q^*(\beta)\right]$の二つであるので,それぞれの計算をして,ディガンマ関数$\varphi(a)=\frac{d}{da}\ln\Gamma(a)$として $$ \begin{aligned} \mathbb{E}[\ln p(\beta)] &=\left(c_{0}-1\right) \mathbb{E}[\ln \beta]-d_{0} \mathbb{E}[\beta]+c_{0} \ln d_{0}-\ln \Gamma\left(c_{0}\right) \\ &=\left(c_{0}-1\right) \cdot\left(\varphi\left(c_{N}\right)-\ln d_{N}\right)-d_{0} \frac{c_{N}}{d_{N}}+c_{0} \ln d_{0}-\ln \Gamma\left(c_{0}\right) \end{aligned} $$ ここで(B.26)(ガンマ分布の関数形についての定義式),(B.30)(ガンマ分布に従う確率変数の自然対数の期待値がディガンマ関数に紐づけられる式)をそれぞれ用いた.また $$ -\mathbb{E}\left[\ln q^{\star}(\beta)\right]=\left(c_{N}-1\right) \cdot \varphi\left(c_{N}\right)-c_{N}+\ln d_{N}-\ln \Gamma\left(c_{N}\right) $$ ここでガンマ分布に従う確率変数のエントロピーについての式(B.31)を用いた.(10.107)-(10.112)の式を修正することで$\beta$を考慮に入れた変分下界を得る. 最後に予測分布を考える. これも本文中の議論を$\beta$を考慮したものに修正して得ることができて(10.105),(10.106)から $$ \begin{aligned} p(t \mid \mathbf{x}, \mathbf{t}) &=\int p(t \mid \mathbf{x}, \mathbf{w}) p(\mathbf{w} \mid \mathbf{t}) \mathrm{d} \mathbf{w} \\ & \simeq \int p(t \mid \mathbf{x}, \mathbf{w}) q(\mathbf{w}) \mathrm{d} \mathbf{w} \\ &=\int \mathcal{N}\left(t \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}_{N}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned} $$ ここで分散は $$ \sigma^{2}(\mathbf{x})=\frac{1}{\mathbb{E}\left[\beta\right]}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \boldsymbol{\phi}(\mathbf{x}) $$ である. ## 演習 10.27 <div class="panel-primary"> 付録Bで与えられている公式を用いて, 線形基底関数回帰モデルの変分下界は $$ \begin{aligned} \mathcal{L}(q)&= \mathbb{E}[\ln p(\mathbf{w}, \alpha, \mathbf{t})]-\mathbb{E}[\ln q(\mathbf{w}, \alpha)] \\ &= \mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} \mid \mathbf{w})]+\mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{w} \mid \alpha)]+\mathbb{E}_{\alpha}[\ln p(\alpha)] \\ &-\mathbb{E}_{\alpha}[\ln q(\mathbf{w})]_{\mathbf{w}}-\mathbb{E}[\ln q(\alpha)] \end{aligned} \tag{10.107} $$ の形で書け,その各項は $$\begin{aligned} \mathbb{E}[\ln p(\mathbf{t} \mid \mathbf{w})]_{\mathbf{w}}=& \frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \\ &-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right] \end{aligned} \tag{10.108}$$ $$\begin{aligned} \mathbb{E}[\ln p(\mathbf{w} \mid \alpha)]_{\mathbf{w}, \alpha}=&-\frac{M}{2} \ln (2 \pi)+\frac{M}{2}\left(\psi\left(a_{N}\right)-\ln b_{N}\right) \\ &-\frac{a_{N}}{2 b_{N}}\left[\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right)\right] \end{aligned}\tag{10.109}$$ $$\begin{aligned} \mathbb{E}[\ln p(\alpha)]_{\alpha}=&\ a_{0} \ln b_{0}+\left(a_{0}-1\right)\left[\psi\left(a_{N}\right)-\ln b_{N}\right] \\ &-b_{0} \frac{a_{N}}{b_{N}}-\ln \Gamma\left(a_{0}\right) \end{aligned} \tag{10.110}$$ $$-\mathbb{E}[\ln q(\mathbf{w})]_{\mathbf{w}}=\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{M}{2}[1+\ln (2 \pi)] \tag{10.111}$$ $$-\mathbb{E}[\ln q(\alpha)]_{\alpha}=\ln \Gamma\left(a_{N}\right)-\left(a_{N}-1\right) \psi\left(a_{N}\right)-\ln b_{N}+a_{N} \tag{10.112}$$ となることを示せ. </div> ※演習10.16, 10.17のように各項の確率分布に適切なものを当てはめて計算していくだけ。 $$ \begin{aligned} \mathbb{E}_{\mathbf{w}}[\ln p(\mathbf{t} \mid \mathbf{w})] &=\mathbb{E}_{\mathbf{w}}\left[\ln \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}, \beta^{-1}\right)\right]\hspace{1em}(\because(B.87))\\ &=\mathbb{E}_{\mathbf{w}}\left[\sum_{n=1}^{N} \ln \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}, \beta^{-1}\right)\right] \\ &=\mathbb{E}_{\mathbf{w}}\left[\sum_{n=1}^{N} \ln \left\{\left(\frac{\beta}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta}{2}\left(t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}\right)^{2}\right\}\right.\right.\\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbb{E}_{\mathbf{w}}\left[\sum_{n=1}^{N}\left(t_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}_{n}\right)^{2}\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbb{E}_{\mathbf{w}}\left[(\mathbf{t}-\mathbf{\Phi} \mathbf{w})^{\mathrm{T}}(\mathbf{t}-\mathbf{\Phi} \mathbf{w})\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}}\right] \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\frac{\beta}{2} \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbf{w}\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta \mathbf{m}_{N}^{\mathrm{T}} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi} \mathbb{E}_{\mathbf{w}}\left[\mathbf{ww}^{\mathrm{T}}\right]\right] \\ &=\frac{N}{2} \ln \left(\frac{\beta}{2 \pi}\right)-\frac{\beta}{2} \mathbf{t}^{\mathrm{T}} \mathbf{t}+\beta_{m N}^{\mathrm{T}} \mathbf{\Phi} \mathbf{t}-\frac{\beta}{2} \operatorname{Tr}\left[\mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\left(\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}+\mathbf{S}_{N}\right)\right] \end{aligned} $$ ---- $$ \begin{aligned} \mathbb{E}_{\mathbf{w}, \alpha}[\ln p(\mathbf{w} \mid \alpha)] &=\mathbb{E}_{\mathbf{w}, \alpha}\left[\ln \mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)\right] \\ &=\mathbb{E}_{\mathbf{w}, \alpha}\left[\ln \left\{\left(\frac{\alpha}{2 \pi}\right)^{M / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} w\right\}\right]\right.\\ &=\mathbb{E}_{\mathbf{w}, \alpha}\left[\frac{M}{2} \ln \left(\frac{\alpha}{2 \pi}\right)\right]-\frac{1}{2} \mathbb{E}_{\mathbf{w}, \alpha}\left[\alpha \mathbf{w}^{\mathrm{T}} \mathbf{w}\right] \\ &=-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \mathbb{E}_{\alpha}[\ln \alpha]-\frac{\mathbb{E}_{\alpha}[\alpha]}{2} \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}} \mathbf{w}\right] \\ &=-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \underbrace{\left(\psi\left(a_{N}\right)-\ln b_{N}\right)}_{(B.30)} - \underbrace{\frac{a_{N}}{2 b_{N}}}_{(B.27)} \mathbb{E}_{\mathbf{w}}\left[\operatorname{Tr}\left(\mathbf{w} \mathbf{w}^{\mathrm{T}}\right)\right] \\ &=-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \left(\psi\left(a_{N}\right)-\ln b_{N}\right) - \frac{a_{N}}{2 b_{N}} \left[\mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right)\right] \end{aligned} $$ ここで$\mathbb{E}_{\mathbf{w}}\left[\operatorname{Tr}\left(\mathbf{w} \mathbf{w}^{\mathrm{T}}\right)\right]$の変形についてはトレースと期待値の交換性と $$ \begin{aligned} & \operatorname{Tr}\left[\mathbb{E}_{\mathbf{w}}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right]\right] \\ = & \operatorname{Tr}\left[\operatorname{cov}[\mathbf{w}]+\mathbb{E}_{\mathbf{w}}[\mathbf{w}] \mathbb{E}_{\mathbf{w}}\left[\mathbf{w}^{\mathrm{T}}\right]\right] \quad(\because(1.42)) \\ = & \operatorname{Tr}\left[\mathbf{S}_{N}+\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}\right] \\ = &\ \mathbf{m}_{N}^{\mathrm{T}} \mathbf{m}_{N}+\operatorname{Tr}\left(\mathbf{S}_{N}\right) \end{aligned} $$ を用いた。 ---- $$ \begin{aligned} \mathbb{E}_{\alpha}[\ln p(\alpha)] &=\mathbb{E}_{\alpha \sim q(\alpha)}\left[\ln \operatorname{Gam}\left(\alpha \mid a_{0}, b_{0}\right)\right] \\ &=\mathbb{E}_{\alpha \sim q(\alpha)}\left[\ln \left\{\frac{1}{\Gamma\left(a_{0}\right)} b_{0}^{a_{0}} \alpha^{a_{0}-1} e^{-b_{0} \alpha}\right\}\right] \\ &=\mathbb{E}_{\alpha \sim q(\alpha)}\left[-\ln \Gamma\left(a_{0}\right)+a_{0} \ln b_{0}+\left(a_{0}-1\right) \ln \alpha-b_{0} \alpha\right] \\ &=a_{0} \ln b_{0}+\left(a_{0}-1\right) \mathbb{E}_{\alpha}[\ln \alpha]-b_{0} \mathbb{E}_{\alpha}[\alpha]-\ln \Gamma\left(a_{0}\right) \\ &=a_{0} \ln b_{0}+\left(a_{0}-1\right)\left(\psi\left(a_{N}\right)-b_{N}\right)-b_{0} \frac{a_{N}}{b_{N}}-\ln \Gamma\left(a_{0}\right) \end{aligned} $$ ---- $$ \begin{aligned} -\mathbb{E}_{\mathbf{w}}\left[\ln q(\mathbf{w})\right] &=-\mathbb{E}_{\mathbf{w} \sim q(\mathbf{w})}\left[\ln \mathcal{N}\left(\mathbf{w} \mid \mathbf{m}_{N}, \mathbf{S}_{N}\right)\right] \\ &=-\mathbb{E}_{\mathbf{w} \sim q(\mathbf{w})}\left[\ln \left\{\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \frac{1}{\left|\mathbf{S}_{N}\right|^{\frac{1}{2}}} \exp \left\{-\frac{1}{2}\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}} \mathbf{S}_{N}^{-1}\left(\mathbf{w}-\mathbf{m}_{N}\right)\right\}\right]\right.\\ &=\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{1}{2} \operatorname{Tr}\left[\mathbb{E}_{\mathbf{w}}\left[\left(\mathbf{w}-\mathbf{m}_{N}\right)\left(\mathbf{w}-\mathbf{m}_{N}\right)^{\mathrm{T}}\right] \mathbf{S}_{N}^{-1}\right] \\ &=\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{1}{2} \operatorname{Tr}\left[\operatorname{cov}[\mathbf{w}] \mathbf{S}_{N}^{-1}\right] \\ &=\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{1}{2} M \\ &=\frac{1}{2} \ln \left|\mathbf{S}_{N}\right|+\frac{M}{2}[1+\ln (2 \pi)] \end{aligned} $$ ---- $$ \begin{aligned}-\mathbb{E}_{\alpha}[\ln q(\alpha)] &=-\mathbb{E}_{\alpha \sim q(\alpha)}\left[\ln \operatorname{Gam}\left(\alpha \mid a_{N}, b_{N}\right)\right] \\ &=-\mathbb{E}_{\alpha \sim q(\alpha)}\left[-\ln \Gamma\left(a_{N}\right)+a_{N} \ln b_{N}+\left(a_{N}-1\right) \ln \alpha-b_{N} \alpha\right] \\ &=\ln \Gamma\left(a_{N}\right)-a_{N} \ln b_{N}-(a_N - 1)\mathbb{E}_{\alpha \sim q(\alpha)}[\ln \alpha]+b_{N} \mathbb{E}_{\alpha \sim q(\alpha)}[\alpha] \\ &=\ln \Gamma\left(a_{N}\right)-a_{N} \ln b_{N}-\left(a_{N}-1\right)\left(\psi\left(a_{N}\right)-\ln b_{N}\right)+b_{N} \frac{a_{N}}{b_{N}} \\ &=\ln \Gamma\left(a_{N}\right)-\left(a_{N}-1\right) \psi\left(a_{N}\right)-\ln b_{N}+a_{N} \end{aligned} $$ ## 演習 10.28 <div class="panel-primary"> 10.2節で導入したベイズ混合ガウスモデルを10.4節で議論した指数分布族とその共役事前分布のモデルとして書き換えよ.すなわち,一般的な結果 $$\begin{aligned} \ln q^{\star}(\mathbf{Z}) &=\mathbb{E}_{\eta}[\ln p(\mathbf{X}, \mathbf{Z} \mid \eta)]+\text { const } \\ &=\sum_{n=1}^{N}\left\{\ln h\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)+\mathbb{E}\left[\boldsymbol{\eta}^{\mathrm{T}}\right] \mathbf{u}\left(\mathbf{x}_{n}, \mathbf{z}_{n}\right)\right\}+\text { const } \end{aligned} \tag{10.115}$$ $$q^{\star}(\eta)=f\left(\nu_{N}, \boldsymbol{\chi}_{N}\right) g(\eta)^{\nu_{N}} \exp \left\{\nu_{N} \eta^{\mathrm{T}} \boldsymbol{\chi}_{N}\right\} \tag{10.119}$$ を用いて,特定の場合の結果 $$q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}} \tag{10.48}$$ $$q^{\star}(\boldsymbol{\pi})=\operatorname{Dir}(\boldsymbol{\pi} \mid \boldsymbol{\alpha}) \tag{10.57}$$ $$q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}$$ を導け. </div> ベイズ混合ガウス分布における、指数型分布族のそれぞれの関数形を導出して、一般的な結果(10.115),(10.119)に代入していく。 1変数ガウス分布と、指数型分布族の標準形との対応関係は、演習2.57により(2.220)〜(2.223)のとおり導出済み。 多変数ガウス分布(混合分布ではない)との対応関係は、これを拡張して、$p(\mathbf{x}|\boldsymbol{\eta})=h(\mathbf{x})g(\boldsymbol{\eta})\exp [\boldsymbol{\eta}^T \mathbf{u}(\mathbf{x})]$において、 \begin{align} \boldsymbol{\eta} :=\left[\begin{array}{c} \boldsymbol{\eta}_1 \\ \boldsymbol{\eta}_2 \end{array}\right] &\leftrightarrow \left[\begin{array}{c} \Lambda \boldsymbol{\mu} \\ -\frac{1}{2}\vec{\Lambda} \end{array}\right] \\ \mathbf{u}(\mathbf{x}) &\leftrightarrow \left[\begin{array}{c} \mathbf{x} \\ \mathbf{x}\mathbf{x}^T \end{array}\right] \\ h(\mathbf{x})&\leftrightarrow \frac{1}{(2\pi)^{D/2}}\\ g(\boldsymbol{\eta})&\leftrightarrow |-2\boldsymbol\eta _2|^{1/2} \exp \left( \frac{1}{4}\boldsymbol{\eta}_1^T \boldsymbol\eta _2 ^{-1}\boldsymbol\eta _1\right) \end{align} と書ける。ただし、行列の上に矢印($\rightarrow$)が書かれているのは、行列の各要素を並べた$D \times D$次元のベクトルを意味する。後の式変形の都合で、$g(\boldsymbol{\eta})$の要素を$\boldsymbol{\eta}$と$\mathbf{u}(\mathbf{x})$に押し込めて、 \begin{align} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda \boldsymbol{\mu} \\ -\frac{1}{2}\vec{\Lambda}\\ \boldsymbol{\mu}^T \boldsymbol\Lambda \boldsymbol\mu \\ \ln |\boldsymbol{\Lambda} | \end{array}\right] \\ \mathbf{u}(\mathbf{x}) &\leftrightarrow \left[\begin{array}{c} \mathbf{x} \\ \mathbf{x}\mathbf{x}^T\\ -\frac{1}{2}\\ \frac{1}{2} \end{array}\right] \\ h(\mathbf{x})&\leftrightarrow \frac{1}{(2\pi)^{D/2}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{align} と書き直す。 今考えているベイズ混合ガウスモデル: \begin{align} p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda ) &=p(\mathbf{X}| \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol\Lambda ) p(\mathbf{Z}| \boldsymbol{\pi} ) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda )\\ &=\left(\prod_{n=1}^N \prod_{k=1}^K \pi_k^{z_{nk}}\right) \left(\prod_{n=1}^N \prod_{k=1}^K \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})^{z_{nk}} \right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda )\\ &=\left(\prod_{n=1}^N \prod_{k=1}^K \left\{ \pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})\right\}^{z_{nk}} \right) p(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol\Lambda )\\ \end{align} の形に徐々に近づけていく。まずは$\pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})$を指数型分布族の標準形に対応づけるには、 \begin{align} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] \\ \mathbf{u}(\mathbf{x}_n) &\leftrightarrow \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array}\right] \\ h(\mathbf{x}_n)&\leftrightarrow \frac{1}{(2\pi)^{D/2}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{align} 次に、$\left\{ \pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})\right\}^{z_{nk}}$を指数型分布族の標準形に対応づけるには、 \begin{align} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] \\ \mathbf{u} (\mathbf{x}_n,z_{nk})&\leftrightarrow z_{nk} \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array}\right] \\ h(\mathbf{x}_n,z_{nk})&\leftrightarrow \left( \frac{1}{(2\pi)^{D/2}} \right)^{z_{nk}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{align} 最後に、$\prod_{k=1}^K \left\{ \pi_k \mathcal{N} (\mathbf{x}_n|\boldsymbol\mu _k,\Lambda_k^{-1})\right\}^{z_{nk}}$を指数型分布族の標準形に対応づけるには、 \begin{align} \boldsymbol{\eta} &\leftrightarrow \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] _{k=1,\cdots,K}\\ \mathbf{u} (\mathbf{x}_n,\mathbf{z}_{n})&\leftrightarrow \left[ z_{nk} \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array} \right] \right] _{k=1,\cdots,K}\\ h(\mathbf{x}_n,\mathbf{z}_n)&\leftrightarrow \prod_{k=1}^K \left( \frac{1}{(2\pi)^{D/2}} \right)^{z_{nk}}\\ g(\boldsymbol{\eta})&\leftrightarrow 1 \end{align} ここで、$[\ \ \ ]_{k=1,\cdots,K}$とは、$k=1$に対応するベクトル、$k=2$に対応するベクトル$\cdots$と順に並べてできる長いベクトルを表す。 今得られた対応関係を(10.116)式に代入して、 \begin{align} q^\star (\mathbf{z}_n) &= h(\mathbf{x}_n, \mathbf{z}_n) g(\mathbb{E}[\boldsymbol\eta])\exp \{\mathbb{E} [\boldsymbol{\eta}^T] \mathbf{u}(\mathbf{x}_n , \mathbf{z}_n )\}\\ &= \left\{ \prod_{k=1}^K \left(\frac{1}{(2\pi)^{D/2}}\right)^{z_{nk}}\right\} \cdot 1 \cdot \exp \left\{ \sum_{k=1}^K \left( \mathbb{E}\left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] \right)^T \left( z_{nk} \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array} \right] \right) \right\}\\ &= \left\{ \prod_{k=1}^K \left(\frac{1}{(2\pi)^{D/2}}\right)^{z_{nk}}\right\} \exp \left\{ \sum_{k=1}^K z_{nk} \cdot\mathbb{E}_{\boldsymbol\mu_k , \boldsymbol\Lambda_k}\left[ \boldsymbol{\mu}_k^T \Lambda_k \mathbf{x}_n -\frac{1}{2}\mathbf{x}_n^T\Lambda_k \mathbf{x}_n -\frac{1}{2} \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right] \right\}\\ &= \prod_{k=1}^K \left(\frac{1}{(2\pi)^{D/2}} \exp \left\{ -\frac{1}{2} \mathbb{E}_{\boldsymbol\mu_k , \boldsymbol\Lambda_k}\left[ (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k)\right] +\frac{1}{2} \mathbb{E}[\ln |\boldsymbol{\Lambda}_k|] +\mathbb{E}[\ln\pi_k] \right\} \right)^{z_{nk}}\\ &= \prod_{k=1}^K \left( \exp \left\{ - \frac{D}{2}\ln (2\pi)-\frac{1}{2} \mathbb{E}_{\boldsymbol\mu_k , \boldsymbol\Lambda_k}\left[ (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k)\right] +\frac{1}{2} \mathbb{E}[\ln |\boldsymbol{\Lambda}_k|] +\mathbb{E}[\ln\pi_k] \right\} \right)^{z_{nk}}\\ &=\prod_{k=1}^K \rho _{nk}^{z_{nk}} \end{align} を得る。(最後の式変形は、(10.46)式の$\rho _{nk}$の定義より。)以上より、 \begin{align} q^\star (\mathbf{Z}) &= \prod_{n=1}^{N} q^\star (\mathbf{z}_n)\\ &= \prod_{n=1}^{N}\prod_{k=1}^K \rho _{nk}^{z_{nk}} \end{align} と(10.48)式を得る。 ---- 次に、(10.119)式を用いて(10.57)式と(10.59)式を導く。 \begin{align} q^\star (\boldsymbol\eta ) &\propto g(\boldsymbol\eta)^{\nu_N} \exp \left[ \nu _N \boldsymbol \eta^T \boldsymbol{\chi} _N \right]\\ &= 1 \cdot \exp \left[ \boldsymbol\eta^T \left( \nu_0\boldsymbol\chi_0+\sum_{n=1}^N \mathbb{E}_{z_n}[\mathbf{u}(\mathbf{x}_n,\mathbf{z}_n)]\right)\right]\\ &= \exp \left( \nu_0\boldsymbol\eta^T \boldsymbol\chi_0 +\sum_{n=1}^N\sum_{k=1}^K \mathbb{E}[z_{nk}] \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] ^T \left[\begin{array}{c} \mathbf{x}_n \\ \overrightarrow{\mathbf{x}_n\mathbf{x}_n^T}\\ -\frac{1}{2}\\ \frac{1}{2}\\ 1 \end{array} \right] \right)\\ &= \exp \left[ \nu_0\boldsymbol\eta^T \boldsymbol\chi_0 +\sum_{n=1}^N\sum_{k=1}^K r_{nk} \left( \boldsymbol{\mu}_k^T \Lambda_k \mathbf{x}_n -\frac{1}{2}\mathbf{x}_n^T\Lambda_k \mathbf{x}_n -\frac{1}{2} \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right) \right]\\ &= \exp \left[ \nu_0\boldsymbol\eta^T \boldsymbol\chi_0 +\sum_{n=1}^N\sum_{k=1}^K r_{nk} \left( -\frac{1}{2} (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k) +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right) \right] \end{align} 事前確率分布の項$\exp\left[\nu_0\boldsymbol\eta^T\boldsymbol\chi_0\right]$は、図10.5の事前確率分布 \begin{align} p(\boldsymbol\pi,\boldsymbol\mu,\boldsymbol\Lambda) &= p(\boldsymbol\pi)p(\boldsymbol\mu|\boldsymbol\Lambda)p(\boldsymbol\Lambda)\\ &\propto \prod_{k=1}^K \pi_k ^{\alpha_0-1} |\boldsymbol\Lambda_k |^{1/2}\exp \left[-\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0)\right] |\boldsymbol\Lambda_k|^{(\nu_0-D-1)/2}\exp\left(-\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right)\\ &= \exp \left[\sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k -\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0) +\frac{\nu_0-D}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right\}\right] \end{align} に一致するように$\nu_0\boldsymbol\chi_0$を選ぶことは可能(指数型分布族の事前共役分布の形を所与とすれば、この事実は証明不要な気もするが、念のため本問の解答の最後で$\nu_0\boldsymbol\chi_0$の具体的な形を構築する)。 \begin{align} q^\star (\boldsymbol\eta ) \propto & \exp \left[\sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k -\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0) +\frac{\nu_0-D}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right\}\right]\\ &\cdot \exp \left[ \sum_{n=1}^N\sum_{k=1}^K r_{nk} \left( -\frac{1}{2} (\mathbf{x}_n-\boldsymbol{\mu}_k)^T \Lambda_k (\mathbf{x}_n-\boldsymbol{\mu}_k) +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| +\ln\pi_k \right) \right] \end{align} この同時確率分布は$\boldsymbol\pi$に依存する項だけ積の形でくくり出せて、 \begin{align} q^\star (\boldsymbol\eta ) &\propto \exp \left[\sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k +\sum_{n=1}^N r_{nk} \ln\pi_k \right\} \right]\\ &=\exp \left[\sum_{k=1}^K\left\{ (\alpha_0+N_k-1)\ln \pi_k \right\} \right]\\ &=\prod_{k=1}^K \pi_k^{\alpha_0+N_k-1} \end{align} であり、(10.57)式のディリクレ分布が導かれた。 残りの項のうち、$\boldsymbol\mu_k$に依存する項のみをくくり出すと、 \begin{align} q^\star (\boldsymbol\eta ) \propto \ & \exp \left[ -\frac{1}{2}\left\{ \sum_{k=1}^K \boldsymbol\mu_k^T \left(\beta_0 \boldsymbol\Lambda_k + \sum_{n=1}^N r_{nk}\boldsymbol\Lambda_k\right)\boldsymbol\mu_k -2\left(\boldsymbol\mu_k^T\beta_0\boldsymbol\Lambda_k \mathbf{m}_0 + \sum_{n=1}^N r_{nk} \boldsymbol\mu_k^T \Lambda_k \mathbf{x}_n \right) \right\} \right]\\ =:\ &\exp \left[ -\frac{1}{2}\left\{ \sum_{k=1}^K \boldsymbol\mu_k^T \left((\beta_0+N_k) \boldsymbol\Lambda_k \right)\boldsymbol\mu_k -2\boldsymbol\mu_k^T\left(\boldsymbol\Lambda_k (\beta_0 \mathbf{m}_0 + N_{k} \overline{\mathbf{x}_k} ) \right) \right\} \right]\\ = \ &|\boldsymbol\Lambda_k|^{1/2} \exp \left[ -\frac{1}{2} \sum_{k=1}^K \left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right)^T \left((\beta_0+N_k) \boldsymbol\Lambda_k \right)\left( \boldsymbol\mu_k - \frac{\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}}{\beta_0+N_k}\right) \right] \\ & \cdot |\boldsymbol\Lambda_k|^{-1/2}\exp \left[ \frac{1}{2} \frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^T\Lambda_k(\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})\right]\\ \end{align} 1行目は、$\boldsymbol\mu_k$が(10.59)式のガウス分布に従うことを表す。 最後に、その他の項をくくり出すと、 \begin{align} q^\star (\boldsymbol\eta ) \propto & \exp \left[\sum_{k=1}^K\left\{ -\frac{1}{2} \mathbf{m}_0^T \beta_0\boldsymbol\Lambda_k \mathbf{m}_0 +\frac{\nu_0-D}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) +\sum_{n=1}^N r_{nk} \left( -\frac{1}{2} \mathbf{x}_n^T \Lambda_k \mathbf{x}_n +\frac{1}{2} \ln |\boldsymbol{\Lambda}_k| \right) \right\} \right] \\ \cdot & |\boldsymbol\Lambda_k|^{-1/2}\exp \left[ \frac{1}{2} \frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^T\Lambda_k(\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})\right]\\ =& \prod_{k=1}^K |\boldsymbol\Lambda_k|^{\frac{\nu_0+N_k-D-1}{2}} \exp \left[ -\frac{1}{2} \left( \mathbf{m}_0^T \beta_0\boldsymbol\Lambda_k \mathbf{m}_0 +{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) +\sum_{n=1}^N r_{nk} \mathbf{x}_n^T \Lambda_k \mathbf{x}_n -\frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^T\Lambda_k(\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}) \right) \right]\\ =& \prod_{k=1}^K |\boldsymbol\Lambda_k|^{\frac{\nu_0+N_k-D-1}{2}} \exp \left[ -\frac{1}{2} \left\{ {\rm Tr} \left( \mathbf{m}_0 \mathbf{m}_0^T \beta_0\boldsymbol\Lambda_k \right) +{\rm Tr}\left(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k\right) +{\rm Tr} \left( \sum_{n=1}^N r_{nk} \mathbf{x}_n \mathbf{x}_n^T \Lambda_k \right) -\frac{1}{\beta_0+N_k} {\rm Tr}\left( (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}) (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^T\Lambda_k \right) \right\} \right]\\ =& \prod_{k=1}^K |\boldsymbol\Lambda_k|^{\frac{\nu_0+N_k-D-1}{2}} \exp \left[ -\frac{1}{2} {\rm Tr}\left\{ \left( \beta_0 \mathbf{m}_0 \mathbf{m}_0^T +\mathbf{W}_0^{-1} + \sum_{n=1}^N r_{nk} \mathbf{x}_n \mathbf{x}_n^T -\frac{1}{\beta_0+N_k} (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k}) (\beta_0\mathbf{m}_0+N_k\overline{\mathbf{x}_k})^T \right)\Lambda_k \right\} \right] \\ \end{align} となる。最後の式は、$|\Lambda|^{*}\exp [-\frac{1}{2}$Tr$(*\Lambda)]$という形をしており、(10.59)式のウィシャート分布を得る。(一見すると(10.62)式の形と異なるように見えるが、$\mathbf{S}_k$の定義に戻って計算すると、上式と一致することが示せる。 ---- **おまけ:** ${\nu}_0\boldsymbol\chi_0$の具体的な形状は、以下の通り。 \begin{align} {\nu}_0\boldsymbol\chi_0 &= \left[\begin{array}{c} \beta_0 \mathbf{m}_0 \\ \beta_0 \overrightarrow{\mathbf{m}_0 \mathbf{m}_0^T}+\overrightarrow{\mathbf{W}_0^{-1}}\\ -\frac{1}{2}\beta_0\\ \frac{\nu_0-D-1}{2}\\ \alpha_0-1 \end{array}\right] _{k=1,\cdots,K} \end{align} 念のため、上の式を再現できることを確認しておく。 \begin{align} {\nu}_0 \boldsymbol{\eta} ^T \boldsymbol\chi_0 &= \left[\begin{array}{c} \Lambda_k \boldsymbol{\mu}_k \\ -\frac{1}{2}\vec\Lambda_k\\ \boldsymbol{\mu}_k^T \boldsymbol\Lambda_k \boldsymbol\mu_k \\ \ln |\boldsymbol{\Lambda}_k|\\ \ln\pi_k \end{array}\right] _{k=1,\cdots,K}^T \left[\begin{array}{c} \beta_0 \mathbf{m}_0 \\ \beta_0 \overrightarrow{\mathbf{m}_0 \mathbf{m}_0^T}+\overrightarrow{\mathbf{W}_0^{-1}}\\ -\frac{1}{2}\beta_0\\ \frac{\nu_0-D-1}{2}\\ \alpha_0-1 \end{array}\right] _{k=1,\cdots,K}\\ &= \sum_{k=1}^K\left\{ (\alpha_0-1)\ln \pi_k -\frac{1}{2} (\boldsymbol\mu_k-\mathbf{m}_0)^T (\beta_0\boldsymbol\Lambda_k) (\boldsymbol\mu_k-\mathbf{m}_0) +\frac{\nu_0-D-1}{2} \ln |\boldsymbol\Lambda_k| -\frac{1}{2}{\rm Tr}(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k) \right\} \end{align} となる。なお、最後のTr$(\mathbf{W}_0^{-1}\boldsymbol\Lambda_k)$の項への変形にあたって、一般の正方行列$A,B$について \begin{align} {\rm Tr}[AB]={\rm Tr}\left[\left( \sum_j a_{ij}b_{jk}\right)_{ik} \right] =\sum_{i, j}a_{ij}b_{ji} \end{align} が成り立つこと、および$B$が対称行列であれば最右辺が$\sum_{i,j} a_{ij}b_{ij}$に一致することを用いた。 ## 演習 10.29 <div class="panel-primary"> 二階微分を計算することで,関数$f(x) = \ln (x)$は$0 \lt x \lt \infty$で上に凸であることを示せ. $$g(\eta)=\min _{x}\{\eta x-f(x)\} \tag{10.133}$$ で定義される双対な関数$g(\eta)$の形を求め, $$f(x)=\min _{\eta}\{\eta x-g(\eta)\} \tag{10.132}$$ に従って$\eta x - g(\eta)$を$\eta$について最小化すると,実際に関数$\ln(x)$が得られることを確かめよ. </div> ※P.209のように$f(x)$と$g(\eta)$が双対の働きとなっていることを示す。 $f(x) = \ln(x)$の2階微分は$\displaystyle f''(x) = - \frac{1}{x^{2}}$である。これは$0 \lt x \lt \infty$で$f''(x) < 0$となるので上に凸である。 $(10.133)$式に代入して $$ g(\eta)=\min _{x}\{\eta x-\ln(x)\} $$ 最小値を求めるため$x$について微分すると $$ \frac{dg}{dx} = \eta - \frac{1}{x} $$ $\displaystyle x=\frac{1}{\eta}$のとき最小となり、このとき$g(\eta) = 1+\ln(\eta)$となる。 今度はこれを$(10.132)$式に代入して$\displaystyle f(x) = \min _{\eta}\{\eta x-1-\ln(\eta)\}$となる。これも同様に$\eta$について微分すると $$ \frac{df}{d\eta} = x - \frac{1}{\eta} $$ これは$\displaystyle \eta = \frac{1}{x}$のとき最小となり、このとき $$ f(x) = 1-\left( 1+\ln\left(\frac{1}{x}\right) \right) = \ln(x) $$ となり題意通り$\ln(x)$が得られた。 ## 演習 10.30 <div class="panel-primary"> 二階微分を計算することで,対数ロジスティック関数$f(x)=-\ln \left(1+e^{-x}\right)$が上に凸であることを示せ.対数ロジスティック関数を点$x = \xi$のまわりで一次までテイラー展開することで,変分上界 $$\sigma(x) \leqslant \exp (\eta x-g(\eta)) \tag{10.137}$$ を直接導出せよ. </div> 後の問題設定のため、対数ロジスティック関数である$f(x)$を $$ \sigma(x) = \frac{1}{1+e^{-x}} \tag{10.134} $$ を用いて $$ f(x)=-\ln \left(1+e^{-x}\right)=\ln \left(\frac{1}{1+e^{-x}}\right)=\ln \sigma(x) $$ と表しておく。これより $$ \begin{aligned} \frac{d \sigma}{d x} &=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}} = (\sigma(x))^2e^{-x} \\ &=\frac{1}{1+e^{-x}}-\frac{1}{\left(1+e^{-x}\right)^2} \\ &=\sigma(x)-(\sigma(x))^{2} \\ &=\sigma(x)(1-\sigma(x)) \end{aligned} $$ である。これから$f(x)$が上に凸であること、すなわち$f''(x) \lt 0$を示す。 $$ f^{\prime}(x)=\frac{d}{d x} \ln \sigma(x)=\frac{1}{\sigma(x)} \frac{d}{d x} \sigma(x)=\frac{1}{\sigma(x)}(\sigma(x))^{2} e^{-x}=\sigma(x) e^{-x} $$ $$ \begin{aligned} f^{\prime \prime}(x) &=\frac{d}{d x}\left(\sigma(x) e^{-x}\right) \\ &=\frac{d}{d x} \sigma(x) \cdot e^{-x}-\sigma(x) e^{-x} \\ &=\{\sigma(x)(1-\sigma(x))-\sigma(x)\} e^{-x} \\ &=-\{\sigma(x)\}^{2} e^{-x} \lt 0 \end{aligned} $$ これより$f(x)$は上に凸であることが示された。 次に$\ln \sigma(x)$を$x=\xi$の周りで一次のテイラー展開を行うと $$ \begin{aligned} \ln \sigma(x) &=\ln \sigma(\xi)+\left.\frac{d\ln \sigma(x)}{d x}\right|_{x=\xi}(x-\xi)+O\left(\xi^{2}\right) \\ &\simeq \ln \sigma(\xi)+\sigma(\xi) e^{-\xi}(x-\xi) \end{aligned} $$ $\ln \sigma(x)$は上に凸(concave)な関数なので、このテイラー展開は $$ \ln \sigma(x) \leq \ln \sigma(\xi)+\sigma(\xi) e^{-\xi}(x-\xi) \tag{A} $$ となる。 変分上界を求めるために、10.5節の議論のように($(10.127)$あたりの変形)$\eta = \sigma(\xi)e^{-\xi}$とおいたときの$\sigma(\xi)$と$\xi$を$\eta$で表すことを目指す。 $$ \begin{aligned} \eta &=\left(1+e^{-\xi}\right)^{-1} e^{-\xi} \\ &=\frac{e^{-\xi}}{1+e^{-\xi}} \\ &=1-\frac{1}{1+e^{-\xi}} \\ &=1-\sigma(\xi) \end{aligned} $$ これより$\sigma(\xi) = 1 - \eta$となる。また、$\eta = \sigma(\xi)e^{-\xi}$の両辺の対数をとって $$ \begin{aligned} \ln \eta &=\ln \sigma(\xi)-\xi \\ \xi &=\ln \sigma(\xi)-\ln \eta \\ &=\ln (1-\eta)-\ln \eta \end{aligned} $$ となる。これらを$(\textrm{A})$に代入して $$ \begin{aligned} \ln \sigma(x) & \leq \ln (1-\eta)+\eta(x-\ln (1-\eta)+\ln \eta) \\ &=\eta x+(1-n) \ln (1-\eta)+\eta \ln \eta \\ &=\eta x-g(\eta)\hspace{1em}(\because(10.136)) \end{aligned} $$ これは変分上界 $$ \sigma(x) \leqslant \exp (\eta x-g(\eta)) \tag{10.137} $$ と等価である。すなわち、題意の通りテイラー展開から直接$(10.137)$式が導出された。 ## 演習 10.31 <div class="panel-primary"> $x$について二階微分を求めることで,関数$f(x) = -\ln(e^{x/2}+e^{-x/2})$は$x$の上に凸な関数であることを示せ.次に,変数$x^2$についての二階微分を考え,これが$x^2$については下に凸な関数で、あることを示せ.$f(x)$のグラフを$x$および$x^2$について描いてみよ.関数$f(x)$を変数$x^2$について$\xi^2$を中心として一次までテイラー展開することにより,ロジスティックシグモイド関数の下界 $$\sigma(x) \geqslant \sigma(\xi) \exp \left\{(x-\xi) / 2-\lambda(\xi)\left(x^{2}-\xi^{2}\right)\right\} \tag{10.144}$$ を直接導出せよ. </div> 微分を計算する時の係数が煩わしいので、$x/2$を$x$と定義し直す。(証明すべき凸性に影響はない。最後の計算結果で元に戻す。) + $x$に関して上に凸であることの証明 \begin{align} f(x) &= -\ln(e^{x}+e^{-x})\\ f'(x) &= -\frac{e^{x}-e^{-x}}{e^x+e^{-x}}\\ f''(x) &= -\frac{(e^{x}+e^{-x})^2-(e^{x}-e^{-x})^2}{(e^{x}+e^{-x})^2}\\ &= -\frac{(2e^x)\cdot (2e^{-x})}{(e^{x}+e^{-x})^2}\\ &= -\frac{4}{(e^{x}+e^{-x})^2} < 0 \end{align} + $x^2$に関して下に凸であることの証明 $y=x^2$とおく。$f(y)=-\ln (e^{\sqrt{y}}+e^{-\sqrt{y}})$を真面目に$y$で2階微分するのは面倒なので、以下のように解く。 \begin{align} \frac{d}{dy}f(x) &= \frac{dx}{dy}\frac{df(x)}{dx}\\ \frac{d^2}{dy^2}f(x) &= \frac{d}{dy}\left( \frac{dx}{dy} \frac{df(x)}{dx} \right)\\ &= \frac{d^2x}{dy^2}\frac{df(x)}{dx} + \frac{dx}{dy} \frac{d}{dy} \left( \frac{df(x)}{dx} \right)\\ &= \frac{d^2x}{dy^2}\frac{df(x)}{dx} + \left( \frac{dx}{dy} \right)^2 \cdot \frac{d^2 f(x)}{dx^2}\\ \end{align} ここで、 \begin{align} \frac{dx}{dy} &= \left( \frac{dy}{dx} \right)^{-1} = \left( \frac{d}{dx} x^2 \right)^{-1} = (2x)^{-1} = \frac{1}{2x} \\ \frac{d^2x}{dy^2} &= \frac{d}{dy} \left( \frac{dx}{dy} \right) = \frac{d}{dy} \left( \frac{1}{2x} \right)= \frac{dx}{dy}\frac{d}{dx} \left( \frac{1}{2x} \right) = \frac{1}{2x} \left( -\frac{1}{2x^2}\right) = -\frac{1}{4x^3}\\ \end{align} であるから、 \begin{align} \frac{d^2}{dy^2}f(x) &= \frac{d^2x}{dy^2}\frac{df(x)}{dx} + \left( \frac{dx}{dy} \right)^2 \cdot \frac{d^2 f(x)}{dx^2}\\ &= \left(-\frac{1}{4x^3} \right)\left(-\frac{e^x-e^{-x}}{e^x+e^{-x}} \right) + \left( \frac{1}{2x}\right)^2 \left( - \frac{4}{(e^x+e^{-x})^2}\right)\\ &=\frac{(e^x-e^{-x})(e^x+e^{-x})-4x}{4x^3 (e^x+e^{-x})^2}\\ &=\frac{e^{2x}-e^{-2x}-4x}{4x^3 (e^x+e^{-x})^2} \end{align} ここで、分子が$x>0$のとき正、$x<0$のとき負であることは、微分して普通に示しても良いが、 \begin{align} e^{2x} &= 1+(2x)+ \frac{1}{2!}(2x)^2+\frac{1}{3!}(2x)^3+\frac{1}{4!}(2x)^4 +\frac{1}{5!}(2x)^5 +\cdots\\ e^{-2x} &= 1-(2x)+ \frac{1}{2!}(2x)^2-\frac{1}{3!}(2x)^3+\frac{1}{4!}(2x)^4 -\frac{1}{5!}(2x)^5 +\cdots\\ e^{2x}-e^{-2x} &= 4x+ 2\cdot \left( \frac{1}{3!}(2x)^3+\frac{1}{5!}(2x)^5\cdots \right)\\ \end{align} に注目すれば明らか。よって、右辺全体は$x>0$でも$x<0$でも正なので、$\frac{d^2}{dy^2}f(x)>0$と言える。 + グラフを書いてみよ $f(x)$のグラフを$x$について描く ![](https://i.imgur.com/K697SEc.jpg) $f(x)$のグラフを$x^2$について描く ![](https://i.imgur.com/Kg2aNfs.jpg) + 下界(10.44)を直接導出する($x$の定義は元に戻す) \begin{align} f(x)&=f(x)|_{x=\xi} + (x^2-\xi^2) \left( \left. \frac{df(x)}{dy} \right|_{x=\xi} \right)+ \cdots\\ &\geq f(x)|_{x=\xi} + (x^2-\xi^2) \left(\left. \frac{df(x)}{dy} \right|_{x=\xi}\right)\\ &= f(\xi) + (x^2-\xi^2)\left( \frac{dx}{dy} \left.\frac{f(x)}{dx}\right|_{x=\xi}\right)\\ &= f(\xi) + (x^2-\xi^2)\left( -\frac{1}{4\xi} \tanh(\xi) \right)\\ &\equiv f(\xi) - \lambda(\xi) (x^2-\xi^2)\\ \end{align} となる(不等号は、$x^2$に関する凸性より)。従って、 \begin{align} \ln \sigma(x) &= \frac{x}{2} + f(x)\\ &\geq \frac{x}{2} + f(\xi) - \lambda(\xi) (x^2-\xi^2)\\ &= \frac{x-\xi}{2} + \left( \frac{\xi}{2}+f(\xi)\right) - \lambda(\xi) (x^2-\xi^2)\\ &= \frac{x-\xi}{2} + \ln \sigma (\xi) - \lambda(\xi) (x^2-\xi^2)\\ \end{align} 両辺のexpをとって、(10.144)式を得る。 ## 演習 10.32 <div class="panel-primary"> ロジスティック回帰の変分ベイズ推定を時系列に従って学習し,データ点が一回に一つだけ到着し,次のデータ点が到着するまでに処理して廃棄しなければならない場合について考える.このとき,事後分布のガウス近似は下界 $$p(t \mid \mathbf{w})=e^{a t} \sigma(-a) \geqslant e^{a t} \sigma(\xi) \exp \left\{-(a+\xi) / 2-\lambda(\xi)\left(a^{2}-\xi^{2}\right)\right\} \tag{10.151}$$ を用いることで常に保持できることを示せ.この場合,分布は事前分布で初期化され,データ点が取り込まれるごとに。対応する変分パラメータ$\xi_n$が最適化される. </div> ※(方針) (10.151)式を利用しガウス変分事後分布の逐次的な更新式が得られることを確認する データN個のときの変分事後分布を $$ q_N(\mathbf{w})=\mathcal{N}(\mathbf{w}\mid\mathbf{m}_N,\mathbf{S}_N^{-1}) $$ とする.N+1個めのデータが与えられたとき(10.151)より $$ p(t_{N+1}|,\mathbf{w})=e^{\mathbf{w}^{\top} \phi_{N+1} t_{N+1}} \sigma\left(-\mathbf{w}^{\top} \phi_{N+1}\right) \geq e^{\mathbf{w}^{\top} \phi_{N+1} t_{N+1}} \sigma\left(\xi_{N+1}\right) \exp \left[-\left(\mathbf{w}^{\top} \phi_{N+1}+\xi_{N+1}\right) / 2-\lambda\left(\xi_{N+1}\right)\left\{\left(\mathbf{w}^{\top} \phi_{N+1}\right)^{2}-\xi_{N+1}^{2}\right\}\right]. $$ この式から $$ p(t_{N+1},\mathbf{w})=p(t_{N+1}\mid\mathbf{w})p(\mathbf{w})\geq p(\mathbf{w})e^{\mathbf{w}^{\top} \phi_{N+1} t_{N+1}} \sigma\left(\xi_{N+1}\right) \exp \left[-\left(\mathbf{w}^{\top} \phi_{N+1}+\xi_{N+1}\right) / 2-\lambda\left(\xi_{N+1}\right)\left\{\left(\mathbf{w}^{\top} \phi_{N+1}\right)^{2}-\xi_{N+1}^{2}\right\}\right]. $$ を得る両辺の対数をとって $$ \begin{aligned} \ln p(t_{N+1}\mid\mathbf{w})p(\mathbf{w})&\geq\ln p(\mathbf{w})+\mathbf{w}^{\top} \phi_{N+1} t_{N+1}+\ln \sigma\left(\xi_{N+1}\right)-\left(\mathbf{w}^{\top} \phi_{N+1}+\xi_{N+1}\right) / 2-\lambda\left(\xi_{N+1}\right)\left\{\left(\mathbf{w}^{\top} \phi_{N+1}\right)^{2}-\xi_{N+1}^{2}\right\}\\ &\simeq -\frac{1}{2}(\mathbf{w}-\mathbf{m}_N)^{\top}\mathbf{S}_N^{-1}(\mathbf{w}-\mathbf{m}_N)+\mathbf{w}^{\top} \phi_{N+1}\left(t_{N+1}-\frac{1}{2}\right)-\lambda\left(\xi_{N+1}\right) \mathbf{w}^{\top} \phi_{N+1} \phi_{N+1}^{\top} \mathbf{w}+Const \end{aligned} $$ これは$\mathbf{w}$の二次形式になっているため,N+1個目のデータが与えられたときの変分事後分布を$q_{N+1}(\mathbf{w})$とするとガウス分布になり,平方完成することで $$ q_{N+1}(\mathbf{w})=\mathcal{N}(\mathbf{w}\mid\mathbf{m}_{N+1},\mathbf{S}_{N+1}^{-1}) $$ $$ \mathbf{m}_{N+1}=\mathbf{S}_{N+1}\left[\mathbf{S}_{N}^{-1} \mathbf{m}_{N}+\left(t_{N+1}-1 / 2\right) \boldsymbol{\phi}_{N+1}\right] $$ $$ \mathbf{S}_{N+1}^{-1}=2 \lambda\left(\xi_{N+1}\right) \boldsymbol{\phi}_{N+1} \boldsymbol{\phi}_{N+1}^{T}+\mathbf{S}_{N}^{-1} $$ が得られる. ## 演習 10.33 <div class="panel-primary"> $$Q\left(\boldsymbol{\xi}, \boldsymbol{\xi}^{\text {old }}\right)=\sum_{n=1}^{N}\left\{\ln \sigma\left(\xi_{n}\right)-\xi_{n} / 2-\lambda\left(\xi_{n}\right)\left(\boldsymbol{\phi}_{n}^{\mathrm{T}} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right] \boldsymbol{\phi}_{n}-\xi_{n}^{2}\right)\right\}+\mathrm{const} . \tag{10.161}$$ で定義した量$Q\left(\boldsymbol{\xi}, \boldsymbol{\xi}^{\text {old }}\right)$を変分パラメータ$\xi_n$について微分することで, $$\left(\xi_{n}^{\text {new }}\right)^{2}=\boldsymbol{\phi}_{n}^{\mathrm{T}} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right] \boldsymbol{\phi}_{n}=\boldsymbol{\phi}_{n}^{\mathrm{T}}\left(\mathbf{S}_{N}+\mathbf{m}_{N} \mathbf{m}_{N}^{\mathrm{T}}\right) \boldsymbol{\phi}_{n} \tag{10.163}$$ で与えられるベイズロジスティック回帰モデルの$\xi_n$の更新式を示せ. </div> ### Preparation - $\sigma(x)$の微分 \begin{aligned} \frac{\partial \sigma(x)}{\partial x} &= \frac{e^{-x}}{(1 + e^{-x})^2} \\ &= \sigma(x)(1 - \sigma(x)) \notag \end{aligned} - $\log(\sigma(x))$の微分 \begin{aligned} \frac{\partial \log(\sigma(x))}{\partial x} &= (1 + e^{-x})\frac{e^{-x}}{(1 + e^{-x})^2} \\ &= \frac{e^{-x}}{1 + e^{-x}} = 1 - \sigma(x) \notag \end{aligned} - $\lambda(\xi)$ $$ \lambda(\xi) = \frac{1}{2\xi}\left[\sigma(\xi) - \frac{1}{2}\right] \tag{10.150} $$ - 分散の公式 \begin{aligned} \mathbf{S}_N &= \mathbb{E}[\mathbf{ww}^{\mathrm{T}}] - \mathbb{E}[\mathbf{w}]\mathbb{E}[\mathbf{w}^{\mathrm{T}}] \\ &= \mathbb{E}[\mathbf{ww}^{\mathrm{T}}] - \mathbf{m}_N\mathbf{m}^{\mathrm{T}}_N \end{aligned} ### Solution \begin{aligned} \frac{\partial Q}{\partial \xi_n} &= (1 - \sigma(\xi_n)) - \frac{1}{2} + 2\xi_n\lambda(\xi_n) - \lambda'(\xi_n)(\mathbf{\phi}^{\mathrm{T}}_n\mathbb{E}\left[\mathbf{ww}^{\mathrm{T}}\right]\mathbf{\phi}_n - \xi^2_n) \\ &= -2\xi_n\lambda(\xi_n) + 2\xi_n\lambda(\xi_n) - \lambda'(\xi_n)(\mathbf{\phi}^{\mathrm{T}}_n\mathbb{E}\left[\mathbf{ww}^{\mathrm{T}}\right]\mathbf{\phi}_n - \xi^2_n) \\ &= 0 \end{aligned} よって、 $$ (\xi^{\mathrm{new}}_n)^2 = \mathbf{\phi}^{\mathrm{T}}_n\mathbb{E}\left[\mathbf{ww}^{\mathrm{T}}\right]\mathbf{\phi}_n = \mathbf{\phi}^{\mathrm{T}}_n\left(\mathbf{S}_N + \mathbf{m}_N\mathbf{m}^{\mathrm{T}}_N\right)\mathbf{\phi}_n $$ ## 演習 10.34 <div class="panel-primary"> この演習問題では,4.5節のベイスロジスティック回帰モデルの変分パラメータ$\boldsymbol{\xi}$の更新式を, $$\begin{aligned} \mathcal{L}(\boldsymbol{\xi})&= \frac{1}{2} \ln \frac{\left|\mathbf{S}_{N}\right|}{\left|\mathbf{S}_{0}\right|}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\frac{1}{2} \mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \\ &+\sum_{n=1}^{N}\left\{\ln \sigma\left(\xi_{n}\right)-\frac{1}{2} \xi_{n}+\lambda\left(\xi_{n}\right) \xi_{n}^{2}\right\} \end{aligned} \tag{10.164}$$ で与えられる下界を直接最大化することで導出する.これには$\mathcal{L}(\boldsymbol{\xi})$の$\xi_n$に附する微分を0としてみよ.行列式の対数の微分には結果 $$\frac{d}{d \alpha} \ln |\mathbf{A}|=\operatorname{Tr}\left(\mathbf{A}^{-1} \frac{d}{d \alpha} \mathbf{A}\right) \tag{3.117}$$ を,変分事後分布$q(\mathbf{w})$の平均と分散には $$\mathbf{m}_{N}=\mathbf{S}_{N}\left(\mathbf{S}_{0}^{-1} \mathbf{m}_{0}+\sum_{n=1}^{N}\left(t_{n}-1 / 2\right) \phi_{n}\right) \tag{10.157}$$ $$\mathbf{S}_{N}^{-1}=\mathbf{S}_{0}^{-1}+2 \sum_{n=1}^{N} \lambda\left(\xi_{n}\right) \phi_{n} \phi_{n}^{\mathrm{T}} \tag{10.158}$$ の式を利用せよ. </div> ### Preparation - 公式 $$ \frac{\partial}{\partial x}(\mathbf{A}^{-1}) = -\mathbf{A}^{-1}\frac{\partial\mathbf{A}}{\partial x}\mathbf{A}^{-1} \tag{C.21} $$ - 後で使う式変形 \begin{aligned} \mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_{N}\mathbf{m}_N &= [\mathbf{S}_{N}\mathbf{S}^{-1}_{N}\mathbf{m}_N]^{\mathrm{T}}\mathbf{S}^{-1}_{N}[\mathbf{S}_{N}\mathbf{S}^{-1}_{N}\mathbf{m}_N] \\ &= [\mathbf{S}_{N}\mathbf{a}_N]^{\mathrm{T}}\mathbf{S}^{-1}_{N}[\mathbf{S}_{N}\mathbf{a}_N] \\ &= \mathbf{a}^{\mathrm{T}}_N\mathbf{S}^{-1}_{N}\mathbf{a}_N. \end{aligned} ただし、 $$ \mathbf{a}_N = \mathbf{S}^{-1}_{N}\mathbf{m}_N. $$ ### Solution \begin{aligned} \frac{\partial \mathcal{L}(\mathbf{\xi})}{\partial \xi_n} &= \frac{1}{2}\mathrm{Tr}\left(\mathbf{S}^{-1}_{N}\frac{\partial \mathbf{S}_{N}}{\partial \xi_n}\right) + \frac{1}{2} \mathrm{Tr}\left(\mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N \frac{\partial \mathbf{S}_{N}}{\partial \xi_n}\right) + \lambda'(\xi_n)\xi^2_n \\ &= \frac{1}{2}\mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\frac{\partial \mathbf{S}_{N}}{\partial \xi_n}\right) + \lambda'(\xi_n)\xi^2_n \\ &= -\frac{1}{2}\mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\mathbf{S}_N[2\lambda'(\xi_n)\mathbf{\phi}_N\mathbf{\phi}^{\mathrm{T}}_N]\mathbf{S}_N\right) + \lambda'(\xi_n)\xi^2_n \\ &= -\lambda'(\xi_n)\left\{\mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\mathbf{S}_N\mathbf{\phi}_N\mathbf{\phi}^{\mathrm{T}}_N\mathbf{S}_N\right) - \xi^2_n\right\} \\ &= 0. \end{aligned} よって、 \begin{aligned} \xi^2_n &= \mathrm{Tr}\left((\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)\mathbf{S}_N\mathbf{\phi}_N\mathbf{\phi}^{\mathrm{T}}_N\mathbf{S}_N\right) \\ &= (\mathbf{S}_N\mathbf{\phi}_n)^{\mathrm{T}}(\mathbf{S}^{-1}_{N} + \mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N)(\mathbf{S}_N\mathbf{\phi}_n) \\ &= \mathbf{\phi}^{\mathrm{T}}_n(\mathbf{S}_N + \mathbf{S}_N\mathbf{a}_N\mathbf{a}^{\mathrm{T}}_N\mathbf{S}_N)\mathbf{\phi}_n \\ &= \mathbf{\phi}^{\mathrm{T}}_n(\mathbf{S}_N + \mathbf{m}_N\mathbf{m}^{\mathrm{T}}_N)\mathbf{\phi}_n \end{aligned} ## 演習 10.35 <div class="panel-primary"> 変分ベイズロジスティック回帰モデルの下界$\mathcal{L}(\boldsymbol{\xi})$についての結果 $$\begin{aligned} \mathcal{L}(\boldsymbol{\xi})&= \frac{1}{2} \ln \frac{\left|\mathbf{S}_{N}\right|}{\left|\mathbf{S}_{0}\right|}+\frac{1}{2} \mathbf{m}_{N}^{\mathrm{T}} \mathbf{S}_{N}^{-1} \mathbf{m}_{N}-\frac{1}{2} \mathbf{m}_{0}^{\mathrm{T}} \mathbf{S}_{0}^{-1} \mathbf{m}_{0} \\ &+\sum_{n=1}^{N}\left\{\ln \sigma\left(\xi_{n}\right)-\frac{1}{2} \xi_{n}+\lambda\left(\xi_{n}\right) \xi_{n}^{2}\right\} \end{aligned} \tag{10.164}$$ を導出せよ.これには$\mathcal{L}(\boldsymbol{\xi})$を定める積分 $$\ln p(\mathbf{t})=\ln \int p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w}) \mathrm{d} \mathbf{w} \geqslant \ln \int h(\mathbf{w}, \boldsymbol{\xi}) p(\mathbf{w}) \mathrm{d} \mathbf{w}=\mathcal{L}(\boldsymbol{\xi}) \tag{10.159}$$ の中で,ガウス事前分布の式に$q(\mathbf{w}) = \mathcal{N}(\mathbf{w}\mid \mathbf{m}_0, \mathbf{\Sigma}_0)$を,尤度関数に下界$h(\mathbf{w}, \boldsymbol{\xi})$を代入するのが最も簡単である.次に指数関数の中で$\mathbf{w}$に依存する項をまとめ,平方完成することでガウス分布の積分を導出せよ.多次元ガウス分布の正規化項についての標準的な結果を使ってこれを計算し,最後に対数をとって$(10.164)$を求めよ. </div> - $h(\mathbf{w}, \xi)p(\mathbf{w})$を計算する \begin{aligned} h(\mathbf{w}, \xi)p(\mathbf{w}) &= \mathrm{N}(\mathbf{w}|\mathbf{m}_0, \mathbf{S}_0)\prod^N \sigma(\xi_n)\exp\{\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_nt_n - (\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_n + \xi_n)/2 - \lambda(\xi_n)([\mathbf{w}^{\mathrm{T}}\mathbf{\phi}]^2 - \xi^2_n)\} \\ &= \{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n)\} \cdot \exp\{-\frac{1}{2}(\mathbf{w} - \mathbf{m}_0)^{\mathrm{T}}\mathbf{S}^{-1}_0(\mathbf{w} - \mathbf{m}_0)\} \\ & \ \ \ \cdot \prod^N \exp\{\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_nt_n - (\mathbf{w}^{\mathrm{T}}\mathbf{\phi}_n + \xi_n)/2 - \lambda(\xi_n)([\mathbf{w}^{\mathrm{T}}\mathbf{\phi}]^2 - \xi^2_n)\} \\ &= \left\{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right)\right\} \\ & \ \ \ \cdot \exp\left\{-\frac{1}{2}\mathbf{w}^{\mathrm{T}}\left(\mathbf{S}^{-1}_0 + 2\sum^N\lambda(\xi_n)\mathbf{\phi}_n\mathbf{\phi}^{\mathrm{T}}_n\right)\mathbf{w} + \mathbf{w}^{\mathrm{T}}\left(\mathbf{S}^{-1}_0\mathbf{m}_0 + \sum^N \mathbf{\phi}_n\left(t_n - \frac{1}{2}\right)\right) \right\} \\ &= \left\{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right)\right\} \\ & \ \ \ \cdot \exp\left\{\frac{1}{2}\mathbf{w}^{\mathrm{T}}\mathrm{S}^{-1}_N\mathbf{w} + \mathbf{w}^{\mathrm{T}}\mathrm{S}^{-1}_N\mathbf{m}_N\right\} \ (\because (10.157)-(10.158)) \\ &= \left\{(2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right) + \frac{1}{2}\mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N\right\} \\ & \ \ \ \cdot \exp\left\{-\frac{1}{2}(\mathbf{w} - \mathbf{m}_N)^{\mathrm{T}}\mathrm{S}^{-1}_N(\mathbf{w} - \mathbf{m}_N)\right\} \end{aligned} - $\mathbf{w}$で積分する \begin{aligned} \int h(\mathbf{w}, \xi)p(\mathbf{w})d\mathbf{w} &= (2\pi)^{-W/2} \cdot |\mathbf{S}_0|^{-1/2} \\ & \ \ \ \cdot \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right) + \frac{1}{2}\mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N \\ & \ \ \ \cdot (2\pi)^{W/2} \cdot |\mathbf{S}_N|^{1/2} \\ &= \left(\frac{|\mathbf{S}_N|}{|\mathbf{S}_0|}\right)^{1/2} \prod^N \sigma(\xi_n) \cdot \exp\left(-\frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 - \sum^N \frac{\xi_n}{2} + \sum^N \lambda(\xi_n)\xi^2_n\right) + \frac{1}{2}\mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N \end{aligned} - 対数をとる $$ \mathcal{L}(\xi) = \frac{1}{2}\log\frac{|\mathbf{S}_N|}{|\mathbf{S}_0|} - \frac{1}{2}\mathbf{m}^{\mathrm{T}}_0\mathbf{S}^{-1}_0\mathbf{m}_0 + \frac{1}{2} \mathbf{m}^{\mathrm{T}}_N\mathbf{S}^{-1}_N\mathbf{m}_N + \sum^N \left\{\log\sigma(\xi_n) - \frac{\xi_n}{2} + \lambda(\xi_n)\xi^2_n \right\} $$ ## 演習 10.36 <div class="panel-primary"> 10.7節で議論したADFの近似法を考える.このとき.因子$f_j(\boldsymbol{\theta})$を含めることで,モデルエビデンスを $$p_{j}(\mathcal{D}) \simeq p_{j-1}(\mathcal{D}) Z_{j} \tag{10.242}$$ のように更新できることを示せ.ここで$Z_j$は正規化定数であり $$Z_{j}=\int f_{j}(\theta) q^{\backslash j}(\boldsymbol{\theta}) \mathrm{d} \boldsymbol{\theta} \tag{10.197}$$ で与えられる$p_0({\mathcal{D}} ) = 1$と初期化して上の結果を再帰的に適用することで, $$p(\mathcal{D}) \simeq \prod_{j} Z_{j} \tag{10.243}$$ を導け. </div> ※ ## 演習 10.37 <div class="panel-primary"> 10.7節のEP法のアルゴリスムについて考え,定義 $$p(\mathcal{D}, \theta)=\prod_{i} f_{i}(\boldsymbol{\theta}) \tag{10.188}$$ における因子の一つ$f_0(\boldsymbol{\theta})$が,近似分布$q(\boldsymbol{\theta})$と同じ形の指数分布族になっていると仮定する.このとき因子$\tilde{f}_0(\boldsymbol{\theta})$を$f_0(\boldsymbol{\theta})$で初期化すれば,EP法での$\tilde{f}_0(\boldsymbol{\theta})$の更新は$\tilde{f}_0(\boldsymbol{\theta})$を変えないことを示せ.典型的には,これは因子の一つが事前分布$p(\boldsymbol{\theta})$の場合に起こり,事前分布に対応する因子は一度だけ厳密な形で取り込まれ,以降は更新する必要はないことがわかる. </div> $q(\boldsymbol{\theta})$の初期値は $$ q_{\mathrm{init}}(\boldsymbol{\theta}) = \tilde{f_0}(\boldsymbol{\theta})\prod_{i \neq 0}\tilde{f_i}(\boldsymbol{\theta}) $$ と表される。ここで、 $$ q^{\setminus 0}(\boldsymbol{\theta}) = \prod_{i \neq 0}\tilde{f_i}(\boldsymbol{\theta}). $$ $q^{new}(\boldsymbol{\theta})$は、モーメント一致法を用いて、 $$ q^{new}(\boldsymbol{\theta}) = q^{\setminus 0}(\boldsymbol{\theta})f_0(\boldsymbol{\theta}). $$ 問題の設定より、$\tilde{f_0}(\boldsymbol{\theta})$の初期値は$f_0(\boldsymbol{\theta})$なので、 $$ q^{new}(\boldsymbol{\theta}) = q_{\mathrm{init}}(\boldsymbol{\theta}). $$ また、 $$ Z_0 = \int q^{\setminus 0}(\boldsymbol{\theta})f_0(\boldsymbol{\theta})d\boldsymbol{\theta} = \int q_{\mathrm{init}}(\boldsymbol{\theta})d\boldsymbol{\theta} = 1. $$ 従って、(10.207)の更新式は、 $$ \tilde{f_0}(\boldsymbol{\theta}) = Z_0\frac{q^{new}(\boldsymbol{\theta})}{q^{\setminus 0}(\boldsymbol{\theta})} = f_0(\boldsymbol{\theta}) $$ となる。 ## 演習 10.38 <div class="panel-primary"> この演習問題と次の演習問題では,雑音データ問題でのEP法の結果$(10.214)-(10.224)$を確かめる.除算を行う公式 $$q^{\backslash j}(\boldsymbol{\theta})=\frac{q(\boldsymbol{\theta})}{\widetilde{f}_{j}(\boldsymbol{\theta})} \tag{10.205}$$ から始めて, $$\mathbf{m}^{\backslash n}=\mathbf{m}+v^{\backslash n} v_{n}^{-1}\left(\mathbf{m}-\mathbf{m}_{n}\right) \tag{10.214}$$ $$\left(v^{\backslash n}\right)^{-1}=v^{-1}-v_{n}^{-1}\tag{10.215}$$ を,指数関数の中を平方完成して平均と分散を見出すことで導け.また $$Z_{j}=\int q^{\backslash j}(\boldsymbol{\theta}) f_{j}(\boldsymbol{\theta}) \mathrm{d} \boldsymbol{\theta} \tag{10.206}$$ で定義される正規化定数$Z_n$は,雑音データ問題については $$Z_{n}=(1-w) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{m}^{\backslash n},\left(v^{\backslash n}+1\right) \mathbf{I}\right)+w \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{0}, a \mathbf{I}\right) \tag{10.216}$$ で与えられることを示せ.これには一般的な結果 $$p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115}$$ を利用すればよい. </div> (10.205)、(10.212)、(10.213)式より、 \begin{aligned} q^{\setminus j}(\boldsymbol{\theta}) &= \frac{q(\boldsymbol{\theta})}{\tilde{f_j}(\boldsymbol{\theta})} = \frac{\mathcal{N}(\boldsymbol{\theta}|\mathbf{m}, v\mathbf{I})}{s_n \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}_n, v_n\mathbf{I})} \\ &\propto \frac{\exp\left\{-\frac{1}{2}(\boldsymbol{\theta} - \mathrm{m})^{\mathrm{T}}(v\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m})\right\}}{\exp\left\{-\frac{1}{2}(\boldsymbol{\theta} - \mathrm{m}_n)^{\mathrm{T}}(v_n\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m}_n)\right\}} \\ &\propto \exp\left\{-\frac{1}{2}(\boldsymbol{\theta} - \mathrm{m})^{\mathrm{T}}(v\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m}) + \frac{1}{2}(\boldsymbol{\theta} - \mathrm{m}_n)^{\mathrm{T}}(v_n\mathbf{I})^{-1}(\boldsymbol{\theta} - \mathrm{m}_n)\right\} \\ &= \exp\left\{-\frac{1}{2}(\boldsymbol{\theta}^{\mathrm{T}}\mathbf{A}\boldsymbol{\theta} + \boldsymbol{\theta}^{\mathrm{T}}\mathbf{B})\right\} + \mathrm{const} \end{aligned} まず、 \begin{aligned} (\boldsymbol{\Sigma}^{\setminus n})^{-1} &= \mathbf{A} = (v\mathbf{I})^{-1} - (v_n\mathbf{I})^{-1} \\ &= (v^{-1} - v^{-1}_n)\mathbf{I}^{-1} \end{aligned} また、 $$ -2(\boldsymbol{\Sigma}^{\setminus n})^{-1}\mathbf{m}^{\setminus n} = \mathbf{B} = 2\left(-(v\mathbf{I})^{-1}\mathbf{m} + (v_n\mathbf{I})^{-1}\mathbf{m}_n\right) $$ より、 \begin{aligned} \mathbf{m}^{\setminus n} &= -(\boldsymbol{\Sigma}^{\setminus n})^{-1}\left(-(v\mathbf{I})^{-1}\mathbf{m} + (v_n\mathbf{I})^{-1}\mathbf{m}_n\right) \\ &= -(v^{\setminus n})\left(-v^{-1}\mathbf{m} + (v_n^{-1}\mathbf{m}_n\right) \\ &= v^{\setminus n}v^{-1}\mathbf{m} - \frac{v^{\setminus n}}{v_n}\mathbf{m}_n \\ &= v^{\setminus n}((v^{\setminus n})^{-1} - v^{-1}_n)\mathbf{m} - \frac{v^{\setminus n}}{v_n}\mathbf{m}_n \\ &= \mathbf{m} + \frac{v^{\setminus n}}{v_n}(\mathbf{m} - \mathbf{m}_n) \end{aligned} 次に、(10.206)、(10.209)式より、 \begin{aligned} Z_n &= \int q^{\setminus n}(\boldsymbol{\theta})f_n(\boldsymbol{\theta})d\boldsymbol{\theta} \\ &= \int \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\setminus n}, v^{\setminus n}\mathbf{I})\left\{(1 - w)\mathcal{N}(\mathbf{x}_n|\boldsymbol{\theta}, \mathbf{I}) + w\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I})\right\} \\ &= (1 - w)\int \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\setminus n}, v^{\setminus n}\mathbf{I})\mathcal{N}(\mathbf{x}_n|\boldsymbol{\theta}, \mathbf{I})d\boldsymbol{\theta} + w\int \mathcal{N}(\boldsymbol{\theta}|\mathbf{m}^{\setminus n}, v^{\setminus n}\mathbf{I})\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I})d\boldsymbol{\theta} \\ &= (1 - w) \mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I}) + w\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I}). (\because (2.113)-(2.115)) \end{aligned} ## 演習 10.39 <div class="panel-primary"> 雑音データ問題でのEP法における$q^{\text {new }}(\boldsymbol{\theta})$の平均と分散は $$\mathbf{m}^{\text {new }}=\mathbf{m}^{\backslash n}+\rho_{n} \frac{v^{\backslash n}}{v^{\backslash n}+1}\left(\mathbf{x}_{n}-\mathbf{m}^{\backslash n}\right) \tag{10.217}$$ $$v^{\text {new }}=v^{\backslash n}-\rho_{n} \frac{\left(v^{\backslash n}\right)^{2}}{v^{\backslash n}+1}+\rho_{n}\left(1-\rho_{n}\right) \frac{\left(v^{\backslash n}\right)^{2}\left\|\mathbf{x}_{n}-\mathbf{m}^{\backslash n}\right\|^{2}}{D\left(v^{\backslash n}+1\right)^{2}} \tag{10.218}$$ で与えられることを示せ.このためには,最初に$q^{\text {new }}(\boldsymbol{\theta})$の下での$\boldsymbol{\theta}$と$\boldsymbol{\theta}\boldsymbol{\theta}^{\mathrm T}$の期待値が $$\begin{align} \mathbb{E}[\boldsymbol{\theta}] &=\mathbf{m}^{\backslash n}+v^{\backslash n} \nabla_{\mathbf{m} \backslash n} \ln Z_{n} \\ \mathbb{E}\left[\boldsymbol{\theta}^{\mathrm{T}} \boldsymbol{\theta}\right] &=2\left(v^{\backslash n}\right)^{2} \nabla_{v^{\backslash n}} \ln Z_{n}+2 \mathbb{E}[\boldsymbol{\theta}]^{\mathrm{T}} \mathbf{m}^{\backslash n}-\left\|\mathrm{m}^{\backslash n}\right\|^{2}+v^{\backslash n} D \end{align}$$ となることを証明し,$Z_n$についての結果 $$Z_{n}=(1-w) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{m}^{\backslash n},\left(v^{\backslash n}+1\right) \mathbf{I}\right)+w \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{0}, a \mathbf{I}\right) \tag{10.216}$$ を用いる.次に, $$\widetilde{f}_{j}(\boldsymbol{\theta})=Z_{j} \frac{q^{\text {new }}(\boldsymbol{\theta})}{q \backslash j(\theta)} \tag{10.207}$$ を用いて指数関数の中を平方完成することで$(10.220)-(10.222)$の結果を証明せよ.最後に,$(10.208)$を用いて$(10.223)$の結果を導け. </div> ### Preparation - 正規分布の微分 \begin{aligned} \frac{\partial \mathcal{N}(x|\mu, \sigma^2)}{\partial \mu} &= \mathcal{N}(x|\mu, \sigma^2)\cdot\frac{x - \mu}{\sigma^2} \\ \frac{\partial \mathcal{N}(x|\mu, \sigma^2)}{\partial \sigma^2} &= \mathcal{N}(x|\mu, \sigma^2)\cdot\left(\frac{(x - \mu)^2}{(\sigma^2)^2} - \frac{1}{\sigma^2}\right) \\ \end{aligned} - $\rho_n$ \begin{aligned} \rho_n &= \frac{1}{Z_n}(1 - w)\mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I}) \\ &= \frac{1}{Z_n}(1 - w)\frac{Z_n - w\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I})}{1 - w} \ (\because (10.216)) \\ &= 1 - \frac{w}{Z_n}\mathcal{N}(\mathbf{x}_n|\mathbf{0}, a\mathbf{I}). \end{aligned} ### Solution まず、 \begin{aligned} \nabla_{\mathbf{m}^{\setminus n}} \ln Z_n &= \frac{1}{Z_n}\nabla_{\mathbf{m}^{\setminus n}} \int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta}) d\boldsymbol{\theta} \\ &= \frac{1}{Z_n}\int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta})\left\{-\frac{1}{v^{\setminus n}}(\mathbf{m}^{\setminus n} - \boldsymbol{\theta})\right\} d\boldsymbol{\theta} \\ &= -\frac{\mathbf{m}^{\setminus n}}{v^{\setminus n}} + \frac{\mathbb{E}(\boldsymbol{\theta})}{v^{\setminus n}} \ (\because (10.203)???) \end{aligned} 上式を整理すると、 \begin{aligned} \mathbb{E}(\boldsymbol{\theta}) &= \mathbf{m}^{\setminus n} + v^{\setminus n}\nabla_{\mathbf{m}^{\setminus n}} \ln Z_n \\ &= \mathbf{m}^{\setminus n} + v^{\setminus n} \frac{1}{Z_n} (1 - w)\mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I})\cdot\frac{\mathbf{x}_n - \mathbf{m}^{\setminus n}}{v^{\setminus n} + 1} \\ &= \mathbf{m}^{\setminus n} + v^{\setminus n}\rho_n\frac{\mathbf{x}_n - \mathbf{m}^{\setminus n}}{v^{\setminus n} + 1} \end{aligned} 同様に、 \begin{aligned} \nabla_{v^{\setminus n}} \ln Z_n &= \frac{1}{Z_n}\nabla_{v^{\setminus n}} \int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta}) d\boldsymbol{\theta} \\ &= \frac{1}{Z_n} \int q^{\setminus n}(\boldsymbol{\theta}) f_n(\boldsymbol{\theta})\left\{\frac{1}{2(v^{\setminus n})^2}(\mathbf{m}^{\setminus n} - \boldsymbol{\theta})^{\mathrm{T}}(\mathbf{m}^{\setminus n} - \boldsymbol{\theta}) - \frac{D}{2v^{\setminus n}}\right\} \\ &= \frac{1}{2(v^{\setminus n})^2}\left\{\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}) - 2\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}})\mathbf{m}^{\setminus n} + \|\mathbf{m}^{\setminus n}\|^2 \right\} - \frac{D}{2v^{\setminus n}}. \end{aligned} 整理すると、 $$ \mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}}\boldsymbol{\theta}) = 2(v^{\setminus n})^2 \nabla_{v^{\setminus n}} \ln Z_n + 2\mathbb{E}(\boldsymbol{\theta}^{\mathrm{T}})\mathbf{m}^{\setminus n} - \|\mathbf{m}^{\setminus n}\|^2 + Dv^{\setminus n} $$ となる。また、 \begin{aligned} \nabla_{v^{\setminus n}} \ln Z_n &= \frac{1}{Z_n} (1 - w)\mathcal{N}(\mathbf{x}_n|\mathbf{m}^{\setminus n}, (v^{\setminus n} + 1)\mathbf{I}) \left(\frac{1}{2(v^{\setminus n} + 1)^2}\|\mathbf{x}_n - \mathbf{m}^{\setminus n}\|^2 - \frac{D}{2(v^{\setminus n} + 1)}\right) \\ &= \rho_n \left(\frac{1}{2(v^{\setminus n} + 1)^2}\|\mathbf{x}_n - \mathbf{m}^{\setminus n}\|^2 - \frac{D}{2(v^{\setminus n} + 1)}\right) \\ \end{aligned} 以上の結果と、 $$ v\mathbf{I} = \mathbb{E}(\boldsymbol{\theta}\boldsymbol{\theta}^{\mathrm{T}}) - \mathbb{E}(\boldsymbol{\theta})\mathbb{E}(\boldsymbol{\theta^{\mathrm{T}}}) $$ を組み合わせることで、(10.218)式を得る。