# PRML第10章演習問題解答 (10.18まで) <head> <style> div.panel-primary { border: 1px solid #000; margin: 10px 5px; padding: 16px 10px 0px; } </style> </head> 10.19以降は[こちら](https://hackmd.io/pGyxx8WOQySCk87BQPfXBg) ## 演習 10.1 <div class="panel-primary"> 観測データの対数周辺尤度$\ln p(\mathbf{X})$は $$\ln p(\mathbf{X})=\mathcal{L}(q)+\mathrm{KL}(q \| p) \tag{10.2}$$ のように二つの項に分解できることを確かめよ.ここで,$\mathcal{L}(q)$, $\mathrm{KL}(q \| p)$は$(10.3), (10.4)$ $$\begin{align} \mathcal{L}(q) &= \int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \tag{10.3} \\ \mathrm{KL}(q \| p) &=-\int q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right\} \mathrm{d} \mathbf{Z} \tag{10.4} \end{align}$$ で与えられる. </div> $(10.3)$と$(10.4)$を足すと $$ \begin{aligned} \mathcal{L}(q)+\mathrm{KL}(q \| p) &=\int q(\mathbf{Z})\left[\ln \frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}-\ln \frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right] d \mathbf{Z} \\ &=\int q(\mathbf{Z})[\ln p(\mathbf{X}, \mathbf{Z})-\ln p(\mathbf{Z} \mid \mathbf{X})] d \mathbf{Z} \\ &=\int q(\mathbf{Z})[\ln p(\mathbf{X}, \mathbf{Z})-\ln p(\mathbf{X}, \mathbf{Z})+\ln p(\mathbf{X})] d\mathbf{Z} \\ &=\ln p(\mathbf{X})\int q(\mathbf{Z})d \mathbf{Z} \\ &=\ln p(\mathbf{X}) \end{aligned} $$ よって$(10.2)$式が示された。 ## 演習 10.2 <div class="panel-primary"> $\mathbb{E}\left[z_{1}\right]=m_{1}$および$\mathbb{E}\left[z_{2}\right]=m_{2}$を用いて連立方程式 $$\begin{align}m_{1}&=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(\mathbb{E}\left[z_{2}\right]-\mu_{2}\right) \tag{10.13} \\ m_{2}&=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(\mathbb{E}\left[z_{1}\right]-\mu_{1}\right) \tag{10.15 }\end{align}$$ を解き,もともとの分布$p(\mathbf{z})$が非特異ならば,近似された因子分布の平均についての一意な解は$\mathbb{E}\left[z_{1}\right]=\mu_{1}$および$\mathbb{E}\left[z_{2}\right]=\mu_{2}$となることを示せ. </div> (10.13)式と(10.15)式に、$\mathbb{E}\left[z_{1}\right]=m_{1}$と$\mathbb{E}\left[z_{2}\right]=m_{2}$を代入して、 \begin{align} m_{1}&=\mu_{1}-\Lambda_{11}^{-1} \Lambda_{12}\left(m_2-\mu_{2}\right)\\ m_{2}&=\mu_{2}-\Lambda_{22}^{-1} \Lambda_{21}\left(m_1-\mu_{1}\right) \end{align} これを行列の形で表すと、 \begin{align} \left[\begin{array}{cc} 1 & \Lambda _{11}^{-1}\Lambda_{12} \\ \Lambda_{22}^{-1}\Lambda_{21} & 1 \end{array}\right] \left[\begin{array}{rr} m_1 - \mu_1 \\ m_2- \mu_2 \end{array}\right] =\left[\begin{array}{rr} 0 \\ 0 \end{array}\right] \end{align} 一番左の$2 \times 2$行列には逆行列が存在する(*)ので、左から逆行列をかけて$m_1=\mu_1, m_2=\mu_2$を得る。 (*) 一番左の行列に逆行列が存在しないと仮定すると、行列式が0、つまり \begin{align} &1-\Lambda _{11}^{-1}\Lambda_{12} \Lambda_{22}^{-1}\Lambda_{21} =0\\ \Leftrightarrow & \Lambda _{11}\Lambda_{22}- \Lambda_{12}\Lambda_{21} =0\\ \Leftrightarrow & \det \mathbf \Lambda =0 \end{align} となってしまい、元の分布$p(\mathbf{z})$が特異であることを意味する。(精度行列の逆行列が存在しない、すなわち共分散行列が定義できない。) ## 演習 10.3 <div class="panel-primary"> $$q(\mathbf{Z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{Z}_{i}\right) \tag{10.5}$$ の形の分解された変分分布$q(\mathbf{Z})$を考えよう.ラグランジュ乗数法を用いて,カルバック-ライブラーダイバージェンス$\textrm{KL}(p \| q)$を因子の一つ$q_i(\mathbf{Z}_i)$について他の因子を固定して最小化すると,解 $$q_{j}^{\star}\left(\mathbf{Z}_{j}\right)=\int p(\mathbf{Z}) \prod_{i \neq j} \mathrm{~d} \mathbf{Z}_{i}=p\left(\mathbf{Z}_{j}\right) \tag{10.17}$$ が得られることを確かめよ. </div> ※ (10.16)式からKLダイバージェンスは $$ \begin{aligned} KL(p \parallel q) &= -\int p(\mathbf{Z})\left[\sum^M_{i=1}\ln q_i(\mathbf{Z}_i)\right]d\mathbf{Z}+const\\ &=-\int p(\mathbf{Z})\left[\ln q_j(\mathbf{Z}_j)+\sum^M_{i\neq j}\ln q_i(\mathbf{Z}_i)\right]d\mathbf{Z}+const\\ &=-\int p(\mathbf{Z})\ln q_j(\mathbf{Z}_j)d\mathbf{Z}+const\\ &=-\int\left[\int p(\mathbf{Z})\prod_{i\neq j}d\mathbf{Z}_i\right]\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+const\\ &=-\int p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+const \end{aligned} $$ と計算できる.ここでconstの項は同一の項にはなっていないことに留意.2行目から3行目への式変形では$q_j$に依存しない積分をconstに押し込んだ.最後の式変形では$\mathbf{Z}$の積分を各$\mathbf{Z}$の添字($1\dots i\dots j \dots M$)についてバラして添字$j$以外の積分の順序を入れ替え,$p(\mathbf{Z})$において$j$以外の添字で積分周辺化したため$p(\mathbf{Z}_j)$のみが残っている. $q_j(\mathbf{Z}_j)$が正規化されているという条件を利用してラグランジュ乗数$\lambda$を導入して,ラグランジュ未定乗数法によりKLダイバージェンスの最小化は以下の式の最小化に書き換えることができて $$ L = -\int p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)d\mathbf{Z}_j+\lambda\left(\int q_j(\mathbf{Z}_j)d\mathbf{Z}_j-1\right) $$ を最小化すれば良いことがわかる.ここで元のKLダイバージェンスの式にあった定数項は$\mathbf{Z}_j$に依存しない項なので最小化に影響はなく無視した. これを積分汎関数の形に変形して変分法を用いて解けるようにしたい. $\mathbf{Z}_j$に依存しない項を積分に含めるために$\delta$関数を用いて$L$は 以下のように書き直すことができる $$ L=\int\left\{-p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)+\lambda q_j(\mathbf{Z}_j)-\lambda\delta(\mathbf{Z}_j)\right\}d\mathbf{Z}_j $$ 被積分関数を $$ G(p,q;\delta)=-p(\mathbf{Z}_j)\ln q_j(\mathbf{Z}_j)+\lambda q_j(\mathbf{Z}_j)-\lambda\delta(\mathbf{Z}_j) $$ とおくと$L$を最小化する$q_j^*$はオイラー・ラグランジュ方程式から $$ \frac{\partial G}{\partial q}=0 $$ $$ -\frac{p(\mathbf{Z}_j)}{q_j(\mathbf{Z}_j)} + \lambda = 0 $$ $\mathbf{Z}_j$について積分して $$ \lambda=1 $$ よって $$ q_j^*=p(\mathbf{Z}_j)=\int p(\mathbf{Z})\prod_{i\neq j}d\mathbf{Z}_i $$ が得られる. ### 変分法について補足 蛇足かもしれないけど変分法についてちょっと勉強したので補足.上巻の付録Dに変分法の説明が書いてあるけど被積分関数として関数一つとその一回導関数を含む場合についての説明だった.一般化した場合変分問題の解法であるオイラー・ラグランジュ方程式がどのような形になるか調べた. 高階導関数を含む(被積分関数が$G(y,y',y'',...,y^{(m)}, x)$と書ける)場合は $$ \frac{\partial G}{\partial y}-\frac{d}{dx}\frac{\partial G}{\partial y'}+\frac{d^2}{dx^2}\frac{\partial G}{\partial y''}+...+(-1)^{(m)}\frac{d^m}{dx^m}\frac{\partial G}{\partial y^{(m)}}=0 $$ 複数の関数を含む(被積分関数が$G(y,y',z, z',x)$と書ける)場合には $$ \frac{\partial G}{\partial y}-\frac{d}{dx}\frac{\partial G}{\partial y'}=0 $$ $$ \frac{\partial G}{\partial z}-\frac{d}{dx}\frac{\partial G}{\partial z'}=0 $$ のように書けるらしい.今回の場合,最小化したい積分汎関数は同関数を含まず,複数の関数を含む形になっていたため単に注目する関数の偏微分を考えるだけでよかった(という理解であってますか...) ## 演習 10.4 <div class="panel-primary"> ある固定された分布$p(\mathbf{x})$をガウス分布$q(\mathbf{x}) = \mathcal{N}(\mathbf{x}\mid \boldsymbol{\mu}, \mathbf{\Sigma})$を用いて近似したいとしよう.KLダイバージェンス$\textrm{KL}(p \| q)$をガウス分布$q(\mathbf{x})$に関して書き下して微分することにより,$\textrm{KL}(p \| q)$を$\boldsymbol{\mu}$および$\mathbf{\Sigma}$について最小化すると,結果として$\boldsymbol{\mu}$は$p(\mathbf{x})$の下での$\mathbf{x}$の期待値になり,$\mathbf{\Sigma}$はその共分散になることを示せ. </div> $$ \begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} d \mathbf{x} \\ &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) d \mathbf{x}+\text { const } \\ &=-\int p(\mathbf{x})\left[-\frac{D}{2} \ln 2 \pi-\frac{1}{2} \ln |\boldsymbol{\Sigma}|-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\ &=\int p(\mathbf{x})\left[\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\int p(\mathbf{x})\left[\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right] d \mathbf{x}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\int p(\mathbf{x}) \frac{1}{2}\left[\mathbf{x}^{T} \boldsymbol{\Sigma}^{-1} \mathbf{x}-2 \boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \mathbf{x}+\boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}\right] d \mathbf{x}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \int p(\mathbf{x}) \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1}\left(\mathbf{x} \mathbf{x}^{T}\right)\right] d \mathbf{x}-\boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \mathbb{E}[\mathbf{x}]+\frac{1}{2} \boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const } \\ &=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1} \mathbb{E}\left(\mathbf{x} \mathbf{x}^{T}\right)\right]-\boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \mathbb{E}[\mathbf{x}]+\frac{1}{2} \boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const } \end{aligned} $$ $D$ : $\mathbf{x}$の次元. $\mathrm{KL}(p \| q)$ を $\boldsymbol{\mu}$ について微分: $$ \frac{\partial \mathrm{KL}}{\partial \boldsymbol{\mu}}=-\Sigma^{-1} \mathbb{E}[x]+\Sigma^{-1} \mu=0 $$ よって $\boldsymbol{\mu}=\mathbb{E}[\mathbf{x}]$. $\boldsymbol{\mu}=\mathbb{E}[\mathbf{x}]$ のとき, KL divergenceは: $$ \mathrm{KL}(p \| q)=\frac{1}{2} \ln |\boldsymbol{\Sigma}|+\frac{1}{2} \operatorname{Tr}\left[\boldsymbol{\Sigma}^{-1} \mathbb{E}\left(\mathbf{x} \mathbf{x}^{T}\right)\right]-\frac{1}{2} \boldsymbol{\mu}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\text { const } $$ この$\mathrm{KL}(p \| q)$ を $\Sigma$ について微分すると: $$ \frac{\partial \mathrm{KL}}{\partial \Sigma}=\frac{1}{2} \Sigma^{-1}-\frac{1}{2} \Sigma^{-1} \mathbb{E}\left[\mathbf{x} \mathbf{x}^{T}\right] \Sigma^{-1}+\frac{1}{2} \Sigma^{-1} \mu \mu^{T} \Sigma^{-1}=0 $$ 'MatrixCookBook'内の$\mathrm{Eq}(61)$ と $\mathrm{Eq}(124)$ ,を用いた. $\Sigma, \mathbb{E}\left[\mathbf{x x}^{T}\right]$ は対象行列: $\frac{\partial \mathbf{a}^{T} \mathbf{X}^{-1} \mathbf{b}}{\partial \mathbf{X}}=-\mathbf{X}^{-T} \mathbf{a b}^{T} \mathbf{X}^{-T} \quad$ and $\quad \frac{\partial \operatorname{Tr}\left(\mathbf{A} \mathbf{X}^{-1} \mathbf{B}\right)}{\partial \mathbf{X}}=-\mathbf{X}^{-T} \mathbf{A}^{T} \mathbf{B}^{T} \mathbf{X}^{-T}$ 整理すると: $$ \Sigma=\mathbb{E}\left[\mathbf{x x}^{T}\right]-\boldsymbol{\mu} \boldsymbol{\mu}^{T}=\mathbb{E}\left[\mathbf{x} \mathbf{x}^{T}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}[\mathbf{x}]^{T}=\operatorname{cov}[\mathbf{x}] $$ ## 演習 10.5 <div class="panel-primary"> すべての隠れ確率変数の集合$\mathbf{Z}$が,潜在変数$\mathbf{z}$とモデルパラメータ$\boldsymbol{\theta}$に分けられるようなモデルを考える.この変分分布を潜在変数とパラメータに$q(\mathbf{z}, \boldsymbol{\theta}) = q_{\mathbf{z}}(\mathbf{z}) q_{\theta}(\boldsymbol{\theta})$のように分解し,分布$q_{\theta}(\boldsymbol{\theta})$を$q_{\theta}(\boldsymbol{\theta}) = \delta(\boldsymbol{\theta} - \boldsymbol{\theta}_0)$の形の点推定で近似することを考える.ここで,$\boldsymbol{\theta}_0$は自由パラメータのベクトルである.このとき,この分解された分布を変分ベイズ法により最適化することは, Eステップで$q_{\mathbf{z}}(\mathbf{z})$を最適化し, Mステップで$\boldsymbol{\theta}$の完全データの対数事後分布の期待値を$\boldsymbol{\theta}_0$について最大化するEMアルゴリズムと等価になることを示せ. </div> 変分ベイズの点推定がEMアルゴリズムに相当することを確かめる問題。 10.1節で述べられている通り、EMアルゴリズムと変分推論の違いの一つは、Zにθを含めないか、含めるかである。今回はZとθを分離して考えているためEMアルゴリズムの枠組みで考えられる。変分ベイズ法では、Pをよく表すようなqをKLダイバージェンス基準で求める。つまり(10.2)において、KLダイバージェンスの項を最小化することに相当する(Eステップ) (つまり変分ベイズはEEアルゴリズムのように捉えることもできる) 実際に計算をする。θを固定して $$ \begin{aligned} \mathrm{KL}(q \| p) &=-\iint q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{Z} \mid \mathbf{X})}{q(\mathbf{Z})}\right\} d \mathbf{Z} \\ &=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta})}\right\} d \mathbf{z} d \boldsymbol{\theta} \\ &=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}+\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta} \\ &=-\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}+\text { const } \\ &=-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta})\left\{\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p(\mathbf{z}, \boldsymbol{\theta} \mid \mathbf{X})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}\right\} d \boldsymbol{\theta}+\text { const } \\ &=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z}, \boldsymbol{\theta}_{0} \mid \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \\ &=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right) p\left(\boldsymbol{\theta}_{0} \mid \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \\ &=-\int q_{\mathbf{z}}(\mathbf{z}) \ln \left\{\frac{p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right)}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z}+\text { const } \end{aligned} $$ よって、$\mathrm{KL}(q \| p)$を最小にする$q_{\mathbf{z}}(\mathbf{z})$は$p\left(\mathbf{z} \mid \boldsymbol{\theta}_{0}, \mathbf{X}\right)$が解となる。 続いて最適なθを求める。これは下限$\mathcal{L}(q)$を最大にするようなθを求めることに相当する。 $$ \begin{aligned} L(q) &=\iint q(\mathbf{Z}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z})}{q(\mathbf{Z})}\right\} d \mathbf{Z} \\ &=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})}{q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta})}\right\} d \mathbf{z} d \boldsymbol{\theta} \\ &=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})}{q_{\mathbf{z}}(\mathbf{z})}\right\} d \mathbf{z} d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta} \\ &=\iint q_{\mathbf{z}}(\mathbf{z}) q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln \{p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})\} d \mathbf{z} d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \\ &=\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \mathbb{E}_{q_{\mathbf{z}}}[\ln p(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta})] d \boldsymbol{\theta}-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \\ &=\mathbb{E}_{q_{\mathbf{z}}(\mathbf{z})}\left[\ln p\left(\mathbf{X}, \mathbf{z}, \boldsymbol{\theta}_{0}\right)\right]-\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}+\text { const } \end{aligned} $$ $\int q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) \ln q_{\boldsymbol{\theta}}(\boldsymbol{\theta}) d \boldsymbol{\theta}$は−∞になるので無視して良いので、第一項の最大化を考えれば良い。 これは、対数事後分布の期待値を$\boldsymbol{\theta}_{0}$について最大化すれば良い。 ## 演習 10.6 <div class="panel-primary"> $\alpha$ダイバージェンスは $$ \mathrm{D}_{\alpha}(p \| q)=\frac{4}{1-\alpha^{2}}\left(1-\int p(x)^{(1+\alpha) / 2} q(x)^{(1-\alpha) / 2} \mathrm{~d} x\right) \tag{10.19} $$ で定義される.カルバック-ライブラーダイバージェンス$\textrm{KL}(p \| q)$はこのとき$\alpha \to 1$の場合に対応することを示せ.これには$p^{\epsilon} = \exp (\epsilon \ln p)=1+\epsilon \ln p+O\left(\epsilon^{2}\right)$と書き,$\epsilon \to 0$とすればよい.同様にして,$\textrm{KL}(q \| p)$は$\alpha \to -1$の場合に対応することを示せ. </div> $\alpha\rightarrow1$の時は、$p^{\epsilon}=1+\epsilon \ln p+O\left(\epsilon^{2}\right)$を利用すべく、以下のように式変形する。 $$ \begin{aligned} D_{\alpha}(p \| q) &=\frac{4}{1-\alpha^{2}}\left(1-\int p^{(1+\alpha) / 2} q^{(1-\alpha) / 2} d x\right) \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int \frac{p}{p^{(1-\alpha) / 2}}\left[1+\frac{1-\alpha}{2} \ln q+O\left(\frac{1-\alpha}{2}\right)^{2}\right] d x\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int p \cdot \frac{1+\frac{1-\alpha}{2} \ln q+O\left(\frac{1-\alpha}{2}\right)^{2}}{1+\frac{1-\alpha}{2} \ln p+O\left(\frac{1-\alpha}{2}\right)^{2}} d x\right\} \\ &\approx \frac{4}{1-\alpha^{2}}\left\{1-\int p \cdot \frac{1+\frac{1-\alpha}{2} \ln q}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{-\int p \cdot\left[\frac{1+\frac{1-\alpha}{2} \ln q}{1+\frac{1-\alpha}{2} \ln p}-1\right] d x\right\} \\ &=\frac{4}{(1+\alpha)(1-\alpha)}\left\{-\int p \cdot \frac{\frac{1-\alpha}{2} \ln q-\frac{1-\alpha}{2} \ln p}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &=\frac{2}{1+\alpha}\left\{-\int p \cdot \frac{\ln q-\ln p}{1+\frac{1-\alpha}{2} \ln p} d x\right\} \\ &D_{\alpha\rightarrow1}(p \| q)= -\int p \cdot(\ln q-\ln p) d x=\int p \cdot \ln \frac{p}{q}dx = \textrm{KL}(p \| q) \end{aligned} $$ 同様に$\alpha\rightarrow-1$の時は、以下のように式変形する。 $$ \begin{aligned} D_{\alpha}(p \| q) &=\frac{4}{1-\alpha^{2}}\left(1-\int p^{(1+\alpha) / 2} q^{(1-\alpha) / 2} dx\right) \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int \left[1+\frac{1+\alpha}{2} \ln p+O\left(\frac{1+\alpha}{2}\right)^{2}\right]\frac{q}{q^{(1+\alpha)/ 2}}dx\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{1-\int q \cdot \frac{1+\frac{1+\alpha}{2} \ln p+O\left(\frac{1+\alpha}{2}\right)^{2}}{1+\frac{1+\alpha}{2} \ln q+O\left(\frac{1+\alpha}{2}\right)^{2}} dx\right\} \\ & \approx \frac{4}{1-\alpha^{2}}\left\{1-\int q \cdot \frac{1+\frac{1+\alpha}{2} \ln p}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &=\frac{4}{1-\alpha^{2}}\left\{-\int q \cdot\left[\frac{1+\frac{1+\alpha}{2} \ln p}{1+\frac{1+\alpha}{2} \ln q}-1\right] d x\right\} \\ &=\frac{4}{(1+\alpha)(1-\alpha)}\left\{-\int q \cdot \frac{\frac{1+\alpha}{2} \ln p-\frac{1+\alpha}{2} \ln q}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &=\frac{2}{1-\alpha}\left\{-\int q \cdot \frac{\ln p-\ln q}{1+\frac{1+\alpha}{2} \ln q}dx\right\} \\ &D_{\alpha\rightarrow-1}(p \| q)= -\int q \cdot(\ln p-\ln q)dx=\int q \cdot \ln \frac{q}{p}dx = \textrm{KL}(q \| p) \end{aligned} $$ ## 演習 10.7 <div class="panel-primary"> 一変数ガウス分布の平均と精度を,分解した変分近似を用いて求める10.1.3節の問題を考える.このとき,因子$q_{\mu}(\mu)$はガウス分布$\mathcal{N}\left(\mu \mid \mu_{N}, \lambda_{N}^{-1}\right)$となり,この平均と精度はそれぞれ $$\mu_{N} =\frac{\lambda_{0} \mu_{0}+N \bar{x}}{\lambda_{0}+N} \tag{10.26}$$ $$\lambda_{N} =\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \tag{10.27}$$ で与えられることを示せ.同様にして因子$q_{\tau}(\tau)$はガンマ分布$\textrm{Gam}(\gamma \mid a_N, b_N)$となり,そのパラメータは $$a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}$$ $$b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}$$ で与えられることを示せ. </div> ※ $(10.25)$式から $$ \begin{aligned} \ln q_{\mu}^{\star}(\mu) &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0}\left(\mu-\mu_{0}\right)^{2}+\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\lambda_{0} \mu^{2}-2 \lambda_{0} \mu_{0} \mu+\lambda_{0} \mu_{0}^{2}+N \mu^{2}-2\left(\sum_{n=1}^{N} x_{n}\right) \mu+\sum_{n=1}^{N} x_{n}^{2}\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]}{2}\left\{\left(\lambda_{0}+N\right) \mu^{2}-2\left(\lambda_{0} \mu_{0}+\sum_{n=1}^{N} x_{n}\right) \mu+\left(\lambda_{0} \mu_{0}^{2}+\sum_{n=1}^{N} x_{n}^{2}\right)\right\}+\text { const } \\ &=-\frac{\mathbb{E}[\tau]\left(\lambda_{0}+N\right)}{2}\left\{\mu^{2}-2 \frac{\lambda_{0} \mu_{0}+\sum_{n=1}^{N} x_{n}}{\lambda_{0}+N} \mu+\frac{\lambda_{0} \mu_{0}^{2}+\sum_{n=1}^{N} x_{n}^{2}}{\lambda_{0}+N}\right\}+\text { const } \end{aligned} $$ ## 演習 10.8 <div class="panel-primary"> パラメータが $$a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}$$ $$b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}$$ で与えられる一変数ガウス分布の精度の変分事後分布を考える.ガンマ分布の平均と分散についての標準的な結果 $$\mathbb{E}[\tau] =\frac{a}{b} \tag{B.27}$$ $$\operatorname{var}[\tau] =\frac{a}{b^{2}} \tag{B.28}$$ を用いて,$N\to \infty$のとき,この変分事後分布の期待値はデータの分散の最尤推定値の逆数となり,事後分布の分散は$0$に近づくことを示せ. </div> 精度$\tau$はガンマ分布に従う。すなわち、 $$ \begin{aligned} p(\tau) = \frac{1}{\Gamma(a_N)}b_N^{a_N}\tau^{a_N-1}e^{-b\tau} \end{aligned} $$ を満たす。今、ガンマ分布の標準的な結果$(B.27)$、$(B.28)$に代入すると、 $$ \begin{aligned} \mathbb{E}[\tau] &= \frac{a_N}{b_N} \\ &= \frac{a_{0}+\frac{N+1}{2}}{b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right]} \\ &= \frac{2 a_{0}+N+1}{2 b_{0}+\mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} + \lambda_{0}\left(\mu-\mu_{0}\right)\right]} \\ &\xrightarrow[N\to\infty]{} \frac{N}{\mathbb{E}_{\mu}\left[ \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} \right]} \end{aligned} $$ これは$N\to \infty$の極限でデータ分散の最尤推定量$\displaystyle \frac{\sum_{n=1}^{N}(x_n-\mu)^2}{N}$の逆数になっている事がわかる。 分散は $$ \begin{aligned} \operatorname{var}[\tau] &= \frac{a_N}{{b_N}^2} \\ &=\frac{2\mathbb{E}[\tau]}{2b_{0}+\mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2} + \lambda_{0}\left(\mu-\mu_{0}\right)\right]} \\ &\xrightarrow[N\to\infty]{} 0 \end{aligned} $$ となる。 ## 演習 10.9 <div class="panel-primary"> ガンマ分布の平均が$\mathbb{E}[\tau] = a_N/b_N$になるという標準的な結果,および $$\mu_{N} =\frac{\lambda_{0} \mu_{0}+N \bar{x}}{\lambda_{0}+N} \tag{10.26}$$ $$\lambda_{N} =\left(\lambda_{0}+N\right) \mathbb{E}[\tau] \tag{10.27}$$ $$a_{N}=a_{0}+\frac{N+1}{2} \tag{10.29}$$ $$b_{N}=b_{0}+\frac{1}{2} \mathbb{E}_{\mu}\left[\sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}+\lambda_{0}\left(\mu-\mu_{0}\right)^{2}\right] \tag{10.30}$$ を用いて,一変数ガウス分布の分解された変分近似の持つ精度の期待値の逆数についての結果 $$\frac{1}{\mathbb{E}[\tau]} =\overline{x^{2}}-\bar{x}^{2} =\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\bar{x}\right)^{2} \tag{10.33}$$ を導け. </div> ※問題文には書かれていないが、PRML下巻P.186の設定から$\mu_{0}=a_{0}=b_{0}=\lambda_{0}=0$であるとする。 まず$\displaystyle \frac{1}{\mathbb{E}[\tau]}$を計算する。 $$ \begin{aligned} \dfrac{1}{{\mathbb E}[\tau]} &= \left(\frac{a_N}{b_N}\right)^{-1} \\ &= \frac{b_N}{a_N}\\ &=\frac{b_0+\dfrac{1}{2}{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2+\lambda_0(\mu-\mu_0)^2\right]}{a_0+\dfrac{N+1}{2}} \\ &=\frac{{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right]}{N+1} \\ &=\frac{N}{N+1}\cdot\frac{1}{N}{\mathbb E}_\mu\left[\displaystyle\sum_{n=1}^N(x_n-\mu)^2\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^N(x_n-\mu)^2\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^N(x_n^2-2\mu x_n+\mu^2)\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\frac{1}{N}\sum_{n=1}^Nx_n^2-2\mu\frac{1}{N}\sum_{n=1}^Nx_n+\frac{1}{N}\sum_{n=1}^N\mu^2\right] \\ &=\frac{N}{N+1}{\mathbb E}_\mu\left[\overline{x^2}-2\overline{x}\mu+\mu^2\right] \\ &=\frac{N}{N+1}\left(\overline{x^2}-2\overline{x}{\mathbb E}_\mu[\mu]+{\mathbb E}_\mu[\mu^2]\right) \end{aligned} $$ これと $$ \begin{aligned} {\mathbb E}_\mu[\mu]&= \mu_N \\ &=\frac{\lambda_0\mu_0+N\overline{x}}{\lambda_0+N} \\ &=\frac{N\overline{x}}{N}\ (\because \lambda_0 = \mu_0 = 0 )\\ &=\overline{x} \end{aligned} $$ $$ \begin{aligned} \mathbb{E}_{\mu}\left[\mu^{2}\right] &=\operatorname{var}[\mu]+\mathbb{E}_{\mu}[\mu]^{2} \\ &=\lambda_{N}^{-1}+\overline{x}^{2} \\ &=\left(\left(\lambda_{0}+N\right) \mathbb{E}[\tau]\right)^{-1}+\overline{x}^{2} \\ &=(N \mathbb{E}[\tau])^{-1}+\overline{x}^{2} \\ &=\frac{1}{N \mathbb{E}[\tau]}+\overline{x}^{2} \end{aligned} $$ よって $$ \begin{aligned} \dfrac{1}{{\mathbb E}[\tau]} &= \frac{N}{N+1}\left(\overline{x^2}-2\overline{x}\cdot\overline{x}+\frac{1}{N{\mathbb E}[\tau]}+\overline{x}^2\right) \\ &=\frac{N}{N+1}\left(\overline{x^2}-\overline{x}^2+\frac{1}{N{\mathbb E}[\tau]}\right) \\ \therefore \dfrac{1}{{\mathbb E}[\tau]} &= \overline{x^2}-\overline{x}^2 \end{aligned} $$ 一方で $$ \begin{aligned} \frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\overline{x}\right)^{2} &=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}^{2}-2 \overline{x} x_{n}+\overline{x}^{2}\right) \\ &=\frac{1}{N} \sum_{n=1}^{N} x_{n}^{2}-2 \overline{x} \frac{1}{N} \sum_{n=1}^{N} x_{n}+\frac{1}{N} \sum_{n=1}^{N} \overline{x}^{2} \\ &=\overline{x^{2}}-2 \overline{x} \cdot \overline{x}+\overline{x}^{2} \\ &=\overline{x^{2}}-\overline{x}^{2} \end{aligned} $$ よって $$ \frac{1}{\mathbb{E}[\tau]} =\overline{x^{2}}-\overline{x}^{2} =\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\overline{x}\right)^{2} \tag{10.33} $$ を得る。 ## 演習 10.10 <div class="panel-primary"> モデルの事後分布を変分推論を用いて近似する際の分解 $$\ln p(\mathbf{X})=\mathcal{L}-\sum_{m} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, m \mid \mathbf{X})}{q(\mathbf{Z} \mid m) q(m)}\right\} \tag{10.34}$$ を導け. </div> \begin{aligned} \mathcal{L} &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{X}, \mathbf{Z}, m)}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})p(\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} + \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{p(\mathbf{X})\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} + \ln p(\mathbf{X}) \end{aligned} 上式を整理することで、式 (10.34) を得る。 ## 演習 10.11 <div class="panel-primary"> 分布$q(m)$の正規化条件をラグランジュ乗数法を用いて扱うことにより,下限 $$\mathcal{L}=\sum_{m} \sum_{\mathbf{Z}} q(\mathbf{Z} \mid m) q(m) \ln \left\{\frac{p(\mathbf{Z}, \mathbf{X}, m)}{q(\mathbf{Z} \mid m) q(m)}\right\} \tag{10.35}$$ の最大値は $$q(m) \propto p(m) \exp \left\{\mathcal{L}_{m}\right\} \tag{10.36}$$ によって得られることを示せ. </div> 問題には「ラグランジュ乗数法を用いて」とあるが、ラグランジュ乗数法を用いない方が簡単に解ける (実際公式の解答も使っていない)。 まず、変分下限$\mathcal{L}$を式変形する。 \begin{aligned} \mathcal{L} &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{X}, \mathbf{Z}, m)}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\ln\left\{\frac{p(\mathbf{Z}, m|\mathbf{X})p(\mathbf{X})}{q(\mathbf{Z}|m)q(m)}\right\} \\ &= \sum_m \sum_{\mathbf{Z}} q(\mathbf{Z}|m)q(m)\left\{\ln p(\mathbf{Z}, m|\mathbf{X}) + \ln p(\mathbf{X}) - \ln q(\mathbf{Z}|m) - \ln q(m)\right\} \\ &= \sum_m q(m) \left(\ln p(m) - \ln q(m) + \sum_{\mathbf{Z}} q(\mathbf{Z}|m)\left\{\ln p(\mathbf{Z}, m|\mathbf{X}) - \ln q(\mathbf{Z}|m)\right\} \right) \\ &= \sum_m q(m)\left\{\ln\left(p(m)\exp(\mathcal{L}_m)\right) - \ln q(m)\right\} \\ &= \sum_m q(m)\ln\left\{\frac{p(m)\exp(\mathcal{L}_m)}{q(m)}\right\} \end{aligned} これは$p(m)\exp(\mathcal{L}_m)$と$q(m)$とのKLダイバージェンスに$-1$をかけたものに等しいので、 $$ q(m) \propto p(m)\exp(\mathcal{L}_m) $$ のとき$\mathcal{L}$が最大となる。 ($=$ではなく$\propto$なのは、$p(m)\exp(\mathcal{L}_m)$が正規化されているとは限らないため) ## 演習 10.12 <div class="panel-primary"> 同時分布 $$p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu}, \mathbf{\Lambda})=p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda}) p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\mu} \mid \mathbf{\Lambda}) p(\mathbf{\Lambda}) \tag{10.41}$$ から始めて一般的な結果 $$\ln q_{j}^{\star}\left(\mathbf{Z}_{j}\right)= \mathbb{E}_{i \neq j}[\ln p(\mathbf{X}, \mathbf{Z})]+\mathrm{const} \tag{10.9}$$ を適用することで,ベイズ混合ガウス分布の潜在変数の最適な変分事後分布$q^{\star}(\mathbf{Z})$は $$q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}} \tag{10.48}$$ で与えられることを,本文の段階を確かめることで示せ. </div> ※教科書P.190の$(10.43)–(10.49)$の導出を確認する問題。 $$ \begin{aligned} \ln q^{\star}(\mathbf{Z}) &=\mathbb{E}_{\boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu} \mathbf{\Lambda}}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\mu}, \boldsymbol{\boldsymbol{\pi}}, \mathbf{\Lambda})]+\text { const. } \\ &=\mathbb{E}_{\boldsymbol{\boldsymbol{\pi}}, \boldsymbol{\mu}, \mathbf{\Lambda}}[\ln [p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}}) p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda}) p(\boldsymbol{\boldsymbol{\pi}}) p(\boldsymbol{\mu} \mid \mathbf{\Lambda}) p(\mathbf{\Lambda})]]+\text { const } \end{aligned} $$ $Z$に依存しない項はconst.となるので、 $$ \ln q^{\star}(\mathbf{Z})=\mathbb{E}_{\boldsymbol{\pi}}[\ln p(\mathbf{Z} \mid \boldsymbol{\boldsymbol{\pi}})]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\text { const. } $$ $(10.37)$と$(10.38)$を代入して $$ \begin{aligned} \ln q^{\star}(\mathbf{Z})&=\mathbb{E}_{\boldsymbol{\pi}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{nk} \ln \pi_{k} \right]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right] + \textrm{const.} \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{n k}\left(\mathbb{E}_{\boldsymbol{\pi}}\left[\ln \pi_{k} \right]+\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right]\right)\right\} + \textrm{const.} \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K}\left\{z_{nk} \left(\mathbb{E}_{\boldsymbol{\pi}}\left[\ln \pi_{k} \right]+\frac{1}{2} \mathbb{E}[\ln \mathbf{\Lambda}]-\frac{D}{2} \ln (2 \pi)-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{n}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{n}\right)\right]\right)\right\} + \textrm{const.} \\ &\equiv\sum_{n=1}^{N} \sum_{k=1}^{K} z_{nk}\ln \rho_{nk} + \textrm{const.} \end{aligned} $$ 最後に本文中で定義した $$ \begin{aligned} \ln \rho_{n k} &= \mathbb{E}\left[\ln \pi_{k}\right]+\frac{1}{2} \mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\frac{D}{2} \ln (2 \pi) \\ &-\frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \end{aligned} \tag{10.46} $$ を用いた。 これを用いて両辺の指数を取れば $$ q^{\star}(\mathbf{Z}) \propto \prod_{n=1}^{N} \prod_{k=1}^{K} \rho_{n k}^{z_{n k}} \tag{10.47} $$ を得る。また、この分布は正規化されている必要があることと,各$n$の値について$z_{nk}$は二値ですべての$k$の値にわたる和が$1$であることに注意すると,$(10.48), (10.49)$を得る。 $$ q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}, \quad r_{n k}=\frac{\rho_{n k}}{\sum_{j=1}^{K} \rho_{n j}} $$ ## 演習 10.13 <div class="panel-primary"> $$ \begin{aligned} \ln q^{\star} &(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=\ln p(\boldsymbol{\pi})+\sum_{n=1}^{N} \ln p\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)+\mathbb{E}_{\mathbf{Z}}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})] \\ &+\sum_{n=1}^{N} \sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)+\text { const. } \end{aligned} \tag{10.54}$$ から始めて,ベイズ混合ガウス分布における$\boldsymbol{\mu}_k$と$\mathbf{\Lambda}_k$の最適な変分事後分布についての結果 $$q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59}$$ を導き,この分布のパラメータが $$\begin{align} \beta_{k} &=\beta_{0}+N_{k} \tag{10.60} \\ \mathbf{m}_{k} &=\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \tag{10.61} \\ \mathbf{W}_{k}^{-1} &=\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{\beta_{0} N_{k}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \tag{10.62} \\ \nu_{k} &=\nu_{0}+N_{k} \tag{10.63} \end{align}$$ で与えられることを確かめよ. </div> ※多変数で平均と精度がともに未知な場合、上巻P.100の$(2.157)$式にあるガウス–ウィシャート分布の形の共役事前分布を取ることを利用する。 $$ \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)=\left(\frac{1}{2 \pi \beta_{0}}\right)^{\frac{D}{2}}\left(\left|\mathbf{\Lambda}_{k}\right|\right)^{\frac{1}{2}} \exp \left\{-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_0\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_0\right)\right\} $$ $$ \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)=B\left(\mathbf{W}_{0}, \nu_{0}\right)\left|\mathbf{\Lambda}_{k}\right|^{\left(\nu_{0}-D-1\right) / 2} \exp \left(-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right)\right) \tag{B .78} $$ を利用して$(10.54)$式のうち$\boldsymbol{\mu}_k$と$\mathbf{\Lambda}_k$に依存する項を考える。ただし $$q^{\star}(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q^{\star}(\boldsymbol{\pi}) \prod_{k=1}^{K} q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \tag{10.55}$$ で示されているように、$\prod_{k=1}^{K}$の部分は外に出ていることに留意する。 $$ \begin{aligned}\ln q^{\star}(\boldsymbol{\mu}_k, \mathbf{\Lambda}_k) &= \ln p\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\ &= \ln \left[\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right] +\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\ &= \ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_0,\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)+ \ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right) +\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right] \ln \mathcal{N}\left(\mathbf{x}_n \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right) \\ &=\frac{1}{2}\ln |\mathbf{\Lambda}_k| - \frac{\beta_0}{2}(\boldsymbol{\mu}_k - \mathbf{m}_0)^{\mathrm T}\mathbf{\Lambda}_k(\boldsymbol{\mu}_k - \mathbf{m}_0) +\frac{\nu_{0}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\ &+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right)+\textrm{const.} \end{aligned} $$ これをさらに$\ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right ) = \ln q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) + \ln q^{\star}\left(\mathbf{\Lambda}_{k}\right)$の形に分解する。$\boldsymbol{\mu}_{k}$に依存する項の部分を取り出す。 $$ \begin{aligned}\ln q^{*}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) &= -\frac{1}{2} \boldsymbol{\mu}_{k}^{\mathrm T}\left[\beta_{0}+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\right] \mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} +\boldsymbol{\mu}_{k}^{\mathrm T} \mathbf{\Lambda}_{k}\left[\beta_{0} \mathbf{m}_0+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right] \mathbf{x}_{n}\right]+\textrm{const.} \\ &= -\frac{1}{2} \boldsymbol{\mu}_{k}^{\mathrm T}(\beta_{0}+N_k) \mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} +\boldsymbol{\mu}_{k}^{\mathrm T} \mathbf{\Lambda}_{k}\left[\beta_{0} \mathbf{m}_0+ N_k \overline{\mathbf{x}}_k \right]+\textrm{const.}\quad (\because (10.50)-(10.52))\end{aligned} $$ この形は$\boldsymbol{\mu}_{k}$についての二次形式となっており、両辺の指数を取れば多変数ガウス分布の形で $$q^{\star}\left(\boldsymbol{\mu}_{k}\mid \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)$$ と書ける。ただし $$ \begin{aligned} \beta_{k} &=\beta_{0}+N_{k} \\ \mathbf{m}_{k} &=\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right) \end{aligned} $$ である。 続いて$q^{\star}(\mathbf{\Lambda}_k)$について、これは$\ln q^{\star}(\mathbf{\Lambda}_k) = \ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right ) -\ln q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right)$から求めると $$ \begin{aligned} \ln q^{*}\left(\mathbf{\Lambda}_{k}\right) &=\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) +\frac{\nu_{0}-D-1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\ &+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right) - \ln q^{\star}\left(\boldsymbol{\mu}_{k}\mid \mathbf{\Lambda}_{k}\right) +\textrm{const.}\\ &= \frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\beta_{0}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right) +\frac{\nu_{0}-D-1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right) \\ &+\sum_{n=1}^{N} \mathbb{E}\left[z_{n k}\right]\left(\frac{1}{2}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\right) \\ &-\frac{1}{2} \ln \left|\beta_{k} \mathbf{\Lambda}_{k}\right|-\frac{\beta_{k}}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right) +\textrm{const.}\\ &=\frac{\nu_{0}-D-1}{2}\ln|\mathbf{\Lambda}_k|+\frac{1}{2}\sum_{n=1}^{N}\mathbb{E}[z_{nk}]\ln |\mathbf{\Lambda}_k| \\ &-\frac{1}{2} \operatorname{Tr}\left[\left\{\beta_{0}\left(\boldsymbol{\mu}_k-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}[z_{nk}]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_k\right)^{\mathrm T} \right.\right. \\ &\left.\left.-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\mathbf{W}_{0}^{-1}\right\} \mathbf{\Lambda}_{k}\right]+\textrm{const.} \end{aligned} $$ これがウィシャート分布の対数形 $$ \ln \mathcal{W}=\ln B(\mathbf{W}_k, \nu_{k})+\frac{\nu_{k}-D-1}{2}\ln\left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left(\mathbf{W}_{k}^{-1} \mathbf{\Lambda}_{k}\right) $$ となれば良い($B(\mathbf{W}_{k},\nu_{k})$は正規化の定数項)。係数を比較して、 $$ \nu_{k}=\nu_{0}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]=\nu_{0}+N_{k} $$ $$ \mathbf{W}_{k}^{-1}=\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} $$ となる。 最後の$\mathbf{W}_k^{-1}$が$(10.62)$の形になることを**がんばって**計算で示す。 $$ \begin{aligned}\mathbf{W}_{k}^{-1}&=\mathbf{W}_{0}^{-1}+\beta_{0}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}-\beta_{k}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\sum_{n=1}^{N} \mathbb{E}\left[z_{nk}\right]\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_n-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \\ &=\mathbf{W}_{0}^{-1}+\beta_{0} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}-2 \beta_{0} \mathbf{m}_{0} \boldsymbol{\mu}_{k}^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}+2 \beta_{k} \mathbf{m}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} -\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} +\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \boldsymbol{\mu}_{k}^{\mathrm T}+\sum_{n=1}^{N} r_{n k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} \\ &=\mathbf{W}_{0}^{-1}+\underbrace{\left( \sum_{n=1}^{N}r_{nk}+\beta_{0}-\beta_{k} \right)}_{0}\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T} -2\underbrace{\left(\sum_{n=1}^{N} r_{n k} \mathbf{x}_{n}+\beta_{0} \mathbf{m}_{0}-\beta_{k} \mathbf{m}_{k}\right)}_{0} \boldsymbol{\mu}_{k}^{\mathrm T} + \sum_{n=1}^{N} r_{nk} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \\ &=\mathbf{W}_{0}^{-1}+ \underbrace{\sum_{n=1}^{N} r_{nk} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}}_{(A)} + \underbrace{\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}}_{(B)} \quad (\because \beta_{k} \mathbf{m}_{k}=\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}) \\ &=\mathbf{W}_{0}^{-1} + \underbrace{N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}}_{(A)} + \underbrace{\frac{\beta_{0} N_{k}}{\beta_{k}} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{\beta_{0} N_{k}}{\beta_{k}}\left(2 \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T}\right)}_{(B)} \\ &=\mathbf{W}_{0}^{-1} + N_{k} \mathbf{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{k}}\left( \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T} -2\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm T} + \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T} \right) \\ &=\mathbf{W}_{0}^{-1} + N_{k} \mathbf{S}_{k} + \frac{\beta_{0}N_{k}}{\beta_{0} + N_{k}}\left( \overline{\mathbf{x}}_{k} - \mathbf{m}_{0} \right)\left( \overline{\mathbf{x}}_{k} - \mathbf{m}_{0} \right)^{\mathrm T} \end{aligned} $$ 以上で$(10.62)$が示された。 途中の式変形$(A)$について $$ \begin{aligned} \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}&=\sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm T}-\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \mathbf{x}_{n} \overline{\mathbf{x}}_{k}^{\mathrm T}\right]\\ &=\sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right)^{\mathrm T}+\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right) \overline{\mathbf{x}}_{k}^{\mathrm T}\right]\\ &=N_{k} \mathbf{S}_{k}+\sum_{n=1}^{N} r_{n k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\overline{\mathbf{x}}_{k}\right) \overline{\mathbf{x}}_{k}^{\mathrm T}\right] \\ &=N_{k} \mathbf{S}_{k}+\sum_{n=1}^{N} r_{n k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 \sum_{n=1}^{N} r_{nk} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}\\ &=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}+2 N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}\\ &=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T} \end{aligned} $$ 途中の式変形$(B)$について $$ \begin{aligned} \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\beta_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} &=\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{1}{\beta_{k}}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm T} \\ &=\left(1-\frac{\beta_{0}}{\beta_{k}}\right) \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{2}{\beta_{k}} \beta_{0} N_{k} \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T} \\ &=\frac{\beta_{0} N_{k}}{\beta_{k}} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}-\frac{N_{k}^{2}}{\beta_{k}} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-\frac{\beta_{0} N_{k}}{\beta_{k}}\left(2 \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm T}\right) \end{aligned} $$ となることを用いた。 ## 演習 10.14 <div class="panel-primary"> $$ q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59} $$ の分布を使って, $$ \begin{aligned}& \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm{T}} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ =&\ D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\end{aligned}\tag{10.64} $$ の結果を確かめよ. </div> 期待値の定義を使って計算していく。 $$ \begin{aligned} & \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ =& \iint\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) d \boldsymbol{\mu}_{k} d \mathbf{\Lambda}_{k} \\ =&\int\left\{\int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) q^{\star}\left(\boldsymbol{\mu}_{k} \mid \mathbf{\Lambda}_{k}\right) d \boldsymbol{\mu}_{k}\right\} q^{\star}\left(\mathbf{\Lambda}_{k}\right) d \mathbf{\Lambda}_{k} \\ =&\int\underbrace{\left\{\int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) d \boldsymbol{\mu}_{k}\right\}}_{(A)} q^{\star}\left(\mathbf{\Lambda}_{k}\right) d \mathbf{\Lambda}_{k} \end{aligned} $$ $(A)$について、 $$ \begin{aligned} & \int\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right) \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \Lambda_{A}\right)^{-1}\right) d \boldsymbol{\mu}_{k} \\ =&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right]\quad \left(\boldsymbol{\mu}_{k} \sim \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right) \\ =&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T}\right]\right] \\ =&\ \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \boldsymbol{\mu}_{k}+\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right)\right]\right] \\ =&\operatorname{Tr}\left[\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}\right]-2 \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \mathbf{x}_{n}^{\mathrm T} \boldsymbol{\mu}_{k}\right]+\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\mathbf{\Lambda}_{k} \boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right]\right] \\ =&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k}\right]+\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right]\right\}\right] \\ =&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \mathbf{x}_{n}^{\mathrm T} \mathbf{m}_{k}+\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}+\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right\}\right] \\ =&\operatorname{Tr}\left[\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right]+\operatorname{Tr}\left[\beta_{k}^{-1} \mathbf{I}\right] \\ =&\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \end{aligned} $$ となる。ここで、$\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k}\right] = \mathbf{m}_{k}$と$\mathbb{E}_{\boldsymbol{\mu}_{k}}\left[\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}\right] = \mathbf{m}_k \mathbf{m}_k^{\mathrm T}+\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}$、さらにトレース演算子と期待値演算子はともに線形演算子で交換可能であることを用いた。$D$は$\mathbf{x}_n$の次元数である。 これと演習問題10.13で得られた$q^{\star}(\mathbf{\Lambda}_k) = \mathcal{W}(\mathbf{\Lambda}_k \mid \mathbf{W}_k, \nu_k)$を用いると $$ \begin{aligned} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] &= \int \left( \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \right)q^{\star}(\mathbf{\Lambda}_k)d\mathbf{\Lambda}_k \\ &=\mathbb{E}_{\mathbf{\Lambda}_k}\left[ \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\mathbf{\Lambda}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)+D\beta_{k}^{-1} \right] \quad \left( \mathbf{\Lambda}_{k} \sim \mathcal{W}(\mathbf{\Lambda}_k \mid \mathbf{W}_k, \nu_k) \right)\\ &=\mathbb{E}_{\mathbf{\Lambda}_k}[D \beta_{k}^{-1}]+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T} \Lambda_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\right] \\ &=D \beta_{k}^{-1}+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right]\right] \\ &=D \beta_{k}^{-1}+\operatorname{Tr}\left[\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\mathbf{\Lambda}_{k}\right] \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right] \\ &=D \beta_{k}^{-1}+\operatorname{Tr}\left[\nu_{k} \mathbf{W}_{k} \left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T}\right] \\ &=D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n} - \mathbf{m}_{k}\right) \end{aligned} $$ となり、$(10.64)$式が得られた。 > 「これは容易に計算できて」とは? ## 演習 10.15 <div class="panel-primary"> $$\mathbb{E}\left[\mu_{k}\right]=\frac{\alpha_{k}}{\widehat{\alpha}}=\frac{\alpha_k}{\sum_{k=1}^{K}\alpha_k}\tag{B.17}$$の結果を用いて,変分混合ガウス分布の混合係数の期待値は $$\mathbb{E}\left[\pi_{k}\right]=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+N}\tag{10.69}$$で与えられることを示せ. </div> 単純に$\mu_k \to \pi_k$とし、$(10.58)$を用いて式を変形すれば求まる。 $$ \begin{aligned} \mathbb{E}\left[\pi_{k}\right] &=\frac{\alpha_{k}}{\sum_{k=1}^{K} \alpha_{k}}\quad \because(\textrm{B} .17) \\ &=\frac{\alpha_{0}+N_{k}}{\sum_{k=1}^{K}\left(\alpha_{0}+N_{k}\right)}\quad \because(10.58) \\ &=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+\sum_{k=1}^{K} N_{k}}=\frac{\alpha_{0}+N_{k}}{K \alpha_{0}+N} \end{aligned} $$ 以上で$(10.69)$式が求められた。 ## 演習 10.16 <div class="panel-primary"> $$ \begin{aligned} \mathcal{L} &=\sum_{\mathbf{Z}} \iiint q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda}) \ln \left\{\frac{p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})}{q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})}\right\} \mathrm{d} \pi \mathrm{d} \boldsymbol{\mu} \mathrm{d} \mathbf{\Lambda} \\ &=\mathbb{E}[\ln p(\mathbf{X}, \mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})]-\mathbb{E}[\ln q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})] \\ &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}$$ で与えられる変分ガウス混合モデルの下界の,最初の二項についての結果 $$ \begin{aligned} \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]&= \frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{\ln \widetilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)\right.\\ &\left.-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \end{aligned} \tag{10.71}$$ $$ \begin{aligned} \mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]= \sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \tilde{\pi}_{k} \end{aligned} \tag{10.72}$$ を確かめよ. </div> 容易に計算できるらしいのでやってみる。$(10.71)$について$(10.38)$の観測データベクトルの条件付き分布の式 $$ p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})=\prod_{n=1}^{N} \prod_{k=1}^{K} \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)^{z_{n k}} \tag{10.38} $$ を用いると $$ \begin{aligned}\mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]&=\mathbb{E}\left[z_{nk} \sum_{n=1}^{N} \sum_{k=1}^{K} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}^{-1}\right)\right] \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}\left[z_{n k}\left\{-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right\}\right] \end{aligned} $$ 今は負担率$\mathbb{E}[z_{nk}]= r_{nk}$を固定したときのパラメータの変分事後分布を求めているので、$\mathbb{E}[z_{nk}]$は分離&固定して考える(ってことで合ってるのか?)。 $$ \begin{aligned} &=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}\left[z_{n k}\right] \mathbb{E}\left[-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ &=\frac{1}{2} \sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \mathbb{E}[-D \ln (2 \pi)]+\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left[\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)^{\mathrm T} \mathbf{\Lambda}_{k}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{k}\right)\right] \\ &=\frac{1}{2} \sum_{k=1}^{N} \sum_{k=1}^{K} r_{n k}\left[-D \ln (2 \pi)+\ln \tilde{\Lambda}_{k}-\left(D \beta_{k}^{-1}+\nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right)\right] \quad (\because (10.64))\\ &=\frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{n=1}^{N} r_{n k}\left(-D \ln (2 \pi)+\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}\right)-\sum_{n=1}^{N} r_{n k} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\} \\ &= \frac{1}{2} \sum_{k=1}^{K} \left\{ N_{k}\left(-D \ln(2 \pi)+\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}\right)-\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right\} \\ &= \frac{1}{2} \sum_{k=1}^{K} N_{k} \left\{ \ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}- \nu_{k}\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right) -\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right) -D \ln(2 \pi) \right\} \quad (\because (*)) \end{aligned} $$ 以上で$(10.71)$式が示された。 <hr> $(*)$の式変形の$\sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)$について $$ \begin{aligned} \sum_{n=1}^{N} r_{nk} \nu_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right) &=\nu_{k} \sum_{n=1}^{N} r_{n k}\left[\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\right] \\ &=\nu_{k} \sum_{n=1}^{N} r_{n k}\left[\operatorname{Tr}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \\ &=\nu_{k} \operatorname{Tr}\left[\sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \\ &=\nu_{k} N_{k} \operatorname{Tr}\left[\mathbf{S}_{k} \mathbf{W}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\right] \quad (\because (**))\\ &=\nu_{k} N_{k}\left\{\operatorname{Tr}\left[\mathbf{S}_{k} \mathbf{W}_{k}\right]+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \end{aligned} $$ <hr> $(**)$の式変形について $$ \begin{aligned} \sum_{n=1}^{N} r_{n k}\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{k}\right)^{\mathrm T} &= \sum_{n=1}^{N} r_{n k} \mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm T}-2 \sum_{n=1}^{N} r_{n k} \mathbf{m}_{k}^{\mathrm T} \mathbf{x}_{n}+\sum_{n=1}^{N} r_{n k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \\ &=N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm T}-2 N_{k} \mathbf{m}_{k}^{\mathrm T} \overline{\mathbf{x}}_{k}+N_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T} \quad (\because 演習10.13の式変形(A))\\ &=N_{k}\left(\mathbf{S}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\right) \end{aligned} $$ <hr> $(10.72)$については $$ p(\mathbf{Z} \mid \boldsymbol{\pi})=\prod_{n=1}^{N} \prod_{k=1}^{K} \pi_{k}^{z_{n k}} \tag{10.37} $$ から直ちに求められる。 $$ \begin{aligned} \mathbb{E}_{\mathbf{Z},\boldsymbol{\pi}}[\ln p(\mathbf{Z}\mid \boldsymbol{\pi})] &= \sum_{n=1}^{N}\sum_{k=1}^{K}\mathbb{E}_{\mathbf{Z},\boldsymbol{\pi}} \left[ z_{nk} \ln \pi_{k} \right] \\ &= \sum_{n=1}^{N}\sum_{k=1}^{K}\mathbb{E}_{\mathbf{Z}} \left[ z_{nk} \right] \mathbb{E}_{\boldsymbol{\pi}} \left[\ln \pi_{k} \right] \\ &= \sum_{n=1}^{N}\sum_{k=1}^{K}r_{nk}\ln\tilde{\pi}_k \quad (\because (10.66)) \end{aligned} $$ ## 演習 10.17 <div class="panel-primary"> $$ \begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70}$$ で与えられる変分ガウス混合モデルの下界の,残りの項についての結果 $$\mathbb{E}[\ln p(\boldsymbol{\pi})]=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \widetilde{\pi}_{k} \tag{10.73}$$ $$ \begin{aligned} \mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] &=\frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\beta_{0} / 2 \pi\right)+\ln \widetilde{\Lambda}_{k}-\frac{D \beta_{0}}{\beta_{k}}\right. \\ &\left.-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\}+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) \\ &+\frac{\left(\nu_{0}-D-1\right)}{2} \sum_{k=1}^{K} \ln \widetilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \end{aligned}\tag{10.74}$$ $$\mathbb{E}[\ln q(\mathbf{Z})]=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} \tag{10.75}$$ $$\mathbb{E}[\ln q(\boldsymbol{\pi})]=\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k}+\ln C(\boldsymbol{\alpha}) \tag{10.76}$$ $$\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})]=\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \widetilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}-\mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]\right\} \tag{10.77}$$ を確かめよ. </div> $(10.39)$より$p(\boldsymbol{\pi}) = \operatorname{Dir}(\boldsymbol{\pi}\mid \boldsymbol{\alpha}_{0})$となることを用いて $$ \begin{aligned} \mathbb{E}[\ln p(\boldsymbol{\pi})] &=\mathbb{E}\left[\ln C(\boldsymbol{\alpha}_{0}) \prod_{k=1}^{K} \pi_{k}^{\alpha_{0}-1}\right] \\ &=\mathbb{E}\left[\ln C(\boldsymbol{\alpha}_{0})\right]+\mathbb{E}\left[\sum_{k=1}^{K} \ln \pi_{k}^{\alpha_{0}-1}\right] \\ &=\ln C(\boldsymbol{\alpha}_{0})+\mathbb{E}\left[\sum_{k=1}^{K}\left(\alpha_{0}-1\right) \ln \pi_{k}\right] \\ &=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \mathbb{E}[\ln \pi_{k}] \\ &=\ln C(\boldsymbol{\alpha}_{0})+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \tilde{\pi}_{k} \end{aligned} $$ 以上で$(10.73)$式が求まった。 <hr> $(10.40)$で導入したガウス–ウィシャート事前分布 $$ p(\boldsymbol{\mu}, \mathbf{\Lambda}) = \prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right) \tag{10.40} $$ を用いて $$ \begin{aligned} \mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] &=\mathbb{E}\left[\ln \left[\prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right]\right] \\ &=\mathbb{E}\left[\sum_{k=1}^{K} \ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{0},\left(\beta_{0} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right]+\mathbb{E}\left[\sum_{k=1}^{K} \ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{0}, \nu_{0}\right)\right] \\ &=\sum_{k=1}^{K} \mathbb{E}\left[-\frac{D}{2} \ln (2 \pi)+\frac{1}{2} \ln \left|\beta_{0} \mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right] \\ &+\sum_{k=1}^{K} \mathbb{E}\left[\ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\ &=\frac{1}{2}\left\{\sum_{k=1}^{K} D \ln \left( \frac{\beta_{0}}{2 \pi} \right)+\mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]-\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_k\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\ln | \mathbf{\Lambda}_{k} | \right]-\frac{1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\ &=\frac{1}{2}\left\{\sum_{k=1}^{K} D \ln \left( \frac{\beta_{0}}{2 \pi} \right)+\ln \tilde{\Lambda}_{k}-\mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_k\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \mathbb{E}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] \\ \end{aligned} $$ $(10.74)$との係数を比較して、 $$ \mathbb{E}\left[\sum_{k=1}^{K}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right]=\sum_{k=1}^{K}\left\{\frac{D \beta_{0}}{\beta_{k}}+\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \tag{*}$$ および $$\sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right]=\sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right] \tag{**} $$ であることを示せば良い。まず$(*)$について $$ \begin{aligned} \sum_{k=1}^{K} \mathbb{E}\left\{\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\left(\beta_{0} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\right\} &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\boldsymbol{\mu}_{k} \boldsymbol{\mu}_{k}^{\mathrm T}-2 \boldsymbol{\mu}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}+\beta_{k}^{-1} \mathbf{\Lambda}_{k}^{-1}-2 \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{\operatorname{Tr}\left[\beta_{k}^{-1} \mathbf{I}+\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm T}-2 \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm T}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm T}\right)\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left\{D \cdot \beta_{k}^{-1}+\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\mathbb{E}_{\mathbf{\Lambda}_{k}}\operatorname{Tr}\left[\mathbf{\Lambda}_{k} \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\operatorname{Tr}\left[\mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\mathbf{\Lambda}_{k}\right] \cdot\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\operatorname{Tr}\left[\nu_{k}\mathbf{W}_{k} \left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right]\right\} \quad (\because (B.80))\\ &=\beta_{0} \sum_{k=1}^{K} \left\{\frac{D}{\beta_{k}}+\nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k} \left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &=\sum_{k=1}^{K}\left\{\frac{D \beta_{0}}{\beta_{k}}+\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \end{aligned} $$ $(**)$について、 $$ \begin{aligned} \mathbb{E}_{\mathbf{\Lambda}_{k}}\left[\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{\Lambda}_{k}\right]\right] &=\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \cdot \mathbb{E}_{\mathbf{\Lambda}_{k}}[\mathbf{\Lambda}_{k}]\right] \\ &=\operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \cdot \nu_{k} \mathbf{W}_{k}\right]\quad (\because (B .80)) \\ &=\nu_{k} \operatorname{Tr}\left[\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right] \end{aligned} $$ 以上で$(10.74)$が示された。 <hr> $$ \begin{aligned} \mathbb{E}\left[\ln q^{\star}(\mathbf{Z})\right] &=\mathbb{E}_{\mathbf{Z}}\left[\ln \left(\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}}\right)\right] \quad(\because(10.48)) \\ &=\mathbb{E}_{\mathbf{Z}}\left[\sum_{n=1}^{N} \sum_{k=1}^{K} z_{n k} \ln r_{n k}\right] \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} \mathbb{E}_{\mathbf{Z}}\left[\mathbf{Z}_{n k}\right] \mathbb{E}_{z}\left[\ln r_{n k}\right] \\ &=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} \end{aligned} $$ <hr> $$ \begin{aligned} \mathbb{E}\left[\ln q^{\star}(\pi)\right] &=\mathbb{E}_{\pi}[\ln (\operatorname{Dir}(\boldsymbol{\pi} \mid \boldsymbol{\alpha}))] \quad(\because(10.57)) \\ &=\mathbb{E}_{\pi}\left[\ln C(\boldsymbol{\alpha}) \prod_{k=1}^{K} \pi_{k}^{\alpha_{k}-1}\right](\because(B. 16)) \\ &=\mathbb{E}_{\pi}[\ln C(\boldsymbol{\alpha})]+\mathbb{E}_{\pi}\left[\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \pi_{k}\right] \\ &=\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k}+\ln C(\boldsymbol{\alpha}) \end{aligned} $$ <hr> $$ \begin{aligned} \mathbb{E}\left[\ln q^{\star}(\boldsymbol{\mu}, \mathbf{\Lambda})\right] &=\mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \left[\prod_{k=1}^{K} q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)\right]\right] \quad(\because(10.55)) \\ &=\mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\sum_{k=1}^{K} \ln q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)\right] \\ & =\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right)\right]+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left[\ln \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right)\right] \\ &= \sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{-\frac{D}{2} \ln 2 \pi+\frac{D}{2} \ln \beta_{k}+\frac{1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2}\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\left(\beta_{k} \mathbf{\Lambda}_{k}\right)\left(\boldsymbol{\mu}_{k}-\mathbf{m}_{k}\right)\right\} \\ &+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \mathbf{\Lambda}_{k}\right]\right\} \\ &= \sum_{k=1}^{K} \left\{ \frac{1}{2} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k} \left[ \ln \left|\mathbf{\Lambda}_{k}\right| \right] + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{1}{2} \operatorname{Tr}\left[\left(\beta_{k} \mathbf{\Lambda}_{k}\right)\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right] \right\} \\ &+\sum_{k=1}^{K} \mathbb{E}_{\boldsymbol{\mu}_k, \mathbf{\Lambda}_k}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \left|\mathbf{\Lambda}_{k}\right|-\frac{1}{2} \nu_{k} \operatorname{Tr}\left[\mathbf{W}_{k}^{-1} \mathbf{W}_{k}\right]\right\} \quad (\because 先述の(**)を利用) \\ &= \sum_{k=1}^{K} \left\{ \frac{1}{2} \ln \tilde{\Lambda}_{k} + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{D}{2} \right\} +\sum_{k=1}^{K} \left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \mathbb{E}_{\mathbf{\Lambda}_k}\ln \left|\mathbf{\Lambda}_{k}\right|-\frac{\nu_{k} D}{2}\right\} \\ \end{aligned} $$ 途中でMatrix Cookbook (380)の公式 $$ \mathbb{E}_{\mathbf{x} \sim \mathcal{N}(\mathbf{x}\mid \mathbf{m}, \mathbf{\Sigma})}\left[\left(\mathbf{x}-\mathbf{m}^{\prime}\right)^{\mathrm T} \mathbf{A}\left(\mathbf{x}-\mathbf{m}^{\prime}\right)\right]=\left(\mathbf{m}-\mathbf{m}^{\prime}\right)^{\mathrm T} \mathbf{A}\left(\mathbf{m}-\mathbf{m}^{\prime}\right)+\operatorname{Tr}(\mathbf{A} \mathbf{\Sigma}) $$ を用いた。 $(\textrm{B}.82)$からウィシャート分布$\mathcal{W}(\mathbf{\Lambda} \mid \mathbf{W}, \nu)$のエントロピーは $$ -\ln B(\mathbf{W}, \nu)-\frac{(\nu-D-1)}{2} \mathbb{E}[\ln |\mathbf{\Lambda}|]+\frac{\nu D}{2} \tag{B.82} $$ であり、これを教科書P.196では$\mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]$とおいているので、 $$ \mathbb{E}\left[\ln q^{\star}(\boldsymbol{\mu}, \mathbf{\Lambda})\right] = \sum_{k=1}^{K} \left\{ \frac{1}{2} \ln \tilde{\Lambda}_{k} + \frac{D}{2} \ln \left(\frac{\beta_{k}}{2\pi}\right) -\frac{D}{2} - \mathrm{H}\left[q\left(\mathbf{\Lambda}_{k}\right)\right]\right\} \tag{10.77} $$ となり$(10.77)$を得た。 ## 演習 10.18 <div class="panel-primary"> この演習問題では,ガウス混合モデルでの変分ベイズ法の再推定を行う方程式を,下界を直接微分することで導出する.これを行うため,変分事後分布が $$ q(\mathbf{Z}, \boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q(\mathbf{Z}) q(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda}) \tag{10.42} $$ と $$ q(\boldsymbol{\pi}, \boldsymbol{\mu}, \mathbf{\Lambda})=q(\boldsymbol{\pi}) \prod_{k=1}^{K} q\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right) \tag{10.55} $$ で定義されるように分解され,各因子が $$ q^{\star}(\mathbf{Z})=\prod_{n=1}^{N} \prod_{k=1}^{K} r_{n k}^{z_{n k}} \tag{10.48} $$ $$ q^{\star}(\boldsymbol{\pi})=\operatorname{Dir}(\boldsymbol{\pi} \mid \boldsymbol{\alpha}) \tag{10.57} $$ $$ q^{\star}\left(\boldsymbol{\mu}_{k}, \mathbf{\Lambda}_{k}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{k} \mid \mathbf{m}_{k},\left(\beta_{k} \mathbf{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\mathbf{\Lambda}_{k} \mid \mathbf{W}_{k}, \nu_{k}\right) \tag{10.59} $$ で与えられることを仮定する.これらを $$ \begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \end{aligned} \tag{10.70} $$ に代入し,下界を変分事後分布の持つパラメータの関数として与えよ.次にこの下界をパラメータに関して最大化することで,変分事後分布の因子を再推定する方程式を導出しこれらが10.2.1節で得たものと一致することを示せ. </div> ※やろうとすることは変分ベイズ法の再推定式$(10.58)$とか$(10.60)–(10.63)$を変分下界$(10.70)$を用いることでも求められるということを示せばいい……のだが非常に計算が多い。 各因子が$(10.48),(10.57),(10.59)$のように表せる場合、10.2.2節で得た$(10.71)–(10.77)$の変分下界をまず$\mathcal{L}$に代入すると $$ \begin{aligned} \mathcal{L} &= \mathbb{E}[\ln p(\mathbf{X} \mid \mathbf{Z}, \boldsymbol{\mu}, \mathbf{\Lambda})]+\mathbb{E}[\ln p(\mathbf{Z} \mid \boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\pi})]+\mathbb{E}[\ln p(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &-\mathbb{E}[\ln q(\mathbf{Z})]-\mathbb{E}[\ln q(\boldsymbol{\pi})]-\mathbb{E}[\ln q(\boldsymbol{\mu}, \mathbf{\Lambda})] \\ &=\frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{\ln \widetilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)\right. \\ &-\left.\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \\ &+\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \widetilde{\pi}_{k} + \ln C\left(\boldsymbol{\alpha}_{0}\right)+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \widetilde{\pi}_{k} \\ &+ \frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\beta_{0} / 2 \pi\right)+\ln \widetilde{\Lambda}_{k}-\frac{D \beta_{0}}{\beta_{k}}-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) +\frac{\left(\nu_{0}-D-1\right)}{2} \sum_{k=1}^{K} \ln \widetilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k} - \sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \tilde{\pi}_{k} - \ln C(\boldsymbol{\alpha}) \\ &-\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \widetilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}-\mathrm{H}\left[q\left(\boldsymbol{\Lambda}_{k}\right)\right]\right\} \end{aligned} $$ $\mathcal{L}$を整理する。$\ln\widetilde{\Lambda}_k$,$\ln\widetilde{\pi}_k$,$\beta_k$,$\nu_k$の項に分ける。 $$ \begin{aligned} \mathcal{L}=&\ \frac{1}{2} \sum_{k=1}^K N_{k}\left\{\ln \tilde{\Lambda}_{k}-D \beta_{k}^{-1}-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-D \ln (2 \pi)\right\} \\ &+\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln \tilde{\pi}_{k}+\ln C\left(\boldsymbol{\alpha}_{0}\right)+\left(\alpha_{0}-1\right) \sum_{k=1}^{K} \ln \tilde{\pi}_{k} \\ &+\frac{1}{2} \sum_{k=1}^{K}\left\{D \ln \left(\frac{\beta_{0}}{2 \pi}\right)+\ln \tilde{\Lambda}_{k}-\frac{D \beta_0}{\beta_{k}}-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{\nu_{0}-D-1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}-\frac{1}{2} \sum_{k=1}^{K} \nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right) \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}-\sum_{k=1}^{K}\left(\alpha_{k}-1\right) \ln \widetilde{\pi}_{k}-\ln C(\boldsymbol{\alpha}) \\ &-\sum_{k=1}^{K}\left\{\frac{1}{2} \ln \tilde{\Lambda}_{k}+\frac{D}{2} \ln \left(\frac{\beta_{k}}{2 \pi}\right)-\frac{D}{2}+\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\frac{\nu_{k}-D-1}{2} \ln \tilde{\Lambda}_{k}-\frac{\nu_{k} D}{2}\right\} \\ =&\ \frac{1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}\left\{N_{k}+1+\left(\nu_{0}-D-1\right)-1-\left(\nu_{k}-D-1\right)\right\} \\ &+\sum_{k=1}^{K} \ln \tilde{\pi}_{k}\left\{\sum_{n=1}^{N} r_{n k}+\left(\alpha_{0}-1\right)-\left(\alpha_{k}-1\right)\right\} \\ &+\frac{1}{2} \sum_{k=1}^{K}\left\{\beta_{k}^{-1}\left(-N_{k} D-D \beta_{0}\right)-D \ln \left(\frac{\beta_{k}}{2 \pi}\right)\right\} \\ &+\frac{1}{2} \sum_{k=1}^{K} N_{k}\left\{-\nu_{k} \operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)-\nu_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &+\frac{1}{2} \sum_{k=1}^{K}\left\{-\nu_{k} \operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)-\beta_{0} \nu_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)-\frac{\nu_{k} D}{2}\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} D \ln (2 \pi)+\ln C\left(\boldsymbol{\alpha}_{0}\right)+\frac{1}{2} \sum_{k=1}^{K} D \ln \left(\frac{\beta_{0}}{2 \pi}\right)+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right) \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}-\ln C(\boldsymbol{\alpha})-\sum_{k=1}^{K}\left(-\frac{D}{2}\right) \\ =&\ \frac{1}{2} \sum_{k=1}^{K} \ln \tilde{\Lambda}_{k}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &+\sum_{k=1}^{K} \ln \tilde{\pi}_{k}\left(N_{k}+\alpha_{0}-\alpha_{k}\right) \\ &-\frac{D}{2} \sum_{k=1}^{K}\left\{\beta_{k}^{-1}\left(N_{k}+\beta_{0}\right)+\ln \left(\frac{\beta_{k}}{2 \pi}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K}\left\{\ln B\left(\mathbf{W}_{k}, \nu_{k}\right)-\frac{\nu_{k} D}{2}\right\} \\ &-\sum_{n=1}^{N} \sum_{k=1}^{K} r_{n k} \ln r_{n k}-\ln C(\boldsymbol{\alpha}) \\ &-\frac{1}{2} N D \ln (2 \pi)+\ln C\left(\boldsymbol{\alpha}_{0}\right)+\frac{1}{2} K D \ln \left(\frac{B_{0}}{2 \pi}\right)+K \ln B\left(\mathbf{W}_{0}, \nu_{0}\right)+\frac{D K}{2} \end{aligned} $$ $\mathcal{L}$の停留条件からパラメータの更新式を得る。パラメータはEステップで決めるパラメータ$r_{nk}$とMステップで決める$\alpha_k, \beta_k, \mathbf{m}_k, \mathbf{W}_k,\nu_{k}$。 $\alpha_k$について、$\mathcal{L}$の$\alpha_k$についての停留条件から更新式$(10.58)$を得ることを示す。 $$ \begin{aligned} \frac{\partial \alpha}{\partial \alpha_{k}} &=\frac{\partial}{\partial \alpha_{k}}\left\{\sum_{k=1}^{K} \ln \tilde{\pi}_{k}\left(N_{k}+\alpha_{0}-\alpha_{t}\right)-\ln C(\boldsymbol{\alpha})\right\} \\ &=\frac{\partial}{\partial \alpha_{k}}\left\{\sum_{k=1}^{K}(\underbrace{\psi\left(\alpha_{k}\right)-\psi(\hat{\alpha})}_{(10.66)})\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\underbrace{\ln \Gamma(\hat{\alpha})+\sum_{k=1}^{K} \ln \Gamma\left(\alpha_{k}\right)}_{(B .23)}\right\} \end{aligned} $$ $(B.24)$にあるように、$\displaystyle \widehat{\alpha} = \sum_{k=1}^{K}\alpha_k$である。$\displaystyle \frac{\partial \mathcal{L}}{\partial \alpha_k}=0$のとき $$ \begin{aligned} 0 =&\ \left\{\frac{\partial}{\partial \alpha_{k}} \psi\left(\alpha_{k}\right)\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\psi\left(\alpha_{k}\right)-\frac{\partial \hat{\alpha}}{\partial \alpha_{k}} \frac{\partial \psi(\hat{\alpha})}{\partial \hat{\alpha}}\left(N_{k}+\alpha_{0}-\alpha_{k}\right)+\psi(\hat{\alpha})\right\} \\ &-\frac{\partial \hat{\alpha}}{\partial \alpha_{k}} \frac{\partial}{\partial \hat{\alpha}} \ln \Gamma(\hat{\alpha})+\frac{\partial}{\partial \alpha_{k}} \ln \Gamma\left(\alpha_{k}\right) \\ =&\ \frac{\partial \psi\left(\alpha_{k}\right)}{\partial \alpha_{k}}\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\frac{\partial \psi(\hat{\alpha})}{\partial \hat{\alpha}}\left(N_{k}+\alpha_{0}-\alpha_{k}\right)-\psi\left(\alpha_{k}\right)+\psi(\hat{\alpha}) \\ &-\psi(\hat{\alpha})+\psi\left(\alpha_{k}\right) \\ =&\ \left(N_{k}+\alpha_{0}-\alpha_{k}\right)\left(\frac{\partial \psi\left(\alpha_{k}\right)}{\partial \alpha_{k}}-\frac{\partial \psi(\hat{\alpha})}{\partial \hat{\alpha}}\right) \end{aligned} $$ よって停留条件は$N_k+\alpha_0-\alpha_k = 0$、すなわち $$ \alpha_k = \alpha_0 + N_k \tag{10.58} $$ である。 ---- $\beta_{k}$について停留条件を求める。 $$ \begin{aligned} \frac{\partial \mathcal{L}}{\partial \beta_{k}} &=-\frac{D}{2} \frac{\partial}{\partial \beta_{k}}\left\{\beta_{k}^{-1}\left(N_{k}+\beta_{0}\right)+\ln \beta_{k}-\ln (2 \pi)\right\} \\ &=-\frac{D}{2}\left(-\frac{N_{k}+\beta_{0}}{\beta_{k}^{2}}+\frac{1}{\beta_{k}}\right) \\ &=\frac{D}{2 \beta_{k}^{2}}\left(N_{k}+\beta_{0}-\beta_{k}\right)=0 \end{aligned} $$ 以上から $$ \beta_{k} =\beta_{0} +N_{k} \tag{10.60} $$ のとき停留する。 ---- $\mathbf{m}_{k}$について停留条件を求める。 $$ \begin{aligned} \frac{\partial \mathcal{L}}{\partial \mathbf{m}_{k}} =&\ \frac{\partial}{\partial \mathbf{m}_{k}}\left\{-\frac{1}{2} N_{k} \nu_{k}\left(\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right)\right.\\ &\left.-\frac{1}{2} \nu_{k} \beta_{0}\left(\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right)\right\} \\ =&\ N_{k} \nu_{k} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)-\nu_{k} \beta_{0} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right) \\ =&\ \nu_{k} \mathbf{W}_{k}\left\{N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}-\left(N_{k}+\beta_{0}\right) \mathbf{m}_{k}\right\}=0 \end{aligned} $$ 以上から $$ \mathbf{m}_{k}=\frac{N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}}{N_{k}+\beta_{0}}=\frac{N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}}{\beta_{k}} \tag{10.61} $$ のとき停留する。 ---- $\nu_k$について、 $$ \begin{aligned} \mathcal{L}=&\ \frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K} \left\{ \ln B\left(\mathbf{W}_{k}, \nu_{k}\right) - \frac{\nu_{k}D}{2} \right\}+\text {const.} \\ =&\ \frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K} \left\{ \ln |\mathbf{W}_{k}|^{-\nu_{k} / 2} - \ln \left(2^{\frac{\nu_{k} D}{2}} \pi^{D(D-1) / 4} \prod_{i=1}^{D} \Gamma\left(\frac{\nu_{k}+1-i}{2}\right)\right) - \frac{\nu_{k}D}{2}\right\}+\text {const.} \end{aligned} $$ 停留条件は $$ \begin{aligned} \frac{\partial \mathcal{L}}{\partial \nu_{k}}=&\ \frac{1}{2}\left\{\sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2}\left\{\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\} \\ &-\frac{1}{2} N_{k}\left(\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right) \\ &-\frac{1}{2}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\left\{-\frac{1}{2} \ln \left|\mathbf{W}_{k}\right|-\frac{D}{2} \ln 2-\sum_{i=1}^{D} \underbrace{\frac{1}{2} \psi\left(\frac{\nu_{k}+1-i}{2}\right)}_{(B .25)}\right\}+\frac{D}{2} \\ =&\ \frac{1}{2} \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} N_{k}\left(\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right) \\ &-\frac{1}{2}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\}+\frac{D}{2} \end{aligned} $$ $\displaystyle \frac{\partial \mathcal{L}}{\partial \nu_{k}} = 0$は $$ \begin{aligned} & \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\operatorname{Tr}\left\{\left(N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}+\mathbf{W}_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}\right) \mathbf{W}_{k}\right\} \\ &+D=0\end{aligned} $$ のときに成立する。よってこれを簡単にしていく。$\operatorname{Tr}()$の中について $$ \begin{aligned} & N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}+\mathbf{W}_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ =&\ N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k} \overline{\mathbf{x}}_{k} \mathbf{m}_{k}^{\mathrm{T}}-N_{k} \mathbf{m}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}+N_{k} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm{T}}+w_{0}^{-1}+\beta_{0} \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm{T}}-\beta_{0} \mathbf{m}_{k} \mathbf{m}_{0}^{\mathrm{T}}-\beta_{0} \mathbf{m}_{0} \mathbf{m}_{k}^{\mathrm{T}}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right) \mathbf{m}_{k}^{\mathrm{T}}-\mathbf{m}_{k}\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right)^{\mathrm{T}}+\left(N_{k}+\beta_{0}\right) \mathbf{m}_{k} \mathbf{m}_{k}^{\mathrm{T}}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}\\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\frac{1}{N_{k}+\beta_{0}}\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right)\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right)^{\mathrm T}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \left(\because \mathbf{m}_{k}=\frac{1}{N_{k}+\beta_{0}}\left(N_{k} \overline{\mathbf{x}}_{k}+\beta_{0} \mathbf{m}_{0}\right) \right) \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{1}{N_{k}+\beta_{0}}\left\{\left(N_{k}+\beta_{0}\right) N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k}^{2} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k} \beta_{0} \overline{\mathbf{x}}_{k} \mathbf{m}_{0}^{\mathrm{T}}-\beta_{0} N_{k} \mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\beta_{0}^{2} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}+\left(N_{k}+\beta_{0}\right) \beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}\right\} \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{N_{k} \beta_{0}}{N_{k}+\beta_{0}}\left(\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-\overline{\mathbf{x}}_{k} \mathbf{m}_{0}^{\mathrm{T}}-\mathbf{m}_{0} \overline{\mathbf{x}}_{k}^{\mathrm{T}}+\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}}\right) \\ =&\ \mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{N_{k} \beta_{0}}{N_{k}+\beta_{0}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ =&\ \frac{N_{k}+\nu_{0}}{\nu_{k}}\mathbf{W}_{k}^{-1} \end{aligned} $$ これより停留条件を書き直すと $$ \begin{aligned} \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) - \operatorname{Tr}\left\{ \frac{N_{k}+\nu_{0}}{\nu_{k}}\mathbf{W}_{k}^{-1}\mathbf{W}_{k} \right\} + D = 0 \\ \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) - \frac{N_{k}+\nu_{0}}{\nu_{k}} D + D = 0 \\ \sum_{i=1}^{D} \frac{\partial}{\partial \nu_{k}} \psi\left(\frac{\nu_{k}+1-i}{2}\right)\left(N_{k}+\nu_{0}-\nu_{k}\right) - \frac{D}{\nu_{k}}\left( N_{k} + \nu_{0} - \nu_{k} \right) = 0 \\ \end{aligned} $$ 以上から $$ \nu_{k} = \nu_{0} + N_{k} \tag{10.63} $$ のとき停留する。 ---- $\mathbf{W}_k$について、 $$ \ln \widetilde{\Lambda}_{k} \equiv \mathbb{E}\left[\ln \left|\mathbf{\Lambda}_{k}\right|\right]=\sum_{i=1}^{D} \psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right| \tag{10.65} $$ を用いて計算する $$ \begin{aligned} \mathcal{L}=&\ \frac{1}{2} \sum_{k=1}^{K}\left\{\sum_{i=1}^{D}\psi\left(\frac{\nu_{k}+1-i}{2}\right)+D \ln 2+\ln \left|\mathbf{W}_{k}\right|\right\}\left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} \sum_{k=1}^{K} N_{k} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{S}_{k} \mathbf{W}_{k}\right)+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\right\} \\ &-\frac{1}{2} \sum_{k=1}^{K} \nu_{k}\left\{\operatorname{Tr}\left(\mathbf{W}_{0}^{-1} \mathbf{W}_{k}\right)+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \mathbf{W}_{k}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\right\} \\ &-\sum_{k=1}^{K} \ln B\left(\mathbf{W}_{k}, \nu_{k}\right)+\text {const.} \end{aligned} $$ 停留条件は、$\mathbf{S}_{k}^{\mathrm T} = \mathbf{S}_{k}, \mathbf{W}_{k}^{\mathrm T} = \mathbf{W}_{k}$である(対称行列)ことに注意して $$ \begin{aligned} \frac{\partial \mathcal{L}}{\partial \mathbf{W}_{k}} =&\ \frac{1}{2} \underbrace{\mathbf{W}_{k}^{-1}}_{(C.28)} \left(N_{k}+\nu_{0}-\nu_{k}\right) \\ &-\frac{1}{2} N_{k} \nu_{k}\left\{\mathbf{S}_{k}+\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}\right\} \\ &-\frac{1}{2} \nu_{k}\left\{\mathbf{W}_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}\right\} \\ &+\frac{\nu_{k}}{2}\mathbf{W}_{k}^{-1} \\ =&\ 0 \end{aligned} $$ これより $$ \begin{aligned} &\ \mathbf{W}_{k}^{-1}\left(N_{k}+\nu_{0}\right)-N_{k} \nu_{k}\left\{\mathbf{S}_{k} +\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}\right\} \\ &-\nu_{k}\left\{w_{0}^{-1}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right\} = 0 \end{aligned} $$ $$ \begin{aligned} \therefore \mathbf{W}_{k}^{-1} &=\frac{\nu_{k}}{N_{k}+\nu_{0}} \mathbf{W}_{0}^{-1}+\frac{N_{k} \nu_{k}}{N_{k}+\nu_{0}} \mathbf{S}_{k}+\frac{N_{k} \nu_{k}}{N_{k}+\nu_{0}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\frac{\nu_{k} \beta_{0}}{N_{k}+\nu_{0}}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T} \\ &=\frac{\nu_{k}}{N_{k}+\nu_{0}}\left\{\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\right\} \\ &=\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm T}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm T}\ (\because \nu_{k}の停留条件 \nu_{k} = \nu_{0} + N_{k}) \\ &=\mathbf{W}_{0}^{-1}+N_{k} \mathbf{S}_{k}+\frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}}\hspace{1em}(10.62) \end{aligned} $$ となり、$\mathbf{W}_{k}^{-1}$の更新式を得た。ただし最後の変形は $$ \begin{aligned} &\ N_{k}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{k}\right)^{\mathrm{T}}+\beta_{0}\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)\left(\mathbf{m}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \\ =&\ N_{k} \overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}}-N_{k} \overline{\mathbf{x}}_{k} \frac{\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\beta_{0}+N_{k}}-\frac{\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}}{\beta_{0}+N_{k}} N_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}} \\ & +\frac{N_{k}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\left(\beta_{0}+N_{k}\right)^{2}} \\ & -\beta_{0} \mathbf{m}_{0} \frac{\left(\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}\right)^{\mathrm{T}}}{\beta_{0}+N_{k}}-\frac{\beta_{0} \mathbf{m}_{0}+N_{k} \overline{\mathbf{x}}_{k}}{\beta_{0}+N_{k}} \beta_{0}\mathbf{m}_{0}^{\mathrm{T}}+\beta_{0} \mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =& \left( N_{k}-\frac{N_{k}^{2}}{\beta_{0}+N_{k}}-\frac{N_{k}^{2}}{\beta_{0}+N_{k}}+\frac{N_{k}^{3}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0} N_{k}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}} \right)\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}} \\ & +\left( -\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}}+\frac{\beta_{0} N_{k}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}^{2} N_{k}}{\left(\beta_{0}+N_{k}\right)^{2}}-\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}} \right)\overline{\mathbf{x}}_{k}\mathbf{m}_{0}^{\mathrm{T}} \\ & +\left( -\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}}+\frac{\beta_{0} N_{k}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}^{2} N_{k}}{\left(\beta_{0}+N_{k}\right)^{2}}-\frac{N_{k} \beta_{0}}{\beta_{0}+N_{k}} \right)\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm{T}} \\ & +\left( \frac{N_{k} \beta_{0}^{2}}{\left(\beta_{0}+N_{k}\right)^{2}}+\frac{\beta_{0}^{3}}{\left(\beta_{0}+N_{k}\right)^{2}}-\frac{2 \beta_{0}^{2}}{\beta_{0}+N_{k}}+\beta_{0} \right)\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =&\ \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\overline{\mathbf{x}}_{k} \overline{\mathbf{x}}_{k}^{\mathrm{T}} - \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\overline{\mathbf{x}}_{k}\mathbf{m}_{0}^{\mathrm{T}} - \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\mathbf{m}_{0}\overline{\mathbf{x}}_{k}^{\mathrm{T}} + \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\mathbf{m}_{0} \mathbf{m}_{0}^{\mathrm{T}} \\ =&\ \frac{N_{k}\beta_{0}}{\beta_{0}+N_{k}}\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)\left(\overline{\mathbf{x}}_{k}-\mathbf{m}_{0}\right)^{\mathrm{T}} \end{aligned} $$ を用いた。 10.19以降は[こちら](https://hackmd.io/pGyxx8WOQySCk87BQPfXBg)