# PRML第7章演習問題解答 <head> <style> div.panel-primary { border: 1px solid #000; margin: 10px 5px; padding: 16px 10px 0px; } </style> </head> ## 演習 7.1 <div class="panel-primary"> 今,入力ベクトルのデータ集合$\{\mathbf{x}_n\}$とそれに対応する目標値$t_n \in \{-1, 1\}$が与えられ,かつ,それぞれのクラス分布をカーネル関数$k(\mathbf{x}, \mathbf{x}^{\prime})$を用いてParzen推定法(2.5.1節参照)でモデル化したとするそれぞれのクラスの事前確率が等しいとしたとき,誤分類率が最も小さくなる分類規則を求めよ.またカーネルが$k(\mathbf{x}, \mathbf{x}^{\prime}) = \mathbf{x}^{\mathrm T}\mathbf{x}^{\prime}$どという形で表される場合,分類規則は単に重心との距離が近い方のクラスを新しい入力ベクトルに割り当てる, という形になることを示せ.最後にカーネルが$k(\mathbf{x}, \mathbf{x}^{\prime}) = \boldsymbol{\phi}(\mathbf{x})^{\mathrm T}\boldsymbol{\phi}(\mathbf{x}^{\prime})$という形の場合は,分類規則は特徴空間$\boldsymbol{\phi}(\mathbf{x})$において最も重心が近いクラスを割り当てることに等しいことを示せ. </div> 式 (2.249) に従い、$p(\mathbf{x}|t)$を \begin{align} p(\mathbf{x}|t) \propto \begin{cases} \frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}, \mathbf{x}_n) \ \ t = +1\\ \frac{1}{N_{-1}} \sum_{t = -1} k(\mathbf{x}, \mathbf{x}_n) \ \ t = -1 \end{cases} \end{align} と書ける。各クラスの事前確率が等しいと仮定するので、事後確率$p(t|\mathbf{x})$は \begin{align} p(t|\mathbf{x}) \propto \begin{cases} \frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}, \mathbf{x}_n) \ \ t = +1 \\ \frac{1}{N_{-1}} \sum_{t = -1} k(\mathbf{x}, \mathbf{x}_n) \ \ t = -1 \end{cases} \end{align} となる。新しい$\mathbf{x}^{\star}$を分類するには、$p(t|\mathbf{x}^{\star})$を最大化する$t^{\star}$を探せばいいので、 \begin{align} t^{\star} = \begin{cases} +1\ \ \mathrm{if}\ \ \frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}^{\star}, \mathbf{x}_n) \geq \frac{1}{N_{-1}} \sum_{t = -1} k(\mathbf{x}^{\star}, \mathbf{x}_n) \\ -1\ \ \mathrm{if}\ \ \frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}^{\star}, \mathbf{x}_n) \leq \frac{1}{N_{-1}} \sum_{t = -1} k(\mathbf{x}^{\star}, \mathbf{x}_n) \end{cases} \end{align} ここで$k(\mathbf{x}, \mathbf{x}') = \mathbf{x}^{T}\mathbf{x}'$のとき、 \begin{align} \frac{1}{N_{+1}} \sum_{t = +1} k(\mathbf{x}, \mathbf{x}_n) & = \frac{1}{N_{+1}} \sum_{t = +1} \mathbf{x}^{T}\mathbf{x}_n \\ &= \frac{1}{N_{+1}} \sum_{i = 1}^{N_{+1}} x_1 (x_{n1} + x_{n2} + \cdots + x_{nd}) + \cdots + x_d (x_{n1} + x_{n2} + \cdots + x_{nd}) \\ &= x_1 (\bar{x}_{+1,1} + \bar{x}_{+1,2} + \cdots + \bar{x}_{+1,d}) + \cdots + x_d (\bar{x}_{+1,1} + \bar{x}_{+1,2} + \cdots + \bar{x}_{+1,d}) \\ &= \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \end{align} 同様に、 \begin{align} \frac{1}{N_{+1}} \sum_{t = -1} k(\mathbf{x}, \mathbf{x}_n) = \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \end{align} よって、上記の分類規則は \begin{align} t^{\star} = \begin{cases} +1\ \ \mathrm{if}\ \ \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \geq \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \\ -1\ \ \mathrm{if}\ \ \mathbf{x}^{T}\mathbf{\bar{x}}_{+1} \leq \mathbf{x}^{T}\mathbf{\bar{x}}_{-1} \end{cases} \end{align} となる。 $k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^{T}\phi(\mathbf{x}')$としたときも、同様の計算により、 \begin{align} t^{\star} = \begin{cases} +1\ \ \mathrm{if}\ \ \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{+1} \geq \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{-1} \\ -1\ \ \mathrm{if}\ \ \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{+1} \leq \phi(\mathbf{x})^{T}\bar{\phi}(\mathbf{x})_{-1} \end{cases} \end{align} ここで$\bar{\phi}(\mathbf{x})_{+1} = \frac{1}{N_{+1}} \sum_{n = 1}^{N_{+1}} \phi(\mathbf{x}_n)$、$\bar{\phi}(\mathbf{x})_{-1} = \frac{1}{N_{+1}} \sum_{n = 1}^{N_{-1}} \phi(\mathbf{x}_n)$ ## 演習 7.2 <div class="panel-primary"> 制約式 $$ t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant 1, \quad n=1, \ldots, N \tag{7.5} $$ において,右辺の$1$を任意の正数$\gamma$で置き換えても,マージン最大の超平面は変化しないことを示せ. </div> $$ t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right) \geqslant \gamma, \quad n=1, \cdots, N \tag{7.5.a} $$ と置き換えると、 $\mathbf{w}^{\prime}=\frac{\mathbf{w}}{\gamma}, \quad b^{\prime}=\frac{b}{\gamma} .$として $$ t_{n}\left(\mathbf{w}^{\prime\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b^{\prime}\right) \geqslant 1, \quad n=1, \ldots, N \tag{7.5.b} $$ と書け、マージンは $$ \min _{n} \frac{\left[t_{n}\left(\mathbf{w}^{\prime\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b^{\prime}\right)\right]}{\|\mathbf{w}^{\prime}\|} =\min _{n} \frac{\left[t_{n}\left(\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b\right)\right]}{\|\mathbf{w}\|} $$ と変化しない。 ## 演習 7.3 <div class="panel-primary"> データ空間の次元数によらず各クラスに一つずつデータが存在すれば, 2つのデータ点だけから成るデータ集合でマージン最大の超平面を決定できることを示せ. </div> ※ 各クラスに一つずつデータ点が与えられたとき,その2点を $\mathbf{x}_1\in\mathit{C}_+ (t_1 = +1)$, $\mathbf{x}_2\in\mathit{C}_- (t_2 = -1)$ とすると以下の制約式のもとで式(7.6)を解くことでマージンを最大化する超平面が得られる $$ arg\,min_{\mathbf{w}, b}\,\frac{1}{2}||\mathbf{w}||^2\tag{7.6} $$ $$ \mathbf{w}^T\mathbf{x}_1+b= +1\tag{1} $$ $$ \mathbf{w}^T\mathbf{x}_2+b= -1\tag{2} $$ (7.6)式をラグランジュ乗数$\lambda$と$\eta$を用いて解くと $$ arg\,min_{\mathbf{w}, b}\,\left\{\frac{1}{2}||\mathbf{w}||^2+\lambda(\mathbf{w}^T\mathbf{x}_1+b-1)+\eta(\mathbf{w}^T\mathbf{x}_2+b+1)\right\}\tag{3} $$ (3)式の$\mathbf{w}$とbについて微分した式を0とおくと $$ 0=\mathbf{w}+\lambda\mathbf{x}_1+\eta\mathbf{x}_2\tag{4} $$ $$ 0=\lambda+\eta\tag{5} $$ が得られ,(4),(5)式から $$ \mathbf{w}=\lambda(\mathbf{x}_2-\mathbf{x}_1)\tag{6} $$ また(1),(2)式からbは $$ 2b=-\mathbf{w}^T(\mathbf{x}_1+\mathbf{x}_2) $$ であり,これと(6)式と合わせて $$ \begin{aligned} b=&-\frac{\lambda}{2}(\mathbf{x}_1-\mathbf{x}_2)^T(\mathbf{x}_1+\mathbf{x}_2)\\=&-\frac{\lambda}{2}(\mathbf{x}_1^T\mathbf{x}_1-\mathbf{x}_2^T\mathbf{x}_2) \end{aligned} $$ のように求まり,マージンを最大化する超平面が定まる. ## 演習 7.4 <div class="panel-primary"> マージン最大の超平面のマージン$\rho$は,以下の式を満たすことを示せ. $$ \frac{1}{\rho^2}= \sum_{n=1}^N a_n \tag{7.123} $$ ただし$\{a_n\}$は $$ \widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \tag{7.10} $$ を制約条件 $$ a_{n} \geqslant 0, \hspace{2em} n=1, \ldots, N \tag{7.11} $$ $$ \sum_{n=1}^{N} a_{n} t_{n}=0 \tag{7.12} $$ の下で解いて得られる解とする. </div> 今、定義と、(7, 2)より、 \begin{align} \rho = \frac{t_n y(x_n)}{||\mathbf{w}||} = \frac{t_n (\mathbf{w}^T \phi(\mathbf{x}_n)+b)}{||\mathbf{w}||} \end{align} である。今、分子と分母を定数倍すると、ある$\mathbf{w}^{\star}$において、 \begin{align} \rho = \frac{1}{||\mathbf{w}^{\star}||} \end{align} が成り立つ。よって、$\frac{1}{\rho^2} = ||\mathbf{w}^{\star}||^2$であり、$||\mathbf{w}^{\star}||^2 = \sum_{n=1}^N a_n$を証明すれば題意は満たされる。今、(7, 10)より \begin{align} \widetilde{L}(\mathbf{a}) &= \sum_n a_n - \frac{1}{2}\sum_n \sum_m a_n a_m t_n t_m k(\mathbf{x}_n, \mathbf{x}_m) \\ &= \sum_n a_n - \frac{1}{2}\sum_n a_n t_n \phi(\mathbf{x}_n) \sum_m a_m t_m \phi(\mathbf{x}_m) \\ &= \sum_n a_n - \frac{1}{2}||\mathbf{w^{\star}}||^2 &(\because (7, 8)) \end{align} また、ラグランジュ乗数法の定義より。 \begin{align} \widetilde{L}(a) = L(\mathbf{w^{\star}}, b, \mathbf{a} ) = \frac{1}{2}||\mathbf{w}^{\star}||^2 &(\because (7.7)) \end{align} よって、$\sum_n a_n - \frac{1}{2}||\mathbf{w^{\star}}||^2 = \frac{1}{2}||\mathbf{w}^{\star}||^2$であり、整理すると、題意が導かれる。 ## 演習 7.5 <div class="panel-primary"> 前問における$\rho$および$\{a_n\}$は,次の式を満たすことを示せ. $$ \frac{1}{\rho^{2}}=2 \widetilde{L}(\mathbf{a}) \tag{7.124} $$ ここで,$\widetilde{L}(\mathbf{a})$は $$ \widetilde{L}(\mathbf{a})=\sum_{n=1}^{N} a_{n}-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N} a_{n} a_{m} t_{n} t_{m} k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \tag{7.10} $$ で定義される関数である同様に以下の関係が成り立つことを示せ. $$ \frac{1}{\rho^{2}}= \|\mathbf{w}\|^2 \tag{7.125} $$ </div> 本問については、7.4ですでに示されている. \begin{align} ( \because \widetilde{L}(a) = \frac{1}{2}||\mathbf{w}'||^2 , \rho = \frac{1}{||\mathbf{w}'||} ) \end{align} ※ ## 演習 7.6 <div class="panel-primary"> 出力値が$t\in\{-1, 1\}$であるロジスティック回帰モデルについて考える. $$ y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b \tag{7.1} $$ という形の$y(\mathbf{x})$を用いて,$p(t=1|y) = \sigma(y)$とすると,対数尤度(の符号を反転したもの)に2乗ノルムの正則化項を加えたものは $$ \sum_{n=1}^{N} E_{\mathrm{LR}}\left(y_{n} t_{n}\right)+\lambda\|\mathbf{w}\|^{2} \tag{7.47} $$ という形を取ることを示せ.ただし $$ E_{\mathrm{LR}}(y t)=\ln (1+\exp (-y t)) \tag{7.48} $$ である. </div> ロジスティック回帰モデルはinputデータに対して各クラスの事後確率を求め 最も高い確率のクラスに分類する手法。 各クラスの事後確率はロジスティックシグモイド関数として以下のように書ける。 入力データがクラス1である確率:$p(t=1 \mid y)=\sigma(y)$ 入力データがクラス2である確率:$p(t=-1 \mid y)=1-\sigma(y)=\sigma(-y)$ $※\sigma(y)=\frac{1}{1+e^{-y}} y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b$ 学習データとして、各学習データがi.i.dの$\mathcal{D}=\left\{\left(t_{1}, \mathbf{x}_{n}\right), \ldots,\left(t_{N}, \mathbf{x}_{N}\right)\right\}$が与えられると 最適パラメータ($\mathbf{w},b$)は以下の尤度を最大化することで得られる。 $$p(\mathcal{D})=\prod_{t_{n}=1} \sigma\left(y_{n}\right) \prod_{t_{n^{\prime}}=-1} \sigma\left(-y_{n^{\prime}}\right)=\prod_{n=1}^{N} \sigma\left(t_{n} y_{n}\right) ※y_{n}=y\left(\mathbf{x}_{n}\right) , t_{n} \in\{-1,1\}$$ これは、各学習データが正分類される確率を全データに対して掛け合わせたものを表しており 正しく正分類されているほど、尤度は大きくなる。負の対数尤度を取ると以下となる。 $$\begin{aligned}-\ln p(\mathcal{D}) &=-\ln \prod_{n=1}^{N} \sigma\left(t_{n} y_{n}\right) \\ &=\sum_{n=1}^{N} \ln \sigma\left(t_{n} y_{n}\right)^{\mathrm{-1}} \\ &=\sum_{n=1}^{N} \ln \left(1+\exp \left(-t_{n} y_{n}\right)\right) \end{aligned}$$ これに、$\lambda\|\mathbf{w}\|^{2}$を加えると(7.47)という形を取る。 ## 演習 7.7 <div class="panel-primary"> SVM回帰モデルのラグランジュ関数 $$ \begin{aligned} L=&\ C \sum_{n=1}^{N}\left(\xi_{n}+\widehat{\xi}_{n}\right)+\frac{1}{2}\|\mathbf{w}\|^{2}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+y_{n}-t_{n}\right)-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-y_{n}+t_{n}\right) . \end{aligned} \tag{7.56} $$ について考える.$(7.56)$の $\mathbf{w}, b, \xi_{n}, \widehat{\xi}_{n}$に対する偏微分をそれぞれ零とおき,その結果を代入することで双対ラグランジュ関数 $$ \begin{aligned} \widetilde{L}(\mathbf{a}, \widehat{\mathbf{a}})=&-\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right) \\ &-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n} \end{aligned} \tag{7.61} $$ が得られることを示せ. </div> (7.56)に$y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})+b$を代入して、スラック変数を分解すると以下の式が得られる。 $$\begin{aligned} L=& \sum_{n=1}^{N} C \xi_{n}+\sum_{n=1}^{N} C\widehat{\xi}_{n}+\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N} a_{n}\left(\epsilon+\xi_{n}+\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)+b-t_{n}\right) \\ &-\sum_{n=1}^{N} \widehat{a}_{n}\left(\epsilon+\widehat{\xi}_{n}-\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)-b+t_{n}\right) \qquad (*)\end{aligned}$$ ラグランジュ関数(7.56)の$\mathbf{w}, b, \xi_{n}, \widehat{\xi}_{n}$に対する偏微分をそれぞれ零とおくことで 以下の式が得られる。 $$ \begin{aligned} &\frac{\partial L}{\partial \mathrm{w}}=0 \Rightarrow \mathrm{w}=\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) \phi\left(\mathrm{x}_{n}\right)\qquad (7.57)\\ &\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)=0\qquad (7.58)\\ &\frac{\partial L}{\partial \xi_{n}}=0 \Rightarrow a_{n}+\mu_{n}=C\qquad (7.59)\\ &\frac{\partial L}{\partial \widehat{\xi}_{n}}=0 \Rightarrow \widehat{a}_{n}+\widehat{\mu}_{n}=C\qquad (7.60)\ \end{aligned} $$ (*)式に、(7.57) , (7.59) , (7.60)を代入すると以下の式となる。 $$ \begin{aligned} L=& \sum_{n=1}^{N}\left(a_{n}+\mu_{n}\right) \xi_{n}+\sum_{n=1}^{N}\left(\widehat{a}_{n}+\widehat{\mu}_{n}\right) \widehat{\xi}_{n} \\ &+\frac{1}{2} \sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)-\sum_{n=1}^{N}\left(\mu_{n} \xi_{n}+\widehat{\mu}_{n} \widehat{\xi}_{n}\right) \\ &-\sum_{n=1}^{N}\left(a_{n} \xi_{n}+\widehat{a}_{n} \widehat{\xi}_{n}\right)-\epsilon \sum_{n=1}^{N}\left(a_{n}+\widehat{a}_{n}\right)+\sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) t_{n} \\ &-\sum_{n=1}^{N} \sum_{m=1}^{N}\left(a_{n}-\widehat{a}_{n}\right)\left(a_{m}-\widehat{a}_{m}\right) \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)-b \sum_{n=1}^{N}\left(a_{n}-\widehat{a}_{n}\right) . \end{aligned} $$ この式の第1,2項は、第4,5項と丁度打ち消しあう。また、式(7.58)により最後の項は0になるので まとめると(7.61)が得られる。 ## 演習 7.8 <div class="panel-primary"> 7.1.4節で議論した SVM回帰モデルについて,$\xi_{n} \gt 0$が成り立つ訓練データ点については$a_n = C$,同様に$\widehat{\xi}_{n} \gt 0$が成り立つ訓練データ点については$\widehat{a}_{n} = C$が成立することを示せ. </div> ※(7.67),(7.68)から明らか。 ## 演習 7.9 <div class="panel-primary"> RVM回帰モデルについて,重みに対する事後確率分布の平均および共分散が \begin{align} \mathbf{m}&=\beta \mathbf{\Sigma} \Phi^{\mathrm{T}} \mathbf{t} \tag{7.82} \\ \mathbf{\Sigma}&=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83} \end{align} で与えられることを示せ. </div> (7.79)式の直後の段落に記載された仮定(各$w_i$の事前確率分布の平均が0、分散が$\alpha_i$)により、(3.49)〜(3.51)式と(7.81)〜(7.83)式との対応関係は、 \begin{eqnarray} \mathbf{m}_0 &=& \mathbf{0} \\ \mathbf{S}_0 &=& \rm{diag}(\alpha_i^{-1}) \\ \mathbf{m}_N &=& \mathbf{m} \rm{\ \ :definition} \\ \mathbf{S}_N &=& \mathbf{\Sigma} \rm{\ \ :definition} \end{eqnarray} である。従って、 \begin{eqnarray} \mathbf{m} &=& S_N \left( S_0^{-1}\mathbf{m}_0 + \beta \mathbf{\Phi}^\mathrm{T} \mathbf{t} \right) \\ &=& \beta \Sigma \Phi ^\mathrm{T} \mathbf{t} \end{eqnarray} \begin{eqnarray} \Sigma ^{-1} &=& \left( \rm{diag}(\alpha_i^{-1} )\right) ^{-1} + \beta \Phi^\mathrm{T} \Phi \\ &=& \rm{diag}(\alpha_i) + \beta \Phi^\mathrm{T} \Phi \\ \Sigma &=& \left( A + \beta \Phi^\mathrm{T} \Phi \right) ^{-1} \end{eqnarray} となる。ただし、$A=$diag$(\alpha _i)$と定義した。 ## 演習 7.10 <div class="panel-primary"> RVM回帰モデルについて周辺化尤度関数の式 $$ \begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85} $$ を, $$ p(\boldsymbol{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta)=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \boldsymbol{\alpha}) \mathrm{d} \mathbf{w} \tag{7.84} $$ の$\mathbf{w}$に対する積分を実行することで導け.(指数に現れる2次式を平方完成するとよい.) </div> $$ \begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{\mathbf{w}}, \beta) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\ &=\int \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm T} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) d \mathbf{w} \\ &=\int\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}} \prod_{n=1}^{N} \exp \left\{-\frac{\left(t_{n}-\mathbf{w}^{\mathrm T} \boldsymbol{\phi}(\mathbf{x})\right)^{2}}{2 \beta^{-1}}\right\}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \exp \left\{-\frac{w_{i}^{2}}{2 \alpha_{i}^{-1}}\right\} d \mathbf{w} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \int \exp \left\{-\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w}\right\} d \mathbf{w} \end{aligned} $$ ここで$\mathbf{A} = \operatorname{diag}(\alpha_i)$である。指数部分を整理すると $$ \begin{aligned} -\frac{\beta}{2}\|\mathbf{t}-\mathbf{\Phi} \mathbf{w}\|^{2}-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w} &=-\frac{1}{2}\left\{\beta\left(\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{w}+\mathbf{w}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} \mathbf{w}\right)+\mathbf{w}^{\mathrm T} \mathbf{A} \mathbf{w}\right\} \\ &=-\frac{1}{2}\left\{\mathbf{w}^{\mathrm T}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right) \mathbf{w}-2 \beta \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{w}+\beta \mathbf{t}^{\mathrm T} \mathbf{t}\right\} \\ &=-\frac{1}{2}\left\{(\mathbf{w}-\mathbf{m})^{\mathrm T} \mathbf{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right\} \end{aligned} $$ ここで$(3.49)$の平方完成にならって$\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)^{-1}$, $\mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T}\mathbf{t}$とした。これより$\mathbf{w}$についての積分が行えるので $$ \begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \int \exp \left\{-\frac{1}{2}\left\{(\mathbf{w}-\mathbf{m})^{\mathrm T} \mathbf{\Sigma}^{-1}(\mathbf{w}-\mathbf{m})+\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right\}\right\} d \mathbf{w} \\ &=\left(\frac{\beta}{2 \pi}\right)^{\frac{N}{2}}\left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}}\left(2\pi\right)^{\frac{M}{2}}|\mathbf{\Sigma}|^{\frac{1}{2}} \exp \left\{-\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{m}\right)\right\} \end{aligned} $$ となる。そしてさらに$\mathbf{t}$について再度指数部分を整理すると $$ \begin{aligned} -\frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) &= - \frac{1}{2}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Sigma}^{-1} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \beta\right) \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta \mathbf{I}-\beta \mathbf{\Phi}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm{T}} \beta\right) \mathbf{t} \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm T}\left(\left(\beta^{-1} \mathbf{I}\right)^{-1}-\left(\beta^{-1} \mathbf{I}\right)^{-1} \mathbf{\Phi}\left(\mathbf{A}+\mathbf{\Phi}^{\mathrm T}\left(\beta^{-1} \mathbf{I}\right)^{-1} \mathbf{\Phi}\right)^{-1} \mathbf{\Phi}^{\mathrm T}\left(\beta^{-1} \mathbf{I}\right)^{-1}\right) \mathbf{t} \\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}}\left(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{-1} \mathbf{t} \hspace{1em} (\because \textrm{Woodburyの公式}, \textrm{(C.7)})\\ &= -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \end{aligned} $$ となる。ただし、最後で$\mathbf{C} = \beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}$とした。以上から対数を取ることで $$ \begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &= \frac{N}{2}(\ln\beta -\ln (2\pi)) + \frac{1}{2}\ln |\mathbf{\Sigma}| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\ &= -\frac{N}{2}\ln(2\pi) + \frac{N}{2}\ln \beta +\frac{1}{2}\ln\left| \mathbf{\Sigma} \right| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\ &= -\frac{N}{2}\ln(2\pi) - \frac{1}{2}\ln |\mathbf{C}| -\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \end{aligned} $$ となり、展開することで$(7.85)$式を得られる。 ※ 最後の式変形部分について、$\displaystyle \frac{N}{2}\ln \beta + \frac{1}{2}\ln |\mathbf{\Sigma}| + \frac{1}{2}\sum_{i=1}^{M}\ln \alpha_i = -\frac{1}{2}\ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|$を示す。 これは$\displaystyle \ln \left(\beta^{N} \cdot |\mathbf{\Sigma}| \cdot \prod_{i=1}^{M} \alpha_{i} \right) = \ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|^{-1}$を示せれば良い。 $$ \begin{aligned} \ln \left(\beta^{N} \cdot |\mathbf{\Sigma}| \cdot \prod_{i=1}^{M} \alpha_{i}\right) &=\ln (|\beta \mathbf{I}| |\mathbf{A}| |\mathbf{\Sigma}|) \quad (\because |\beta\mathbf{I}| = \beta^N, |\mathbf{A}||\mathbf{B}| = |\mathbf{B}||\mathbf{A}|)\\ &=\ln \left(\left|(\beta \mathbf{I})^{-1}\right|^{-1}\left|\mathbf{A}^{-1}\right|^{-1}\left|\mathbf{A}+\mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right|^{-1}\right) \quad (\because(\mathrm{C}. 3)) \\ &=\ln \left|(\beta \mathbf{I})^{-1} \mathbf{A}^{-1}\left(\mathbf{A}+\mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right)\right|^{-1} \quad (\because(\mathrm{C}. 12)) \\ &=\ln\left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I}) \mathbf{\Phi}\right)\right|^{-1} \\ &=\ln \left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\left(\mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right)^{\mathrm{T}}((\beta \mathbf{I}) \mathbf{\Phi})^{\mathrm{T}}\right)\right|^{-1}\quad (\because(\mathrm{C} .14)) \\ &=\ln \left|(\beta \mathbf{I})^{-1}\left(\mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I})\right)\right|^{-1} \quad \left(\because\left(\mathbf{A}^{-1}\right)^{\mathrm{T}}=\mathbf{A}^{-1}\right) \\ &=\ln \left|\left(\mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}(\beta \mathbf{I})\right)(\beta \mathbf{I})^{-1}\right|^{-1} \quad \left(\because |\mathbf{AB}| = |\mathbf{BA}|\right) \\ &=\ln \left|\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}}\right|^{-1} \end{aligned} $$ ## 演習 7.11 <div class="panel-primary"> 前問を, $$ p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115} $$ の結果を用いて解け. </div> ※$(2.115)$式に代入するだけで求まる。 演習7.10の途中式から $$ \begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\int p(\mathbf{t} \mid \mathbf{X}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha) d \mathbf{w} \\ &=\int \prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid \mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1}\right) \prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) d \mathbf{w} \\ &=\int \mathcal{N} \left( \mathbf{t} \mid \mathbf{\Phi w}, \beta^{-1}\mathbf{I} \right) \mathcal{N} \left( \mathbf{w} \mid \mathbf{0}, \mathbf{A}^{-1} \right) d\mathbf{w} \end{aligned} $$ $(2.115)$式を使って周辺化すると $$ \begin{aligned} p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &= \mathcal{N}\left(\mathbf{t} \mid \mathbf{\Phi 0}+\left(\beta^{-1} \mathbf{I}\right)+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm T}\right) \\ &=\mathcal{N}\left(\mathbf{t} \mid \mathbf{0}, \mathbf{C}\right) \end{aligned} $$ となるので、$(7.85)$式が求められた。 ## 演習 7.12 <div class="panel-primary"> RVM回帰モデルについて周辺化対数尤度 $$ \begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85} $$ を直接最大化すると,更新式 $$ \alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{m_{i}^{2}} \tag{7.87} $$ および $$ \left(\beta^{\text {new}}\right)^{-1}=\frac{\|\mathbf{t}-\Phi \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \tag{7.88} $$ が得られることを示せ.ただし$\gamma_i$は $$ \mathbf{\Sigma}=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83} $$ で定義される共分散行列$\mathbf{\Sigma}$の$i$番目の対角成分を用いて $$ \gamma_i = 1-\alpha_i \Sigma_{ii} \tag{7.89} $$ で与えられるものとする. </div> ※$\mathbf{\Phi},\mathbf{\Phi}^{\mathrm T},\mathbf{\Sigma}$はそれぞれ$M\times N,N\times M, N\times N$行列、$\mathbf{t}, \mathbf{m}$はそれぞれ$M, N$次元ベクトルである。 演習 7.10または7.11の結果から $$ \ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta)=\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{1}{2} \sum_{i=1}^{M} \ln \alpha_{i}-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} $$ となる。次にテキスト58ページのように、この対数尤度の微分を$0$とする。 まず$\alpha_i$について偏微分するが、準備として$\mathbf{I}_{ii}$を$ii$成分のみ$1$で残りを$0$とする行列とする。これを用いて上式第3項の$\alpha_i$についての偏微分は $$ \begin{aligned} \frac{\partial}{\partial \alpha_{i}} \ln |\mathbf{\Sigma}| &=-\frac{\partial}{\partial \alpha_{i}} \ln \left|\mathbf{\Sigma}^{-1}\right| \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \alpha_{i}}\right] \quad(\because \textrm{(C.22)}) \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial}{\partial \alpha_{i}}\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)\right] \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{I}_{i i}\right] \\ &=-\Sigma_{i i} \end{aligned} $$ 第5項の$\alpha_i$についての偏微分は、$\mathbf{\Sigma}$が対称行列であることと$\mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)^{-1}$, $\mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T}\mathbf{t}$を利用して $$ \begin{aligned} \frac{\partial}{\partial \alpha_{i}}\left(\mathbf{t}^{\mathrm{T}} \mathbf{C} \mathbf{t}\right) &=\frac{\partial}{\partial \alpha_{i}}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{t}-\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) \quad (\because 演習7.10)\\ &=-\frac{\partial}{\partial \alpha_{i}}\left(\mathbf{m}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{m}\right) \\ &=-\frac{\partial}{\partial \alpha_{i}}\left(\beta \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Sigma}^{-1} \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \quad (\because \mathbf{m} = \beta \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t})\\ &=-\frac{\partial}{\partial \alpha_{i}}\left(\beta^{2} \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t}\right) \\ &=-\operatorname{Tr}\left[ \left( \frac{\partial}{\partial \mathbf{\Sigma}^{-1}} \beta^{2} \mathbf{t}^{\mathrm{T}} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm{T}} \mathbf{t} \right)^{\mathrm T} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \alpha_i}\right] \quad (\because \textrm{Matrix Cookbook (137)}) \\ &=-\operatorname{Tr}\left[\beta^{2}\left(-\mathbf{\Sigma}\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \mathbf{\Sigma}\right)^{\mathrm T} \mathbf{I}_{i i}\right] \quad (\because \textrm{Matrix Cookbook (61)}) \\ &=\operatorname{Tr}\left[\left(\mathbf{mm}^{\mathrm T}\right)^{\mathrm T} \mathbf{I}_{i i}\right] \\ &=m_{i}^2 \end{aligned} $$ となる。$m_i$は$(7.82)$で定義される事後平均$\mathbf{m}$の$i$番目の要素である。また途中の式変形で[Matrix Cookbook](https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf)に掲載されている行列の微分の公式を用いた。 $$ \frac{\partial}{\partial \alpha_{i}}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta) = -\frac{1}{2}\Sigma_{ii} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} $$ これを$0$として移項すると $$ \begin{aligned} & \alpha_{i} m_{i}^{2} = 1-\alpha_{i} \Sigma_{i i} \\ & \therefore \alpha_{i} = \frac{1-\alpha_{i} \Sigma_{i i}}{m_{i}^{2}}=\frac{\gamma_{i}}{m_{i}^{2}} \end{aligned} $$ これが求める$\alpha_i^{\textrm{new}}$となる。 同様にして$\beta$について偏微分する。$\ln p$の第3項について $$ \begin{aligned} \frac{\partial}{\partial \beta}\ln | \mathbf{\Sigma} | &= -\frac{\partial}{\partial \beta} \ln \left|\mathbf{\Sigma}^{-1}\right| \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \beta}\right] \\ &=-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right] \end{aligned} $$ 第5項について $$ \begin{aligned} \frac{\partial}{\partial \beta}\left(\mathbf{t}^{\mathrm T} \mathbf{C} \mathbf{t}\right) &=\frac{\partial}{\partial \beta}\left(\beta \mathbf{t}^{\mathrm T} \mathbf{t}-\mathbf{m}^{\mathrm T} \mathbf{C} \mathbf{m}\right) \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-\frac{\partial}{\partial \beta}\left(\beta^{2} \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right) \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \beta\left(\mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)-\beta^{2} \frac{\partial}{\partial \beta}\left(\mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right) \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}-\beta^{2} \operatorname{Tr}\left[\frac{\partial}{\partial \mathbf{\Sigma}^{-1}}\left(\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)^{\mathrm T} \frac{\partial \mathbf{\Sigma}^{-1}}{\partial \beta}\right] \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\beta^{2} \operatorname{Tr}\left[\mathbf{\Sigma}\left(\mathbf{\Phi}^{\mathrm T} \mathbf{t}\right)(\mathbf{\Phi}^{\mathrm T} \mathbf{t})^{\mathrm T} \mathbf{\Sigma} \cdot\left(\mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right)\right] \\ &=\mathbf{t}^{\mathrm T} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\operatorname{Tr}\left[\mathbf{m} \mathbf{m}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right] \\ &=\mathbf{t}^{2} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+\operatorname{Tr}\left[\mathbf{m}^{\mathrm T} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} \mathbf{m}\right] \\ &=\mathbf{t}^{2} \mathbf{t}-2 \mathbf{t}^{\mathrm T} \mathbf{\Phi} \mathbf{m}+(\mathbf{\Phi} \mathbf{m})^{\mathrm T} \mathbf{\Phi} \mathbf{m} \\ &=\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} \end{aligned} $$ これより、 $$ \frac{\partial}{\partial \beta}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta)=\frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) $$ となる。このうち$\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]$について $$ \begin{aligned} \mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi} &=\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\beta^{-1} \mathbf{\Sigma} \mathbf{A}-\beta^{-1} \mathbf{\Sigma} \mathbf{A} \\ &=\mathbf{\Sigma}\left(\beta \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}+\mathbf{A}\right) \beta^{-1}-\beta^{-1} \mathbf{\Sigma} \mathbf{A} \\ &=\mathbf{I} \beta^{-1}-\beta^{-1} \Sigma \mathbf{A} \\ &=\beta^{-1}(\mathbf{I}-\mathbf{\Sigma} \mathbf{A}) \end{aligned} $$ となるので、 $$ \begin{aligned} \ & \frac{\partial}{\partial \beta}\ln p(\mathbf{t} \mid \mathbf{X}, \alpha, \beta) = 0 \\ \Leftrightarrow &\ \frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) = 0 \\ \Leftrightarrow &\ \beta^{-1} = \frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\operatorname{Tr}(\mathbf{I}-\mathbf{\Sigma A})}=\frac{\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \end{aligned} $$ これが$\left(\beta^{\text {new}}\right)^{-1}$となる。 ※ $\alpha_{i}^{\text {new }}$も$\left(\beta^{\text {new}}\right)^{-1}$も1つ前の$\alpha_i, \beta^{-1}$の値に依存しているので、これら超パラメータの学習はP.58に書かれているように、適当な初期値を決めてから更新していき、適当な収束条件が満たされるまで繰り返される。 ## 演習 7.13 <div class="panel-primary"> 本文では,RVM回帰モデルについて, $$ \begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85} $$ の周辺化尤度の最大化から,更新式 $$ \alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{m_{i}^{2}} \tag{7.87} $$ および $$ \left(\beta^{\text {new}}\right)^{-1}=\frac{\|\mathbf{t}-\Phi \mathbf{m}\|^{2}}{N-\sum_{i} \gamma_{i}} \tag{7.88} $$ を導いた.超パラメータの事前分布を $$ \operatorname{Gam}(\tau \mid a, b)=\frac{1}{\Gamma(a)} b^{a} \tau^{a-1} e^{-b \tau} \tag{B.26} $$ の形のガンマ分布に変更したときの$\boldsymbol{\alpha}$と$\beta$に対する更新式を,同様に事後確率$p(\mathbf{t}, \boldsymbol{\alpha}, \beta \mid \mathbf{X})$を$\boldsymbol{\alpha}$と$\beta$に対して最大化することで導出せよ. </div> 題意により、$\mathbf{\alpha}_i$と$\beta$の事前分布を以下のように定める。ここで、全ての$\alpha_i$についてパラメータ$a,b$は共通とした。(本文では$\alpha$が確率変数ではないので、$i$に応じて異なるパラメータにしないと関連度自動決定の議論に繋がらないが、$\alpha$を確率変数とみなすことで、各$i$について同一のパラメータを採用することができる。) \begin{aligned} p(\alpha_i) = \operatorname{Gam}(\alpha_i \mid a, b) = \frac{1} {\Gamma(a)} b^{a} \alpha_i{}^{a-1} e^{-b \alpha_i} \\ p(\beta) = \operatorname{Gam}(\beta \mid \tilde{a}, \tilde{b}) = \frac{1}{\Gamma(\tilde{a})} \tilde{b}^{\tilde{a}} \beta^{\tilde{a}-1} e^{-\tilde{b} \beta} \end{aligned} 尤度関数$p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) = p(\mathbf{t} \mid \mathbf{X}, \mathbf{\alpha}, \beta) \prod_i p(\alpha_i) p(\beta)$を最大化する$\mathbf{\alpha}$と$\beta$を求める。 対数尤度関数は、以下の通り。 \begin{aligned} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) =& \frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}|+\frac{1}{2} \sum_{j=1}^{M} \ln \alpha_{j}-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \\ &+ \sum_{j=1}^M \left\{ a \ln b + (a-1)\ln \alpha_j - b \alpha_j - \ln \Gamma (a) \right\} \\ &+ \left\{ \tilde{a} \ln \tilde{b} + (\tilde{a}-1)\ln \beta - \tilde{b} \beta - \ln \Gamma (\tilde{a}) \right\} \end{aligned} 対数尤度関数を$\alpha_i$と$\beta$で偏微分する。1行目の偏微分は演習(7.12)に登場する式変形を参照。 \begin{aligned} \frac{\partial}{\partial \alpha_i} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) =& \left( -\frac{1}{2}\Sigma_{ii} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} \right) + \left( \frac{a-1}{\alpha_i} - b \right) \\ =& -\frac{1}{2} \frac{1 - \gamma_i}{\alpha_i} + \frac{1}{2\alpha_i}-\frac{1}{2}m_i^{2} + \frac{a-1}{\alpha_i} - b \\ =& \frac{1}{2 \alpha_i} \left\{ -(1 - \gamma_i) + 1 + 2(a-1) \right\} - \frac{1}{2} (m_i^2 + 2b)\\ =& \frac{1}{2 \alpha_i} \left( \gamma_i + 2a -2 \right) - \frac{1}{2} (m_i^2 + 2b) \end{aligned} 右辺$=0$を解いて、 \begin{aligned} \alpha_i =\frac{\gamma_i + 2a -2}{m_i^2 + 2b} \end{aligned} となる。でも、公式解答は \begin{aligned} \alpha_i =\frac{\gamma_i + 2a -2}{m_i^2 - 2b} \end{aligned} となっている・・・。次に、 \begin{aligned} \frac{\partial}{\partial \beta} \ln p(\mathbf{t}, \mathbf{\alpha}, \beta \mid \mathbf{X} ) =& \frac{1}{2}\left(\frac{N}{\beta}-\operatorname{Tr}\left[\mathbf{\Sigma} \mathbf{\Phi}^{\mathrm T} \mathbf{\Phi}\right]-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) +(\tilde{a} -1)\frac{1}{\beta}-\tilde{b} \\ =& \frac{1}{2}\left(\frac{N}{\beta}-\frac{\sum_i \gamma_i}{\beta}-\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2}\right) +(\tilde{a} -1)\frac{1}{\beta}-\tilde{b} \\ =& \frac{1}{2}\left\{ \frac{ N-\sum_i \gamma_i +2(\tilde{a}-1) }{\beta} - \left( \|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b} \right) \right\} \end{aligned} 右辺$=0$を解いて、 \begin{aligned} \beta^{-1} =\frac {\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b}} {2\tilde{a}-2+N-\sum_i \gamma_i} \end{aligned} となる。でも、公式解答は \begin{aligned} \beta^{-1} =\frac {\|\mathbf{t}-\mathbf{\Phi} \mathbf{m}\|^{2} + 2\tilde{b}} {\tilde{a}+2+N-\sum_i \gamma_i} \end{aligned} となっている・・・。 ## 演習 7.14 <div class="panel-primary"> RVM回帰モデルの予測確率分布が $$ \begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}, \alpha^{\star}, \beta^{\star}\right) &=\int p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}^{\mathrm{T}} \phi(\mathbf{x}), \sigma^{2}(\mathbf{x})\right) \end{aligned} \tag{7.90} $$ で与えられることを示せ.また,その予測分布の分散が $$ \sigma^{2}(\mathbf{x})=\left(\beta^{\star}\right)^{-1}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{\Sigma} \boldsymbol{\phi}(\mathbf{x}) \tag{7.91} $$ で与えられることも示せ.ここで,$\mathbf{\Sigma}$は $$ \mathbf{\Sigma} = \left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83} $$ において$\alpha = \alpha^{\star}$および$\beta = \beta^{\star}$としたものである. </div> $(7.76)$式,$(7.81)$式から \begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) &=\mathcal{N}\left(t \mid \mathbf{w}^{\mathrm{T}} \phi(\mathbf{x}), (\beta^{\star})^{-1}\right ) \\ & \end{aligned} \begin{aligned} p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right)&=\mathcal{N}\left(\mathbf{w} \mid \mathbf{m}, \mathbf{\Sigma} \right ) \\ & \end{aligned} $$ (2.115)式において、A\mathbf{x}を\mathbf{w}^{\mathrm{T}} \phi(\mathbf{x})に、L^{-1}を(\beta^{\star})^{-1}に、\muを\mathbf{m}に、\Lambda^{-1}を\Sigmaに置き換えると、 $$ \begin{aligned} p\left(t \mid \mathbf{x}, \mathbf{X}, \mathbf{t}, \alpha^{\star}, \beta^{\star}\right) &=\int p\left(t \mid \mathbf{x}, \mathbf{w}, \beta^{\star}\right) p\left(\mathbf{w} \mid \mathbf{X}, \mathbf{t}, \boldsymbol{\alpha}^{\star}, \beta^{\star}\right) \mathrm{d} \mathbf{w} \\ &=\mathcal{N}\left(t \mid \mathbf{m}^{\mathrm{T}} \phi(\mathbf{x}), \left(\beta^{\star}\right)^{-1}+\boldsymbol{\phi}(\mathbf{x})^{\mathrm{T}} \mathbf{\Sigma} \boldsymbol{\phi}(\mathbf{x})\right) \end{aligned} となる。 ## 演習 7.15 <div class="panel-primary"> $$ |\mathbf{C}| =\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}\right) \tag{7.94} $$ および $$ \mathbf{C}^{-1} =\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i}} \tag{7.95} $$ を用いて,周辺化尤度 $$ \begin{aligned} \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) &=\ln \mathcal{N}(\mathbf{t} \mid \mathbf{0}, \mathbf{C}) \\ &=-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\} \end{aligned} \tag{7.85} $$ が $$ L(\boldsymbol{\alpha})=L\left(\boldsymbol{\alpha}_{-i}\right)+\lambda\left(\alpha_{i}\right) \tag{7.96} $$ の形に変形できることを示せ.ただし$\lambda(\alpha_n)$および品質/疎性パラメータはそれぞれ $$ \lambda\left(\alpha_{i}\right)=\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i}\right)+\frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right] \tag{7.97} $$ $$ s_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \boldsymbol{\varphi}_{i} \tag{7.98} $$ $$ q_{i}=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}_{-i}^{-1} \mathbf{t} \tag{7.99} $$ で定義されているとする. </div> $(7.94)$式は $$ \begin{aligned} |\mathbf{C}| &= \left| \mathbf{C}_{-i}\left(\mathbf{I}+\alpha_{i}^{-1} \mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right)\right| \\ &= \left| \mathbf{C}_{-i} \right| \left| \mathbf{I}+\alpha_{i}^{-1} \mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right| \\ &=\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1}\left(\mathbf{C}_{-i}^{-1} \varphi_{i}\right)^{\mathrm T} \varphi_{i}\right) \quad (\because (\textrm{C}. 15)) \\ &=\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}\right) \quad \left(\because \mathbf{C}_{-i}^{-1} = \left( \mathbf{C}_{-i}^{-1} \right)^{\mathrm T} \right) \end{aligned} $$ $(7.95)$式はWoodburyの公式を用いて求められる。 $$ \begin{aligned} \left(\mathbf{C}_{-i}+\alpha_{i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T}\right)^{-1} &=\mathbf{C}_{-i}^{-1}-\mathbf{C}_{-i}^{-1} \varphi_{i}\left(\alpha_{i} \mathbf{I}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}\right)^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \\ &=\mathbf{C}_{-i}^{-1}-\frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}} \end{aligned} $$ これらを用いて対数周辺尤度$\displaystyle \ln p(\mathbf{t} \mid \mathbf{X}, \boldsymbol{\alpha}, \beta) =-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\right\}$を計算すると $$ \begin{aligned} L(\boldsymbol{\alpha})=&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}|+\mathbf{t}^{\mathrm T} \mathbf{C}^{-1} \mathbf{t}\right\} \\ =&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln \left(\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} \varphi_{i}^{\mathrm T} \mathbf{C}_{-1}^{-1} \varphi_{i}\right)\right)+\mathbf{t}^{\mathrm T}\left(\mathbf{C}_{-i}^{-1} - \frac{\mathbf{C}_{-i}^{-1} \varphi_{i} \varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1}}{\alpha_{i}+\varphi_{i}^{\mathrm T} \mathbf{C}_{-i}^{-1} \varphi_{i}}\right) \mathbf{t}\right\} \\ =&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln \left(\left|\mathbf{C}_{-i}\right|\left(1+\alpha_{i}^{-1} s_{i}\right)\right)+\mathbf{t}^{\mathrm T} \mathbf{C}_{-i}^{-1} \mathbf{t} - \frac{q_{i}^{2}}{\alpha_{i}+s_{i}}\right\} \\ &(\because q_{i}^{2}=q_{i}^{\mathbf{T}}q_{i}=(\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})^{\mathbf{T}}(\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t})=\mathbf{t}^{\mathbf{T}}(\mathbf{C}_{-i}^{-1})^{\mathbf{T}}\varphi_{i}\varphi_{i}^{\mathbf{T}}\mathbf{C}_{-i}^{-1}\mathbf{t}) \\ =&-\frac{1}{2}\left\{N \ln (2 \pi)+\ln |\mathbf{C}_{-i}|+\mathbf{t}^{\mathrm T} \mathbf{C}_{-i}^{-1} \mathbf{t} \right\} -\frac{1}{2} \ln \left(\frac{\alpha_{i}+s_{i}}{\alpha_{i}}\right) + \frac{1}{2} \frac{q_{i}^{2}}{\alpha_{i}+s_{i}} \\ =&\ L(\boldsymbol{\alpha}_{-i})+\frac{1}{2}\left[\ln \alpha_{i}-\ln \left(\alpha_{i}+s_{i}\right)+\frac{q_{i}{ }^{2}}{\alpha_{i}+s_{i}}\right] \\ =&\ L(\boldsymbol{\alpha}_{-i})+\lambda(\alpha_i) \end{aligned} $$ 以上より、$(7.96)$式が導出された。 ## 演習 7.16 <div class="panel-primary"> 超パラメータ$\alpha_i$に対して, RVM回帰モデルの周辺化対数尤度 \begin{align} \lambda(\alpha_{i}) = \frac{1}{2}[ \ln \alpha_i - \ln(\alpha_i + s_i) +\frac{q_i^2}{\alpha_1 + s_i} ] \end{align} の2階微分を取ることで, $$ \alpha_{i}=\frac{s_{i}^{2}}{q_{i}^{2}-s_{i}} \tag{7.101} $$ で与えられる停留点が周辺化尤度の極大値であることを示せ. </div> $\lambda(\alpha_i)$を一階微分すると、 \begin{align} \frac{\partial \lambda(\alpha_i)}{\partial \alpha_i} = \frac{\alpha_i^{-1}s_i^2 - (q_i^2 -s_i)}{2(\alpha_i + s_i )^2} \end{align} である。よって、その分子が0をとるとき、$\alpha_i$は極値をとる。よって、 \begin{align} &\alpha_i^{-1}s_i^2 - (q_i^2 -s_i) = 0 \\ &\Rightarrow \alpha_i =\frac{s_i^2}{q_i^2 - s_i} \end{align} 次に、2階微分は以下になる。 \begin{align} \frac{\partial^2 \lambda(\alpha_i)}{\partial^2 \alpha_i} = \frac{1}{2}[-\frac{1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2 }+\frac{2q_i^2}{(\alpha_i+s_i)^3} ] \end{align} 次に、2階微分に$\alpha_i =\frac{s_i^2}{q_i^2 - s_i}$を代入した際に、0未満であれば、その$\alpha_i$は極大値であることが明らかになる。 \begin{align} \frac{1}{2}[-\frac{1}{\alpha_i^2}+\frac{1}{(\alpha_i+s_i)^2 }+\frac{2q_i^2}{(\alpha_i+s_i)^3} ] &= \frac{1}{2}[-\frac{1}{(\frac{s_i^2}{q_i^2 - s_i})^2}+\frac{1}{(\frac{s_i^2}{q_i^2 - s_i}+s_i)^2 }+\frac{2q_i^2}{(\frac{s_i^2}{q_i^2 - s_i}+s_i)^3} ] \\ &= \frac{1}{2}[-\frac{(q_i^2 - s_i)^2}{s_i^4}+\frac{(q_i^2 - s_i)^2}{s_i^2 q_i^4}+\frac{2(q_i^2 - s_i)^3}{s_i^3 q_i^4}] \\ &= -\frac{1}{2}{(q_i^2 - s_i)^4}{q_i^4 s_i^2} < 0 &(\because q_i^2 - s_i > 0) \end{align} よって、$\alpha_i =\frac{s_i^2}{q_i^2 - s_i}$において極大値を取る。 ## 演習 7.17 <div class="panel-primary"> \begin{align} \boldsymbol{\Sigma}&=\left(\mathbf{A}+\beta \mathbf{\Phi}^{\mathrm{T}} \mathbf{\Phi}\right)^{-1} \tag{7.83} \\ \mathbf{C}&=\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}} \tag{7.87}\\ \left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}&=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7} \end{align} を用いて, \begin{align} Q_{i}&=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t} \tag{7.102} \\ S_{i}&=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \boldsymbol{\varphi}_{i} \tag{7.103} \end{align} で定義される$Q_n, S_n$が, \begin{align} Q_{i}=\beta \boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{t}-\beta^{2} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \mathbf{t} \tag{7.106} \\ S_{i}=\beta \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\varphi}_{i}-\beta^{2} \boldsymbol{\varphi}_{i}^{\mathrm{T}} \boldsymbol{\Phi} \boldsymbol{\Sigma} \boldsymbol{\Phi}^{\mathrm{T}} \boldsymbol{\varphi}_{i} \tag{7.107} \end{align} に変形できることを示せ. </div> ※ (7.102)式に(7.87)式を代入して $$ \begin{aligned} Q_{i}&=\boldsymbol{\varphi}_{i}^{\mathrm{T}} \mathbf{C}^{-1} \mathbf{t}\\ &=\boldsymbol{\varphi}_{i}^{T}(\beta^{-1} \mathbf{I}+\mathbf{\Phi} \mathbf{A}^{-1} \mathbf{\Phi}^{\mathrm{T}})^{-1}\mathbf{t}\\ &=\boldsymbol{\varphi}_{i}^{T}\left\{\beta\mathbf{I}-\beta^{2}\mathbf{\Phi}(\mathbf{A}^{-1}+\beta\mathbf{\Phi}^{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^{T}\right\}\mathbf{t}\\ &=\beta\boldsymbol{\varphi}_{i}^{T}\mathbf{t}-\beta^{2}\boldsymbol{\varphi}_{i}^{T}\mathbf{\Phi}(\mathbf{A}^{-1}+\beta\mathbf{\Phi}^{T}\mathbf{\Phi})^{-1}\mathbf{\Phi}^{T}\mathbf{t}\\ &=\beta\boldsymbol{\varphi}_{i}^{T}\mathbf{t}-\beta^{2}\boldsymbol{\varphi}_{i}^{T}\mathbf{\Phi}\boldsymbol{\Sigma}\mathbf{\Phi}^{T}\mathbf{t}\\ \end{aligned} $$ よって(7.106)式が得られる.2行目から3行目への式変形に(C.7)式を用い,4行目から5行目の式変形で(7.83)式を用いた. また$\mathbf{t}$を$\boldsymbol{\varphi}_i$として上記と同様の計算を行うことで$S_i$についての式(7.107)が求まる. ## 演習 7.18 <div class="panel-primary"> RVM分類モデルの対数事後確率分布 $$ \begin{aligned} \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha})&=\ln \{p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w} \mid \boldsymbol{\alpha})\}-\ln p(\mathbf{t} \mid \alpha) \\ &=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\}-\frac{1}{2} \mathbf{w}^{\mathrm{T}} \mathbf{A} \mathbf{w}+\text { const. } \end{aligned} \tag{7.109} $$ の勾配ベクトルおよびへシアン行列は \begin{align} \nabla \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) &=\boldsymbol{\Phi}^{\mathrm{T}}(\mathbf{t}-\mathbf{y})-\mathbf{A} \mathbf{w} \tag{7.110} \\ \nabla \nabla \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) &=-\left(\Phi^{\mathrm{T}} \mathbf{B} \Phi+\mathbf{A}\right) \tag{7.111} \end{align} で与えられることを示せ. </div> $p(\mathbf{w} \mid \boldsymbol{\alpha})$は$(7.80)$から $$ \begin{aligned} p(\mathbf{w} \mid \boldsymbol{\alpha}) &=\prod_{i=1}^{M} \mathcal{N}\left(w_{i} \mid 0, \alpha_{i}^{-1}\right) \\ \ln p(\mathbf{w} \mid \boldsymbol{\alpha}) &=\sum_{i=1}^{M} \ln \left[\left(\frac{\alpha_{i}}{2 \pi}\right)^{\frac{1}{2}} \exp \left\{-\frac{\alpha_{i} w_{i}^{2}}{2}\right\}\right]=-\frac{1}{2} \mathbf{w}^{\mathrm T} \mathbf{Aw} + \textrm{const.} \end{aligned} $$ である。 $p(\mathbf{t} \mid \mathbf{w})$は$(4.90)$式のクロスエントロピー誤差関数$E(\mathbf{w})$の符号を反転させたもの $$ \ln p(\mathbf{t} \mid \mathbf{w})=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}+\left(1-t_{n}\right) \ln \left(1-y_{n}\right)\right\} $$ である。 演習4.13と同様に$\ln p(\mathbf{t} \mid \mathbf{w})$の$\mathbf{w}$についての勾配は $$ \begin{aligned} \nabla_{\mathbf{w}} \ln p &=\frac{\partial \ln p}{\partial y_{n}} \frac{\partial y_{n}}{\partial a_{n}} \nabla_{\mathbf{w}} a_{n} \\ \frac{\partial \ln p}{\partial y_{n}} &=\sum_{n=1}^{N}\left(\frac{t_{n}}{y_{n}}-\frac{1-t_{n}}{1-y_{n}}\right) \\ &=\sum_{n=1}^{N} \frac{t_{n}-y_{n}}{y_{n}\left(1-y_{n}\right)} \\ \frac{\partial y_{n}}{\partial a_{n}} &= \sigma\left(a_{n}\right)\left(1-\sigma\left(a_{n}\right)\right)=y_{n}\left(1-y_{n}\right) \\ \nabla_{\mathbf{w}} a_{n}&=\boldsymbol{\phi}_{n} \end{aligned} $$ よって $$ \begin{aligned} \nabla_{\mathbf{w}} \ln p(\mathbf{w} \mid \mathbf{t}, \boldsymbol{\alpha}) &=\sum_{n=1}^{N}\left(t_{n}-y_{n}\right) \boldsymbol{\phi}_{n}-\frac{1}{2} \cdot 2 \mathbf{Aw} \\ &=\mathbf{\Phi}^{\mathrm T}(\mathbf{t}-\mathbf{y})-\mathbf{Aw} \end{aligned} $$ ヘッセ行列は $$ \begin{aligned} \nabla_{\mathbf{w}}\left(\mathbf{\Phi}^{\mathrm T}(\mathbf{t}-\mathbf{y})-\mathbf{Aw}\right) &=-\sum_{n=1}^{N}\left(\frac{\partial y_{n}}{\partial a_{n}} \nabla_{\mathbf{w}} a_{n}\right) \boldsymbol{\phi}_{n}^{\mathrm T}-\mathbf{A}^{\mathrm T} \\ &=-\sum_{n=1}^{N} y_{n}\left(1-y_{n}\right) \boldsymbol{\phi}_{n} \boldsymbol{\phi}_{n}^{\mathrm T}-\mathbf{A} \\ &=-\left(\mathbf{\Phi}^{\mathrm T} \mathbf{B} \mathbf{\Phi}+\mathbf{A}\right) \end{aligned} $$ となる。 ## 演習 7.19 <div class="panel-primary"> RVM分類モデルにおいて,周辺尤度関数の近似式 $$ \begin{aligned} p(\mathbf{t} \mid \boldsymbol{\boldsymbol{\alpha} }) &=\int p(\mathbf{t} \mid \mathbf{w}) p(\mathbf{w} \mid \boldsymbol{\boldsymbol{\alpha} }) \mathrm{d} \mathbf{w} \\ & \simeq p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right) p\left(\mathbf{w}^{\star} \mid \boldsymbol{\boldsymbol{\alpha} }\right)(2 \pi)^{M / 2}|\mathbf{\Sigma}|^{1 / 2} \end{aligned} \tag{7.114} $$ を最大化すると,超パラメータの更新式 $$ \alpha_{i}^{\text {new }}=\frac{\gamma_{i}}{\left(w_{i}^{\star}\right)^{2}} \tag{7.116} $$ が得られることを示せ. </div> $\mathbf{w}^{\star}$を用いると条件付き確率$(4.89)$、事前分布$(7.80)$はそれぞれ $$ \begin{aligned} p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right) &= \prod_{n=1}^{N} y_{n}^{t_n}\left(1-y_{n}\right)^{1-t_{n}} \\ p\left(\mathbf{w}^{\star} \mid \boldsymbol{\alpha} \right) &= \prod_{i=1}^{M} \mathcal{N} \left(w_{i}^{*} \mid 0, \alpha_{i}^{-1}\right) = \left(\frac{1}{2 \pi}\right)^{\frac{M}{2}} \prod_{i=1}^{M} \alpha_{i}^{\frac{1}{2}} \exp \left\{-\frac{\alpha_{i}{w_{i}^{\star}}^{2}}{2}\right\} \end{aligned} $$ であるから$(7.114)$式の対数をとって対数周辺化尤度を求めると $$ \begin{aligned} \ln p(\mathbf{t} \mid \boldsymbol{\alpha} ) &= \ln p\left(\mathbf{t} \mid \mathbf{w}^{\star}\right)+\ln p\left(\mathbf{w}^{\star} \mid \boldsymbol{\alpha} \right)+\frac{M}{2} \ln (2 \pi)+\frac{1}{2}\ln |\mathbf{\Sigma}| \\ &=\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}^{*}+\left(1-t_{n}\right) \ln \left(1-y_{n}^{*}\right)\right\} \\ & -\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{N} \ln \alpha_{i}-\frac{M}{2} \ln (2 \pi)+\frac{M}{2} \ln (2 \pi)+\frac{1}{2} \ln |\mathbf{\Sigma}| \\ &=\left[\sum_{n=1}^{N}\left\{t_{n} \ln y_{n}{ }^{*}+\left(1-t_{n}\right) \ln \left(1-y_{n}{ }^{*}\right)\right\}\right]-\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{N} \ln \alpha_{i}+\frac{1}{2} \ln |\mathbf{\Sigma}| \end{aligned} $$ $\alpha_i$についての微分を$0$とすると、今$\mathbf{w} = \mathbf{w}^{\star}$で固定されているので、$y_n^{\star} = \sigma(a_n) = \sigma({\mathbf{w}^{\star}}^{\mathrm T}\boldsymbol{\phi}_n)$も固定されている。つまり$[\ ]$以外の項について微分を取れば良い。 $$ \begin{aligned} \frac{\partial}{\partial \alpha_{i}}\left[-\frac{1}{2} \sum_{i=1}^{M} \alpha_{i} w_{i}^{*^{2}}+\frac{1}{2} \sum_{i=1}^{M} \ln \alpha_{i}+\frac{1}{2} \ln |\mathbf{\Sigma}|\right]=0 \\ -\frac{1}{2}\left(w_{i}^{*}\right)^{2}+\frac{1}{2} \frac{\partial}{\partial \alpha_{i}}\left(\ln \alpha_{i}\right)+\frac{1}{2} \frac{\partial}{\partial \alpha_{i}} \ln |\mathbf{\Sigma}|=0 \\ -\frac{1}{2}\left(w_{i}^{*}\right)^{2}+\frac{1}{2 \alpha_{i}}-\frac{1}{2} \Sigma_{i i}=0 \quad (\because 演習 7.12) \end{aligned} $$ 以上から$(7.115)$式が得られた。これに$\gamma_i = 1 - \alpha_{i} \Sigma_{ii}$を導入すれば $$ \begin{aligned} \alpha_{i}\left(w_{i}^{*}\right)^{2} &= 1-\alpha_{i} \Sigma_{i i}=\gamma_{i} \\ \therefore \ \alpha_{i} &= \frac{\gamma_{i}}{\left(w_{i}^{*}\right)^{2}} \end{aligned} $$ これが$\alpha_{i}$の更新式となり$\displaystyle \left( \alpha_{i}^{\textrm {(new)}} \leftarrow \frac{\gamma_{i}}{\left(w_{i}^{*}\right)^{2}} \right)$、$(7.87)$と同一である。