# PRML第13章演習問題解答(13.18〜13.34) <head> <style> div.panel-primary { border: 1px solid #000; margin: 10px 5px; padding: 16px 10px 0px; } </style> </head> [演習13.17まで](https://hackmd.io/wJUKWfJyQcid0KM7c1Nhug) ## 演習 13.18 <div class="panel-primary"> 演習問題13.17の結果を用いて、図13.18に示すinput-output隠れマルコフモデルのフォワード-バックワードアルゴリズムの再帰式を初期条件とともに導け. </div> フォワード-バックワードアルゴリズムの再帰式は$(13.36)$,$(13.38)$のような式のこと。また、演習13.17で得た結果 $$ f\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)=p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{u}_{n}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}, \mathbf{u}_{n}\right) $$ を利用すれば簡単である。まず$\alpha(\mathbf{z}_{n})$について考えると、$(13.49), (13.50)$を参考にして $$ \begin{aligned} \alpha\left(\mathbf{z}_{n}\right) &=\mu_{f_{n} \rightarrow \mathbf{z}_{n}}\left(\mathbf{z}_{n}\right) \\ &=\sum_{\mathbf{z}_{n-1}} f_{n}\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right) \underbrace{\mu_{f_{n-1} \rightarrow \mathbf{z}_{n-1}}\left(\mathbf{z}_{n-1}\right)}_{\alpha\left(\mathbf{z}_{n-1}\right)} \\ &=\sum_{\mathbf{z}_{n-1}} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{u}_{n}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}, \mathbf{u}_{n}\right) \alpha\left(\mathbf{z}_{n-1}\right) \end{aligned} $$ となる。ここで、初期条件$\alpha(\mathbf{z}_{1})$は演習13.17で求めたように $$ \alpha(\mathbf{z}_{1}) = h\left(\mathbf{z}_{1}\right)=p\left(\mathbf{z}_{1} \mid \mathbf{u}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}, \mathbf{u}_{1}\right) $$ である。同様に$\beta(\mathbf{z}_{n})$について $$ \begin{aligned} \beta\left(\mathbf{z}_{n}\right) &=\mu_{f_{n+1} \rightarrow \mathbf{z}_{n}}\left(\mathbf{z}_{n}\right) \\ &=\sum_{\mathbf{z}_{n+1}} f_{n+1}\left(\mathbf{z}_{n}, \mathbf{z}_{n+1}\right) \underbrace{\mu_{f_{n+2} \rightarrow \mathbf{z}_{n+1}}\left(\mathbf{z}_{n+1}\right)}_{\beta(\mathbf{z}_{n+1})} \\ &=\sum_{\mathbf{z}_{n+1}} p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}, \mathbf{u}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}, \mathbf{u}_{n+1}\right) \beta\left(\mathbf{z}_{n+1}\right) \end{aligned} $$ となる。初期条件(最初のメッセージ)は$\beta(\mathbf{z}_{N})=1$のままで、これは入力確率$\mathbf{u}_{n}$が存在する場合でも同じである。 ## 演習 13.19 <div class="panel-primary"> 線形動的システムにおいては、すべての観測変数により条件付けられた個々の潜在変数に対する事後分布を、カルマンフィルタとカルマンスムーザの方程式を用いて効率的に求めることができる。これらの事後分布の各々を独立に最大化することにより得られる潜在変数の系列が、潜在変数の値の最も確からしい系列と同ーであることを示せ。これを実行する際に、線形動的システムにおいては、すべての潜在変数と観測変数の同時分布はガウス分布であり、したがって、すべての条件付き分布と周辺分布もガウス分布であることに注意して、 $$ p\left(\mathbf{x}_{a}\right)=\mathcal{N}\left(\mathbf{x}_{a} \mid \boldsymbol{\mu}_{a}, \Sigma_{a a}\right) \tag{2.98} $$ の結果を用いよ. </div> 線形動的システムにおいては全ての潜在変数と観測変数の同時分布はガウス分布であるため,任意の変数の組について事後分布を最大化することができる.したがってすべての潜在変数の同時分布を最大化することも、各潜在変数についての周辺分布を個別に最大化することも可能である。しかし、(2.98)から、結果の平均はどちらの場合も同じになることがわかり、ガウス分布では平均と潜在変数の最も確からしい値は一致するので、潜在変数の事後分布をそれぞれに最大化した系列でも潜在変数の同時分布を最大化した系列でも、同じ結果になることがわかる。 ## 演習 13.20 <div class="panel-primary"> $$ p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115} $$ の結果を用いて $$ \begin{array}{c}\int \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \boldsymbol{\Gamma}\right) \mathcal{N}\left(\mathbf{z}_{n-1} \mid \boldsymbol{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathrm{d} \mathbf{z}_{n-1} \\ =\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \boldsymbol{\mu}_{n-1}, \mathbf{P}_{n-1}\right)\end{array} \tag{13.87} $$ を証明せよ. </div> (2.113)~(2.115)の議論の結果を変数の対応をとりながら利用することができる $\mathrm{x}$ の周辺ガウス分布と, $\mathrm{x}$ が与えられたときの $\mathrm{y}$ の条件付きガウス分布が次式で 与えられたとする. $$ \begin{aligned} p(\mathbf{x}) &=\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right) \\ p(\mathbf{y} \mid \mathbf{x}) &=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right) \end{aligned} $$ $\mathrm{y}$ の周辺分布は $$ p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) $$ これと今回の変数の対応を考えると,$\mathbf{x}\rightarrow\mathbf{z}_{n-1},\mathbf{\mu}\rightarrow\mathbf{\mu}_{n-1},\boldsymbol{\Lambda}^{-1}\rightarrow\mathbf{V}_{n-1},\mathbf{y}\rightarrow\mathbf{z}_n,\mathbf{A}\rightarrow\mathbf{A},\mathbf{b}\rightarrow\mathbf{0},\mathbf{L}^{-1}\rightarrow\boldsymbol{\Gamma}$となる.この結果を用いると(13.87)が示される. ## 演習 13.21 <div class="panel-primary"> $$ p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115} $$ $$ p(\mathbf{x} \mid \mathbf{y}) =\mathcal{N}\left(\mathbf{x} \mid \Sigma\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda} \mu\right\}, \boldsymbol{\Sigma}\right) \tag{2.116} $$ の結果と、 $$ \left(\mathbf{P}^{-1}+\mathbf{B}^{\mathrm{T}} \mathbf{R}^{-1} \mathbf{B}\right)^{-1} \mathbf{B}^{\mathrm{T}} \mathbf{R}^{-1}=\mathbf{P B}^{\mathrm{T}}\left(\mathbf{B P B}^{\mathrm{T}}+\mathbf{R}\right)^{-1} \tag{C.5} $$ $$ \left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7} $$ の行列恒等式をともに用いて $$ \boldsymbol{\mu}_{n} =\mathbf{A} \boldsymbol{\mu}_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right) \tag{13.89} $$ $$ \mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90} $$ $$ c_{n} =\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C A} \boldsymbol{\mu}_{n-1}, \mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\Sigma\right) \tag{13.91} $$ の結果を導け。ここで、カルマン利得行列$\mathbf{K}_{n}$は $$ \mathbf{K}_{n}=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1} \tag{13.92} $$ で定義される. </div> (2.113)~(2.117)の議論より$\mathrm{x}$ の周辺ガウス分布と, $\mathrm{x}$ が与えられたときの $\mathrm{y}$ の条件付きガウス分布が次式で 与えられたとする. $$ p(\mathrm{x}) =\mathcal{N}\left(\mathrm{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right)\tag{2.113} $$ $$ p(\mathbf{y} \mid \mathrm{x}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right)\tag{2.114} $$ $\mathrm{y}$ の周辺分布と , $\mathrm{y}$ が与えられたときの $\mathrm{x}$ の条件付き分布は $$ p(\mathbf{y}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115} $$ $$ p(\mathbf{x} \mid \mathbf{y}) =\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\Sigma}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\boldsymbol{\Lambda} \boldsymbol{\mu}\right\}, \boldsymbol{\Sigma}\right)\tag{2.116} $$ で与えられる. ただし, $$ \Sigma=\left(\Lambda+\mathrm{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}\tag{2.117} $$ である.(13.87)の周辺分布の計算結果を用いて(13.86)を書き直すと以下のようになる. $$ c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \boldsymbol{\mu}_{n-1}, \mathbf{P}_{n-1}\right) $$ この式の右辺は$\mathbf{x}_n$と$\mathbf{z}_n$の同時分布で,$\mathbf{z}_n$を与えられたときの$\mathbf{x}_n$の条件付き分布と$\mathbf{z}_n$の分布の積の形で表されている.これらはそれぞれ(2.114)と(2.113)に対応している. ここで右辺の同時分布の分解を$\mathbf{x}_n$を与えられたときの$\mathbf{z}_n$の条件付き分布と$\mathbf{x}_n$の分布の積の形に書き換える.このときそれぞれ(2.116)と(2.115)に対応することになる $$ \begin{array}{ll} \mathbf{x} \Rightarrow \mathbf{z}_{n} \quad \boldsymbol{\mu} \Rightarrow \mathbf{A} \boldsymbol{\mu}_{n-1} \quad \mathbf{\Lambda}^{-1} \Rightarrow \mathbf{P}_{n-1} \\ \mathbf{y} \Rightarrow \mathbf{x}_{n} \quad \mathbf{A} \Rightarrow \mathbf{C} \quad \mathbf{b} \Rightarrow \mathbf{0} \quad \mathbf{L}^{-1} \Rightarrow \boldsymbol{\Sigma} & \end{array} $$ これらを代入すると $(2.113)$,$(2.114),(2.115)$ により $(13.91)$の右辺を得る また(2.116)から $$ p\left(\mathbf{z}_{n} \mid \mathbf{x}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{M}\left(\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{n}+\mathbf{P}_{n-1}^{-1} \mathbf{A} \boldsymbol{\mu}_{n-1}\right), \mathbf{M}\right)\tag{1} $$ ただし(2.117)を用いて$\mathbf{M}$を以下のように定めた. $$ \mathbf{M}=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1}\tag{2} $$ (C.7)と(13.92)を使って, (2)を書き換えると $$ \begin{aligned} \mathbf{M} &=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{P}_{n-1}-\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\boldsymbol{\Sigma}+\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C P}_{n-1} \\ &=\left(\mathbf{I}-\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\boldsymbol{\Sigma}+\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C}\right) \mathbf{P}_{n-1} \\ &=\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}, \end{aligned} $$ となり,これは(13.90)の右辺と一致する (2), (C.5),(13.92)を用いて $$ \begin{aligned} \mathbf{M} \mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} &=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1} \mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \\ &=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C} \mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1}=\mathbf{K}_{n} \end{aligned} $$ これと(13.90)を用いると, (1)の平均を書き換えることができて $$ \begin{aligned} \mathbf{M}\left(\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{n}+\mathbf{P}_{n-1}^{-1} \mathbf{A} \boldsymbol{\mu}_{n-1}\right) &=\mathbf{M} \mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{n}+\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{A} \boldsymbol{\mu}_{n-1} \\ &=\mathbf{K}_{n} \mathbf{x}_{n}+\mathbf{A} \boldsymbol{\mu}_{n-1}-\mathbf{K}_{n} \mathbf{C A} \boldsymbol{\mu}_{n-1} \\ &=\mathbf{A} \boldsymbol{\mu}_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right) \end{aligned} $$ を得る.これは(13.89)である. ## 演習 13.22 <div class="panel-primary"> $$ c_{1} \widehat{\alpha}\left(\mathbf{z}_{1}\right)=p\left(\mathbf{z}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right) \tag{13.93} $$ を、 $$ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right) \tag{13.76} $$ $$ p\left(\mathbf{z}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid \pmb{\mu}_{0}, \mathbf{P}_{0}\right) \tag{13.77} $$ の定義と、 $$ p(\mathbf{y})=\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115} $$ の結果とともに用いて $$ c_{1}=\mathcal{N}\left(\mathbf{x}_{1} \mid \mathbf{C} \boldsymbol{\mu}_{0}, \mathbf{CP}_{0} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right) \tag{13.96} $$ を導け </div> $(13.57)$の定義からスケーリング係数$c_{1}$は$c_{1} = p(\mathbf{x}_{1})$である。$(13.93)$と比較すれば$\widehat{\alpha}\left(\mathbf{z}_{1}\right) = p(\mathbf{z}_{1}\mid \mathbf{x}_{1})$である。PRMLの上巻P.90の議論を用いれば、$p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right)$と$p(\mathbf{z}_{1})$が与えられていればこれらの値を求めることができる。 $$ \begin{aligned} c_1 = p(\mathbf{x}_{1}) &= p\left(\mathbf{z}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right) \\ &= \mathcal{N}\left(\mathbf{z}_{1} \mid \pmb{\mu}_{0}, \mathbf{P}_{0}\right) \mathcal{N}\left(\mathbf{x}_{1} \mid \mathbf{Cz}_{1}, \mathbf{\Sigma}\right) \\ &=\mathcal{N}\left(\mathbf{x}_{1} \mid \mathbf{C} \pmb{\mu}_{0}, \mathbf{CP}_{0} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right) \end{aligned} $$ ## 演習 13.23 <div class="panel-primary"> $$ c_{1} \widehat{\alpha}\left(\mathbf{z}_{1}\right)=p\left(\mathbf{z}_{1}\right) p\left(\mathbf{x}_{1} \mid \mathbf{z}_{1}\right) \tag{13.93} $$ を、 $$ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\mathbf{\Sigma}}\right) \tag{13.76} $$ $$ p\left(\mathbf{z}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right) \tag{13.77} $$ の定義と、 $$ p(\mathbf{x} \mid \mathbf{y})=\mathcal{N}\left(\mathbf{x} \mid \mathbf{\mathbf{\Sigma}}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda} \boldsymbol{\mu}\right\}, \mathbf{\mathbf{\Sigma}}\right) \tag{2.116} $$ の結果とともに用いて、 $$ \boldsymbol{\mu}_{1} =\boldsymbol{\mu}_{0}+\mathbf{K}_{1}\left(\mathbf{x}_{1}-\mathbf{C} \boldsymbol{\mu}_{0}\right) \tag{13.94} $$ $$ \mathbf{V}_{1} =\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0} \tag{13.95} $$ $$ \mathbf{K}_{1} =\mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{CP}_{0} \mathbf{C}^{\mathrm{T}}+\mathbf{\mathbf{\Sigma}}\right)^{-1} \tag{13.97} $$ を導け. </div> 力技の計算問題。 $\widehat{\alpha}\left(\mathbf{z}_{1}\right)=p(\mathbf{z}_{1}\mid\mathbf{x}_{1})=\mathcal{N}(\mathbf{z}_{1}\mid \pmb{\mu}_{1},\mathbf{V}_{1})$を$(2.116)$の公式と$(C.7)$を用いて求める。 $$ p\left(\mathbf{z}_{1} \mid \mathbf{x}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid\left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1}\left\{\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \pmb{\mu}_{0}\right\}, \left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1}\right) $$ これより $$ \begin{aligned} \mathbf{V}_{1} &=\left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{P}_{0}-\mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{\Sigma}+\mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C P}_{0} \\ &=\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0} \end{aligned} $$ また、今求めた$\mathbf{V}_{1}$を用いて、 $$ \begin{aligned} \pmb{\mu}_{1} &=\mathbf{V}_{1}\left(\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \pmb{\mu}_{0}\right) \\ &=\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0}\left(\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \pmb{\mu}_{0}\right) \\ &=\pmb{\mu}_{0}-\mathbf{K}_{1} \mathbf{C} \pmb{\mu}_{0}+\mathbf{V}_{1} \mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{1} \\ &=\pmb{\mu}_{0}+\mathbf{K}_{1}\left(\mathbf{x}_{1}-\mathbf{C} \pmb{\mu}_{0}\right) \end{aligned} $$ この変形での$\mathbf{V}_{1} \mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1}$部分は $$ \begin{aligned} \mathbf{V}_{1} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1}=& \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1}-\mathbf{K}_{1} \mathbf{C} \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \\=& \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{I}-\left(\mathbf{\Sigma}+\mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right) \mathbf{\Sigma}^{-1} \\ =& \mathbf{P}_{0} \mathbf{C}^{\mathrm T}\left(\left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)^{-1}\left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)-\left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)^{-1} \mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right) \mathbf{\Sigma}^{-1} \\ =& \mathbf{P}_{0} \mathbf{C}^{\mathrm T}\left( \left(\mathbf{\Sigma}+\mathbf{CP}_{0} \mathbf{C}^{\mathrm T}\right)^{-1} \mathbf{\Sigma} \right) \mathbf{\Sigma}^{-1} \\ =& \mathbf{P}_{0} \mathbf{C}^{\mathrm{T}}\left(\mathbf{\Sigma}+\mathbf{C P}_{0} \mathbf{C}^{\mathrm{T}}\right)^{-1}=\mathbf{K}_{1} \end{aligned} $$ となることを利用した。 ## 演習 13.24 <div class="panel-primary"> 以下の式で表されるようなガウス平均の定数$\mathbf{a}$と$\mathbf{c}$を含んだ、 $$ p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A z}_{n-1}, \mathbf{\Gamma}\right) \tag{13.75} $$ $$ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\mathbf{\Sigma}}\right) \tag{13.76} $$ の一般化について考える. $$ p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) =\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}+\mathbf{a}, \boldsymbol{\Gamma}\right) \tag{13.127} $$ $$ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) =\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}+\mathbf{c}, \mathbf{\Sigma}\right) \tag{13.128} $$ 1に固定された付加的な項をもつ状態ベクトル$\mathbf{z}$を定義して、パラメータ$\mathbf{a}$と$\mathbf{c}$に対応した列を行列$\mathbf{A}$と$\mathbf{C}$に付け加えることにより、この拡張された式がこの章で議論した枠組みの中で説明できることを示せ。 </div> $$ \boldsymbol{\mu}_{0}^{\prime}=\left[\begin{array}{c}\boldsymbol{\mu}_{0} \\ 1\end{array}\right] \quad \mathbf{V}_{0}^{\prime}=\left[\begin{array}{ll}\mathbf{V}_{0} & \mathbf{0} \\ \mathbf{0} & 0\end{array}\right] \quad \boldsymbol{\Gamma}^{\prime}=\left[\begin{array}{ll}\mathbf{\Gamma} & \mathbf{0} \\ \mathbf{0} & 0\end{array}\right] $$ $$ \mathbf{A}^{\prime}=\left[\begin{array}{ll}\mathbf{A} & \mathbf{a} \\ \mathbf{0} & 1\end{array}\right] \quad \mathbf{C}^{\prime}=\left[\begin{array}{ll}\mathbf{C} & \mathbf{c}\end{array}\right] $$ に、各変数を置き換えると、1に固定された$\mathbf{z_n}$の付加項によって(13.127), (13.128)が実現できる。 このようにしてほとんどの枠組みが実現できるが、$\mathbf{z_n}$の付加項が分散0であるという事実が、分散の逆行列を考慮する場合にのみ効いてきて(式13.92など)、正しくは $$ \left(\mathbf{P}_{n-1}^{\prime}\right)^{-1}=\left[\begin{array}{cc}\mathbf{P}_{n-1}^{-1} & \mathbf{0} \\ \mathbf{0} & 0\end{array}\right] $$ のようにする必要がある。 ## 演習 13.25 <div class="panel-primary"> この演習問題では、カルマンフィル夕方程式が独立の観測に対し用いられたときに、それらが2.3節で与えた単一ガウス分布の最尤推定法の結果に帰着することを示そう。独立の観測値の集合$\left\{x_{1}, \ldots, x_{N}\right\}$が与えられたときに、単ーガウス分布に従う確率変数$x$の平均$\mu$を求める問題を考える。これをモデル化するために、 $$ p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A z}_{n-1}, \mathbf{\Gamma}\right) \tag{13.75} $$ $$ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right) \tag{13.76} $$ で支配される線形動的システムを使うことができる。ここで、潜在変数$\left\{z_{1}, \ldots, z_{N}\right\}$において、各々の観測が互いに独立なため、<s>Cは単位行列であり、遷移確率A=0</s>$\mathbf{C}=1,\mathbf{A}=1,\mathbf{\Gamma}=0$となる。最初の状態のパラメータ$\pmb{\mu}_{0}, \mathbf{P}_{0}$を、それぞれ$\mu_0, \sigma_{0}^2$と書くことにし、$\mathbf{\Sigma}$は$\sigma^2$になると考える。対応するカルマンフィル夕方程式を、一般的な結果 $$ \pmb{\mu}_{n} =\mathbf{A} \pmb{\mu}_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \pmb{\mu}_{n-1}\right) \tag{13.89} $$ $$ \mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90} $$ から出発し、 $$ \pmb{\mu}_{1} =\pmb{\mu}_{0}+\mathbf{K}_{1}\left(\mathbf{x}_{1}-\mathbf{C} \pmb{\mu}_{0}\right) \tag{13.94} $$ $$ \mathbf{V}_{1} =\left(\mathbf{I}-\mathbf{K}_{1} \mathbf{C}\right) \mathbf{P}_{0} \tag{13.95} $$ を用いて書き下せ。さらに、これが直接独立なデータを考えたときに得られる結果 $$ \mu_{N} =\frac{\sigma^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{N \sigma_{0}^{2}}{N \sigma_{0}^{2}+\sigma^{2}} \mu_{\mathrm{ML}} \tag{2.141} $$ $$ \frac{1}{\sigma_{N}^{2}} =\frac{1}{\sigma_{0}^{2}}+\frac{N}{\sigma^{2}} \tag{2.142} $$ と同一であることを示せ。 </div> ※ 問題文は誤っており、前提条件として$\mathbf{C}=1,\mathbf{A}=1,\mathbf{\Gamma}=0$となる。この上で問題を解く。 まず$\pmb{\mu}_{1}$と$\mathbf{V}_{1}$を求める。初期パラメータは$\pmb{\mu}_{0} = \mu_{0}$と$\mathbf{P}_{0} = \sigma_{0}^{2}$, $\mathbf{\Sigma} = \sigma^2$なので、$(13.97)$式は $$ K_{1}=\sigma_{0}^{2}\left(\sigma_{0}^{2}+\sigma^{2}\right)^{-1}=\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}} $$ となり、これを用いて$(13.94)(13.95)$の$\mu_{1}, \mathbf{V}_{1}$を求めると、 $$ \begin{aligned} \pmb{\mu}_{1} &=\mu_{0}+\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\left(x_{1}-\mu_{0}\right) \\ &=\frac{1}{\sigma_{0}^{2}+\sigma^{2}}\left(\sigma_{0}^{2} x_{1}+\sigma^{2} \mu_{0}\right) \end{aligned}\tag{A} $$ $$ \begin{aligned} \mathbf{V}_{1} &=\left(1-\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\right) \sigma_{0}^{2} \\ &=\frac{\sigma_{0}^{2} \sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}} \end{aligned}\tag{B} $$ となる。これらの結果を、まず$N=1$のときの$(2.141),(2.142)$式と比較する。$(2.143)$式で$\mu_{\textrm{ML}}$はサンプル平均$\displaystyle \mu_{\textrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}$と定義されていることに注意して $$ \begin{aligned} \mu_{1} &=\frac{\sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}} \mu_{0}+\frac{\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}} x_{1} \\ &=\frac{1}{\sigma_{0}^{2}+\sigma^{2}}\left(\sigma_{0}^{2} x_{1}+\sigma^{2} \mu_{0}\right) \\ \sigma_{1}^{2} &=1 /\left(\frac{1}{\sigma_{0}^{2}}+\frac{1}{\sigma^{2}}\right)=\frac{\sigma_{0}^{2} \sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}} \end{aligned} $$ より、$\pmb{\mu}_{1} = \mu_{1}$、$\mathbf{V}_{1} = \sigma_{1}^{2}$とすると同じであることがわかる。 そこで、誘導に従って任意の正の整数$N$について$\pmb{\mu}_{N} = \mu_{N}$、$\mathbf{V}_{N} = \sigma_{N}^{2}$が成立していると仮定する。ここで$\mu_{N}$と$\sigma_{N}^{2}$は$(2.141)(2.142)$の式である。数学的帰納法の考えに基づいて、$N+1$のときについて調べると、まず$(13.88)$式の定義から $$ \begin{aligned} \mathbf{P}_{N}&=\mathbf{AV}_{N} \mathbf{A}^{\mathrm{T}}+\mathbf{\Gamma} \\ &=\mathbf{V}_{N} = \sigma_{N}^{2}\\ \end{aligned} $$ が成り立つことに注意して、カルマン利得行列の定義$(13.92)$から $$ \begin{aligned} \mathbf{K}_{N+1}&=\mathbf{P}_{N} \mathbf{C}^{\mathrm{T}}\left(\mathbf{CP}_{N} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1} \\ &=\mathbf{P}_{N}(\mathbf{P}_{N} + \sigma^2)^{-1} \\ &=\frac{\sigma_{N}^{2}}{\sigma_{N}^{2} + \sigma^{2}} \end{aligned} $$ となるので、$(13.90)$に代入して$\mathbf{V}_{N+1}$を計算すると $$ \begin{aligned} \mathbf{V}_{N+1}&=\left(1-\frac{\sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}}\right) \sigma_{N}^{2} \\ &=\frac{\sigma^{2} \sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}} \\ &=\left(\frac{1}{\sigma_{N}^{2}}+\frac{1}{\sigma^{2}}\right)^{-1} \\ &=\left(\frac{1}{\sigma_{0}{ }^{2}}+\frac{N+1}{\sigma^{2}}\right)^{-1} \\ &=\frac{\sigma_{0}{ }^{2} \sigma^{2}}{(N+1) \sigma_{0}{ }^{2}+\sigma^{2}} \\ &=\sigma_{N+1}^{2} \end{aligned} $$ また$(13.89)$式への代入から $$ \begin{aligned} \pmb{\mu}_{N+1} &=\mu_{N}+\frac{\sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}}\left(x_{N+1}-\mu_{N}\right) \\ &=\frac{1}{\sigma_{N}^{2}+\sigma^{2}}\left(\sigma_{N}^{2} x_{N+1}+\sigma^{2} \mu_{N}\right) \\ &=\frac{\sigma_{N}^{2}}{\sigma_{N}^{2}+\sigma^{2}}\left(x_{N+1}+\frac{\sigma^{2}}{\sigma_{N}^{2}} \frac{\sigma^{2} \mu_{0}+\sigma_{0}^{2} \sum_{n=1}^{N} x_{n}}{N \sigma_{0}^{2}+\sigma^{2}}\right) \\ &=\frac{\sigma_{0}^{2}}{(N+1) \sigma_{0}^{2}+\sigma^{2}}\left(x_{N+1}+\frac{\sigma^{2}}{\sigma_{0}^{2}} \mu_{0}+\sum_{n=1}^{N} x_{n}\right) \quad (\because \mathbf{V}_{N+1} = \sigma_{N=1}^{2}の途中の式変形 )\\ &=\frac{\sigma^{2} \mu_{0}+(N+1) \sum_{n=1}^{N+1} x_{n}}{(N+1) \sigma_{0}^{2}+\sigma^{2}} \\ &=\mu_{N+1} \end{aligned} $$ が得られる。したがって、独立同分布の$N$個の1次元観測値$\left\{x_{1}, \ldots, x_{N}\right\}$が得られている場合のカルマンフィルタ方程式は、$(2.141),(2.142)$式と同型になることが示された。 ## 演習 13.26 <div class="panel-primary"> 13.3節の線形動的システムの特別な例について考える。この例は、確率的PCAと等価なものであり、したがって、遷移行列は$\mathbf{A}=\mathbf{0}$、共分散は$\mathbf{\Gamma}=\mathbf{I}$、ノイズの共分散は$\mathbf{\Sigma}=\sigma^2\mathbf{I}$である。行列の恒等式 $$ \left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \tag{C.7} $$ を用いることにより、出力密度行列$\mathbf{C}$を$\mathbf{W}$と書くとき、 $$ \mu_{n} =\mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \mu_{n-1}\right) \tag{13.89} $$ $$ \mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90} $$ で定義される隠れ状態の事後確率が、 $$ p(\mathbf{z} \mid \mathbf{x})=\mathcal{N}\left(\mathbf{z} \mid \mathbf{M}^{-1} \mathbf{W}^{\mathrm{T}}(\mathbf{x}-\boldsymbol{\mu}), \sigma^{2} \mathbf{M}^{-1}\right) \tag{12.42} $$ で$\boldsymbol{\mu}=\mathbf{0}$の仮定の下での確率的PCAのときの結果$(12.42)$と同じになることを示せ. </div> (13.88)式〜(13.92)式に$\mathbf{A}=\mathbf{O}$、$\mathbf{\Gamma}=\mathbf{I}$、$\mathbf{\Sigma}=\sigma^2\mathbf{I}$、$\mathbf{C}=\mathbf{W}$を代入して、 \begin{align} \mathbf{P}_{n-1} &= \mathbf{A}\mathbf{V}_{n-1}\mathbf{A}^{\rm T}+\boldsymbol\Gamma\tag{13.88}\\ &= \mathbf{I}\\ \mathbf{K}_n &= \mathbf{P}_{n-1}\mathbf{C}^{\rm T}(\mathbf{CP}_{n-1}\mathbf{C}^{\rm T}+\boldsymbol\Sigma)^{-1}\tag{13.92}\\ &= \mathbf{W}^{\rm T} (\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2 \mathbf{I})^{-1}\\ \mu_{n} &=\mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \mu_{n-1}\right)\tag{13.89}\\ &= \mathbf{W}^{\rm T} (\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2 \mathbf{I})^{-1}\mathbf{x}_{n}\\ &= \frac{1}{\sigma^2}\mathbf{W}^{\rm T} (\mathbf{I}+\frac{1}{\sigma^2} \mathbf{W}\mathbf{W}^{\rm T})^{-1}\mathbf{x}_{n}\\ &= \frac{1}{\sigma^2} (\mathbf{I}+ \mathbf{W}^{\rm T}\frac{1}{\sigma^2}\mathbf{W})^{-1}\mathbf{W}^{\rm T}\mathbf{x}_{n}\ \ \ \because {\rm (C.6)の恒等式}(\mathbf{I+AB)^{-1}A=A(I+BA)^{-1}}\\ &= (\sigma^2\mathbf{I}+ \mathbf{W}^{\rm T}\mathbf{W})^{-1}\mathbf{W}^{\rm T}\mathbf{x}_{n} \\ &= \mathbf{M}^{-1}\mathbf{W}^{\rm T}\mathbf{x}_{n} \\ \mathbf{V}_{n} &=\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \tag{13.90}\\ &= \mathbf{I}-\{ \mathbf{W}^{\rm T} (\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2 \mathbf{I})^{-1}\}\mathbf{W}\\ &= \left[ \mathbf{I}- \left( -\mathbf{W}^{\rm T}\right) \left\{ \mathbf{W}\mathbf{W}^{\rm T}+\sigma^2\mathbf{I} + \mathbf{W}\left(-\mathbf{W}^{\rm T}\right) \right\}^{-1} \mathbf{W} \right] ^{-1}\ \ \ \because {\rm (C.7)の恒等式}\left(\mathbf{A}+\mathbf{B D}^{-1} \mathbf{C}\right)^{-1}=\mathbf{A}^{-1}-\mathbf{A}^{-1} \mathbf{B}\left(\mathbf{D}+\mathbf{C A}^{-1} \mathbf{B}\right)^{-1} \mathbf{C A}^{-1} \\ &= \left( \mathbf{I} + \mathbf{W}^{\rm T} (\sigma^2)^{-1} \mathbf{W} \right)^{-1}\\ &= \sigma^2 \left( \sigma^2 \mathbf{I} + \mathbf{W}^{\rm T} \mathbf{W} \right)^{-1}\\ &= \sigma^2 \mathbf{M}^{-1} \end{align} ここで求めた$\mu_n$と$\mathbf{V}_n$は、(12.42)式にて$\mu=\mathbf{0}$とした場合の結果に一致する。 なお、$\mathbf{V}_n$の式変形でWoodburyの公式を適用するときの対応関係は、$\mathbf{A}=\mathbf{I}, \ \mathbf{B}=-\mathbf{W}^{\rm T},\ \mathbf{C}=\mathbf{W}, \ \mathbf{D}=\mathbf{WW}^{\rm T}+\sigma^2\mathbf{I}$である。 ## 演習 13.27 <div class="panel-primary"> 13.3節で議論した形式をもつ、ある線形動的システムについて考察する。このシステムは観測されるノイズの大きさがゼロであり、したがって$\mathbf{\Sigma}=\mathbf{0}$である。$\mathbf{C}=\mathbf{I}$のとき、$\mathbf{z}_{n}$の事後分布は、平均が$\mathbf{x}_{n}$となり、分散がゼロとなることを示せ。これは、もしノイズがなければ、過去のすべての観測を無視して現在の観測値$\mathbf{x}_{n}$を用いて状態変数$\mathbf{z}_{n}$を推定すればよいという我々の直感とつじつまが合う. </div> $\mathbf{z}_n$の事後分布は$\widehat{\alpha}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mu_{n}, \mathbf{V}_{n}\right)$で表されるので, $$ \mu_{n} =\mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \boldsymbol{\mu}_{n-1}\right)\tag{13.89} $$ $$ \mathbf{V}_{n} =\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}\tag{13.90} $$ $$ \mathbf{K}_{n}=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1}\tag{13.92} $$ に$\mathbf{\Sigma}=\mathbf{0}, \mathbf{C}=\mathbf{I}$を代入する.その結果$\mathbf{K}_n=\mathbf{I},\mathbf{V}_n=\mathbf{0},\mu_n=\mathbf{x}_n$が得られ,$\mathbf{z}_{n}$の事後分布は、平均が$\mathbf{x}_{n}$となることがわかる. ## 演習 13.28 <div class="panel-primary"> 13.3節の線形動的システムの特別な例について考える.この例では、状態変数$\mathbf{z}_n$は前の状態の状態変数と等しくなるよう制約されており、したがって、$\mathbf{A}=\mathbf{I}$であり、$\mathbf{\Gamma}=\mathbf{0}$である。簡単のために、さらに$\mathbf{C}=\mathbf{I}$と$\mathbf{P}_{0}\to \infty$を仮定する。この仮定により$\mathbf{z}$の初期条件は重要ではなくなり、予測値はデータのみから決定される。帰納法による証明を用いて、状態$\mathbf{z}_{n}$の事後平均が、$\mathbf{x}_{1},\ldots,\mathbf{x}_{n}$の平均で与えられることを示せ。このことは、もし状態変数が一定なら、最も良い推定値は観測値を平均することにより得られるという直感と一致する。 </div> 数学的帰納法により証明する.まずn=1のとき (13.75),(13.77)についてガウス分布の条件付き分布に対する一般的な性質(2.113)-(2.117)を適用し$\mathbf{P}_0\rightarrow\infty, \mathbf{C}=\mathbf{I}$を用いると $$ p\left(\mathbf{z}_{1} \mid \mathbf{x}_{1}\right)=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{1}, \mathbf{V}_{1}\right) $$ が得られる.ただし $$ \begin{aligned} \boldsymbol{\mu}_{1} &=\mathbf{V}_{1}\left(\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{x}_{1}+\mathbf{P}_{0}^{-1} \boldsymbol{\mu}_{0}\right)=\mathbf{x}_{1} \\ \mathbf{V}_{1} &=\left(\mathbf{P}_{0}^{-1}+\mathbf{C}^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} \mathbf{C}\right)^{-1}=\boldsymbol{\Sigma} \end{aligned} $$ である. いま$N$のとき $$ \begin{aligned} \boldsymbol{\mu}_{N} &=\overline{\mathbf{x}}_{N}=\frac{1}{N} \sum_{n=1}^{N} \mathbf{x}_{n} \\ \mathbf{V}_{N} &=\frac{1}{N} \boldsymbol{\Sigma} \end{aligned} $$ が成り立つと仮定する.また $$ \mathbf{P}_{n-1}=\mathbf{A} \mathbf{V}_{n-1} \mathbf{A}^{\mathrm{T}}+\Gamma\tag{13.88} $$ から$\mathbf{P}_{N}=\mathbf{V}_{N}=\frac{1}{N} \Sigma$が成り立つ. $\mathbf{C}=\mathbf{I}, \mathbf{\Gamma}=\mathbf{0}$と $$ \mathbf{K}_{n}=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{n-1} \mathbf{C}^{\mathrm{T}}+\boldsymbol{\Sigma}\right)^{-1}\tag{13.92} $$ を用いて$N+1$のとき $$ \begin{aligned} \mathbf{K}_{N+1} &=\mathbf{P}_{N} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C P}_{N} \mathbf{C}^{\mathrm{T}}+\boldsymbol{\Sigma}\right)^{-1} \\ &=\mathbf{P}_{N}\left(\mathbf{P}_{N}+\boldsymbol{\Sigma}\right)^{-1} \\ &=\frac{1}{N} \boldsymbol{\Sigma}\left(\frac{1}{N} \boldsymbol{\Sigma}+\boldsymbol{\Sigma}\right)^{-1} \\ &=\frac{1}{N} \boldsymbol{\Sigma}\left(\frac{N+1}{N} \boldsymbol{\Sigma}\right)^{-1} \\ &=\frac{1}{N+1} \mathbf{I} \end{aligned} $$ この結果を(13.89)と(13.90)に代入して $$ \begin{aligned} \boldsymbol{\mu}_{N+1} &=\mathbf{A} \mu_{N}+\mathbf{K}_{N+1}\left(\mathbf{x}_{N+1}-\mathbf{C A} \mu_{N}\right) \\ &=\boldsymbol{\mu}_{N}+\frac{1}{N+1}\left(\mathbf{x}_{N+1}-\boldsymbol{\mu}_{N}\right) \\ &=\overline{\mathbf{x}}_{N}+\frac{1}{N+1}\left(\mathbf{x}_{N+1}-\overline{\mathbf{x}}_{N}\right) \\ &=\frac{1}{N+1} \mathbf{x}_{N+1}+\left(1-\frac{1}{N+1}\right) \frac{1}{N} \sum_{n=1}^{N} \\ &=\frac{1}{N+1} \sum_{n=1}^{N+1} \mathbf{x}_{n}=\overline{\mathbf{x}}_{N+1} \\ \mathbf{V}_{N+1} &=\left(\mathbf{I}-\mathbf{K}_{N+1} \mathbf{C}\right) \mathbf{P}_{N} \\ &=\left(\mathbf{I}-\frac{1}{N+1} \mathbf{I}\right) \frac{1}{N} \boldsymbol{\Sigma} \\ &=\frac{1}{N+1} \boldsymbol{\Sigma} \end{aligned} $$ が成り立つ. 以上から$N+1$の場合でも$N$と同様の形式でかけるため全ての$N\geq 1$に対して成り立つ. ## 演習 13.29 <div class="panel-primary"> ガウシアン線形動的システムにおいて、バックワード再帰式 $$ c_{n+1} \widehat{\beta}\left(\mathbf{z}_{n}\right)=\int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}\right) p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} \tag{13.99} $$ から出発して、RTS平滑化方程式 $$ \widehat{\boldsymbol{\mu}}_{n}=\boldsymbol{\mu}_{n}+\mathbf{J}_{n}\left(\widehat{\mu}_{n+1}-\mathbf{A} \mu_{n}\right) \tag{13.100} $$ $$ \widehat{\mathbf{V}}_{n}=\mathbf{V}_{n}+\mathbf{J}_{n}\left(\widehat{\mathbf{V}}_{n+1}-\mathbf{P}_{n}\right) \mathbf{J}_{n}^{\mathrm{T}} \tag{13.101} $$ を導け. </div> (13.99)の両辺に$\widehat{\alpha}\left(\mathbf{z}_{n}\right)$をかけて$\gamma\left(\mathbf{z}_{n}\right)=\widehat{\alpha}\left(\mathbf{z}_{n}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\mu}_{n}, \widehat{\mathbf{V}}_{n}\right)$を用いると $$ c_{n+1} \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)=\widehat{\alpha}\left(\mathbf{z}_{n}\right) \int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}\right) p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}\right) \mathrm{d} \mathbf{z}_{n+1}\tag{1} $$ が得られる.また $$ p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A z}_{n-1}, \mathbf{\Gamma}\right) \tag{13.75} $$ と $$ \widehat{\alpha}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \mu_{n}, \mathbf{V}_{n}\right)\tag{13.84} $$ について(13.75)と(13.84)の辺々かけた式に対して (2.113)-(2.117)の議論, 『$\mathrm{x}$ の周辺ガウス分布と, $\mathrm{x}$ が与えられたときの $\mathrm{y}$ の条件付きガウス分布が次式で 与えられたとする. $$ p(\mathrm{x}) =\mathcal{N}\left(\mathrm{x} \mid \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1}\right)\tag{2.113} $$ $$ p(\mathbf{y} \mid \mathrm{x}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \mathbf{x}+\mathbf{b}, \mathbf{L}^{-1}\right)\tag{2.114} $$ $\mathrm{y}$ の周辺分布と , $\mathrm{y}$ が与えられたときの $\mathrm{x}$ の条件付き分布は $$ p(\mathbf{y}) =\mathcal{N}\left(\mathbf{y} \mid \mathbf{A} \boldsymbol{\mu}+\mathbf{b}, \mathbf{L}^{-1}+\mathbf{A} \mathbf{\Lambda}^{-1} \mathbf{A}^{\mathrm{T}}\right) \tag{2.115} $$ $$ p(\mathbf{x} \mid \mathbf{y}) =\mathcal{N}\left(\mathbf{x} \mid \boldsymbol{\Sigma}\left\{\mathbf{A}^{\mathrm{T}} \mathbf{L}(\mathbf{y}-\mathbf{b})+\boldsymbol{\Lambda} \boldsymbol{\mu}\right\}, \boldsymbol{\Sigma}\right)\tag{2.116} $$ で与えられる. ただし, $$ \Sigma=\left(\Lambda+\mathrm{A}^{\mathrm{T}} \mathbf{L} \mathbf{A}\right)^{-1}\tag{2.117} $$ である.』を適切に変数の対応をとり,$\mathbf{z}_n,\mathbf{z}_{n+1}$の同時分布について$\mathbf{z}_n$が与えられたときの$\mathbf{z}_{n+1}$と$\mathbf{z}_n$の積で表されていた形式をの同時分布について$\mathbf{z}_{n+1}$が与えられたときの$\mathbf{z}_{n}$と$\mathbf{z}_{n+1}$の積で表されていた形式に書き換えると $$ \begin{aligned} \widehat{\alpha}\left(\mathbf{z}_{n}\right) p\left(\mathbf{z}_{n+1} \mid \mathbf{z}_{n}\right) &=\mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n+1} \mid \mathbf{A} \mathbf{z}_{n}, \boldsymbol{\Gamma}\right) \\ &=\mathcal{N}\left(\mathbf{z}_{n+1} \mid \mathbf{A} \boldsymbol{\mu}_{n}, \mathbf{A} \mathbf{V}_{n} \mathbf{A}+\boldsymbol{\Gamma}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \end{aligned} $$ が得られる.ここで(2.116)に対応する形で$\mathbf{m}_n$は $$ \mathbf{m}_{n}=\mathbf{M}_{n}\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \mathbf{z}_{n+1}+\mathbf{V}_{n}^{-1} \boldsymbol{\mu}_{n}\right)\tag{2} $$ と表される.また(C.7)と(13.102) $\mathbf{J}_{n}=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{P}_{n}\right)^{-1}$の定義を用いて $$ \begin{aligned} \mathbf{M}_{n} &=\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \mathbf{A}+\mathbf{V}_{n}^{-1}\right)^{-1} \\ &=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\boldsymbol{\Gamma}+\mathbf{A} \mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\right)^{-1} \mathbf{A V}_{n} \\ &=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \\ &=\left(\mathbf{I}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A}\right) \mathbf{V}_{n} \\ &=\left(\mathbf{I}-\mathbf{J}_{n} \mathbf{A}\right) \mathbf{V}_{n} \end{aligned} $$ とかける. (1)の右辺において$\widehat{\alpha}\left(\mathbf{z}_{n}\right)$を積分の中に含め,$\mathbf{M}_n$についての結果を代入して(13.85)-(13.88)と(13.98)を用いて $$ \begin{aligned} c_{n+1} \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right) &=\int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) p\left(\mathbf{x}_{n+1} \mid \mathbf{z}_{n+1}\right) \mathcal{N}\left(\mathbf{z}_{n+1} \mid \mathbf{A} \boldsymbol{\mu}_{n}, \mathbf{P}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} & \\ &=\int \widehat{\beta}\left(\mathbf{z}_{n+1}\right) c_{n+1} \widehat{\alpha}\left(\mathbf{z}_{n+1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} \\ &=c_{n+1} \int \gamma\left(\mathbf{z}_{n+1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} \\ &=c_{n+1} \int \mathcal{N}\left(\mathbf{z}_{n+1} \mid \widehat{\boldsymbol{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{m}_{n}, \mathbf{M}_{n}\right) \mathrm{d} \mathbf{z}_{n+1} . \end{aligned} $$ したがって(2)と(2.113)-(2.115)を使って $$ \widehat{\boldsymbol{\mu}}_{n} =\mathbf{M}_{n}\left(\mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \widehat{\boldsymbol{\mu}}_{n+1}+\mathbf{V}_{n}^{-1} \boldsymbol{\mu}_{n}\right) \tag{3} $$ $$ \widehat{\mathbf{V}}_{n} =\mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \widehat{\mathbf{V}}_{n+1} \boldsymbol{\Gamma}^{-1} \mathbf{A} \mathbf{M}_{n}+\mathbf{M}_{n}\tag{4} $$ と書くことができる. また$\mathbf{M}_{n}$についての計算の途中で出てきた $$ \mathbf{M}_{n}=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} $$ と(13.102) $\mathbf{J}_{n}=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{P}_{n}\right)^{-1}$を使って $$ \begin{aligned} \mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} &=\left(\mathbf{V}_n-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n}\right) \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{I}-\mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\right) \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{I}-\mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}-\mathbf{P}_{n}^{-1} \boldsymbol{\Gamma}+\mathbf{P}_{n}^{-1} \boldsymbol{\Gamma}\right) \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}}\left(\mathbf{I}-\mathbf{P}_{n}^{-1} \mathbf{P}_{n}+\mathbf{P}_{n}^{-1} \boldsymbol{\Gamma}\right) \boldsymbol{\Gamma}^{-1} \\ &=\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1}=\mathbf{J}_{n} \end{aligned} $$ これらの結果から(3)を(13.100)のように書き換えることができる また(13.102), $\mathbf{M}_{n}=\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n}$ と$\mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1}=\mathbf{J}_{n}$を用いて(4)を $$ \begin{aligned} \widehat{\mathbf{V}}_{n} &=\mathbf{M}_{n} \mathbf{A}^{\mathrm{T}} \boldsymbol{\Gamma}^{-1} \widehat{\mathbf{V}}_{n+1} \boldsymbol{\Gamma}^{-1} \mathbf{A} \mathbf{M}_{n}+\mathbf{M}_{n} \\ &=\mathbf{J}_{n} \widehat{\mathbf{V}}_{n+1} \mathbf{J}_{n}^{\mathrm{T}}+\mathbf{V}_{n}-\mathbf{V}_{n} \mathbf{A}^{\mathrm{T}} \mathbf{P}_{n}^{-1} \mathbf{A} \mathbf{V}_{n} \\ &=\mathbf{V}_{n}+\mathbf{J}_{n}\left(\widehat{\mathbf{V}}_{n+1}-\mathbf{P}_{n}\right) \mathbf{J}_{n}^{\mathrm{T}} \end{aligned} $$ のようにして(13.101)の形に書き直すことができる. ## 演習 13.30 <div class="panel-primary"> 状態空間モデルの2つ組の事後周辺分布の結果 $$ \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)=\left(c_{n}\right)^{-1} \widehat{\alpha}\left(\mathbf{z}_{n-1}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right) \tag{13.65} $$ から出発して、ガウシアン線形動的システムの場合の特別な形式 $$ \begin{aligned} \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)&=\left(c_{n}\right)^{-1} \widehat{\alpha}\left(\mathbf{z}_{n-1}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right) \\ &=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \pmb{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C z}_{n}, \mathbf{\Sigma} \right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\pmb{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \widehat{\alpha}\left(\mathbf{z}_{n}\right)} \end{aligned} \tag{13.103} $$ を導け. </div> $(13.65)$式の導出は演習13.15を参照。 これに $$ \begin{aligned} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) &=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \Gamma\right)& (13.75) \\ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) &=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right)& (13.76) \\ \widehat{\alpha}\left(\mathbf{z}_{n-1}\right)&=\mathcal{N}\left(\mathbf{z}_{n-1} \mid \pmb{\mu}_{n-1}, \mathbf{V}_{n-1}\right) & (13.84) \\ \gamma\left(\mathbf{z}_{n}\right)&=\widehat{\alpha}\left(\mathbf{z}_{n}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\pmb{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right) & (13.98) \end{aligned} $$ を組み合わせれば $$ \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \pmb{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C z}_{n}, \mathbf{\Sigma} \right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\pmb{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \widehat{\alpha}\left(\mathbf{z}_{n}\right)} \tag{13.103} $$ が直接導出される。 ## 演習 13.31 <div class="panel-primary"> $$ \begin{aligned} \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)&=\left(c_{n}\right)^{-1} \widehat{\alpha}\left(\mathbf{z}_{n-1}\right) p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) \widehat{\beta}\left(\mathbf{z}_{n}\right) \\ &=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \pmb{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C z}_{n}, \mathbf{\Sigma}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\mu}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \widehat{\alpha}\left(\mathbf{z}_{n}\right)} \end{aligned} \tag{13.103} $$ の結果から出発し、 $$ \widehat{\alpha}\left(\mathbf{z}_{n}\right)=\mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right) \tag{13.84} $$ を用いて$\widehat{\alpha}\left(\mathbf{z}_{n}\right)$を置き換えることにより、$\mathbf{z}_{n}$と$\mathbf{z}_{n-1}$の間の共分散の結果 $$ \operatorname{cov}\left[\mathbf{z}_{n-1}, \mathbf{z}_{n}\right]=\mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n} \tag{13.104} $$ を確かめよ。 </div> $(2.115)-(2.117)$を使用すると $$ \begin{aligned} & \mathcal{N}\left(\mathbf{z}_{n-1} \mid \pmb{\mu}_{n-1}, \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \\ =& \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \pmb{\mu}_{n-1}, \mathbf{\Gamma}+\mathbf{A} \mathbf{V}_{n-1} \mathbf{A}^{\mathrm T}\right) \times \mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{Y}\left(\mathbf{A}^{\mathrm T} \mathbf{\Gamma}^{-1} \mathbf{z}_{n}+\mathbf{V}_{n-1}^{-1} \pmb{\mu}_{n-1}\right), \mathbf{Y}\right) \end{aligned} $$ となる。ただし、 $$ \begin{aligned} \mathbf{Y}&=\left(\mathbf{V}_{n-1}^{-1}+\mathbf{A}^{\mathrm{T}} \mathbf{\Gamma}^{-1} \mathbf{A}\right)^{-1} \\ &=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mu_{n-1}, \mathbf{P}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{J}_{n-1} \mathbf{z}_{n}+\left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \mu_{n-1},\left(\mathbf{I}-\mathbf{J}_{n-1} A\right) \mathbf{V}_{n-1}\right) \end{aligned} $$ である。上記式展開は(13.88)と $$ \begin{aligned} \mathbf{Y}&=\left(\mathbf{V}_{n-1}^{-1}+A^{\mathrm{T} } \Gamma^{-1} A\right)^{-1} \\ &=\mathbf{V}_{n-1}-\mathbf{V}_{n-1} A^{\mathrm{T} }\left(\Gamma+A \mathbf{V}_{n-1} A^{\mathrm{T} }\right)^{-1} A \mathbf{V}_{n-1}\quad(C.7) \\ &=\mathbf{V}_{n-1}-\mathbf{V}_{n-1} A^{\mathrm{T} } \mathbf{P}_{n-1}^{-1} A \mathbf{V}_{n-1}\quad(13.88) \\ &=\mathbf{V}_{n-1}-J_{n-1} A \mathbf{V}_{n-1}\quad(13.102) \\ &=\left(\mathbf{I}-J_{n-1} A\right) \mathbf{V}_{n-1} \end{aligned} $$ $$ \begin{aligned} \mathbf{Y}A^{\mathrm{T}} \Gamma^{-1} &=\left(\mathbf{V}_{n-1}^{-1}+A^{\mathrm{T}} \Gamma^{-1} A\right)^{-1} A^{\mathrm{T}} \Gamma^{-1} \\ &=\mathbf{V}_{n-1} A^{\mathrm{T}}\left(A \mathbf{V}_{n-1} A^{\mathrm{T}}+\Gamma\right)^{-1}\quad(C.5) \\ &=\mathbf{V}_{n-1} A^{\mathrm{T}} \mathbf{P}_{n-1}^{-1}\quad(13.88) \\ &=J_{n-1}\quad(13.102) \end{aligned} $$ を使用した。 さらにここで$(2.115)-(2.117)$を使用すると $$ \begin{aligned} &\ \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \pmb{\mu}_{n-1}, \mathbf{P}_{n-1}\right) \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right) \\ =&\ \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C A \mu _ { n - 1 }}, \mathbf{\Sigma}+\mathbf{C P _ { n - 1 }} \mathbf{C}^{\mathrm T}\right) \times \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{M}\left(\mathbf{C}^{\mathrm T} \mathbf{\Sigma}^{-1} \mathbf{x}_{n}+\mathbf{P}_{n-1}^{-1} \mathbf{A} \pmb{\mu}_{n-1}\right), \mathbf{M}\right) \end{aligned} $$ ただし、 $$ \begin{aligned} \mathbf{M}&=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{K}_{n} \mathbf{x}_{n}+\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \mathbf{P}_{n-1}^{-1} \mathbf{A} \mu_{n-1},\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}\right)\quad(13.91) \\ &=c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mu_{n-1}+\mathbf{K}_{n}\left(\mathbf{x}_{n}-\mathbf{C A} \mu_{n-1}\right),\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1}\right) \\ &=c_{n} \mathcal{N}\left(\mathbf{z}_{n} \mid \boldsymbol{\mu}_{n}, \mathbf{V}_{n}\right)\quad(13.89)、(13.90) \\ &=c_{n} \hat{\alpha}\left(\mathbf{z}_{n}\right) \end{aligned} $$ 上記1行目の式は $$ \begin{aligned} \mathbf{M} &=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \\ &=\mathbf{P}_{n-1}-\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{\Sigma}+\mathbf{C} \mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\right)^{-1} \mathbf{C} \mathbf{P}_{n-1} \quad(C.7) \\ &=\mathbf{P}_{n-1}-\mathbf{K}_{n} \mathbf{C} \mathbf{P}_{n-1}\quad(13.92) \\ &=\left(\mathbf{I}-\mathbf{K}_{n} \mathbf{C}\right) \mathbf{P}_{n-1} \\ \mathbf{M} \mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1}&=\left(\mathbf{P}_{n-1}^{-1}+\mathbf{C}^{\mathrm{T}} \mathbf{\Sigma}^{-1} \mathbf{C}\right)^{-1} \mathbf{C}^{T} \mathbf{\Sigma}^{-1} \\ &=\mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}\left(\mathbf{C} \mathbf{P}_{n-1} \mathbf{C}^{\mathrm{T}}+\mathbf{\Sigma}\right)^{-1}\quad(C.5) \\ &=\mathbf{K}_{n}\quad(13.92) \end{aligned} $$ これらを$(13.103)$に入れると $$ \begin{aligned} \xi\left(\mathbf{z}_{n-1}, \mathbf{z}_{n}\right)&=\frac{\mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{J}_{n-1} \mathbf{z}_{n}+\left(\mathbf{\mathbf{I}}-\mathbf{J}_{n-1} \mathbf{A}\right) \pmb{\mu}_{n-1},\left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \mathbf{V}_{n-1}\right) c_{n} \hat{\alpha}\left(\mathbf{z}_{n}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\pmb{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)}{c_{n} \hat{\alpha}\left(\mathbf{z}_{n}\right)} \\ &=\mathcal{N}\left(\mathbf{z}_{n-1} \mid \mathbf{J}_{n-1} \mathbf{z}_{n}+\left(\mathbf{\mathbf{I}}-\mathbf{J}_{n-1} \mathbf{A}\right) \pmb{\mu}_{n-1},\left(\mathbf{\mathbf{I}}-\mathbf{J}_{n-1} \mathbf{A}\right) \mathbf{V}_{n-1}\right) \mathcal{N}\left(\mathbf{z}_{n} \mid \widehat{\pmb{\mu}}_{n}, \widehat{\mathbf{V}}_{n}\right)\quad(13.103)^{\prime} \end{aligned} $$ を得る。 $(13.103)^{\prime}$の右辺は線形ガウスモデルの周辺分布と条件分布の積になっているので2.3.3節より$\mathbf{z}_{n-1}$と$\mathbf{z}_{n}$の同時分布はガウス分布で$(2.108)$より平均は $$ \begin{aligned} \mathbf{E}\left[\left(\begin{array}{c} \mathbf{z}_{n} \\ \mathbf{z}_{n-1} \end{array}\right)\right] &=\left(\begin{array}{c} \widehat{\pmb{\mu}}_{n} \\ \mathbf{J}_{n-1} \widehat{\pmb{\mu}}_{n}+\left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \pmb{\mu}_{n-1} \end{array}\right) \\ &=\left(\begin{array}{c} \widehat{\pmb{\mu}}_{n} \\ \pmb{\mu}_{n-1}+\mathbf{J}_{n-1}\left(\widehat{\pmb{\mu}}_{n}-\mathbf{A} \pmb{\mu}_{n-1}\right) \end{array}\right) \\ &=\left(\begin{array}{c} \widehat{\pmb{\mu}}_{n} \\ \widehat{\pmb{\mu}}_{n-1} \end{array}\right)\quad(13.100) \end{aligned} $$ となる。$(2.105)$より$\mathbf{z}_{n-1}$と$\mathbf{z}_{n}$の同時分布の共分散分布は $$ \operatorname{cov}\left[\left(\begin{array}{l} \mathbf{z}_{n} \\ \mathbf{z}_{n-1} \end{array}\right)\right]=\left(\begin{array}{cc} \widehat{\mathbf{V}}_{n} & \widehat{\mathbf{V}}_{n} \mathbf{J}_{n-1}^{\mathrm T} \\ \mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n} & \left(\mathbf{I}-\mathbf{J}_{n-1} \mathbf{A}\right) \mathbf{V}_{n-1}+\mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n} \mathbf{J}_{n-1}^{\mathrm T} \end{array}\right) $$ となる。$(2.78)$より、$\mathbf{z}_{n-1}$と$\mathbf{z}_{n}$の共分散は2行1列の要素になるので $$ \operatorname{cov}\left[\mathbf{z}_{n-1}, \mathbf{z}_{n}\right]=\mathbf{J}_{n-1} \widehat{\mathbf{V}}_{n}\tag{13.104} $$ を得る。 ## 演習 13.32 <div class="panel-primary"> 線形動的システムにおける$\boldsymbol{\mu}_{0}$と$\mathbf{P}_{0}$に対するMステップの方程式の結果 $$ \boldsymbol{\mu}_{0}^{\text{new}}=\mathbb{E}\left[\mathbf{z}_{1}\right] \tag{13.110} $$ $$ \mathbf{P}_{0}^{\text{new}}=\mathbb{E}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-\mathbb{E}\left[\mathbf{z}_{1}\right] \mathbb{E}\left[\mathbf{z}_{1}^{\mathrm{T}}\right] \tag{13.111} $$ を確かめよ. </div> 状態空間モデルの同時分布は $$ p\left(\mathbf{x}_{1}, \ldots, \mathbf{x}_{N}, \mathbf{z}_{1}, \ldots, \mathbf{z}_{N}\right)=p\left(\mathbf{z}_{1}\right)\left[\prod_{n=2}^{N} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right)\right] \prod_{n=1}^{N} p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) \tag{13.6} $$ 線形動的システム(LDS)を導入すると、$(13.75)(13.76)(13.77)$より $$ \begin{aligned} p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}\right) &=\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A} \mathbf{z}_{n-1}, \mathbf{\Gamma}\right) \\ p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}\right) &=\mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{C} \mathbf{z}_{n}, \mathbf{\Sigma}\right) \\ p\left(\mathbf{z}_{1}\right)&=\mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right) \end{aligned} $$ となる。P.361より完全データの対数尤度関数は、$(13.6)$の対数をとって $$ \begin{aligned} \ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})=& \ln p\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right)+\sum_{n=2}^{N} \ln p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{A}, \mathbf{\Gamma}\right) \\ &+\sum_{n=1}^{N} \ln p\left(\mathbf{x}_{n} \mid \mathbf{z}_{n}, \mathbf{C}, \mathbf{\Sigma}\right) \end{aligned} \tag{13.108} $$ 次に事後分布について $$ Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text {old}}\right)=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}[\ln p(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})] \tag{13.109} $$ これに代入すると $$ \begin{aligned} Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text {old}}\right)&=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\ln \mathcal{N}\left(\mathbf{z}_{1} \mid \boldsymbol{\mu}_{0}, \mathbf{P}_{0}\right)+\sum_{n=2}^{N} \ln \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{A}{\mathbf{z}_{n-1}}, \mathbf{\Gamma}\right)+\sum_{n=1}^{N} \ln \mathcal{N}\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right)\right] \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\frac{1}{2} \ln \left|\mathbf{P}_{0}\right|-\frac{1}{2}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm T} \mathbf{P}_{0}^{-1}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\right]+\text { const. } \end{aligned} $$ ここで$\boldsymbol{\mu}_{0}$あるいは$\mathbf{P}_{0}$に依存しないすべての項はconst.項に吸収させている。 これを$\boldsymbol{\mu}_{0}$について最大化すると $$ \begin{aligned} \frac{\partial Q}{\partial \boldsymbol{\mu}_{0}}&=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\frac{1}{2} \cdot-2 \mathbf{P}_{0}^{-1}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\right]\\ &=\mathbf{P}_{0}^{-1}\left(\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[ \mathbf{z}_{1} \right]-\boldsymbol{\mu}_{0}\right)=0\\ \boldsymbol{\mu}_{0}^{\text {new}}&=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[ \mathbf{z}_{1} \right] \end{aligned} $$ $\mathbf{P}_{0}$について最大化すると $$ \frac{\partial Q}{\partial \mathbf{P}_{0}}=-\frac{1}{2}\left[\mathbf{P}_{0}^{-\mathrm{T}}+\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[-\mathbf{P}_{0}^{-\mathrm{T}}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}} \mathbf{P}_{0}^{-\mathrm{T}}\right]\right] =0 $$ $$ \begin{aligned} \left(\mathbf{P}^{\textrm{new}}_{0}\right)^{-\mathrm{T}} &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\left(\mathbf{P}^{\textrm{new}}_{0}\right)^{-\mathrm{T}}\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}} \left(\mathbf{P}^{\textrm{new}}_{0}\right)^{-\mathrm{T}}\right] \\ \mathbf{P}^{\textrm{new}}_{0} &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)\left(\mathbf{z}_{1}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}\right] \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-2 \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \boldsymbol{\mu}_{0}^{\mathrm{T}}+\boldsymbol{\mu}_{0} \boldsymbol{\mu}_{0}^{\mathrm{T}} \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-2 \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right]^{\mathrm{T}}+\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right]^{\mathrm{T}}\\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1} \mathbf{z}_{1}^{\mathrm{T}}\right]-\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right] \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\mathbf{z}_{1}\right]^{\mathrm{T}} \end{aligned} $$ ## 演習 13.33 <div class="panel-primary"> 線形動的システムにおける$\mathbf{A}$と$\mathbf{\Gamma}$に対するMステップの方程式の結果 $$ \mathbf{A}^{\text{new}}=\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)^{-1} \tag{13.113} $$ $$ \begin{aligned} \mathbf{\Gamma}^{\text {new}}=&\frac{1}{N-1} \sum_{n=2}^{N}\left\{\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]-\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n}^{\mathrm{T}}\right]\right. \\ & \left. -\ \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.114} $$ を確かめよ. </div> 演習13.32の$Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text{old}}\right)$のうち、$\mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{Az}_{n-1}, \mathbf{\Gamma}\right)$に関係する項のみを抜き出して $$ \begin{aligned} Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text{old}}\right) &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N} \ln \mathcal{N}\left(\mathbf{z}_{n} \mid \mathbf{Az}_{n-1}, \mathbf{\Gamma}\right)\right]+\text{ const.} \\ &=\mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N}\left\{-\frac{1}{2} \ln |\mathbf{\Gamma}|-\frac{1}{2}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)^{\mathrm T} \mathbf{\Gamma}^{-1}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)\right\}\right]+\text{ const.} \end{aligned} $$ $\mathbf{A}$について $$ \begin{aligned} \frac{\partial Q}{\partial \mathbf{A}} &=-\frac{1}{2} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N} \frac{\partial}{\partial \mathbf{A}}\left[\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)^{\mathrm T} \mathbf{\Gamma}^{-1}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right)\right]\right] \\ &=-\frac{1}{2} \mathbb{E}_{\mathbf{Z} \mid \boldsymbol{\theta}^{\text{old}}}\left[\sum_{n=2}^{N}\left(-2 \mathbf{\Gamma}^{-1}\left(\mathbf{z}_{n}-\mathbf{Az}_{n-1}\right) \mathbf{z}_{n-1}^{\mathrm T}\right)\right] \\ &=\sum_{n=2}^{N} \mathbf{\Gamma}^{-1} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm T}\right]-\sum_{n=2}^{N} \mathbf{\Gamma}^{-1} \mathbf{A} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm T}\right] \end{aligned} $$ 最大化するために$\frac{\partial Q}{\partial \mathbf{A}} =0$として $$ \sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm T}\right] = \sum_{n=2}^{N} \mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm T}\right] $$ $$ \mathbf{A}^{\text{new}}=\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)\left(\sum_{n=2}^{N} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\right)^{-1} \tag{13.113} $$ 同様に$\mathbf{\Gamma}$について $$ \frac{\partial Q}{\partial \mathbf{\Gamma}}=-\frac{1}{2} \sum_{n=2}^{N}\left[\mathbf{\Gamma}^{-\mathrm T}+\mathbb{E}\left[-\mathbf{\Gamma}^{-\mathrm T}\left(\mathbf{z}_{n}-\mathbf{A} \mathbf{z}_{n-1}\right)\left(\mathbf{z}_{n}-\mathbf{A} \mathbf{z}_{n-1}\right)^{\mathrm T} \mathbf{\Gamma}^{-\mathrm T}\right]\right]=0 $$ 最大化するために$\frac{\partial Q}{\partial \mathbf{\Gamma}}=0$として $$ \begin{aligned} \sum_{n=2}^{N}\left(\mathbf{\Gamma}^{\text{new}}\right)^{-\mathrm{T}} &=\sum_{n=2}^{N} \mathbb{E}\left[\left(\mathbf{\Gamma}^{\text{new}}\right)^{-\mathrm{T}}\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)^{\mathrm T}\left(\mathbf{\Gamma}^{\text{new}}\right)^{-\mathrm{T}}\right] \\ \sum_{n=2}^{N} \mathbf{\Gamma}^{\text{new}} &=\sum_{n=2}^{N} \mathbb{E}\left[\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)\left(\mathbf{z}_{n}-\mathbf{A}^{\text{new}} \mathbf{z}_{n-1}\right)^{\mathrm T}\right] \\ (N-1) \mathbf{\Gamma}^{\text{new}}&=\sum_{n=2}^{N}\left\{\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm T}\right]-\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n}^{\mathrm T}\right]-\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm T}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm T}+\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm T}\right] \mathbf{A}^{\text{new}}\right\} \end{aligned} $$ $$ \begin{aligned} \mathbf{\Gamma}^{\text {new}}=&\frac{1}{N-1} \sum_{n=2}^{N}\left\{\mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]-\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n}^{\mathrm{T}}\right]\right. \\ & \left. -\ \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{A}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n-1} \mathbf{z}_{n-1}^{\mathrm{T}}\right]\left(\mathbf{A}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.114} $$ ## 演習 13.34 <div class="panel-primary"> 線形動的システムにおける$\mathbf{C}$と$\mathbf{\Sigma}$に対するMステップの方程式の結果 $$ \mathbf{C}^{\text{new}} = \left(\sum_{n=1}^{N} \mathbf{x}_{n} \mathbb{E}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\right)\left(\sum_{n=1}^{N} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\right)^{-1} \tag{13.115} $$ $$ \begin{aligned} \mathbf{\Sigma}^{\text{new}} = & \frac{1}{N} \sum_{n=1}^{N}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm{T}}-\mathbf{C}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n}\right] \mathbf{x}_{n}^{\mathrm{T}}\right.\\ &\left.-\mathbf{x}_{n} \mathbb{E}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{C}^{\text{new}} \mathbb{E}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.116} $$ を確かめよ. </div> 演習13.32の$Q\left(\pmb{\theta}, \pmb{\theta}^{\text{old}}\right)$と同様、$\mathbf{C}$と$\mathbf{\Sigma}$についての項を抜き出す。 $$ \begin{aligned} Q\left(\pmb{\theta}, \pmb{\theta}^{\text{old}}\right) &=\mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\sum_{n=1}^{N} \ln N\left(\mathbf{x}_{n} \mid \mathbf{Cz}_{n}, \mathbf{\Sigma}\right)\right]+\text { const.} \\ &=\mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\sum_{n=1}^{N}\left(-\frac{1}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2}\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)\right)\right]+\text { const.} \end{aligned} $$ $\mathbf{C}$について、これは演習13.33の$\mathbf{A}^{\textrm{new}}$についての変形とほぼ同様に $$ \frac{\partial Q}{\partial \mathbf{C}}=\sum_{n=1}^{N} \mathbf{\Sigma}^{-1} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{x}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]-\sum_{n=1}^{N} \mathbf{\Sigma}^{-1} \mathbf{C} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right] $$ $\frac{\partial Q}{\partial \mathbf{C}}=0$として $$ \mathbf{C}^{\textrm{new}} \sum_{n=1}^{N} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{x}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]=\sum_{n=1}^{N} \mathbf{x}_{n} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n}^{\mathrm{T}}\right] $$ $$ \mathbf{C}^{\text{new}} = \left(\sum_{n=1}^{N} \mathbf{x}_{n} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\right)\left(\sum_{n=1}^{N} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\right)^{-1} \tag{13.115} $$ 同様に$\mathbf{\Sigma}$について $$ \frac{\partial Q}{\partial \mathbf{\Sigma}}=-\frac{1}{2} \sum_{n=1}^{N}\left[\mathbf{\Sigma}^{-\mathrm{T}}+\mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[-\mathbf{\Sigma}^{-\mathrm{T}}\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)\left(\mathbf{x}_{n}-\mathbf{Cz}_{n}\right)^{\mathrm{T}} \mathbf{\Sigma}^{-\mathrm{T}}\right]\right] $$ $\frac{\partial Q}{\partial \mathbf{\Sigma}}=0$として $$ \sum_{n=1}^{N}\left( \mathbf{\Sigma}^{\textrm{new}} \right)^{-\mathrm{T}}=\sum_{n=1}^{N} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\left(\mathbf{\Sigma}^{\textrm{new}}\right)^{-\mathrm{T}}\left(\mathbf{x}_{n}-\mathbf{C}^{\textrm{new}}\mathbf{z}_{n}\right)\left(\mathbf{x}_{n}-\mathbf{C}^{\textrm{new}}\mathbf{z}_{n}\right)^{\mathrm{T}}\left(\mathbf{\Sigma}^{\textrm{new}}\right)^{-\mathrm{T}}\right] $$ $$ \begin{aligned} \mathbf{\Sigma}^{\text{new}} = & \frac{1}{N} \sum_{n=1}^{N}\left\{\mathbf{x}_{n} \mathbf{x}_{n}^{\mathrm{T}}-\mathbf{C}^{\text{new}} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n}\right] \mathbf{x}_{n}^{\mathrm{T}}\right.\\ &\left.-\mathbf{x}_{n} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}+\mathbf{C}^{\text{new}} \mathbb{E}_{\mathbf{Z} \mid \pmb{\theta}^{\text{old}}}\left[\mathbf{z}_{n} \mathbf{z}_{n}^{\mathrm{T}}\right]\left(\mathbf{C}^{\text{new}}\right)^{\mathrm{T}}\right\} \end{aligned} \tag{13.116} $$