# 連続情報論 $\newcommand{\bx}{\mathbf{x}} \newcommand{\bz}{\mathbf{z}} \newcommand{\muz}{\mu_{\mathbf{z}}} \newcommand{\sigz}{\Sigma_{\mathbf{z}}} \newcommand{\sigxz}{\Sigma_{\mathbf{x}|\mathbf{z}}} \newcommand{\bm}[1]{\mathbf{#1}}$ ## (1) ### 補題A ### 問題 \begin{align*} p(\bz) &= \mathcal{N}(\muz, \sigz ) \\ p(\bx|\bz) &= \mathcal{N}(F\bz, \sigxz) \end{align*} ならば \begin{align*} p(\bx) = \mathcal{N}(F\muz, F\sigz F^T + \sigxz) \end{align*} であることを示せ ### 解答群 補題Aの証明 $\bz$の次元を$n$として \begin{align*} p(\bz) &= \frac{1}{\sqrt{{(2\pi)}^n |\sigz |}}\exp{\left(-\frac{1}{2}{(\bz-\muz)}^T\sigz ^{-1}(\bz-\muz)\right)} \\ p(\bx|\bz) &= \frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\exp{\left(-\frac{1}{2}{(\bx-F{\bz})}^T\sigxz^{-1}(\bx-F{\bz})\right)} \end{align*} より, \begin{align*} p(\bx) &= \int_{\bz}p(\bx|\bz)p(\bz)d\bz \\ &=\int_{\bz}\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}}\exp{\left(-\frac{1}{2}{(\bz-\muz)}^T\sigz ^{-1}(\bz-\muz)-\frac{1}{2}{(\bx-F{\bz})}^T\sigxz^{-1}(\bx-F{\bz})\right)}d\bz \\ &=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\ &\int_{\bz}\exp{\left(-\frac{1}{2}\left(\bz^T(\sigz ^{-1} + F^T\sigxz^{-1}F)\bz - 2(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)\bz + \muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx \right)\right)}d\bz \\ &=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\ &\exp\left({-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)}\right)\int_{\bz}\exp{\left(-\frac{1}{2}\left(\bz^T(\sigz ^{-1} + F^T\sigxz^{-1}F)\bz - 2(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)\bz \right)\right)}d\bz \\ &=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\ &\exp\left({-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)}\right)\sqrt{\frac{{(2\pi)}^n}{|(\sigz ^{-1} + F^T\sigxz^{-1}F)|}} \\ &\exp{\left(\frac{1}{2}(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F){(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1}{(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)}^T\right)} \\ &=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\ &\exp\left({-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)}\right)\sqrt{\frac{{(2\pi)}^n}{|(\sigz ^{-1} + F^T\sigxz^{-1}F)|}} \\ &\exp{\left(\frac{1}{2}(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)(\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ){(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)}^T\right)} \end{align*} なお,式変形には多変数のガウス積分 \begin{align*} \int\exp{\left(-\frac{1}{2}\bx^{T}A\bx + \mathbf{b}^T\bx\right)}d\bx = \sqrt{\frac{{(2\pi)}^{\dim{\bx}}}{|A|}}\exp{\left(\frac{1}{2}\mathbf{b}^{T}A^{-1}\mathbf{b}\right)} \end{align*} を用いた. $\exp$の指数の中身を考えると \begin{align*} &{-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)} \\ &+ \left(\frac{1}{2}(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)(\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ){(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)}^T\right) \\ &=-\frac{1}{2}\bx^T(\sigxz^{-1}-\sigxz^{-1}F{(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1}F^T\sigxz^{-1})\bx \\ &+ \frac{1}{2}(2\muz^T\sigz ^{-1}({(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1})F^T\sigxz^{-1}\bx \\ &- \frac{1}{2}(\muz^T\sigz ^{-1} \muz - \muz^T\sigz ^{-1}(\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz )\sigz ^{-1}\muz) \\ &=-\frac{1}{2}\bx^T({(\sigxz + F\sigz F^T)}^{-1})\bx \\ &+ \frac{1}{2}(2(\muz^T - \muz^TF^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ))F^T\sigxz^{-1}\bx \\ &- \frac{1}{2}(\muz^T\sigz ^{-1} \muz - (\muz^T\sigz ^{-1}\muz - \muz^TF^T{({\sigxz} + F\sigz F^T)}^{-1}F\muz)) \\ &=-\frac{1}{2}{(\bx-F\muz)}^T{(F\sigz F^T + \sigxz)}^{-1}(\bx-F\muz) \end{align*} 式変形にはSherman-Morrison-Woodburyの公式 \begin{align*} {(A + BCD)}^{-1} = A^{-1} - A^{-1}B{(C^{-1} + DA^{-1}B)}^{-1}DA^{-1} \end{align*} より \begin{align*} {(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1} &= (\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ) \\ {(\sigxz + F\sigz F^T)}^{-1} &= \sigxz^{-1} - \sigxz^{-1}F{(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1}F^T\sigxz^{-1} \end{align*} を用いた. 係数については, \begin{align*} \frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}}\sqrt{\frac{{(2\pi)}^n}{|(\sigz ^{-1} + F^T\sigxz^{-1}F)|}} &= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz||\sigz (\sigz ^{-1} + F^T\sigxz^{-1}F)|}} \\ &= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz||(I_n + \sigz F^T\sigxz^{-1}F)|}} \\ &= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz||(I_m + \sigxz^{-1}F^T\sigz F)|}} \\ &= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz + F^T\sigz F|}} \\ \end{align*} また, \begin{align*} \mathcal{N}(F\muz, F\sigz F^T + \sigxz) = \frac{1}{\sqrt{{(2\pi)}^m |F\sigz F^T + \sigxz|}}\exp{\left\{-\frac{1}{2}{(\bx-F\muz)}^T{(F\sigz F^T + \sigxz)}^{-1}(\bx-F\muz)\right\}} \end{align*} となり一致するので, \begin{align*} p(\bx) = \mathcal{N}(F\muz, F\sigz F^T + \sigxz) \end{align*} ### 最後の行列式計算 [Weinstein–-Aronszajn identity](https://en.wikipedia.org/wiki/Weinstein%E2%80%93Aronszajn_identity): $|I_m + AB| = |I_n + BA|$より, \begin{align*} |\sigxz||I_n + \sigz F^T \cdot \sigxz^{-1} F|&=|\sigxz||I_m + \sigxz^{-1} F \cdot \sigz F^T|\\ &=|\sigxz + F \sigz F^T|. \end{align*} ちなみに Aronszajn はポーランド人で,「アロンシャイン」と発音するらしい. <!-- ### 再計算 --> <!-- ここで平方完成: $\bz^T A \bz - 2\mathbf{c}^T\bz = (\bz - A^{-1} \mathbf{c})^TA(\bz - A^{-1} \mathbf{c}) -\mathbf{c}^TA^{-1}\mathbf{c}$ して,$\bz$ と関係のある項だけを exp の中に入れて積分すると, \begin{align*} & \int_Z\exp\left[-\frac{1}{2}(\bz - A^{-1} \mathbf{c})^TA(\bz - A^{-1} \mathbf{c})\right]\,d\bz\\ &=\sqrt{(2\pi)^n|A^{-1}|}\int_Z \mathcal{N}(\bz; A^{-1}\mathbf{c},A^{-1})\,d\bz\\ &=\sqrt{(2\pi)^n|A^{-1}|} \quad(\because\,\mbox{確率の総和は1}) \end{align*} となるから, \begin{align*} p(\bx) &= \int_Z p(\bz)p(\bx|\bz)\,d\bz \\ &=\frac{1}{\sqrt{{(2\pi)}^{m+n} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}|}} \int_Z\exp\left[ -\frac{1}{2}\left((\bz - A^{-1} \mathbf{c})^TA(\bz - A^{-1} \mathbf{c}) -\mathbf{c}^TA^{-1}\mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx\right)\right] d\bz\\ &=\frac{\sqrt{(2\pi)^n |A^{-1}|}}{\sqrt{{(2\pi)}^{m+n} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}|}} \cdot \exp \left[-\frac{1}{2}\left( - \mathbf{c}^T A^{-1} \mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx\right)\right] \\ &=\frac{1}{\sqrt{{(2\pi)}^{m} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}A|}}\\ &\cdot \exp\left[-\frac{1}{2}\left( -\left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right) A^{-1} \left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right)^T + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \right) \right] \end{align*} ここで,exp の中身を -2 倍したものを取り出して計算する. \begin{align*} -&\left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right) A^{-1} \left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right)^T + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \\ &= -\muz^T\sigz^{-1}A^{-1}\sigz^{-1}\muz -2\muz^T\sigz^{-1}A^{-1}F^T\sigxz^{-1}\bx -\bx^T \sigxz^{-1} FA^{-1}F^T \sigxz^{-1}\bx+\muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx\\ &= \bx^T \underbrace{\left( \sigxz^{-1} - \sigxz^{-1} FA^{-1}F^T \sigxz^{-1} \right)}_{B}\bx -2\underbrace{\muz^T\sigz^{-1}A^{-1}F^T\sigxz^{-1}}_{\mathbf{d}^T}\bx +\muz^T\left( \sigz^{-1}-\sigz^{-1}A^{-1}\sigz^{-1} \right)\muz^T\\ &= (\bx - B^{-1}\mathbf{d})^TB(\bx-B^{-1}\mathbf{d})-\mathbf{d}^TB^{-1}\mathbf{d}+\muz^T\left( \sigz^{-1}-\sigz^{-1}A^{-1}\sigz^{-1} \right)\muz^T \end{align*} よって, \begin{align*} p(\bx) &= \frac{1}{\sqrt{{(2\pi)}^{m} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}A|}} \exp\left[ -\frac{1}{2}(\bx - B^{-1}\mathbf{d})^TB(\bx-B^{-1}\mathbf{d}) \right]\\ &\cdot \underbrace{\exp\left[ -\frac{1}{2} \left(-\mathbf{d}^TB^{-1}\mathbf{d}+\muz^T\left( \sigz^{-1}-\sigz^{-1}A^{-1}\sigz^{-1} \right)\muz^T\right) \right]}_{\bx とは無関係} \end{align*} ここまで進めたが,合っている保証はない……. たぶん式の形的に $$ B^{-1}\mathbf{d} = F\muz,\quad B = F\sigz F^T + \sigxz $$ になるはずだが,外が明るくなってきたので寝る($\mathbf{d} = BF\muz$になってくれればいいが……). --> ### 補足: 特性関数を使った解法 特性関数($\mathbb{E}[\exp [i\mathbf{t}^\top \mathbf{x}]$)を用いると以下のように計算できる: \begin{align*} \varphi_{\bm{x}}(\bm{t}) &:= \int_X \exp [ i \bm{t}^\top \bm{x} ] p(\bm{x})\, d\bm{x} \nonumber \\ &= \int_X \exp [ i \bm{t}^\top \bm{x} ] \left( \int_Z p(\bm{x} | \bm{z}) p(\bm{z}) \,d\bm{z} \right)\, d\bm{x}\\ &=\int_Z p(\bm{z}) \left(\vphantom{\int}\right.\hspace{-.2em}% \int_X \exp [ i \bm{t}^\top \bm{x} ]% \hspace{-.8em}\underbrace{p(\bm{x} | \bm{z})}_{N\left(F \boldsymbol{z}, \Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)} \hspace{-.8em}% d\bm{x} \hspace{-.2em}\left.\vphantom{\int}\right)\, d\bm{z} \\ &= \int_Z p(\bm{z}) \exp\left[ i \bm{t}^\top F \bm{z} - \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right]\, d\bm{z} \\ % &= \exp\left[ - \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right] \int_Z \overbrace{N\left(\boldsymbol{\mu}_{z}, \Sigma_{z}\right)}^{p(\bm{z})}% \exp\left[ i (F^\top \bm{t})^\top \bm{z}\right]\, d\bm{z} \\ % &= \exp\left[ - \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right]% \varphi\left( F^\top \bm{t}; \boldsymbol{\mu}_{z}, \Sigma_{z} \right) \\ % &=\exp\left[\left(- \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right) + \left( i(F^\top \bm{t})^\top \bm{\mu}_z - \frac{1}{2} (F^\top \bm{t})^\top \Sigma_z F^\top \bm{t} \right) \right] \\ % &=\exp\left[ i \bm{t}^\top F\bm{\mu}_z - \frac{1}{2} \bm{t}^\top (F \Sigma_z F+ \Sigma_{\bm{x} | \bm{z}})\bm{t} \right] \end{align*} これは$\mathcal{N}(F \mu_z,\,F\sigz F^\top + \sigxz)$の特性関数と一致し,しかも特性関数と確率分布は1対1に対応するので, $$ p(\bx) = \mathcal{N}(F \mu_z,\,F\sigz F^\top + \sigxz) $$ とわかる. ※ $\mathcal{N}(\mu, \Sigma)$ に対応する特性関数$\varphi(\mathbf{t})$は,$\varphi(\mathbf{t}) = \exp \left[ i \mathbf{t}^\top \mu - \dfrac{1}{2} \mathbf{t}^\top \Sigma \mathbf{t} \right]$. ## 補題B $\renewcommand{\boldsymbol}[1]{\mathbf{#1}}$ ### 問題 $p(\boldsymbol{z})=N\left(\boldsymbol{\mu}_{z}, \Sigma_{z}\right), p(\boldsymbol{x} | \boldsymbol{z})=N\left(F \boldsymbol{z}, \Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)$ならば, $$ \begin{aligned} p(\boldsymbol{z} | \boldsymbol{x}) &= N\left(\boldsymbol{\mu}_{\boldsymbol{z} | \boldsymbol{x}}, \Sigma_{\boldsymbol{z} | \boldsymbol{x}}\right) \\ \boldsymbol{\mu}_{\boldsymbol{z} | \boldsymbol{x}} &= \boldsymbol{\mu}_{z}+\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1}\left(\boldsymbol{x}-F \boldsymbol{\mu}_{z}\right) \\ \Sigma_{\boldsymbol{z} | \boldsymbol{x}} &= \Sigma_{z}-\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1} F \Sigma_{z} \end{aligned} $$ ### 解答 #### 準備(平方完成) $\mathbf{z}$の次元を$n$,$\mathbf{x}|\mathbf{z}$の次元を$m$とすると, \begin{align*} p(\mathbf{z}) &= \frac{1}{\sqrt{{(2\pi)}^n |\Sigma_{\mathbf{z}}|}}\exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})\right)} \\ p(\mathbf{x}|\mathbf{z}) &= \frac{1}{\sqrt{{(2\pi)}^m |\Sigma_{\mathbf{x}|\mathbf{z}}|}}\exp{\left(-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)} \end{align*} より, $$ p(\mathbf{z}) p(\mathbf{x}|\mathbf{z}) = \frac{1}{\sqrt{{(2\pi)}^{m+n} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}|}}\exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)} $$ exp の中身を$-2$倍したやつをみると, \begin{align*} &{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}}) +{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\\ &={(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}}) +{({\mathbf{z}}-F^{-1}\mathbf{x})}^T F^T \Sigma_{\mathbf{x}|\mathbf{z}}^{-1}F\,({\mathbf{z}}-F^{-1}\mathbf{x})\\ &=% \left[ \bz^T\sigz^{-1} \bz -2\muz^T \sigz^{-1} \bz + \muz^T\sigz^{-1}\muz \right]% +\left[ \bz^T F^T\sigxz^{-1}F\bz -2% (F^{-1}\bx)^T F^T\sigxz^{-1} F \bz +% \bx^T \sigxz^{-1} \bx \right]\\ % &=\bz^T \underbrace{\left( \sigz^{-1} + F^T\sigxz^{-1}F \right)}_{A}\bz% -2\underbrace{\left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right)}_{\mathbf{c}^T}\bz% +\muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \end{align*} #### $p(\bz|\bx)$ の計算 Bayes の定理から $$ p(\bz | \bx) = \frac{p(\bx | \bz)p(\bz)}{\int_Z p(\bx | \bz)p(\bz) \,d\bz} $$ で,上の平方完成の結果を用いると,$A=\sigz^{-1} + F^T \sigxz^{-1} F,\, \mathbf{c} = \sigz^{-1} \muz + F^T \sigxz^{-1} \bx$とおいて, \begin{align*} p(\bz | \bx) &= \frac{\exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)}}{\int_Z \exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)}\,d\bz}\\[8pt] &= \frac{\exp\left(-\frac{1}{2}\left( (\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c}) - \mathbf{c}^TA^{-1} \mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \right)\right)}{\int_Z \exp\left( -\frac{1}{2}\left( (\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c}) - \mathbf{c}^TA^{-1} \mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \right)\right)\, d\bz} \\[8pt] &= \frac{\exp\left(-\frac{1}{2}\left((\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c})\right)\right)}{\int_Z \exp\left( -\frac{1}{2}\left( (\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c})\right)\right)\,d\bz} \\[8pt] &= \frac{1}{\sqrt{(2\pi)^n |A^{-1}|}}\,\exp\left(-\frac{1}{2}\left((\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c})\right)\right) \end{align*} よって,$\mu_{\mathbf{z}|\mathbf{x}} = A^{-1} \mathbf{c},\,\Sigma_{\mathbf{z}|\mathbf{x}} = A^{-1}$となる. 実際に計算する.$A^{-1}$を Woodbury の公式で求めると, $$ (\sigz^{-1} + F^T \sigxz^{-1} F)^{-1} = \sigz - \sigz F^T (\sigxz + F\sigz F^T)^{-1}F\sigz $$ となるから,$\Sigma_{\bm{z}|\bm{x}} = \sigz - \sigz F^T (\sigxz + F\sigz F^T)^{-1}F\sigz$. \begin{align*} A^{-1} \mathbf{c}&=\left(\sigz - \sigz F^\top (\sigxz + F\sigz F^\top)^{-1} F\sigz \right)\left( \sigz^{-1} \muz + F^\top \sigxz^{-1} \bx \right)\\ &= \muz + \sigz F^\top \sigxz^{-1} \bx -\sigz F^\top(\sigxz + F\sigz F^\top)^{-1}% \left( F\muz + F\sigz F^\top \sigxz^{-1} \bx \right)\\ &= \muz + \sigz F^\top \sigxz^{-1} \bx -\sigz F^\top(\sigxz + F\sigz F^\top)^{-1}% \left(F\muz -\bx + (\sigxz + F\sigz F^\top) \sigxz^{-1} \bx\right)\\ &= \muz + \sigz F^\top \sigxz^{-1} \bx -\sigz F^\top(\sigxz + F\sigz F^\top)^{-1}% \left(F\muz -\bx\right) - \sigz F^\top \sigxz^{-1} \bx \\ &= \muz + \sigz F^\top(\sigxz + F\sigz F^\top)^{-1}% \left(\bx - F\muz\right) \end{align*} となるから,$\mu_{\mathbf{z}|\mathbf{x}} = \muz + \sigz F^\top(\sigxz + F\sigz F^\top)^{-1}% \left(\bx - F\muz\right)$. ## (2) ### 問題 $\newcommand{\xt}{\mathbf{x_t}} \newcommand{\xtl}{\mathbf{x_{t+l}}} \newcommand{\xtt}{\mathbf{x_{t|t}}} \newcommand{\xtT}{\mathbf{x_{t|T}}} \newcommand{\xtlT}{\mathbf{x_{t+1|T}}} \newcommand{\xtlt}{\mathbf{x_{t+1|t}}} \newcommand{\xtT}{\mathbf{x_{t|T}}} \newcommand{\ylT}{\mathbf{y_{l:T}}} \newcommand{\ylt}{\mathbf{y_{l:t}}} \newcommand{\vtl}{\mathbf{v_{t+1}}} \newcommand{\Vtt}{V_{t|t}} \newcommand{\VtT}{V_{t|T}} \newcommand{\VtlT}{V_{t+1|T}} \newcommand{\Vtlt}{V_{t+1|t}} \newcommand{\Ftl}{F_{t+1}} \newcommand{\Qtl}{Q_{t+1}}$ 固定区間平滑化の式 \begin{align*} p(\xt|\ylT) = p(\xt|\ylt)\int \frac{p(\xtl|\xt)p(\xtl|\ylT)}{p(\xtl|\ylt)}d\xtl \end{align*} に \begin{align*} p(\xt|\ylt) &= \mathcal{N}(\xtt, \Vtt) \\ p(\xtl|\ylT) &= \mathcal{N}(\xtlT, \VtlT) \\ p(\xtl|\xt, \vtl) &= \mathcal{N}(\Ftl\xt+\vtl, \epsilon^2 I) \\ p(\vtl) &= \mathcal{N}(\mathbf{0}, \Qtl) \end{align*} を代入することにより,次のカルマンフィルタにおける固定区間平滑化アルゴリズムを導け. \begin{align*} \xtT &= \xtt + A_t(\xtlT-\xtlt) \\ \VtT &= \Vtt + A_t(\VtlT-\Vtlt)A_t^T \\ A_t &= \Vtt\Ftl^T\Vtlt^{-1} \end{align*} ### 解答 \begin{align*} p(\xtl|\xt) &= \int p(\xtl|\xt, \vtl)p(\vtl)d\vtl \\ &= \int \mathcal{N}(\Ftl\xt+\vtl, \epsilon^2 I)\mathcal{N}(\mathbf{0}, \Qtl)d\vtl \\ &= \mathcal{N}(\Ftl\xt, \Qtl+\epsilon^2 I) \end{align*} <!-- &= \int\frac{1}{\sqrt{{(2\pi)}^{n}|\epsilon^2 I|}}\exp\left({(\xtl - (\Ftl\xt+\vtl))}^T\epsilon^2 I(\xtl - (\Ftl\xt+\vtl))\right) \\ &\frac{1}{\sqrt{{(2\pi)}^{m}|\Qtl|}}\exp\left({\vtl^T\Qtl\vtl}\right)d\vtl \\ &= \int\frac{\epsilon^2}{\sqrt{{(2\pi)}^{(n+m)}\epsilon^{2n}|\Qtl|}} \\ &\exp\left({\vtl^T(I+\Qtl)\vtl-2(\xtl - \Ftl\xt)\vtl+{(\xtl - \Ftl\xt)}^T(\xtl-\Ftl\xt)}\right) \\ &= \frac{\epsilon^2}{\sqrt{{(2\pi)}^{(n+m)}\epsilon^{2n}|\Qtl|}} \exp\left({{(\xtl - \Ftl\xt)}^T(\xtl-\Ftl\xt)}\right) \\ &\sqrt{\frac{{(2\pi)}^n}{|I+\Qtl|}}\exp\left({\frac{1}{2}(\xtl - \Ftl\xt){(I+\Qtl)}^{-1}{(\xtl - \Ftl\xt)}}^T\right) --> マルコフ性より, $p(\xtl|\xt, \ylt) = p(\xtl|\xt)$であるから, 補題Bより $p(\mathbf{x_t})=N\left(\xtt, \Vtt\right), p(\mathbf{x_{t+1}} | \mathbf{x_t})=N\left(\Ftl \mathbf{x_t}, {(\Qtl+\epsilon^2 I)}\right)$ならば, \begin{align*} p(\mathbf{x_t} | \mathbf{x_{t+1}}) &= N\left(\boldsymbol{\mu}_{\mathbf{x_t} | \mathbf{x_{t+1}}}, \Sigma_{\mathbf{x_t} | \mathbf{x_{t+1}}}\right) \\ \boldsymbol{\mu}_{\mathbf{x_t} | \mathbf{x_{t+1}}} &= \xtt+\Vtt \Ftl^{\top}\left(\Ftl \Vtt \Ftl^{\top}+{(\Qtl+\epsilon^2 I)}\right)^{-1}\left(\mathbf{x_{t+1}}-\Ftl \xtt\right) \\ &= \xtt+\Vtt \Ftl^{\top}\left(\Vtlt + \epsilon^2\ I\right)^{-1}\left(\mathbf{x_{t+1}}-\xtlt\right) \\ \Sigma_{\mathbf{x_t} | \mathbf{x_{t+1}}} &= \Vtt-\Vtt \Ftl^{\top}\left(\Ftl \Vtt \Ftl^{\top}+{(\Qtl+\epsilon^2 I)}\right)^{-1} \Ftl \Vtt \\ &= \Vtt-\Vtt \Ftl^{\top}\left(\Vtlt+\epsilon^2 I\right)^{-1} \Ftl \Vtt \\ \end{align*} \begin{align*} p(\xt|\ylT) &= p(\xt|\ylt)\int \frac{p(\xtl|\xt)p(\xtl|\ylT)}{p(\xtl|\ylt)}d\xtl \\ \end{align*} よって, \begin{align*} p(\xt|\ylT) = \int p(\xt|\xtl,\ylt)p(\xtl|\ylT)d\xtl \end{align*} よって,補題Aより \begin{align*} \xt|\ylT ~ \mathcal{N}(\xtT, \VtT) \end{align*} \begin{align*} \xtT &= \xtt + \Vtt\Ftl^T\Vtlt^{-1}(\xtlT-\xtlt) \\ \VtT &= \Vtt\Ftl^T\Vtlt^{-1}\VtlT\Vtlt^{-1}\Ftl\Vtt+\Vtt-\Vtt\Ftl^T\Vtlt^{-1}\Ftl\Vtt \\ &= \Vtt + \Vtt\Ftl^T\Vtlt^{-1}(\VtlT-\Vtlt)\Vtlt^{-1}\Ftl\Vtt \end{align*} ここで,$A=\Vtt\Ftl^T\Vtlt^{-1}$ とすると題意が導かれる. ### 解答2 倒したのでシェアしておく(使えないコマンドとかがいろいろあったので,ところどころ追いにくいかも……) $\newcommand{\Norm}{\mathcal{N}} \newcommand{\by}{\bm{y}} \newcommand{\bv}{\bm{v}} \newcommand{\bt}{\bm{t}} \newcommand{\equref}[1]{式(\ref{#1})}$ \begin{equation} p\left(\bx_{t} | \by_{1 : T}\right)=p\left(\bx_{t} | \by_{1 : t}\right) \int \frac{p\left(\bx_{t+1} | \bx_{t}\right) p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} d \bx_{t+1} \end{equation} に, \begin{align} p\left(\boldsymbol{x}_{t} | \boldsymbol{y}_{1 : t}\right) &= \Norm \left(\boldsymbol{x}_{t | t}, V_{t | t}\right) \\ p\left(\boldsymbol{x}_{t+1} | \boldsymbol{y}_{1 : T}\right) &=\Norm \left(\boldsymbol{x}_{t+1 | T}, V_{t+1 | T}\right) \\ p\left(\boldsymbol{x}_{t+1} | \boldsymbol{x}_{t}, \boldsymbol{v}_{t+1}\right) &=\Norm \left(F_{t+1} \boldsymbol{x}_{t}+\boldsymbol{v}_{t+1}, \epsilon^{2} I\right) \\ p\left(\boldsymbol{v}_{t+1}\right) &=\Norm \left(\bm{0}, Q_{t+1}\right) \end{align} を代入する. 確率分布$\Norm (\mu,\,\Sigma)$に$\bx$が従うことを明示的に$\Norm (\bx;\,\mu,\,\Sigma)$と書くことにすると, \begin{align*} p(\bx_{t+1} | \bx_t ,\, \bv_{t+1}) &= \Norm (\bx_{t+1};\,F_{t+1} \bx_t + \bv_{t+1} ,\,\varepsilon^2 I) \\ &= \Norm (\bx_{t+1} - \,F_{t+1} \bx_t ; \,\bv_{t+1} ,\,\varepsilon^2 I). \end{align*} これと$p\left(\boldsymbol{v}_{t+1}\right)$の条件式について補題Aを適用すると, \begin{align} p(\bx_{t+1} - \,F_{t+1} \bx_t) &= \Norm(\bx_{t+1} - \,F_{t+1} \bx_t ;\, \bm{0},\, Q_{t+1} + \varepsilon ^2 I) \nonumber \\ \therefore \,\,p(\bx_{t+1} | \bx_t) &= \Norm(F_{t+1} \bx_t,\, Q_{t+1} + \varepsilon ^2 I). \end{align} ところで,今回のモデルにおいて,時刻$t$における状態$\bx_{t}$は,直前の状態$\bx_{t-1}$のみに,観測結果$\by_{t}$は現在の状態$\bx_{t}$のみに依存するものと仮定する(Markov 性).したがって, $$ p(\bx_t | \bx_{1:t-1},\, \by_{1:t-1} ) = p(\bx_t | \bx_{t-1}),\quad p(\by_t | \bx_{1:t},\, \by_{1:t-1} ) = p(\by_t | \bx_t). $$ を満たすものと仮定する.このとき, $$ p(\bx_t | \bx_{t+1},\, \by_{1:T}) = p(\bx_t | \bx_{t+1},\, \by_{1:t}). $$ が成立する.なぜなら,Bayes の定理および Markov 性より, \begin{align*} p(\bx_{t} | \bx_{t+1},\,\by_{1:T}) &= p({\bx_{t}} | \bx_{t+1},\,\by_{1:t},\,{\by_{t+1:T}}) \\ &= \frac{p({\by_{t+1:T}} | {\bx_{t}},\, \bx_{t+1},\, \by_{1:t} ) p({\bx_{t}} | \bx_{t+1},\, \by_{1:t} ) }% {p({\by_{t+1:T}} | \bx_{t+1},\, \by_{1:t} )} \tag{$\because$ Bayes の定理}\\ &= \frac{{p({\by_{t+1:T}} | \bx_{t+1},\, \by_{1:t} )}\, p({\bx_{t}} | \bx_{t+1},\, \by_{1:t} ) }% {{p({\by_{t+1:T}} | \bx_{t+1},\, \by_{1:t} )}} \tag{$\because$ Markov 性}\\ &= p(\bx_t | \bx_{t+1},\, \by_{1:t}). \end{align*} となるからである. ここで Markov 性より,$\bx_{t+1}$は$\by_1,\cdots, \by_t$に依存しないので, $$ p(\bx_{t+1} | \bx_t) = p(\bx_{t+1} | \bx_t , \by_{1:t}) $$ が成立することに注意すると,与式の積分の中身は \begin{align*} \frac{p\left(\bx_{t+1} | \bx_{t}\right) p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} &= % \frac{p\left(\bx_{t+1} | \bx_{t} \right) p\left(\bx_{t} | \by_{1 : t}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} \cdot \frac{p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t} | \by_{1 : t}\right)} \\ &= \frac{p\left({\bx_{t+1}} | {\bx_{t}}, \by_{1:t}\right) p\left({\bx_{t}} | \by_{1 : t}\right)}{p\left({\bx_{t+1}} | \by_{1 : t}\right)} \cdot \frac{p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t} | \by_{1 : t}\right)} \\ &= p\left({\bx_{t}} | {\bx_{t+1}}, \by_{1:t}\right)\cdot \frac{p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t} | \by_{1 : t}\right)} \tag{$\because$ Bayes の定理} \end{align*} となる.ここで $p_{\by_{1 : t}} (-) := p( - | \by_{1 : t})$ と略記すると, $$ p\left(\bx_{t} | \bx_{t+1}, \by_{1:t}\right) = \frac{p\left(\bx_{t+1} | \bx_{t} \right) p\left(\bx_{t} | \by_{1 : t}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} % \left( =\frac{p_{\by_{1 : t}}\left(\bx_{t+1} | \bx_{t}\right) p_{\by_{1 : t}} \left(\bx_{t}\right)}{\int p_{\by_{1 : t}}\left(\bx_{t+1} | \bx_{t} \right) p_{\by_{1 : t}}\left(\bx_{t}\right)\,d\bx _t} \right) $$ と書ける. 補題Bを適用すると, \begin{align*} \Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1} % &= V_{t|t} F_{t+1}^\top \left( F_{t+1} V_{t|t} F_{t+1}^\top + Q_{t+1} + \varepsilon^2 I \right)^{-1} \\ &= V_{t|t} F_{t+1}^\top \left( V_{t+1|t} + \varepsilon^2 I \right)^{-1} \\ &\to V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1}. \end{align*} 最後は$\varepsilon \to 0$の極限を取った.2番目の等号は,一期先予測を求める式\footnote{第2回 (2019年4月24日) 講義資料 p.27 参照}より, \begin{equation} \begin{aligned} \boldsymbol{x}_{t+1 | t} &=F_{t+1} \boldsymbol{x}_{t | t} \\ V_{t+1 | t} &=F_{t+1} V_{t | t} F_{t+1}^{\top}+Q_{t+1} \end{aligned} \end{equation} であることを用いた.よって,$p_{\by_{1 : t}} (\bx_{t} | \bx_{t+1}) = \Norm (\tilde{\bm{\mu}},\,\tilde{\Sigma})$とおくと, \begin{align*} \tilde{\bm{\mu}} &= \boldsymbol{\mu}_{z}+\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1}\left(\boldsymbol{x}-F \boldsymbol{\mu}_{z}\right) \\ &= \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - F_{t+1} \bx_{t|t} ) \\ &= \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - \bx_{t+1|t} ) \end{align*} \begin{align*} \tilde{\Sigma} &= \Sigma_{z}-\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1} F \Sigma_z \\ &= V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} F_{t+1} V_{t|t} \end{align*} となる.ここで$p(\bx_t | \bx_{t+1}, \by_{1:T}) = p_{\by_{1 : t}}(\bx_t | \bx_{t+1}) = \Norm (\tilde{\bm{\mu}},\,\tilde{\Sigma})$であるから, \begin{align} % p(\bx_t | \bx_{t+1}, \by_{1:T}) = \Norm\left(% % \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - \bx_{t+1|t} ),% % V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} F_{t+1} V_{t|t}% % \right) p(\bx_t | \bx_{t+1}, \by_{1:T}) &= \Norm (\bx_t;\,\bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - \bx_{t+1|t} ),\,\tilde{\Sigma}) \\ &= \Norm (\underbrace{\bx_t - \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t}}_{\tilde{\bx}}; V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1},\,\tilde{\Sigma})\\ &= p(\tilde{\bx} | \bx_{t+1}, \by_{1:T}) \end{align} と書ける.上式より,$p(\tilde{\bx} | \bx_{t+1}, \by_{1:T})$と$p( \bx_{t+1}| \by_{1:T})$が既知であるから,補題Aを適用すると, \begin{align*} p(\tilde{\bx} | \by_{1:T}) % &= p(\bx_t {- \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t}} | \by_{1:T}) \\ &= \Norm( V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|T},% V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + \tilde{\Sigma}) \\ \therefore p(\bx_t | \by_{1:T}) &= \Norm( {\bm{x}_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t}} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|T}, \\ &V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + \tilde{\Sigma}). \end{align*} したがって,$p(\bx_t|\by_{1:T}) = \Norm (\bx_{t|T},\,V_{t|T})$とおくと, \begin{align*} \bx_{t|T} &= \bm{x}_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|T} \\ &= \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1|T} - \bx_{t+1|t}),\\ V_{t|T} &= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + \tilde{\Sigma} \\ &= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} F_{t+1} V_{t|t} \\ &= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} {V_{t+1|t}}\underbrace{{V_{t+1|t}^{-1}} F_{t+1} V_{t|t}}_{(V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top} \\ &= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (V_{t+1|T} - V_{t+1|t}) (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + V_{t|t}. \end{align*} 最後に,$A_t = V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1}$とおくと,以下のようにまとめられる: \begin{align*} \bx_{t|T} &= \bx_{t|t} + A_t (\bx_{t+1|T} - \bx_{t+1|t}), \\ V_{t|T} &= V_{t|t} + A_t (V_{t+1|T} - V_{t+1|t}) A_t^\top. \end{align*}