# 連続情報論
$\newcommand{\bx}{\mathbf{x}}
\newcommand{\bz}{\mathbf{z}}
\newcommand{\muz}{\mu_{\mathbf{z}}}
\newcommand{\sigz}{\Sigma_{\mathbf{z}}}
\newcommand{\sigxz}{\Sigma_{\mathbf{x}|\mathbf{z}}}
\newcommand{\bm}[1]{\mathbf{#1}}$
## (1)
### 補題A
### 問題
\begin{align*}
p(\bz) &= \mathcal{N}(\muz, \sigz ) \\
p(\bx|\bz) &= \mathcal{N}(F\bz, \sigxz)
\end{align*}
ならば
\begin{align*}
p(\bx) = \mathcal{N}(F\muz, F\sigz F^T + \sigxz)
\end{align*}
であることを示せ
### 解答群
補題Aの証明
$\bz$の次元を$n$として
\begin{align*}
p(\bz) &= \frac{1}{\sqrt{{(2\pi)}^n |\sigz |}}\exp{\left(-\frac{1}{2}{(\bz-\muz)}^T\sigz ^{-1}(\bz-\muz)\right)} \\
p(\bx|\bz) &= \frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\exp{\left(-\frac{1}{2}{(\bx-F{\bz})}^T\sigxz^{-1}(\bx-F{\bz})\right)}
\end{align*}
より,
\begin{align*}
p(\bx) &= \int_{\bz}p(\bx|\bz)p(\bz)d\bz \\
&=\int_{\bz}\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}}\exp{\left(-\frac{1}{2}{(\bz-\muz)}^T\sigz ^{-1}(\bz-\muz)-\frac{1}{2}{(\bx-F{\bz})}^T\sigxz^{-1}(\bx-F{\bz})\right)}d\bz \\
&=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\
&\int_{\bz}\exp{\left(-\frac{1}{2}\left(\bz^T(\sigz ^{-1} + F^T\sigxz^{-1}F)\bz - 2(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)\bz + \muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx
\right)\right)}d\bz \\
&=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\
&\exp\left({-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)}\right)\int_{\bz}\exp{\left(-\frac{1}{2}\left(\bz^T(\sigz ^{-1} + F^T\sigxz^{-1}F)\bz - 2(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)\bz
\right)\right)}d\bz \\
&=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\
&\exp\left({-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)}\right)\sqrt{\frac{{(2\pi)}^n}{|(\sigz ^{-1} + F^T\sigxz^{-1}F)|}} \\
&\exp{\left(\frac{1}{2}(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F){(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1}{(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)}^T\right)} \\
&=\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}} \\
&\exp\left({-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)}\right)\sqrt{\frac{{(2\pi)}^n}{|(\sigz ^{-1} + F^T\sigxz^{-1}F)|}} \\
&\exp{\left(\frac{1}{2}(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)(\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ){(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)}^T\right)}
\end{align*}
なお,式変形には多変数のガウス積分
\begin{align*}
\int\exp{\left(-\frac{1}{2}\bx^{T}A\bx + \mathbf{b}^T\bx\right)}d\bx = \sqrt{\frac{{(2\pi)}^{\dim{\bx}}}{|A|}}\exp{\left(\frac{1}{2}\mathbf{b}^{T}A^{-1}\mathbf{b}\right)}
\end{align*}
を用いた.
$\exp$の指数の中身を考えると
\begin{align*}
&{-\frac{1}{2}\left(\muz^T\sigz ^{-1} \muz + \bx^T\sigxz^{-1}\bx\right)} \\
&+ \left(\frac{1}{2}(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)(\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ){(\muz^T\sigz ^{-1} + \bx^T\sigxz^{-1}F)}^T\right) \\
&=-\frac{1}{2}\bx^T(\sigxz^{-1}-\sigxz^{-1}F{(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1}F^T\sigxz^{-1})\bx \\
&+ \frac{1}{2}(2\muz^T\sigz ^{-1}({(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1})F^T\sigxz^{-1}\bx \\
&- \frac{1}{2}(\muz^T\sigz ^{-1} \muz - \muz^T\sigz ^{-1}(\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz )\sigz ^{-1}\muz) \\
&=-\frac{1}{2}\bx^T({(\sigxz + F\sigz F^T)}^{-1})\bx \\
&+ \frac{1}{2}(2(\muz^T - \muz^TF^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ))F^T\sigxz^{-1}\bx \\
&- \frac{1}{2}(\muz^T\sigz ^{-1} \muz - (\muz^T\sigz ^{-1}\muz - \muz^TF^T{({\sigxz} + F\sigz F^T)}^{-1}F\muz)) \\
&=-\frac{1}{2}{(\bx-F\muz)}^T{(F\sigz F^T + \sigxz)}^{-1}(\bx-F\muz)
\end{align*}
式変形にはSherman-Morrison-Woodburyの公式
\begin{align*}
{(A + BCD)}^{-1} = A^{-1} - A^{-1}B{(C^{-1} + DA^{-1}B)}^{-1}DA^{-1}
\end{align*}
より
\begin{align*}
{(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1} &= (\sigz - \sigz F^T{({\sigxz} + F\sigz F^T)}^{-1}F\sigz ) \\
{(\sigxz + F\sigz F^T)}^{-1} &= \sigxz^{-1} - \sigxz^{-1}F{(\sigz ^{-1} + F^T\sigxz^{-1}F)}^{-1}F^T\sigxz^{-1}
\end{align*}
を用いた.
係数については,
\begin{align*}
\frac{1}{\sqrt{{(2\pi)}^m |\sigxz|}}\frac{1}{\sqrt{{(2\pi)}^n |\sigz |}}\sqrt{\frac{{(2\pi)}^n}{|(\sigz ^{-1} + F^T\sigxz^{-1}F)|}} &= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz||\sigz (\sigz ^{-1} + F^T\sigxz^{-1}F)|}} \\
&= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz||(I_n + \sigz F^T\sigxz^{-1}F)|}} \\
&= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz||(I_m + \sigxz^{-1}F^T\sigz F)|}} \\
&= \frac{1}{\sqrt{{(2\pi)}^m|\sigxz + F^T\sigz F|}} \\
\end{align*}
また,
\begin{align*}
\mathcal{N}(F\muz, F\sigz F^T + \sigxz) = \frac{1}{\sqrt{{(2\pi)}^m |F\sigz F^T + \sigxz|}}\exp{\left\{-\frac{1}{2}{(\bx-F\muz)}^T{(F\sigz F^T + \sigxz)}^{-1}(\bx-F\muz)\right\}}
\end{align*}
となり一致するので,
\begin{align*}
p(\bx) = \mathcal{N}(F\muz, F\sigz F^T + \sigxz)
\end{align*}
### 最後の行列式計算
[Weinstein–-Aronszajn identity](https://en.wikipedia.org/wiki/Weinstein%E2%80%93Aronszajn_identity): $|I_m + AB| = |I_n + BA|$より,
\begin{align*}
|\sigxz||I_n + \sigz F^T \cdot \sigxz^{-1} F|&=|\sigxz||I_m + \sigxz^{-1} F \cdot \sigz F^T|\\
&=|\sigxz + F \sigz F^T|.
\end{align*}
ちなみに Aronszajn はポーランド人で,「アロンシャイン」と発音するらしい.
<!-- ### 再計算 -->
<!-- ここで平方完成: $\bz^T A \bz - 2\mathbf{c}^T\bz =
(\bz - A^{-1} \mathbf{c})^TA(\bz - A^{-1} \mathbf{c})
-\mathbf{c}^TA^{-1}\mathbf{c}$ して,$\bz$ と関係のある項だけを exp の中に入れて積分すると,
\begin{align*}
&
\int_Z\exp\left[-\frac{1}{2}(\bz - A^{-1} \mathbf{c})^TA(\bz - A^{-1} \mathbf{c})\right]\,d\bz\\
&=\sqrt{(2\pi)^n|A^{-1}|}\int_Z \mathcal{N}(\bz; A^{-1}\mathbf{c},A^{-1})\,d\bz\\
&=\sqrt{(2\pi)^n|A^{-1}|} \quad(\because\,\mbox{確率の総和は1})
\end{align*}
となるから,
\begin{align*}
p(\bx) &= \int_Z p(\bz)p(\bx|\bz)\,d\bz \\
&=\frac{1}{\sqrt{{(2\pi)}^{m+n} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}|}}
\int_Z\exp\left[ -\frac{1}{2}\left((\bz - A^{-1} \mathbf{c})^TA(\bz - A^{-1} \mathbf{c})
-\mathbf{c}^TA^{-1}\mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx\right)\right] d\bz\\
&=\frac{\sqrt{(2\pi)^n |A^{-1}|}}{\sqrt{{(2\pi)}^{m+n} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}|}}
\cdot \exp \left[-\frac{1}{2}\left( - \mathbf{c}^T A^{-1} \mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx\right)\right] \\
&=\frac{1}{\sqrt{{(2\pi)}^{m} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}A|}}\\
&\cdot \exp\left[-\frac{1}{2}\left( -\left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right) A^{-1} \left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right)^T + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \right) \right]
\end{align*}
ここで,exp の中身を -2 倍したものを取り出して計算する.
\begin{align*}
-&\left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right) A^{-1} \left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right)^T + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \\
&= -\muz^T\sigz^{-1}A^{-1}\sigz^{-1}\muz
-2\muz^T\sigz^{-1}A^{-1}F^T\sigxz^{-1}\bx
-\bx^T \sigxz^{-1} FA^{-1}F^T \sigxz^{-1}\bx+\muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx\\
&= \bx^T \underbrace{\left( \sigxz^{-1} - \sigxz^{-1} FA^{-1}F^T \sigxz^{-1} \right)}_{B}\bx
-2\underbrace{\muz^T\sigz^{-1}A^{-1}F^T\sigxz^{-1}}_{\mathbf{d}^T}\bx
+\muz^T\left( \sigz^{-1}-\sigz^{-1}A^{-1}\sigz^{-1} \right)\muz^T\\
&= (\bx - B^{-1}\mathbf{d})^TB(\bx-B^{-1}\mathbf{d})-\mathbf{d}^TB^{-1}\mathbf{d}+\muz^T\left( \sigz^{-1}-\sigz^{-1}A^{-1}\sigz^{-1} \right)\muz^T
\end{align*}
よって,
\begin{align*}
p(\bx) &= \frac{1}{\sqrt{{(2\pi)}^{m} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}A|}} \exp\left[ -\frac{1}{2}(\bx - B^{-1}\mathbf{d})^TB(\bx-B^{-1}\mathbf{d}) \right]\\
&\cdot \underbrace{\exp\left[ -\frac{1}{2} \left(-\mathbf{d}^TB^{-1}\mathbf{d}+\muz^T\left( \sigz^{-1}-\sigz^{-1}A^{-1}\sigz^{-1} \right)\muz^T\right) \right]}_{\bx とは無関係}
\end{align*}
ここまで進めたが,合っている保証はない…….
たぶん式の形的に
$$
B^{-1}\mathbf{d} = F\muz,\quad B = F\sigz F^T + \sigxz
$$
になるはずだが,外が明るくなってきたので寝る($\mathbf{d} = BF\muz$になってくれればいいが……). -->
### 補足: 特性関数を使った解法
特性関数($\mathbb{E}[\exp [i\mathbf{t}^\top \mathbf{x}]$)を用いると以下のように計算できる:
\begin{align*}
\varphi_{\bm{x}}(\bm{t}) &:= \int_X \exp [ i \bm{t}^\top \bm{x} ] p(\bm{x})\, d\bm{x} \nonumber \\
&= \int_X \exp [ i \bm{t}^\top \bm{x} ] \left( \int_Z p(\bm{x} | \bm{z}) p(\bm{z}) \,d\bm{z} \right)\, d\bm{x}\\
&=\int_Z p(\bm{z}) \left(\vphantom{\int}\right.\hspace{-.2em}%
\int_X \exp [ i \bm{t}^\top \bm{x} ]%
\hspace{-.8em}\underbrace{p(\bm{x} | \bm{z})}_{N\left(F \boldsymbol{z}, \Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)} \hspace{-.8em}%
d\bm{x} \hspace{-.2em}\left.\vphantom{\int}\right)\, d\bm{z} \\
&= \int_Z p(\bm{z}) \exp\left[ i \bm{t}^\top F \bm{z} - \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right]\, d\bm{z} \\
%
&= \exp\left[ - \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right] \int_Z \overbrace{N\left(\boldsymbol{\mu}_{z}, \Sigma_{z}\right)}^{p(\bm{z})}%
\exp\left[ i (F^\top \bm{t})^\top \bm{z}\right]\, d\bm{z} \\
%
&= \exp\left[ - \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right]%
\varphi\left( F^\top \bm{t}; \boldsymbol{\mu}_{z}, \Sigma_{z} \right) \\
%
&=\exp\left[\left(- \frac{1}{2} \bm{t}^\top \Sigma_{\boldsymbol{x} | \boldsymbol{z}} \bm{t} \right) + \left( i(F^\top \bm{t})^\top \bm{\mu}_z - \frac{1}{2} (F^\top \bm{t})^\top \Sigma_z F^\top \bm{t} \right) \right] \\
%
&=\exp\left[ i \bm{t}^\top F\bm{\mu}_z - \frac{1}{2} \bm{t}^\top (F \Sigma_z F+ \Sigma_{\bm{x} | \bm{z}})\bm{t} \right]
\end{align*}
これは$\mathcal{N}(F \mu_z,\,F\sigz F^\top + \sigxz)$の特性関数と一致し,しかも特性関数と確率分布は1対1に対応するので,
$$
p(\bx) = \mathcal{N}(F \mu_z,\,F\sigz F^\top + \sigxz)
$$
とわかる.
※ $\mathcal{N}(\mu, \Sigma)$ に対応する特性関数$\varphi(\mathbf{t})$は,$\varphi(\mathbf{t}) = \exp \left[ i \mathbf{t}^\top \mu - \dfrac{1}{2} \mathbf{t}^\top \Sigma \mathbf{t} \right]$.
## 補題B
$\renewcommand{\boldsymbol}[1]{\mathbf{#1}}$
### 問題
$p(\boldsymbol{z})=N\left(\boldsymbol{\mu}_{z}, \Sigma_{z}\right), p(\boldsymbol{x} | \boldsymbol{z})=N\left(F \boldsymbol{z}, \Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)$ならば,
$$
\begin{aligned}
p(\boldsymbol{z} | \boldsymbol{x}) &= N\left(\boldsymbol{\mu}_{\boldsymbol{z} | \boldsymbol{x}}, \Sigma_{\boldsymbol{z} | \boldsymbol{x}}\right) \\
\boldsymbol{\mu}_{\boldsymbol{z} | \boldsymbol{x}} &= \boldsymbol{\mu}_{z}+\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1}\left(\boldsymbol{x}-F \boldsymbol{\mu}_{z}\right) \\
\Sigma_{\boldsymbol{z} | \boldsymbol{x}} &= \Sigma_{z}-\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1} F \Sigma_{z}
\end{aligned}
$$
### 解答
#### 準備(平方完成)
$\mathbf{z}$の次元を$n$,$\mathbf{x}|\mathbf{z}$の次元を$m$とすると,
\begin{align*}
p(\mathbf{z}) &= \frac{1}{\sqrt{{(2\pi)}^n |\Sigma_{\mathbf{z}}|}}\exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})\right)} \\
p(\mathbf{x}|\mathbf{z}) &= \frac{1}{\sqrt{{(2\pi)}^m |\Sigma_{\mathbf{x}|\mathbf{z}}|}}\exp{\left(-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)}
\end{align*}
より,
$$
p(\mathbf{z}) p(\mathbf{x}|\mathbf{z}) = \frac{1}{\sqrt{{(2\pi)}^{m+n} |\Sigma_{\mathbf{z}}\Sigma_{\mathbf{x}|\mathbf{z}}|}}\exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)}
$$
exp の中身を$-2$倍したやつをみると,
\begin{align*}
&{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})
+{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\\
&={(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})
+{({\mathbf{z}}-F^{-1}\mathbf{x})}^T F^T \Sigma_{\mathbf{x}|\mathbf{z}}^{-1}F\,({\mathbf{z}}-F^{-1}\mathbf{x})\\
&=%
\left[ \bz^T\sigz^{-1} \bz -2\muz^T \sigz^{-1} \bz + \muz^T\sigz^{-1}\muz \right]%
+\left[ \bz^T F^T\sigxz^{-1}F\bz -2%
(F^{-1}\bx)^T F^T\sigxz^{-1} F \bz +%
\bx^T \sigxz^{-1} \bx \right]\\
%
&=\bz^T \underbrace{\left( \sigz^{-1} + F^T\sigxz^{-1}F \right)}_{A}\bz%
-2\underbrace{\left( \muz^T \sigz^{-1} + \bx^T \sigxz^{-1} F \right)}_{\mathbf{c}^T}\bz%
+\muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx
\end{align*}
#### $p(\bz|\bx)$ の計算
Bayes の定理から
$$
p(\bz | \bx) = \frac{p(\bx | \bz)p(\bz)}{\int_Z p(\bx | \bz)p(\bz) \,d\bz}
$$
で,上の平方完成の結果を用いると,$A=\sigz^{-1} + F^T \sigxz^{-1} F,\, \mathbf{c} = \sigz^{-1} \muz + F^T \sigxz^{-1} \bx$とおいて,
\begin{align*}
p(\bz | \bx) &= \frac{\exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)}}{\int_Z \exp{\left(-\frac{1}{2}{(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})}^T\Sigma_{\mathbf{z}}^{-1}(\mathbf{z}-\mathbf{\mu_{\mathbf{z}}})-\frac{1}{2}{(\mathbf{x}-F{\mathbf{z}})}^T\Sigma_{\mathbf{x}|\mathbf{z}}^{-1}(\mathbf{x}-F{\mathbf{z}})\right)}\,d\bz}\\[8pt]
&= \frac{\exp\left(-\frac{1}{2}\left( (\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c}) - \mathbf{c}^TA^{-1} \mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \right)\right)}{\int_Z \exp\left( -\frac{1}{2}\left( (\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c}) - \mathbf{c}^TA^{-1} \mathbf{c} + \muz^T \sigz^{-1} \muz + \bx^T \sigxz^{-1} \bx \right)\right)\, d\bz} \\[8pt]
&= \frac{\exp\left(-\frac{1}{2}\left((\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c})\right)\right)}{\int_Z \exp\left( -\frac{1}{2}\left( (\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c})\right)\right)\,d\bz} \\[8pt]
&= \frac{1}{\sqrt{(2\pi)^n |A^{-1}|}}\,\exp\left(-\frac{1}{2}\left((\bz - A^{-1}\mathbf{c})^T A (\bz - A^{-1}\mathbf{c})\right)\right)
\end{align*}
よって,$\mu_{\mathbf{z}|\mathbf{x}} = A^{-1} \mathbf{c},\,\Sigma_{\mathbf{z}|\mathbf{x}} = A^{-1}$となる.
実際に計算する.$A^{-1}$を Woodbury の公式で求めると,
$$
(\sigz^{-1} + F^T \sigxz^{-1} F)^{-1} = \sigz - \sigz F^T (\sigxz + F\sigz F^T)^{-1}F\sigz
$$
となるから,$\Sigma_{\bm{z}|\bm{x}} = \sigz - \sigz F^T (\sigxz + F\sigz F^T)^{-1}F\sigz$.
\begin{align*}
A^{-1} \mathbf{c}&=\left(\sigz - \sigz F^\top (\sigxz + F\sigz F^\top)^{-1} F\sigz \right)\left( \sigz^{-1} \muz + F^\top \sigxz^{-1} \bx \right)\\
&= \muz + \sigz F^\top \sigxz^{-1} \bx -\sigz F^\top(\sigxz + F\sigz F^\top)^{-1}%
\left( F\muz + F\sigz F^\top \sigxz^{-1} \bx \right)\\
&= \muz + \sigz F^\top \sigxz^{-1} \bx -\sigz F^\top(\sigxz + F\sigz F^\top)^{-1}%
\left(F\muz -\bx + (\sigxz + F\sigz F^\top) \sigxz^{-1} \bx\right)\\
&= \muz + \sigz F^\top \sigxz^{-1} \bx -\sigz F^\top(\sigxz + F\sigz F^\top)^{-1}%
\left(F\muz -\bx\right) - \sigz F^\top \sigxz^{-1} \bx \\
&= \muz + \sigz F^\top(\sigxz + F\sigz F^\top)^{-1}%
\left(\bx - F\muz\right)
\end{align*}
となるから,$\mu_{\mathbf{z}|\mathbf{x}} = \muz + \sigz F^\top(\sigxz + F\sigz F^\top)^{-1}%
\left(\bx - F\muz\right)$.
## (2)
### 問題
$\newcommand{\xt}{\mathbf{x_t}}
\newcommand{\xtl}{\mathbf{x_{t+l}}}
\newcommand{\xtt}{\mathbf{x_{t|t}}}
\newcommand{\xtT}{\mathbf{x_{t|T}}}
\newcommand{\xtlT}{\mathbf{x_{t+1|T}}}
\newcommand{\xtlt}{\mathbf{x_{t+1|t}}}
\newcommand{\xtT}{\mathbf{x_{t|T}}}
\newcommand{\ylT}{\mathbf{y_{l:T}}}
\newcommand{\ylt}{\mathbf{y_{l:t}}}
\newcommand{\vtl}{\mathbf{v_{t+1}}}
\newcommand{\Vtt}{V_{t|t}}
\newcommand{\VtT}{V_{t|T}}
\newcommand{\VtlT}{V_{t+1|T}}
\newcommand{\Vtlt}{V_{t+1|t}}
\newcommand{\Ftl}{F_{t+1}}
\newcommand{\Qtl}{Q_{t+1}}$
固定区間平滑化の式
\begin{align*}
p(\xt|\ylT) = p(\xt|\ylt)\int \frac{p(\xtl|\xt)p(\xtl|\ylT)}{p(\xtl|\ylt)}d\xtl
\end{align*}
に
\begin{align*}
p(\xt|\ylt) &= \mathcal{N}(\xtt, \Vtt) \\
p(\xtl|\ylT) &= \mathcal{N}(\xtlT, \VtlT) \\
p(\xtl|\xt, \vtl) &= \mathcal{N}(\Ftl\xt+\vtl, \epsilon^2 I) \\
p(\vtl) &= \mathcal{N}(\mathbf{0}, \Qtl)
\end{align*}
を代入することにより,次のカルマンフィルタにおける固定区間平滑化アルゴリズムを導け.
\begin{align*}
\xtT &= \xtt + A_t(\xtlT-\xtlt) \\
\VtT &= \Vtt + A_t(\VtlT-\Vtlt)A_t^T \\
A_t &= \Vtt\Ftl^T\Vtlt^{-1}
\end{align*}
### 解答
\begin{align*}
p(\xtl|\xt) &= \int p(\xtl|\xt, \vtl)p(\vtl)d\vtl \\
&= \int \mathcal{N}(\Ftl\xt+\vtl, \epsilon^2 I)\mathcal{N}(\mathbf{0}, \Qtl)d\vtl \\
&= \mathcal{N}(\Ftl\xt, \Qtl+\epsilon^2 I)
\end{align*}
<!--
&= \int\frac{1}{\sqrt{{(2\pi)}^{n}|\epsilon^2 I|}}\exp\left({(\xtl - (\Ftl\xt+\vtl))}^T\epsilon^2 I(\xtl - (\Ftl\xt+\vtl))\right) \\
&\frac{1}{\sqrt{{(2\pi)}^{m}|\Qtl|}}\exp\left({\vtl^T\Qtl\vtl}\right)d\vtl \\
&= \int\frac{\epsilon^2}{\sqrt{{(2\pi)}^{(n+m)}\epsilon^{2n}|\Qtl|}} \\
&\exp\left({\vtl^T(I+\Qtl)\vtl-2(\xtl - \Ftl\xt)\vtl+{(\xtl - \Ftl\xt)}^T(\xtl-\Ftl\xt)}\right) \\
&= \frac{\epsilon^2}{\sqrt{{(2\pi)}^{(n+m)}\epsilon^{2n}|\Qtl|}} \exp\left({{(\xtl - \Ftl\xt)}^T(\xtl-\Ftl\xt)}\right) \\
&\sqrt{\frac{{(2\pi)}^n}{|I+\Qtl|}}\exp\left({\frac{1}{2}(\xtl - \Ftl\xt){(I+\Qtl)}^{-1}{(\xtl - \Ftl\xt)}}^T\right)
-->
マルコフ性より,
$p(\xtl|\xt, \ylt) = p(\xtl|\xt)$であるから,
補題Bより
$p(\mathbf{x_t})=N\left(\xtt, \Vtt\right), p(\mathbf{x_{t+1}} | \mathbf{x_t})=N\left(\Ftl \mathbf{x_t}, {(\Qtl+\epsilon^2 I)}\right)$ならば,
\begin{align*}
p(\mathbf{x_t} | \mathbf{x_{t+1}}) &= N\left(\boldsymbol{\mu}_{\mathbf{x_t} | \mathbf{x_{t+1}}}, \Sigma_{\mathbf{x_t} | \mathbf{x_{t+1}}}\right) \\
\boldsymbol{\mu}_{\mathbf{x_t} | \mathbf{x_{t+1}}} &= \xtt+\Vtt \Ftl^{\top}\left(\Ftl \Vtt \Ftl^{\top}+{(\Qtl+\epsilon^2 I)}\right)^{-1}\left(\mathbf{x_{t+1}}-\Ftl \xtt\right) \\
&= \xtt+\Vtt \Ftl^{\top}\left(\Vtlt + \epsilon^2\ I\right)^{-1}\left(\mathbf{x_{t+1}}-\xtlt\right) \\
\Sigma_{\mathbf{x_t} | \mathbf{x_{t+1}}} &= \Vtt-\Vtt \Ftl^{\top}\left(\Ftl \Vtt \Ftl^{\top}+{(\Qtl+\epsilon^2 I)}\right)^{-1} \Ftl \Vtt \\
&= \Vtt-\Vtt \Ftl^{\top}\left(\Vtlt+\epsilon^2 I\right)^{-1} \Ftl \Vtt \\
\end{align*}
\begin{align*}
p(\xt|\ylT) &= p(\xt|\ylt)\int \frac{p(\xtl|\xt)p(\xtl|\ylT)}{p(\xtl|\ylt)}d\xtl \\
\end{align*}
よって,
\begin{align*}
p(\xt|\ylT) = \int p(\xt|\xtl,\ylt)p(\xtl|\ylT)d\xtl
\end{align*}
よって,補題Aより
\begin{align*}
\xt|\ylT ~ \mathcal{N}(\xtT, \VtT)
\end{align*}
\begin{align*}
\xtT &= \xtt + \Vtt\Ftl^T\Vtlt^{-1}(\xtlT-\xtlt) \\
\VtT &= \Vtt\Ftl^T\Vtlt^{-1}\VtlT\Vtlt^{-1}\Ftl\Vtt+\Vtt-\Vtt\Ftl^T\Vtlt^{-1}\Ftl\Vtt \\
&= \Vtt + \Vtt\Ftl^T\Vtlt^{-1}(\VtlT-\Vtlt)\Vtlt^{-1}\Ftl\Vtt
\end{align*}
ここで,$A=\Vtt\Ftl^T\Vtlt^{-1}$
とすると題意が導かれる.
### 解答2
倒したのでシェアしておく(使えないコマンドとかがいろいろあったので,ところどころ追いにくいかも……)
$\newcommand{\Norm}{\mathcal{N}}
\newcommand{\by}{\bm{y}}
\newcommand{\bv}{\bm{v}}
\newcommand{\bt}{\bm{t}}
\newcommand{\equref}[1]{式(\ref{#1})}$
\begin{equation}
p\left(\bx_{t} | \by_{1 : T}\right)=p\left(\bx_{t} | \by_{1 : t}\right) \int \frac{p\left(\bx_{t+1} | \bx_{t}\right) p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} d \bx_{t+1}
\end{equation}
に,
\begin{align}
p\left(\boldsymbol{x}_{t} | \boldsymbol{y}_{1 : t}\right) &= \Norm \left(\boldsymbol{x}_{t | t}, V_{t | t}\right)
\\
p\left(\boldsymbol{x}_{t+1} | \boldsymbol{y}_{1 : T}\right) &=\Norm \left(\boldsymbol{x}_{t+1 | T}, V_{t+1 | T}\right) \\
p\left(\boldsymbol{x}_{t+1} | \boldsymbol{x}_{t}, \boldsymbol{v}_{t+1}\right) &=\Norm \left(F_{t+1} \boldsymbol{x}_{t}+\boldsymbol{v}_{t+1}, \epsilon^{2} I\right) \\
p\left(\boldsymbol{v}_{t+1}\right) &=\Norm \left(\bm{0}, Q_{t+1}\right)
\end{align}
を代入する.
確率分布$\Norm (\mu,\,\Sigma)$に$\bx$が従うことを明示的に$\Norm (\bx;\,\mu,\,\Sigma)$と書くことにすると,
\begin{align*}
p(\bx_{t+1} | \bx_t ,\, \bv_{t+1}) &= \Norm (\bx_{t+1};\,F_{t+1} \bx_t + \bv_{t+1} ,\,\varepsilon^2 I) \\
&= \Norm (\bx_{t+1} - \,F_{t+1} \bx_t ; \,\bv_{t+1} ,\,\varepsilon^2 I).
\end{align*}
これと$p\left(\boldsymbol{v}_{t+1}\right)$の条件式について補題Aを適用すると,
\begin{align}
p(\bx_{t+1} - \,F_{t+1} \bx_t) &= \Norm(\bx_{t+1} - \,F_{t+1} \bx_t ;\, \bm{0},\, Q_{t+1} + \varepsilon ^2 I) \nonumber \\
\therefore \,\,p(\bx_{t+1} | \bx_t) &= \Norm(F_{t+1} \bx_t,\, Q_{t+1} + \varepsilon ^2 I).
\end{align}
ところで,今回のモデルにおいて,時刻$t$における状態$\bx_{t}$は,直前の状態$\bx_{t-1}$のみに,観測結果$\by_{t}$は現在の状態$\bx_{t}$のみに依存するものと仮定する(Markov 性).したがって,
$$
p(\bx_t | \bx_{1:t-1},\, \by_{1:t-1} ) = p(\bx_t | \bx_{t-1}),\quad p(\by_t | \bx_{1:t},\, \by_{1:t-1} ) = p(\by_t | \bx_t).
$$
を満たすものと仮定する.このとき,
$$
p(\bx_t | \bx_{t+1},\, \by_{1:T}) = p(\bx_t | \bx_{t+1},\, \by_{1:t}).
$$
が成立する.なぜなら,Bayes の定理および Markov 性より,
\begin{align*}
p(\bx_{t} | \bx_{t+1},\,\by_{1:T}) &= p({\bx_{t}} | \bx_{t+1},\,\by_{1:t},\,{\by_{t+1:T}}) \\
&= \frac{p({\by_{t+1:T}} | {\bx_{t}},\, \bx_{t+1},\, \by_{1:t} ) p({\bx_{t}} | \bx_{t+1},\, \by_{1:t} ) }%
{p({\by_{t+1:T}} | \bx_{t+1},\, \by_{1:t} )} \tag{$\because$ Bayes の定理}\\
&= \frac{{p({\by_{t+1:T}} | \bx_{t+1},\, \by_{1:t} )}\, p({\bx_{t}} | \bx_{t+1},\, \by_{1:t} ) }%
{{p({\by_{t+1:T}} | \bx_{t+1},\, \by_{1:t} )}} \tag{$\because$ Markov 性}\\
&= p(\bx_t | \bx_{t+1},\, \by_{1:t}).
\end{align*}
となるからである.
ここで Markov 性より,$\bx_{t+1}$は$\by_1,\cdots, \by_t$に依存しないので,
$$
p(\bx_{t+1} | \bx_t) = p(\bx_{t+1} | \bx_t , \by_{1:t})
$$
が成立することに注意すると,与式の積分の中身は
\begin{align*}
\frac{p\left(\bx_{t+1} | \bx_{t}\right) p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} &= %
\frac{p\left(\bx_{t+1} | \bx_{t} \right) p\left(\bx_{t} | \by_{1 : t}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} \cdot \frac{p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t} | \by_{1 : t}\right)} \\
&= \frac{p\left({\bx_{t+1}} | {\bx_{t}}, \by_{1:t}\right) p\left({\bx_{t}} | \by_{1 : t}\right)}{p\left({\bx_{t+1}} | \by_{1 : t}\right)} \cdot \frac{p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t} | \by_{1 : t}\right)} \\
&= p\left({\bx_{t}} | {\bx_{t+1}}, \by_{1:t}\right)\cdot \frac{p\left(\bx_{t+1} | \by_{1 : T}\right)}{p\left(\bx_{t} | \by_{1 : t}\right)} \tag{$\because$ Bayes の定理}
\end{align*}
となる.ここで $p_{\by_{1 : t}} (-) := p( - | \by_{1 : t})$ と略記すると,
$$
p\left(\bx_{t} | \bx_{t+1}, \by_{1:t}\right) = \frac{p\left(\bx_{t+1} | \bx_{t} \right) p\left(\bx_{t} | \by_{1 : t}\right)}{p\left(\bx_{t+1} | \by_{1 : t}\right)} %
\left( =\frac{p_{\by_{1 : t}}\left(\bx_{t+1} | \bx_{t}\right) p_{\by_{1 : t}} \left(\bx_{t}\right)}{\int p_{\by_{1 : t}}\left(\bx_{t+1} | \bx_{t} \right) p_{\by_{1 : t}}\left(\bx_{t}\right)\,d\bx _t} \right)
$$
と書ける.
補題Bを適用すると,
\begin{align*}
\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1} %
&= V_{t|t} F_{t+1}^\top \left( F_{t+1} V_{t|t} F_{t+1}^\top + Q_{t+1} + \varepsilon^2 I \right)^{-1} \\
&= V_{t|t} F_{t+1}^\top \left( V_{t+1|t} + \varepsilon^2 I \right)^{-1} \\
&\to V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1}.
\end{align*}
最後は$\varepsilon \to 0$の極限を取った.2番目の等号は,一期先予測を求める式\footnote{第2回 (2019年4月24日) 講義資料 p.27 参照}より,
\begin{equation}
\begin{aligned}
\boldsymbol{x}_{t+1 | t} &=F_{t+1} \boldsymbol{x}_{t | t} \\
V_{t+1 | t} &=F_{t+1} V_{t | t} F_{t+1}^{\top}+Q_{t+1}
\end{aligned}
\end{equation}
であることを用いた.よって,$p_{\by_{1 : t}} (\bx_{t} | \bx_{t+1}) = \Norm (\tilde{\bm{\mu}},\,\tilde{\Sigma})$とおくと,
\begin{align*}
\tilde{\bm{\mu}} &= \boldsymbol{\mu}_{z}+\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1}\left(\boldsymbol{x}-F \boldsymbol{\mu}_{z}\right) \\
&= \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - F_{t+1} \bx_{t|t} ) \\
&= \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - \bx_{t+1|t} )
\end{align*}
\begin{align*}
\tilde{\Sigma} &= \Sigma_{z}-\Sigma_{z} F^{\top}\left(F \Sigma_{z} F^{\top}+\Sigma_{\boldsymbol{x} | \boldsymbol{z}}\right)^{-1} F \Sigma_z \\
&= V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} F_{t+1} V_{t|t}
\end{align*}
となる.ここで$p(\bx_t | \bx_{t+1}, \by_{1:T}) = p_{\by_{1 : t}}(\bx_t | \bx_{t+1}) = \Norm (\tilde{\bm{\mu}},\,\tilde{\Sigma})$であるから,
\begin{align}
% p(\bx_t | \bx_{t+1}, \by_{1:T}) = \Norm\left(%
% \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - \bx_{t+1|t} ),%
% V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} F_{t+1} V_{t|t}%
% \right)
p(\bx_t | \bx_{t+1}, \by_{1:T}) &= \Norm (\bx_t;\,\bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1} - \bx_{t+1|t} ),\,\tilde{\Sigma}) \\
&= \Norm (\underbrace{\bx_t - \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t}}_{\tilde{\bx}}; V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1},\,\tilde{\Sigma})\\
&= p(\tilde{\bx} | \bx_{t+1}, \by_{1:T})
\end{align}
と書ける.上式より,$p(\tilde{\bx} | \bx_{t+1}, \by_{1:T})$と$p( \bx_{t+1}| \by_{1:T})$が既知であるから,補題Aを適用すると,
\begin{align*}
p(\tilde{\bx} | \by_{1:T}) %
&= p(\bx_t {- \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t}} | \by_{1:T}) \\
&= \Norm( V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|T},%
V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + \tilde{\Sigma}) \\
\therefore p(\bx_t | \by_{1:T}) &= \Norm( {\bm{x}_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t}} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|T}, \\
&V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + \tilde{\Sigma}).
\end{align*}
したがって,$p(\bx_t|\by_{1:T}) = \Norm (\bx_{t|T},\,V_{t|T})$とおくと,
\begin{align*}
\bx_{t|T} &= \bm{x}_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} \bx_{t+1|T} \\
&= \bm{x}_{t|t} + V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (\bx_{t+1|T} - \bx_{t+1|t}),\\
V_{t|T} &= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + \tilde{\Sigma} \\
&= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} F_{t+1} V_{t|t} \\
&= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} V_{t+1|T} (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + V_{t|t} - V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} {V_{t+1|t}}\underbrace{{V_{t+1|t}^{-1}} F_{t+1} V_{t|t}}_{(V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top} \\
&= V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1} (V_{t+1|T} - V_{t+1|t}) (V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1})^\top + V_{t|t}.
\end{align*}
最後に,$A_t = V_{t|t} F_{t+1}^\top V_{t+1|t}^{-1}$とおくと,以下のようにまとめられる:
\begin{align*}
\bx_{t|T} &= \bx_{t|t} + A_t (\bx_{t+1|T} - \bx_{t+1|t}), \\
V_{t|T} &= V_{t|t} + A_t (V_{t+1|T} - V_{t+1|t}) A_t^\top.
\end{align*}