<!-- 参考資料:https://hackmd.io/JnjYISVgQHGWODhrwYMUIg -->
<style>
/* basic design */
.reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6,
.reveal section, .reveal table, .reveal li, .reveal blockquote, .reveal th, .reveal td, .reveal p {
font-family: 'Meiryo UI', 'Source Sans Pro', Helvetica, sans-serif, 'Helvetica Neue', 'Helvetica', 'Arial', 'Hiragino Sans', 'ヒラギノ角ゴシック', YuGothic, 'Yu Gothic';
text-align: left;
line-height: 1.8;
letter-spacing: normal;
text-shadow: none;
word-wrap: break-word;
color: #444;
}
.reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6 {font-weight: bold;}
.reveal h1, .reveal h2, .reveal h3 {color: #2980b9;}
.reveal th {background: #DDD;}
.reveal section img {background:none; border:none; box-shadow:none; max-width: 95%; max-height: 95%;}
.reveal blockquote {width: 90%; padding: 0.5vw 3.0vw;}
.reveal table {margin: 1.0vw auto;}
.reveal code {line-height: 1.2;}
.reveal p, .reveal li {padding: 0vw; margin: 0vw;}
.reveal .box {margin: -0.5vw 1.5vw 2.0vw -1.5vw; padding: 0.5vw 1.5vw 0.5vw 1.5vw; background: #EEE; border-radius: 1.5vw;}
/* table design */
.reveal table {background: #f5f5f5;}
.reveal th {background: #444; color: #fff;}
.reveal td {position: relative; transition: all 300ms;}
.reveal tbody:hover td { color: transparent; text-shadow: 0 0 3px #aaa;}
.reveal tbody:hover tr:hover td {color: #444; text-shadow: 0 1px 0 #fff;}
/* blockquote design */
.reveal blockquote {
width: 90%;
padding: 0.5vw 0 0.5vw 6.0vw;
font-style: italic;
background: #f5f5f5;
}
.reveal blockquote:before{
position: absolute;
top: 0.1vw;
left: 1vw;
content: "\f10d";
font-family: FontAwesome;
color: #2980b9;
font-size: 3.0vw;
}
/* font size */
.reveal h1 {font-size: 5.0vw;}
.reveal h2 {font-size: 4.0vw;}
.reveal h3 {font-size: 2.8vw;}
.reveal h4 {font-size: 2.6vw;}
.reveal h5 {font-size: 2.4vw;}
.reveal h6 {font-size: 2.2vw;}
.reveal section, .reveal table, .reveal li, .reveal blockquote, .reveal th, .reveal td, .reveal p {font-size: 2.2vw;}
.reveal code {font-size: 1.6vw;}
/* new color */
.red {color: #EE6557;}
.blue {color: #16A6B6;}
/* split slide */
#right {left: -18.33%; text-align: left; float: left; width: 50%; z-index: -10;}
#left {left: 31.25%; text-align: left; float: left; width: 50%; z-index: -10;}
</style>
# パターン認識輪読会 第3回
## 4章 確率モデルと識別関数
#### 1 観測データの線形変換
#### 2 確率モデル
#### 3 最尤推定
<br>
2020/10/23
松葉亮人
<br>
---
# 1 観測データの線形変換
## 統計量
- 平均ベクトル
- 共分散行列
## 3つの線形変換
- 標準化(中心化)
- 無相関化
- 白色化
---
### 観測データ
$$\boldsymbol{x}=\left(x_{1}, \ldots, x_{d}\right)^{T} \in \mathcal{R}^{d}$$
### 平均ベクトル
$$\boldsymbol{\mu}=\left(\mu_{1}, \ldots, \mu_{d}\right)^{T} \\
\mu_{i}=E\left\{x_{i}\right\}=\int_{\mathcal{R}^{d}} x_{i} p(\boldsymbol{x}) d \boldsymbol{x}=\int_{-\infty}^{\infty} x_{i} p\left(x_{i}\right) d x_{i}$$
ただし周辺確率$p\left(x_{i}\right)$は
$$p\left(x_{i}\right)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} p\left(x_{1}, \ldots, x_{d}\right) d x_{1} \cdots d x_{i-1} d x_{i+1} \cdots d x_{d}$$
---
### 共分散行列
$$
\begin{aligned} \boldsymbol{\Sigma} &=\operatorname{Var}\{\boldsymbol{x}\}=E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T}\right\} \\ &=E\left\{\left(\begin{array}{c}x_{1}-\mu_{1} \\ \vdots \\ x_{d}-\mu_{d}\end{array}\right)\left(x_{1}-\mu_{1}, \ldots, x_{d}-\mu_{d}\right)\right\} \\ &=\left(\begin{array}{ccc}E\left\{\left(x_{1}-\mu_{1}\right)\left(x_{1}-\mu_{1}\right)\right\} & \cdots & E\left\{\left(x_{1}-\mu_{1}\right)\left(x_{d}-\mu_{d}\right)\right\} \\ \vdots & \ddots & \vdots \\ E\left\{\left(x_{d}-\mu_{d}\right)\left(x_{1}-\mu_{1}\right)\right\} & \cdots & E\left\{\left(x_{d}-\mu_{d}\right)\left(x_{d}-\mu_{d}\right)\right\}\end{array}\right) \\ &=\left(\sigma_{i j}\right)=\left\{\begin{array}{ll}i=j & \text { 分散 } \\ i \neq j & \text { 共分散 }\end{array}\right.\end{aligned}
$$
**対角成分**が分散,それ以外が**共分散**になっている
---
### 標準化
以下のような線形変換を行うこと
$$
z=\frac{x-\mu}{\sigma}
$$
以上のような処理を行うと平均と分散が,それぞれ0と1になる
$$
E\{z\}=\frac{\mu}{\sigma}-\frac{\mu}{\sigma}=0, \quad \operatorname{Var}\{z\}=\left(\frac{1}{\sigma}\right)^{2} \sigma^{2}=1
$$
---
### 標準化のイメージ
<img src="https://cdn.mathpix.com/snip/images/V94GzW7ofAgE7Ur4MAhcwT5HN-wr9Ek5K8QMEanefCY.original.fullsize.png" />
2次元データの時,上の図のように**データが中心に集まる**ので中心化という。
おおよそ**半径1**の円の中におさまる。
---
### 無相関化
回転行列Sを用いて以下で線形変換したもの
$$
\boldsymbol{y}=\boldsymbol{S}^{T} \boldsymbol{x}
$$
ただし回転行列Sは固有値問題
$$
\boldsymbol{\Sigma} s=\lambda \boldsymbol{s}
$$を解いて得られた固有値を$\lambda_{1} \geq \lambda_{2} \geq \cdots \geq \lambda_{d}$,対応する固有ベクトルを$s_{1}, s_{2}, \cdots, s_{d}$として,以下で定義する
$$
\boldsymbol{S}=\left(\boldsymbol{s}_{1}, \boldsymbol{s}_{2}, \cdots, \boldsymbol{s}_{d}\right)
$$
---
### 回転行列Sの性質
$\boldsymbol{\Sigma}$が実対象行列なので,$\boldsymbol{S}$は正規直行行列になる。
[実対象行列の対角化についてはこちら](https://www.cck.dendai.ac.jp/math/support/ch6-supp/%E5%AF%BE%E7%A7%B0%E8%A1%8C%E5%88%97%E3%81%AE%E7%9B%B4%E4%BA%A4%E8%A1%8C%E5%88%97%E3%81%AB%E3%82%88%E3%82%8B%E5%AF%BE%E8%A7%92%E5%8C%96.pdf)
$\boldsymbol{S}$は正規直行行列なので
$$
\boldsymbol{S}^{T} \boldsymbol{S}=\left(\begin{array}{c}\boldsymbol{s}_{1}^{T} \\ \vdots \\ \boldsymbol{s}_{d}^{T}\end{array}\right)\left(\boldsymbol{s}_{1}, \cdots, \boldsymbol{s}_{d}\right)=\boldsymbol{I}=\boldsymbol{S}^{-1} \boldsymbol{S}
$$
より
$$
\boldsymbol{S}^{T}=\boldsymbol{S}^{-1}
$$
---
### 無相関化したときの性質
この時,平均値と共分散行列は以下のようになる
**平均値**
$$
\begin{aligned}
E\{\boldsymbol{y}\}
&=E\left\{\boldsymbol{S}^{T} \boldsymbol{x}\right\}\\
&=\boldsymbol{S}^{T} \boldsymbol{\mu} \\\\
\end{aligned}
$$
---
**共分散行列**
$$
\begin{aligned}
\operatorname{Var}\{\boldsymbol{y}\}
&=E\left\{(\boldsymbol{y}-E\{\boldsymbol{y}\})(\boldsymbol{y}-E\{\boldsymbol{y}\})^{T}\right\} \\
&=E\left\{(\boldsymbol{S}^{T} \boldsymbol{x}-\boldsymbol{S}^{T} \boldsymbol{\mu} \})(\boldsymbol{S}^{T} \boldsymbol{x}-\boldsymbol{S}^{T} \boldsymbol{\mu} \})^{T}\right\} \\
&=E\left\{\boldsymbol{S}^{-1} (\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{S}\right\}\\
&=\boldsymbol{S}^{-1} E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T}\right\} \boldsymbol{S}\\ &=\boldsymbol{S}^{-1} \boldsymbol{\Sigma} \boldsymbol{S}\\
&=\left(\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & \lambda_{d}\end{array}\right)
\end{aligned}
$$
つまり**y**は**共分散が0**なので**相関係数も0**。よって観測データが無相関化する
---
### 無相関化の模式図
<img src="https://cdn.mathpix.com/snip/images/xNrbgFFK3kcOxekCBV76PT3ginK3vBgbZalhQpPX9JA.original.fullsize.png" />
うまい具合に回転して,**相関をなくしている**ことがわかる。
---
### 白色化
以下の,xの共分散行列$\boldsymbol{\Sigma}$を対角化したもの
$$
\mathbf{\Lambda}=\left(\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & \lambda_{d}\end{array}\right)
$$
を用いて
$$
\boldsymbol{u}=\mathbf{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(\boldsymbol{x}-\boldsymbol{\mu})
$$
で表せる変換を白色化という。
---
### 白色化したときの性質
**期待値が0**
$$
E\{\boldsymbol{u}\}=\mathbf{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(E\{\boldsymbol{x}\}-\boldsymbol{\mu})=\mathbf{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(\boldsymbol{\mu}-\boldsymbol{\mu})=\mathbf{0}
$$
**共分散行列が単位行列**
$$
\begin{aligned} \operatorname{Var}\{\boldsymbol{u}\} &=E\left\{\boldsymbol{u} \boldsymbol{u}^{T}\right\}=E\left\{\boldsymbol{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{S} \mathbf{\Lambda}^{-T / 2}\right\} \\ &=\boldsymbol{\Lambda}^{-1 / 2} \boldsymbol{S}^{-1} E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T}\right\} \boldsymbol{S} \mathbf{\Lambda}^{-T / 2} \\ &=\boldsymbol{\Lambda}^{-1 / 2} \boldsymbol{S}^{-1} \boldsymbol{\Sigma} \boldsymbol{S} \mathbf{\Lambda}^{-T / 2}\\
&=\mathbf{\Lambda}^{-1 / 2} \mathbf{\Lambda} \mathbf{\Lambda}^{-T / 2}\\
&=I\end{aligned}
$$
---
### 白色化のイメージ
<img src="https://cdn.mathpix.com/snip/images/9K1aBCtDkm0WZj1xyqLwqAOus671LufrAuWXVib0_YY.original.fullsize.png" />
**中心に集まって**いて,**相関がない**ことがわかる。
おおよそ**半径1**の超球の中におさまる。
白色化は無相関化+中心化みたいな感じ
---
# 2 確率モデル
- 正規分布から導かれる識別関数
- 最尤推定
---
### 正規分布
1次元正規分布関数は以下で定義される
$$
\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
$$
d次元の多次元正規分布関数は以下で定義される
$$
\mathcal{N}(\boldsymbol{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{d / 2}|\mathbf{\Sigma}|^{1 / 2}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right)
$$
---
### 正規分布から導かれる識別関数
$i$番目のクラスとき,$x$が正規分布をしていると仮定する
$$
p\left(\boldsymbol{x} \mid C_{i}\right)=\frac{1}{(2 \pi)^{d / 2}\left|\mathbf{\Sigma}_{i}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)\right)
$$
このとき**ベイズの誤り率最小識別規則**をみたす識別関数を考える
クラスの事後確率,すなわち特徴量xが観測されたとき対象がクラス$C_i$に属している確率は
$$
\begin{aligned} P\left(C_{i} \mid \boldsymbol{x}\right) &=\frac{p\left(\boldsymbol{x} \mid C_{i}\right) P\left(C_{i}\right)}{p(\boldsymbol{x})} \\ & \propto \frac{P\left(C_{i}\right)}{(2 \pi)^{d / 2}\left|\boldsymbol{\Sigma}_{i}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)\right) \end{aligned}
$$
---
$P\left(C_{i} \mid \boldsymbol{x}\right)$を最大にする$Ci$が識別クラスである。
対数をとっても大小関係は変わらないので
$$
\ln P\left(C_{i} \mid \boldsymbol{x}\right)
\propto\ln P\left(C_{i}\right)-\frac{d}{2} \ln (2 \pi)-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)
$$
を最大にする$Ci$をさがせば良い。
よって以下の関数を最小にするクラス$Ci$を選べば良い
$$
g_{i}(\boldsymbol{x})=\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)+\ln \left|\boldsymbol{\Sigma}_{i}\right|-2 \ln P\left(C_{i}\right)
$$
つまり
$$
\text { 識別クラス }=
\arg \min _{i}\left[g_{i}(\boldsymbol{x})\right]
$$
---
### 識別境界
クラス$i$と$j$の識別境界は$g_{i}(\boldsymbol{x})=g_{j}(\boldsymbol{x})$となるところ。
$$
\begin{aligned} f_{i j}(\boldsymbol{x})=& g_{i}(\boldsymbol{x})-g_{j}(\boldsymbol{x}) \\=&\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)+\ln \left|\boldsymbol{\Sigma}_{i}\right|-2 \ln P\left(C_{i}\right) \\ &-\left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)^{T} \boldsymbol{\Sigma}_{j}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)-\ln \left|\boldsymbol{\Sigma}_{j}\right|+2 \ln P\left(C_{j}\right) \\=& \boldsymbol{x}^{T} \underbrace{\left(\boldsymbol{\Sigma}_{i}^{-1}-\boldsymbol{\Sigma}_{j}^{-1}\right)}_{\text {行列 } \boldsymbol{S}} \boldsymbol{x}+2 \underbrace{\left(\boldsymbol{\mu}_{j}^{T} \boldsymbol{\Sigma}_{j}^{-1}-\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1}\right)}_{\text {ベクトル } \boldsymbol{c}^{T}} \boldsymbol{x} \\ &+\underbrace{\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\boldsymbol{\mu}_{j}^{T} \boldsymbol{\Sigma}_{j}^{-1} \boldsymbol{\mu}_{i}+\ln \frac{\left|\boldsymbol{\Sigma}_{i}\right|}{\left|\boldsymbol{\Sigma}_{j}\right|}-2 \ln \frac{P\left(C_{i}\right)}{P\left(C_{j}\right)}}_{\text {スカラー } F} \\=& \boldsymbol{x}^{T} \boldsymbol{S} \boldsymbol{x}+2 \boldsymbol{c}^{T} \boldsymbol{x}+F=0 \end{aligned}
$$
**二次曲面**になる
---
二つのクラスの共分散行列が等しいとき,
$$
\boldsymbol{\Sigma}_{i}=\boldsymbol{\Sigma}_{j}=\boldsymbol{\Sigma}
$$
このとき識別境界は
$$
f_{i j}(\boldsymbol{x})=g_{i}(\boldsymbol{x})-g_{j}(\boldsymbol{x})=2 \boldsymbol{c}^{T} \boldsymbol{x}+F=0
$$
となり**線形**になる
---
### 識別境界のイメージ
⚫️が糖尿病発症しなかった例,△が発症した例
<img src="https://cdn.mathpix.com/snip/images/YL-Ws-8MGHrKNvRUoKF-WrxXHwN9SDK-SnOPAiTIoCc.original.fullsize.png" />
左は二次識別関数での識別境界,右は共分散行列が同じと近似した線形識別関数での識別境界
---
### 最尤推定
**最尤推定**とは手元のデータが、どの母パラメータに従う分布から得られる**確率が最も高いか**に基づいて考えられる推定量
確率モデル
$f\left(\boldsymbol{x} \mid \boldsymbol{\theta}\right)$
に従うN個の学習データの同時分布は
$$
f\left(\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N} \mid \boldsymbol{\theta}\right)=\prod_{i=1}^{N} f\left(\boldsymbol{x}_{i} \mid \boldsymbol{\theta}\right)
$$
---
$\boldsymbol{\theta}$の関数なので$L(\boldsymbol{\theta})$とする。
$$
L(\boldsymbol{\theta})=f\left(\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N} \mid \boldsymbol{\theta}\right)
$$
$L(\boldsymbol{\theta})$
を最大にする
$\boldsymbol{\theta}$
を考えれば良い。
つまり
$$
\boldsymbol{\theta}=
\arg \max _{i}\left[L(\boldsymbol{\theta})\right]
$$
{"metaMigratedAt":"2023-06-15T14:29:10.211Z","metaMigratedFrom":"YAML","title":"パターン認識輪読会 第3回","breaks":false,"slideOptions":"{\"theme\":\"white\",\"slideNumber\":\"c/t\",\"center\":false,\"transition\":\"none\",\"keyboard\":true,\"width\":\"93%\",\"height\":\"100%\"}","contributors":"[{\"id\":\"e3d3b2ca-3549-487f-9952-d8b9763905b0\",\"add\":15011,\"del\":2151}]"}