<!-- 参考資料:https://hackmd.io/JnjYISVgQHGWODhrwYMUIg --> <style> /* basic design */ .reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6, .reveal section, .reveal table, .reveal li, .reveal blockquote, .reveal th, .reveal td, .reveal p { font-family: 'Meiryo UI', 'Source Sans Pro', Helvetica, sans-serif, 'Helvetica Neue', 'Helvetica', 'Arial', 'Hiragino Sans', 'ヒラギノ角ゴシック', YuGothic, 'Yu Gothic'; text-align: left; line-height: 1.8; letter-spacing: normal; text-shadow: none; word-wrap: break-word; color: #444; } .reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6 {font-weight: bold;} .reveal h1, .reveal h2, .reveal h3 {color: #2980b9;} .reveal th {background: #DDD;} .reveal section img {background:none; border:none; box-shadow:none; max-width: 95%; max-height: 95%;} .reveal blockquote {width: 90%; padding: 0.5vw 3.0vw;} .reveal table {margin: 1.0vw auto;} .reveal code {line-height: 1.2;} .reveal p, .reveal li {padding: 0vw; margin: 0vw;} .reveal .box {margin: -0.5vw 1.5vw 2.0vw -1.5vw; padding: 0.5vw 1.5vw 0.5vw 1.5vw; background: #EEE; border-radius: 1.5vw;} /* table design */ .reveal table {background: #f5f5f5;} .reveal th {background: #444; color: #fff;} .reveal td {position: relative; transition: all 300ms;} .reveal tbody:hover td { color: transparent; text-shadow: 0 0 3px #aaa;} .reveal tbody:hover tr:hover td {color: #444; text-shadow: 0 1px 0 #fff;} /* blockquote design */ .reveal blockquote { width: 90%; padding: 0.5vw 0 0.5vw 6.0vw; font-style: italic; background: #f5f5f5; } .reveal blockquote:before{ position: absolute; top: 0.1vw; left: 1vw; content: "\f10d"; font-family: FontAwesome; color: #2980b9; font-size: 3.0vw; } /* font size */ .reveal h1 {font-size: 5.0vw;} .reveal h2 {font-size: 4.0vw;} .reveal h3 {font-size: 2.8vw;} .reveal h4 {font-size: 2.6vw;} .reveal h5 {font-size: 2.4vw;} .reveal h6 {font-size: 2.2vw;} .reveal section, .reveal table, .reveal li, .reveal blockquote, .reveal th, .reveal td, .reveal p {font-size: 2.2vw;} .reveal code {font-size: 1.6vw;} /* new color */ .red {color: #EE6557;} .blue {color: #16A6B6;} /* split slide */ #right {left: -18.33%; text-align: left; float: left; width: 50%; z-index: -10;} #left {left: 31.25%; text-align: left; float: left; width: 50%; z-index: -10;} </style> # パターン認識輪読会 第3回 ## 4章 確率モデルと識別関数 #### 1 観測データの線形変換 #### 2 確率モデル #### 3 最尤推定 <br> 2020/10/23 松葉亮人 <br> --- # 1 観測データの線形変換 ## 統計量 - 平均ベクトル - 共分散行列 ## 3つの線形変換 - 標準化(中心化) - 無相関化 - 白色化 --- ### 観測データ $$\boldsymbol{x}=\left(x_{1}, \ldots, x_{d}\right)^{T} \in \mathcal{R}^{d}$$ ### 平均ベクトル $$\boldsymbol{\mu}=\left(\mu_{1}, \ldots, \mu_{d}\right)^{T} \\ \mu_{i}=E\left\{x_{i}\right\}=\int_{\mathcal{R}^{d}} x_{i} p(\boldsymbol{x}) d \boldsymbol{x}=\int_{-\infty}^{\infty} x_{i} p\left(x_{i}\right) d x_{i}$$ ただし周辺確率$p\left(x_{i}\right)$は $$p\left(x_{i}\right)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} p\left(x_{1}, \ldots, x_{d}\right) d x_{1} \cdots d x_{i-1} d x_{i+1} \cdots d x_{d}$$ --- ### 共分散行列 $$ \begin{aligned} \boldsymbol{\Sigma} &=\operatorname{Var}\{\boldsymbol{x}\}=E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T}\right\} \\ &=E\left\{\left(\begin{array}{c}x_{1}-\mu_{1} \\ \vdots \\ x_{d}-\mu_{d}\end{array}\right)\left(x_{1}-\mu_{1}, \ldots, x_{d}-\mu_{d}\right)\right\} \\ &=\left(\begin{array}{ccc}E\left\{\left(x_{1}-\mu_{1}\right)\left(x_{1}-\mu_{1}\right)\right\} & \cdots & E\left\{\left(x_{1}-\mu_{1}\right)\left(x_{d}-\mu_{d}\right)\right\} \\ \vdots & \ddots & \vdots \\ E\left\{\left(x_{d}-\mu_{d}\right)\left(x_{1}-\mu_{1}\right)\right\} & \cdots & E\left\{\left(x_{d}-\mu_{d}\right)\left(x_{d}-\mu_{d}\right)\right\}\end{array}\right) \\ &=\left(\sigma_{i j}\right)=\left\{\begin{array}{ll}i=j & \text { 分散 } \\ i \neq j & \text { 共分散 }\end{array}\right.\end{aligned} $$ **対角成分**が分散,それ以外が**共分散**になっている --- ### 標準化 以下のような線形変換を行うこと $$ z=\frac{x-\mu}{\sigma} $$ 以上のような処理を行うと平均と分散が,それぞれ0と1になる $$ E\{z\}=\frac{\mu}{\sigma}-\frac{\mu}{\sigma}=0, \quad \operatorname{Var}\{z\}=\left(\frac{1}{\sigma}\right)^{2} \sigma^{2}=1 $$ --- ### 標準化のイメージ <img src="https://cdn.mathpix.com/snip/images/V94GzW7ofAgE7Ur4MAhcwT5HN-wr9Ek5K8QMEanefCY.original.fullsize.png" /> 2次元データの時,上の図のように**データが中心に集まる**ので中心化という。 おおよそ**半径1**の円の中におさまる。 --- ### 無相関化 回転行列Sを用いて以下で線形変換したもの $$ \boldsymbol{y}=\boldsymbol{S}^{T} \boldsymbol{x} $$ ただし回転行列Sは固有値問題 $$ \boldsymbol{\Sigma} s=\lambda \boldsymbol{s} $$を解いて得られた固有値を$\lambda_{1} \geq \lambda_{2} \geq \cdots \geq \lambda_{d}$,対応する固有ベクトルを$s_{1}, s_{2}, \cdots, s_{d}$として,以下で定義する $$ \boldsymbol{S}=\left(\boldsymbol{s}_{1}, \boldsymbol{s}_{2}, \cdots, \boldsymbol{s}_{d}\right) $$ --- ### 回転行列Sの性質 $\boldsymbol{\Sigma}$が実対象行列なので,$\boldsymbol{S}$は正規直行行列になる。 [実対象行列の対角化についてはこちら](https://www.cck.dendai.ac.jp/math/support/ch6-supp/%E5%AF%BE%E7%A7%B0%E8%A1%8C%E5%88%97%E3%81%AE%E7%9B%B4%E4%BA%A4%E8%A1%8C%E5%88%97%E3%81%AB%E3%82%88%E3%82%8B%E5%AF%BE%E8%A7%92%E5%8C%96.pdf) $\boldsymbol{S}$は正規直行行列なので $$ \boldsymbol{S}^{T} \boldsymbol{S}=\left(\begin{array}{c}\boldsymbol{s}_{1}^{T} \\ \vdots \\ \boldsymbol{s}_{d}^{T}\end{array}\right)\left(\boldsymbol{s}_{1}, \cdots, \boldsymbol{s}_{d}\right)=\boldsymbol{I}=\boldsymbol{S}^{-1} \boldsymbol{S} $$ より $$ \boldsymbol{S}^{T}=\boldsymbol{S}^{-1} $$ --- ### 無相関化したときの性質 この時,平均値と共分散行列は以下のようになる **平均値** $$ \begin{aligned} E\{\boldsymbol{y}\} &=E\left\{\boldsymbol{S}^{T} \boldsymbol{x}\right\}\\ &=\boldsymbol{S}^{T} \boldsymbol{\mu} \\\\ \end{aligned} $$ --- **共分散行列** $$ \begin{aligned} \operatorname{Var}\{\boldsymbol{y}\} &=E\left\{(\boldsymbol{y}-E\{\boldsymbol{y}\})(\boldsymbol{y}-E\{\boldsymbol{y}\})^{T}\right\} \\ &=E\left\{(\boldsymbol{S}^{T} \boldsymbol{x}-\boldsymbol{S}^{T} \boldsymbol{\mu} \})(\boldsymbol{S}^{T} \boldsymbol{x}-\boldsymbol{S}^{T} \boldsymbol{\mu} \})^{T}\right\} \\ &=E\left\{\boldsymbol{S}^{-1} (\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{S}\right\}\\ &=\boldsymbol{S}^{-1} E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T}\right\} \boldsymbol{S}\\ &=\boldsymbol{S}^{-1} \boldsymbol{\Sigma} \boldsymbol{S}\\ &=\left(\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & \lambda_{d}\end{array}\right) \end{aligned} $$ つまり**y**は**共分散が0**なので**相関係数も0**。よって観測データが無相関化する --- ### 無相関化の模式図 <img src="https://cdn.mathpix.com/snip/images/xNrbgFFK3kcOxekCBV76PT3ginK3vBgbZalhQpPX9JA.original.fullsize.png" /> うまい具合に回転して,**相関をなくしている**ことがわかる。 --- ### 白色化 以下の,xの共分散行列$\boldsymbol{\Sigma}$を対角化したもの $$ \mathbf{\Lambda}=\left(\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & \lambda_{d}\end{array}\right) $$ を用いて $$ \boldsymbol{u}=\mathbf{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(\boldsymbol{x}-\boldsymbol{\mu}) $$ で表せる変換を白色化という。 --- ### 白色化したときの性質 **期待値が0** $$ E\{\boldsymbol{u}\}=\mathbf{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(E\{\boldsymbol{x}\}-\boldsymbol{\mu})=\mathbf{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(\boldsymbol{\mu}-\boldsymbol{\mu})=\mathbf{0} $$ **共分散行列が単位行列** $$ \begin{aligned} \operatorname{Var}\{\boldsymbol{u}\} &=E\left\{\boldsymbol{u} \boldsymbol{u}^{T}\right\}=E\left\{\boldsymbol{\Lambda}^{-1 / 2} \boldsymbol{S}^{T}(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{S} \mathbf{\Lambda}^{-T / 2}\right\} \\ &=\boldsymbol{\Lambda}^{-1 / 2} \boldsymbol{S}^{-1} E\left\{(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{T}\right\} \boldsymbol{S} \mathbf{\Lambda}^{-T / 2} \\ &=\boldsymbol{\Lambda}^{-1 / 2} \boldsymbol{S}^{-1} \boldsymbol{\Sigma} \boldsymbol{S} \mathbf{\Lambda}^{-T / 2}\\ &=\mathbf{\Lambda}^{-1 / 2} \mathbf{\Lambda} \mathbf{\Lambda}^{-T / 2}\\ &=I\end{aligned} $$ --- ### 白色化のイメージ <img src="https://cdn.mathpix.com/snip/images/9K1aBCtDkm0WZj1xyqLwqAOus671LufrAuWXVib0_YY.original.fullsize.png" /> **中心に集まって**いて,**相関がない**ことがわかる。 おおよそ**半径1**の超球の中におさまる。 白色化は無相関化+中心化みたいな感じ --- # 2 確率モデル - 正規分布から導かれる識別関数 - 最尤推定 --- ### 正規分布 1次元正規分布関数は以下で定義される $$ \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) $$ d次元の多次元正規分布関数は以下で定義される $$ \mathcal{N}(\boldsymbol{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{d / 2}|\mathbf{\Sigma}|^{1 / 2}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) $$ --- ### 正規分布から導かれる識別関数 $i$番目のクラスとき,$x$が正規分布をしていると仮定する $$ p\left(\boldsymbol{x} \mid C_{i}\right)=\frac{1}{(2 \pi)^{d / 2}\left|\mathbf{\Sigma}_{i}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)\right) $$ このとき**ベイズの誤り率最小識別規則**をみたす識別関数を考える クラスの事後確率,すなわち特徴量xが観測されたとき対象がクラス$C_i$に属している確率は $$ \begin{aligned} P\left(C_{i} \mid \boldsymbol{x}\right) &=\frac{p\left(\boldsymbol{x} \mid C_{i}\right) P\left(C_{i}\right)}{p(\boldsymbol{x})} \\ & \propto \frac{P\left(C_{i}\right)}{(2 \pi)^{d / 2}\left|\boldsymbol{\Sigma}_{i}\right|^{1 / 2}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)\right) \end{aligned} $$ --- $P\left(C_{i} \mid \boldsymbol{x}\right)$を最大にする$Ci$が識別クラスである。 対数をとっても大小関係は変わらないので $$ \ln P\left(C_{i} \mid \boldsymbol{x}\right) \propto\ln P\left(C_{i}\right)-\frac{d}{2} \ln (2 \pi)-\frac{1}{2} \ln \left|\boldsymbol{\Sigma}_{i}\right|-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right) $$ を最大にする$Ci$をさがせば良い。 よって以下の関数を最小にするクラス$Ci$を選べば良い $$ g_{i}(\boldsymbol{x})=\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)+\ln \left|\boldsymbol{\Sigma}_{i}\right|-2 \ln P\left(C_{i}\right) $$ つまり $$ \text { 識別クラス }= \arg \min _{i}\left[g_{i}(\boldsymbol{x})\right] $$ --- ### 識別境界 クラス$i$と$j$の識別境界は$g_{i}(\boldsymbol{x})=g_{j}(\boldsymbol{x})$となるところ。 $$ \begin{aligned} f_{i j}(\boldsymbol{x})=& g_{i}(\boldsymbol{x})-g_{j}(\boldsymbol{x}) \\=&\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)+\ln \left|\boldsymbol{\Sigma}_{i}\right|-2 \ln P\left(C_{i}\right) \\ &-\left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)^{T} \boldsymbol{\Sigma}_{j}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)-\ln \left|\boldsymbol{\Sigma}_{j}\right|+2 \ln P\left(C_{j}\right) \\=& \boldsymbol{x}^{T} \underbrace{\left(\boldsymbol{\Sigma}_{i}^{-1}-\boldsymbol{\Sigma}_{j}^{-1}\right)}_{\text {行列 } \boldsymbol{S}} \boldsymbol{x}+2 \underbrace{\left(\boldsymbol{\mu}_{j}^{T} \boldsymbol{\Sigma}_{j}^{-1}-\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1}\right)}_{\text {ベクトル } \boldsymbol{c}^{T}} \boldsymbol{x} \\ &+\underbrace{\boldsymbol{\mu}_{i}^{T} \boldsymbol{\Sigma}_{i}^{-1} \boldsymbol{\mu}_{i}-\boldsymbol{\mu}_{j}^{T} \boldsymbol{\Sigma}_{j}^{-1} \boldsymbol{\mu}_{i}+\ln \frac{\left|\boldsymbol{\Sigma}_{i}\right|}{\left|\boldsymbol{\Sigma}_{j}\right|}-2 \ln \frac{P\left(C_{i}\right)}{P\left(C_{j}\right)}}_{\text {スカラー } F} \\=& \boldsymbol{x}^{T} \boldsymbol{S} \boldsymbol{x}+2 \boldsymbol{c}^{T} \boldsymbol{x}+F=0 \end{aligned} $$ **二次曲面**になる --- 二つのクラスの共分散行列が等しいとき, $$ \boldsymbol{\Sigma}_{i}=\boldsymbol{\Sigma}_{j}=\boldsymbol{\Sigma} $$ このとき識別境界は $$ f_{i j}(\boldsymbol{x})=g_{i}(\boldsymbol{x})-g_{j}(\boldsymbol{x})=2 \boldsymbol{c}^{T} \boldsymbol{x}+F=0 $$ となり**線形**になる --- ### 識別境界のイメージ ⚫️が糖尿病発症しなかった例,△が発症した例 <img src="https://cdn.mathpix.com/snip/images/YL-Ws-8MGHrKNvRUoKF-WrxXHwN9SDK-SnOPAiTIoCc.original.fullsize.png" /> 左は二次識別関数での識別境界,右は共分散行列が同じと近似した線形識別関数での識別境界 --- ### 最尤推定 **最尤推定**とは手元のデータが、どの母パラメータに従う分布から得られる**確率が最も高いか**に基づいて考えられる推定量 確率モデル $f\left(\boldsymbol{x} \mid \boldsymbol{\theta}\right)$ に従うN個の学習データの同時分布は $$ f\left(\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N} \mid \boldsymbol{\theta}\right)=\prod_{i=1}^{N} f\left(\boldsymbol{x}_{i} \mid \boldsymbol{\theta}\right) $$ --- $\boldsymbol{\theta}$の関数なので$L(\boldsymbol{\theta})$とする。 $$ L(\boldsymbol{\theta})=f\left(\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N} \mid \boldsymbol{\theta}\right) $$ $L(\boldsymbol{\theta})$ を最大にする $\boldsymbol{\theta}$ を考えれば良い。 つまり $$ \boldsymbol{\theta}= \arg \max _{i}\left[L(\boldsymbol{\theta})\right] $$
{"metaMigratedAt":"2023-06-15T14:29:10.211Z","metaMigratedFrom":"YAML","title":"パターン認識輪読会 第3回","breaks":false,"slideOptions":"{\"theme\":\"white\",\"slideNumber\":\"c/t\",\"center\":false,\"transition\":\"none\",\"keyboard\":true,\"width\":\"93%\",\"height\":\"100%\"}","contributors":"[{\"id\":\"e3d3b2ca-3549-487f-9952-d8b9763905b0\",\"add\":15011,\"del\":2151}]"}
    335 views