# 情報論的機械学習
## 2020-01-07
<details>
<summary>講義内容</summary>
パーセプトロンの収束定理
バックプロパゲーション Amari先生が1967に出してたが,Rumelhart(1986)が有名そう
SVM
SOFT-SVM
ReLU
CNN
Hierachical Latent Variable Optimization
1 
2 
3 
4 
5 
6 
7 
8 
9 
10
11
12
13
14
15
16
17
18
19
20
21
</details>
## 2019-12-17
<details>
<summary>講義内容</summary>
1 
2 
3 
4 
5 
6 
7 
8 
9 
10
過去に分子にある$\Gamma^{\frac{n+1}{2}}$は$\Gamma^{\frac{n+1}{2}}$は$\pi^{\frac{n+1}{2}}$の間違い
11
12
13
14
15
16
</details>
## 2019-12-10
<details>
<summary>講義内容</summary>
1 
2 
3 
4 
5 
6 
7 
8 
deterministicに決まるものは決めていきたい.計算量が大きいものにかんしてはサンプリングを行う
9 
10
11
12
13
14
15
16
17
18
<!-- this is an end -->
</details>
## 2019-12-03
<details>
<summary>講義内容</summary>
前回の最後の方の内容は正しくない
1 
2 
3 
4 
5 
6 
7 
$z^n$は母関数のためのものであり,潜在変数とは関係がない
8 
9 
10
11
12
13
14
15
16
17
18
19
20
<!-- this is an end -->
</details>
## 2019-11-26
<details>
<summary>講義内容</summary>
有限混合モデル
1 
2 
3 
4 
5 
6 
7 
8 
9 
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
<!-- this is an end -->
</details>
## 2019-11-19
<details>
<summary>講義内容</summary>
データの最悪値の最小値をとる
1 
2 
3 
4 
5 
6 
7 
8 
9 
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
<!-- this is an end -->
</details>
## 2019-11-12
<details>
<summary>講義内容</summary>
1 
2 
3 
nが十分大のときに確率1で成立
4 
5 
6 
7 
8 
9 
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
<!-- this is an end -->
</details>
## 2019-11-05
<details>
<summary>講義内容</summary>
1 
2 
3 
4 
5 
6 
7 
8 
9 
10
11
12
13
14
15
16
17
18
19
20
21
漸近近似式の証明: Text(情学) p17-p19
中心極限定理による証明
22
23
24
25
26
27
<!-- this is an end -->
</details>
## 2019-10-29
<details>
<summary>講義内容</summary>
モデル選択
情報量基準
最適なモデル$k$を決定する
AIC (Akaike's Information Criterion) [Akaike 1973]
1 
2 
3 
4 
5 
証明続き
6 
7 
8 
9 
10
11$P_{NML}$
12$MDL$
混入13
混入14
15
16
17
18
19
20
21
22
23
24
25
<!-- this is an end -->
</details>
## 2019-10-15
<details>
<summary>講義内容</summary>
LASSO: 投げ縄という意味もある
1 LASSO 
2 
3 
4 
5 Graphical LASSO
6 
7 
8 
9 
10
11
12
13
14
今までの損失関数を$\frac{1}{n}$倍に訂正
15
16
17
18
19
20
21
<!-- this is an end -->
</details>
## 2019-10-08
<details>
<summary>講義内容</summary>
Chap1 情報論学習理論とは何か
情報量(=記述長)の視点からデータの内在的構造を抽出
Chap2 パラメータ推定
2.1 最尤推定 (maximum likelihood estimation M.L.E.)
確率モデル 知識表現
$H$:パラメータ、$x^n: x_1 \cdots x_n$
教師なし学習 $\mathcal{P} = \{p(x^n; \theta) | \theta \in H \subset R^k\}$
xが連続: probability density function (p.d.f)
xが離散: probability mass function (p.m.f)
教師あり学習 $\mathcal{P} = \{p(y^n|x^n; \theta) | \theta \in H \subset R^k\}$
yが連続: 分類
yが離散: 回帰
$\underline{\mathrm{Problem}}$
$x^n = x_1 \cdots x_n$ :観測変数列
$x_i \sim p(X; \theta)$ ; i.i.d. (independently identically distributed)
$\theta$ 未知
$x^n$: given $\Rightarrow \theta$ を推定 (estimation)
尤度関数(Likelihood Function)
$x^n$: given
$\mathcal{L}(\theta) = p(x^n, \theta) = \prod_{i=1}^n p(x_i; \theta)$ -> max
$\hat{\theta} = \underset{\theta}{\mathrm{argmax}} p(x^n; \theta)$ : 最尤推定量(maximum likelihood estimator m.l.e.)
$\hat{\theta} = \underset{\theta}{\mathrm{argmin}}\{-\log p(x^n; \theta)\}$
Ex\) 多次元正規分布のm.l.e.
$\mu$: 平均パラメータベクトル
$\Sigma$: 分散共分散行列
$x \in \mathbb{R}^d, p \in \mathbb{R}^d, \Sigma \in \mathbb{R}^{d\times d}, \theta = (\mu, \Sigma)$
p.d.f. $p(x, \theta) = \frac{1}{{(2\pi)^{\frac{d}{2}}}{|\Sigma|}^\frac12}\exp{(-\frac{{(x - \mu)}^T\Sigma^{-1}(x - \mu)}{2})}$
$x^n = x_1\cdots x_n$:given
\begin{align}
\mathcal{L}(\mu, \Sigma) &= -\log{p(x^n, \theta)} = -\log{\prod_{i=1}^n p(x_i, \theta)} \\
\\
&= - \frac{n}{2} \log{|\Sigma|}^{-1} + \frac12 \sum_{i=1}^n {(x_i - \bar{x})}^T\Sigma{(x_i - \bar{x})} \\
&+ \frac{n}{2}(\bar{x} - \mu)^T\Sigma^{-1}(\bar{x} - \mu) + \frac{nd}{2}\log(2\pi)
\end{align}
ここで、
$\bar{x} := \frac{1}{n}\sum_{i=1}^n x_i$
$S := \sum_{i=1}^n(x_i - \bar{x}){(x_i - \bar{x})}^T$
とすると
$L(\mu, \Sigma) = \frac{n}{2}\log{|\Sigma|}^{-1} + \frac{1}{2}tr(\Sigma^{-1}S) + \frac{n}{2}(\bar{x} - \mu)^T\Sigma(\bar{x} - \mu)$
ここで一般に$x^T Ax = tr(Axx^T)$を利用した
$\Lambda = \Sigma^{-1}$を利用して
$\frac{\partial{L(\hat{\mu}, \Lambda)}}{\partial{\Lambda}} = 0$なる$\Lambda$を求める
$L = -\frac{n}{2}\log|\Lambda| + \frac12 tr(\Lambda S)$
$\frac{\partial{L(\hat{\mu}, \Lambda)}}{\partial{\Lambda}} = -\frac{n}{2}(\Lambda^{-1})^T + \frac12 S = 0$
$\hat{\Sigma} = \hat{\Lambda}^{-1} = \frac{S}{n}$
$\hat{\theta} = (\hat{\mu}, \hat{\Sigma}) = (\bar{x}, \frac{S}{n})$
一般に$\frac{\partial}{\partial{A}}Tr(A^T B) = b$
一般に$\frac{\partial}{\partial{A}}\log{|A|} = (A^{-1})^T$
$\underline{\mathrm{Note}}$ 外れ値検知 outlier detection
新しいデータ$x$の$x^n = x_1 \cdots x_n$からの外れ値度合い(degree of outlier)
$= -\log p(x; \hat{\mu}, \hat{\Sigma})$ ($\hat{\mu}, \hat{\Sigma}$: $x^n$からのm.l.e.)
$= \frac{1}{2}(x - \hat{\mu})^T\hat{\Sigma}^{-1}(x - \hat{\mu}) + \log((\sqrt{2\pi})^{-1}{|\hat{\Sigma}|}^{\frac12})$
$x$から$\hat{\mu}$までの$\hat{\Sigma}^{-1}$を計算するMaharanobis距離
Ex) 回帰分析
$x = \begin{bmatrix} 1 \\ x^1 \\ \vdots \\ x^{d - 1}\end{bmatrix} \in \mathbb{R}^d$
$\theta = \begin{bmatrix} 1 \\ \theta^1 \\ \vdots \\ \theta^{d - 1}\end{bmatrix} \in \mathbb{R}^d$
$y \in \mathbb{R}$
$\sigma$: known
p.d.f.
\begin{align}
p(y|x;\theta) = \frac{1}{\sqrt{2\pi} \sigma}\exp{(- \frac{{(y - \theta^T x)}^2}{2\sigma^2})} \\
\Leftrightarrow y = \theta^T x + \epsilon ~(epsilon \sim \mathcal{N}(0, \sigma^2)) \\
= \theta_0 + \theta_1 x^1 + \cdots + \theta_{d-1}x^{d-1} + \epsilon
\end{align}
\begin{align}
(x_1, y_1), \cdots, (x_n, y_n): given \\
\mathcal{L}(\theta) = \prod_{i = 1}^n p(y_i|x_i; \theta) \\
= \prod{i=1}^n(\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{{(y_i - \theta^T)}^2}{2\sigma^2}))
\end{align}
\begin{align}
l(\theta) = -\log L(\theta) \\
= n \log(\sqrt{2\pi}\sigma^2) + \sum_{i=1}^n\frac{(y_i - \theta^T x_i)^2}{2\sigma^2}
\end{align} -> min wrt? $\theta$
$X = {(x_i,\cdots x_n)}^T$
$Y = {(y_1 \\ \vdots \\ y_n)}$
とすると
\begin{align}
\underset{\theta}{\min} \{\sum_{i=1}^n(y_i - \theta^T x_i)^2\} \\
\Leftrightarrow
\underset{\theta}{\min}\{(Y - X\theta)^T(Y - X\theta)\}
\end{align}
$\min$の中身を$l(\theta)$とすると
\begin{align}
\frac{\partial{l}}{\partial{\theta}} = -2 X^T Y + 2{(X^TX)} \theta
\end{align}
$X^T X$が正則ならば
$\hat{\theta} = (X^T X)^{-1}XY$
$\theta$のm.l.e.
正規方程式 (normal equation)
Ex(離散分布 (多項分布))
multidimentional distribution
$x = \{0, 1, \cdots m\}$
$\underline{\mathrm{proof}}$
$p(X = i) = \theta_i (i = 0, 1 \cdots m)$
パラメータ空間 $H = \{\theta \in \mathbb{R}^{m+1} | \sum_{i=0}^m \theta_i = 1, \theta_i \geq 0\}$
$x^n = x_1 \cdots x_n$: given
$n_i: X = i$の生起数
尤度関数$L(\theta) = \prod_{i=0}^n \theta^{ni}$
\begin{align}
l(\theta) = - \log \prod{i=0}^n{\theta_i}^{n_i} \\
= n\{H(\frac{n_0}{n}, \frac{n_{m+1}}{n}) + D(\{\frac{n_i}{n}|\{\theta_i\})\}
\end{align}
ここに、$H(z_0 \cdots Z_m) = -\sum_{i=0}^n z_i \log z_i$
$z_i$は0からmの和が1ですべて0以上
$D(\{z_i\} || \{w_i\}) = \sum_{i=0}^m z_i \log{\frac{z_i}{w_i}}$
kullback-leibler divergence
$\underline{\mathrm{Note}}$
$D \geq 0$の等号は$z_i = w_i$で成立
$D(\{z_i\} || \{w_i\}) = \sum_{i=0}^m z_i \log{\frac{z_i}{w_i}}$
$\geq \sum_{i=0}^m z_i(1 - \frac{w_i}{z_i}) = 0$
$\hat{\theta} = \frac{n_1}{n}$ $(i = 0 \cdots m)$
$\theta$のm.l.e.
$\underline{\mathrm{Thm}}$ (MLEの一致性 consistency)
$x_i \sim p(; \theta)$ i.i.d.
$\hat{\theta} = \hat{\theta}(x^n)$ m.l.e.
$\mathcal{p} = \{p(x;\theta)\}$に関するある正則条件下で
\begin{align}
\forall \epsilon > 0 \underset{n \rightarrow \infty}{\lim} P [|\hat{\theta}(x^n) - \theta| > \epsilon] = 0 (\hat{\theta} \underset{p}{\rightarrow} \theta) \\
||\theta|| = \sqrt{\theta^T\theta}
\end{align}
$\underline{\mathrm{Thm}}$ (MLEの漸近正規性、有効性)
$\mathcal{p}$に関するある正則条件のもとで
$\sqrt{n}(\hat{\theta} - \theta)~\mathcal{N}(0, \mathcal{L}^{-1})$





<!-- this is an end -->
</details>