# 応用数学
## 第1章 線形代数
### 固有値・固有ベクトル
スカラーとベクトルの概念がある。スカラーは大雑把に1次元の数(身長、体重など)で
ベクトルには方向の概念がプラスされる。
単位行列は「1」のような行列で、逆行列は逆数のようなものになる。
ある行列に対して逆行列が存在しない場合もある。
行列式は行列を2つのベクトルと見立てた時のそのベクトルのなす面積にあたる。これがゼロの場合は逆行列は存在しない。
行列A(n次正方行列)に対するラムダを固有値、ベクトルxを固有ベクトルという。
$A\vec{x}=\lambda \vec{x}$
$x\neq0$
求め方については割愛する
### 固有値分解
固有値は基本的にnxnの正方行列の場合固有値λはn個ある。
固有値$\lambda_{1},\lambda_{2},・・・$と対応する固有ベクトル$\vec{v}_{1},\vec{v}_{2}, \vec{v}_{3}, ・・・$があるとする
$A\vec{x}=\lambda \vec{x}$
である事からまとめてまとめて表すと
固有値をまとめて対角線上に並べた行列
\begin{equation}
\Lambda =
\left(
\begin{array}{ccc}
\lambda_{1} & & \\
& \lambda_{2} & \\
& & \lambda_{3}
\end{array}
\right)
\end{equation}
固有ベクトルを並べた行列
\begin{equation}
V =
\left(
\begin{array}{ccc}
& & \\
\vec{v_{1}} & \vec{v_{2}} & \vec{v_{3}} \\
& &
\end{array}
\right)
\end{equation}
になり、
$AV=V\lambda$
$A=V\lambda V^{-1}$
行列Aが固有値の集まりと固有ベクトルとその逆行列に分解できる。
これが固有値分解
Aのn乗の計算でも$\lambda$部分のn乗を考えればいいので楽。
$A\vec{x}=\lambda \vec{x}$
$(A-\lambda I)\vec{x}=\vec 0$
行列式 ゼロのようなもの、あるいは考え方としては逆行列が存在しては困る。
$|A-\lambda I|=0$
### 特異値分解
正方行列以外の固有値分解
$M\vec{v}=\sigma\vec{u}$
$M^{T}\vec{u}=\sigma\vec{v}$
このような単位ベクトルがあるなら特異値分解できる
$M=USV^{T}$
$MM^{T}=USV^{T}VS^{T}U^{T}=USS^{T}U^{T}$
Mは長方形の行列でも$MM^{T}$で正方行列(対称形)になる、つまり固有値分解のように扱える。
右辺が固有値分解(固有値はMの二乗)のようになる
## 第2章 確率統計
### 条件付き確率
ある事象Xが与えられた(起こったとして)Yが起こる確率
$P(Y|X)=\frac{P(X, Y)}{P(X)}・・・(1)$
- 独立した事象の同時に起こる確率(お互いに因果関係がない)
$P(Y,X)=P(Y)P(X) =P(X,Y)・・・(2)$
### ベイズ則
(1)式に$P(X)$をかけると$P(Y|X)P(X)=P(X,Y)$と表せる(乗法定理)
また(1)式を$P(X|Y)=\frac{P(Y,X)}{P(Y)}$として$P(Y)$をかけて
同様に$P(X|Y)P(Y)=P(X,Y)・・・(3)$と表せる
(お互いイコールなので$P(X|Y)P(Y)=P(Y|X)P(X)$)
(3)式を(1)の右辺の分子に代入すると
$P(Y|X)P(X)=\frac{P(X|Y)P(Y)}{P(X)}・・・(4)$
これをベイズの定理という
### 期待値、分散
- 確率変数
事象に結びつけられた変数
サイコロの目、トランプの数字を点数とするなど
- 確率分布
事象の発生する確率分布
- 期待値
**その確率分布において確率変数の平均の値**
事象を$x_{k}$ (k=1,2,3,4,,,,,)、その時の
確率変数を$f(x_{k})$、確率を$P(x_{k})$とすると
離散値の場合は
$\sum_{k=1}^{n}{P(X=x_{k})f(X=x_{k})}・・・(1)$
と表せる。
連続する値の場合は積分となる(省略)
- 分散
- データの散らばり具合
- データのそれぞれの値が平均値からどれだけずれているか(偏差)の二乗を平均したもの
$Var=\frac{1}{n}\sum_{i=1}^{n}({x}_{i}-\bar{x})^{2}$
- また期待値からも求められる
$Var= E(x^{2})-{E(x)}^{2}$
- 共分散
- 2種類のデータの関係性を見れる。お互いの偏差の積の平均
Cov= $\frac{1}{n}\sum_{i=1}^{n}({x}_{i}-\bar{x})({y}_{i}-\bar{y})$
- 標準偏差
- $\sqrt{Var}$
- 単位が元に戻る
### 様々な確率分布
- ベルヌーイ分布
- 勝ち負け、1か0の結果しか得られないような実験(ベルヌーイ試行)の結果を0と1で表した分布を指す。
- ある事が起きる確率(生起確率)が$p$, もう一方が起きる確率は$(1-p)$とすると
$P(X=k)=p^{k}(1-p)^{(1-k)}$
- $k$:1か0のケース
- 期待値は$E(x)=p$、分散は$V(x)=p(1-p)$
- マルチヌーイ(カテゴリカル)分布
- ベルヌーイ分布の2事象をより一般化したものと言える。
- 二項分布
- 複数のベルヌーイ試行を行ったときに、それぞれの事象が起こる確率の分布
- $P(X=k)={}_n C _kp^{k}(1-p)^{(n-k)}$
- n回のベルヌーイ試行を行うときにk回起こる確率
- ガウス(正規)分布
- 釣鐘型の連続分布
## 第3章 情報理論
### 自己情報量
$P(x)$の確率で起きる事象xの自己情報量は以下の式で定義される。
logの底を2にしてbitsで表すのが一般的。
$I(x)=-log(P(x))$
### シャノンエントロピー
- 上記自己情報量の期待値
- $E(x)$は確率変数xの平均を表す
- $H(x)=E(I(x))=ーE(log(P(x)))=-\sum P(x)log(P(x))$
- エントロピーが最大の時に新たに情報を得る事が(期待される)できる
### KLダイバージェンス
- 同じ事象・確率変数における異なる確率分布P,Qの違い(**距離に近い**)を表す
- $D_{KL}(P\parallel Q)=\mathbb{E}_{x~P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x~P}[log{P(x)}-log{Q(x)}]$
- $I(Q(x))-I(P(x))=(-log(Q(x)))-(-log(P(x)))= log\frac{P(x)}{Q(x)}$
- もともと考えられていた分布Q, あとから分かった確率分布Pの違い
- $D_{KL}(P\parallel Q)=\sum_{x}P(x)(-log(Q(x)))-(-log(P(x)))=\sum_{x}P(x)log\frac{P(x)}{Q(x)}$
- **シャノンエントロピーに似ている**
### 交差エントロピー
- KLダイバージェンスの一部分を取り出したもの
- Qについての自己情報量をPの分布で平均したもの
- $D_{KL}(P\parallel Q)=sum_{x}P(x)(-log(Q(x)))-(-log(P(x)))$
- 自己情報量の平均値 $H(P,Q)=H(P)+D_{KL}(P\parallel Q)$
- $H(P,Q)=-\mathbb{E}_{x~P}logQ(x)=-\sum_{x}P(x)logQ(x)$