# 応用数学 ## 第1章 線形代数 ### 固有値・固有ベクトル スカラーとベクトルの概念がある。スカラーは大雑把に1次元の数(身長、体重など)で ベクトルには方向の概念がプラスされる。 単位行列は「1」のような行列で、逆行列は逆数のようなものになる。 ある行列に対して逆行列が存在しない場合もある。 行列式は行列を2つのベクトルと見立てた時のそのベクトルのなす面積にあたる。これがゼロの場合は逆行列は存在しない。 行列A(n次正方行列)に対するラムダを固有値、ベクトルxを固有ベクトルという。 $A\vec{x}=\lambda \vec{x}$ $x\neq0$ 求め方については割愛する ### 固有値分解 固有値は基本的にnxnの正方行列の場合固有値λはn個ある。 固有値$\lambda_{1},\lambda_{2},・・・$と対応する固有ベクトル$\vec{v}_{1},\vec{v}_{2}, \vec{v}_{3}, ・・・$があるとする $A\vec{x}=\lambda \vec{x}$ である事からまとめてまとめて表すと 固有値をまとめて対角線上に並べた行列 \begin{equation} \Lambda = \left( \begin{array}{ccc} \lambda_{1} & & \\ & \lambda_{2} & \\ & & \lambda_{3} \end{array} \right) \end{equation} 固有ベクトルを並べた行列 \begin{equation} V = \left( \begin{array}{ccc} & & \\ \vec{v_{1}} & \vec{v_{2}} & \vec{v_{3}} \\ & & \end{array} \right) \end{equation} になり、 $AV=V\lambda$ $A=V\lambda V^{-1}$ 行列Aが固有値の集まりと固有ベクトルとその逆行列に分解できる。 これが固有値分解 Aのn乗の計算でも$\lambda$部分のn乗を考えればいいので楽。 $A\vec{x}=\lambda \vec{x}$ $(A-\lambda I)\vec{x}=\vec 0$ 行列式 ゼロのようなもの、あるいは考え方としては逆行列が存在しては困る。 $|A-\lambda I|=0$ ### 特異値分解 正方行列以外の固有値分解 $M\vec{v}=\sigma\vec{u}$ $M^{T}\vec{u}=\sigma\vec{v}$ このような単位ベクトルがあるなら特異値分解できる $M=USV^{T}$ $MM^{T}=USV^{T}VS^{T}U^{T}=USS^{T}U^{T}$ Mは長方形の行列でも$MM^{T}$で正方行列(対称形)になる、つまり固有値分解のように扱える。 右辺が固有値分解(固有値はMの二乗)のようになる ## 第2章 確率統計 ### 条件付き確率 ある事象Xが与えられた(起こったとして)Yが起こる確率 $P(Y|X)=\frac{P(X, Y)}{P(X)}・・・(1)$  - 独立した事象の同時に起こる確率(お互いに因果関係がない) $P(Y,X)=P(Y)P(X) =P(X,Y)・・・(2)$ ### ベイズ則 (1)式に$P(X)$をかけると$P(Y|X)P(X)=P(X,Y)$と表せる(乗法定理) また(1)式を$P(X|Y)=\frac{P(Y,X)}{P(Y)}$として$P(Y)$をかけて 同様に$P(X|Y)P(Y)=P(X,Y)・・・(3)$と表せる (お互いイコールなので$P(X|Y)P(Y)=P(Y|X)P(X)$) (3)式を(1)の右辺の分子に代入すると $P(Y|X)P(X)=\frac{P(X|Y)P(Y)}{P(X)}・・・(4)$ これをベイズの定理という ### 期待値、分散 - 確率変数 事象に結びつけられた変数 サイコロの目、トランプの数字を点数とするなど - 確率分布 事象の発生する確率分布 - 期待値 **その確率分布において確率変数の平均の値** 事象を$x_{k}$ (k=1,2,3,4,,,,,)、その時の 確率変数を$f(x_{k})$、確率を$P(x_{k})$とすると 離散値の場合は $\sum_{k=1}^{n}{P(X=x_{k})f(X=x_{k})}・・・(1)$ と表せる。 連続する値の場合は積分となる(省略) - 分散 - データの散らばり具合 - データのそれぞれの値が平均値からどれだけずれているか(偏差)の二乗を平均したもの $Var=\frac{1}{n}\sum_{i=1}^{n}({x}_{i}-\bar{x})^{2}$ - また期待値からも求められる $Var= E(x^{2})-{E(x)}^{2}$ - 共分散 - 2種類のデータの関係性を見れる。お互いの偏差の積の平均 Cov= $\frac{1}{n}\sum_{i=1}^{n}({x}_{i}-\bar{x})({y}_{i}-\bar{y})$ - 標準偏差 - $\sqrt{Var}$ - 単位が元に戻る  ### 様々な確率分布 - ベルヌーイ分布 - 勝ち負け、1か0の結果しか得られないような実験(ベルヌーイ試行)の結果を0と1で表した分布を指す。 - ある事が起きる確率(生起確率)が$p$, もう一方が起きる確率は$(1-p)$とすると $P(X=k)=p^{k}(1-p)^{(1-k)}$ - $k$:1か0のケース - 期待値は$E(x)=p$、分散は$V(x)=p(1-p)$ - マルチヌーイ(カテゴリカル)分布 - ベルヌーイ分布の2事象をより一般化したものと言える。 - 二項分布 - 複数のベルヌーイ試行を行ったときに、それぞれの事象が起こる確率の分布 - $P(X=k)={}_n C _kp^{k}(1-p)^{(n-k)}$ - n回のベルヌーイ試行を行うときにk回起こる確率 - ガウス(正規)分布 - 釣鐘型の連続分布 ## 第3章 情報理論 ### 自己情報量 $P(x)$の確率で起きる事象xの自己情報量は以下の式で定義される。 logの底を2にしてbitsで表すのが一般的。 $I(x)=-log(P(x))$ ### シャノンエントロピー - 上記自己情報量の期待値 - $E(x)$は確率変数xの平均を表す - $H(x)=E(I(x))=ーE(log(P(x)))=-\sum P(x)log(P(x))$ - エントロピーが最大の時に新たに情報を得る事が(期待される)できる ### KLダイバージェンス - 同じ事象・確率変数における異なる確率分布P,Qの違い(**距離に近い**)を表す - $D_{KL}(P\parallel Q)=\mathbb{E}_{x~P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x~P}[log{P(x)}-log{Q(x)}]$ - $I(Q(x))-I(P(x))=(-log(Q(x)))-(-log(P(x)))= log\frac{P(x)}{Q(x)}$ - もともと考えられていた分布Q, あとから分かった確率分布Pの違い - $D_{KL}(P\parallel Q)=\sum_{x}P(x)(-log(Q(x)))-(-log(P(x)))=\sum_{x}P(x)log\frac{P(x)}{Q(x)}$ - **シャノンエントロピーに似ている** ### 交差エントロピー - KLダイバージェンスの一部分を取り出したもの - Qについての自己情報量をPの分布で平均したもの - $D_{KL}(P\parallel Q)=sum_{x}P(x)(-log(Q(x)))-(-log(P(x)))$ - 自己情報量の平均値 $H(P,Q)=H(P)+D_{KL}(P\parallel Q)$ - $H(P,Q)=-\mathbb{E}_{x~P}logQ(x)=-\sum_{x}P(x)logQ(x)$