讀書筆記
基本架構
說明
在 auto-encoder 中, 即作為 code,並直接透過 decoder 重建回接近 input 的 output。
因此對於 VAE,我們可以將 想成原本的 code()加上 noise(),而 為 noise 的標準差, 則由 standard normal distribution 抽樣而來(在Why VAE? - 直覺上的原因將說明為什麼要加上 noise)。
目標
在 auto-encoder 中,code 和 image 的對應關係是非線性的,因此就算 code 只差一點,得到的 image 很可能大不相同。
然而,我們期待在 code 差一點點時得到相近的 image,因此將原 image 通過 encoder 得到的 code 加上 noise,並要求重建出來的 image 仍要和原 image 越接近越好。如此一來,如果有一個 code 介於兩張 images 通過 encoder 得到的兩個 code 之間,我們可以期待其得到的 image 會像那兩張 images 的組合。
因此 code 的 attributes 可代表 image 的變化趨勢的軸。
目標
如何估計 ?
利用 Gaussian Mixture Model 的概念,由無限多個 Gaussian distributions 疊合以估計複雜的
首先決定是無限多個 Gaussian distributions 中的哪一個():
所決定的 Gaussian distribution 就是給定 的情況下隨機變數 的機率分布:
按照不同 Gaussian distributions 出現的機率將其疊合(對 積分)即可得到 :
即為 standard normal distribution, 則是 ,然而 和 也是待估計的,且此積分通常計算困難。
我們也可以將 透過條件機率的公式寫成:
然而後驗機率 也是未知。後驗機率難以計算的問題相當經典,可以透過 variational inference 的方法解決,也就是以簡單的分布 近似難以計算的 。
此外,為了估計最有可能的 ,我們要最大化觀測資料 的 log likelihood:
KL divergence 是兩個機率分布相似程度的度量,由於其值非負數,故 為 的 lower bound。又由於 被稱為 evidence(因為 是我們為資料選擇好的 model 的 evidence),所以 被稱為 evidence lower bound (ELBO)。同時尋找 和 以提高 ELBO 除了可以提高 log likelihood,又可以降低 和 的 KL divergence(找到最能近似 的 )。
因此,我們必須最小化 :
這也就是直觀解釋中避免 noise 的標準差為零並加上 L2 regularization 的數學原因。
至於最大化 即代表重建的 image 要和輸入的 image 越像越好,也就是最小化 reconstruction error。