Conjugate prior and posterior

Organization contact [ierosodin(ierosodin@gmail.com)]

tags: `machine learning` `學習筆記`

Frequentist and bayesian

我們再次提到 frequentist 與 bayesian，已經知道， frequentist 只看過去的數據，來決定一切，因此一個機率很低的事件，可能因為過去沒有發生過，而被認為是不可能發生。但就 bayesian 而言，又可能因為一個太差的 prior，導致結果離現實差距太大。

回想前面的 naive baye's classifier，我們只考慮了離散的情況，這樣同樣會有沒發生過而被認為不可能發生的問題，解決的一種方法，即為給予一個 distribution 的 prior，這樣機率就不只是離散的了。

然而當有了 distribution 後，我們必須計算 distribution 上每個

P (θ)

的 likelihood，最後還要做 normalize 得到 posterior，這樣的運算太麻煩且太大，因此我們希望找到一個分佈，是 prior 與 posterior 的形式相同的，可以直接由 prior 加上新的 data 得到 posterior，即稱為 conjugate。

Gamma function

在介紹 conjugate 前，必須先認識 gamma function，定義：

Γ (x) = \int_{0}^{\infty} p^{x - 1} e^{- p} d p

性質：

$Γ (x) = (x - 1) Γ (x - 1)$
- proof:
- $\int_{o}^{\infty} p^{x - 1} e^{- p} d p = - p^{x - 1} e^{- p} |_{0}^{\infty} + (x - 1) \int_{0}^{\infty} p^{x - 2} e^{- p} d p = (x - 1) Γ (x - 1)$
$\int_{0}^{\infty} p^{a - 1} (1 - p)^{b - 1} d p = \frac{Γ (a) Γ (b)}{Γ (a + b)}$
- proof:
- $∵ \int_{0}^{\infty} β (p, a, b) d p = 1 \Rightarrow \int_{0}^{\infty} p^{a - 1} (1 - p)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)} d p = \frac{Γ (a + b)}{Γ (a) Γ (b)} \int_{0}^{\infty} p^{a - 1} (1 - p)^{b - 1} d p = 1 \Rightarrow \int_{0}^{\infty} p^{a - 1} (1 - p)^{b - 1} d p = \frac{Γ (a) Γ (b)}{Γ (a + b)}$
- 定義
  $\frac{Γ (a) Γ (b)}{Γ (a + b)}$ 為 beta function
- $β (p, a, b)$ 為一種機率分佈（定義）
$Γ (1) = 1$

Beta distribution

這裡要介紹的 conjugate 方法為 beta distribution，定義：

β (p | a, b) = \int_{0}^{\infty} p^{a - 1} (1 - p)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)} d x

mean and variance

\begin{aligned} E (x) & = \int_{0}^{\infty} x \cdot x^{a - 1} ((1 - x)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)} d x \\ = \frac{Γ (a + b)}{Γ (a) Γ (b)} \int_{0}^{\infty} x^{(a + 1) - 1} (1 - x)^{b - 1} d x \\ = \frac{Γ (a + b)}{Γ (a) Γ (b)} \frac{Γ (a + 1) Γ (b)}{Γ (a + 1 + b)} \\ = \frac{Γ (a + b)}{Γ (a) Γ (b)} \frac{a Γ (a) Γ (b)}{(a + b) Γ (a + b)} \\ = \frac{a}{a + b} \end{aligned}

\begin{aligned} V a r (x) = E (x^{2}) - E^{2} (x) \\ \begin{aligned} E (x^{2}) & = \int_{0}^{\infty} x^{2} \cdot x^{a - 1} ((1 - x)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)} d x \\ = \frac{Γ (a + b)}{Γ (a) Γ (b)} \int_{0}^{\infty} x^{(a + 2) - 1} (1 - x)^{b - 1} d x \\ = \frac{Γ (a + b)}{Γ (a) Γ (b)} \frac{Γ (a + 2) Γ (b)}{Γ (a + 1 + b)} \\ = \frac{Γ (a + b)}{Γ (a) Γ (b)} \frac{(a + 1) a Γ (a) Γ (b)}{(a + b + 1) (a + b) Γ (a + b)} \\ = \frac{a (a + 1)}{(a + b) (a + b + 1)} \end{aligned} \\ \begin{aligned} V a r (x) & = E (x^{2}) - E^{2} (x) \\ = \frac{a (a + 1)}{(a + b) (a + b + 1)} - \frac{a^{2}}{(a + b)^{2}} \\ = \frac{a (a + 1) (a + b) - a^{2} (a + b + 1)}{(a + b)^{2} (a + b + 1)} \\ = \frac{a ((a^{2} + a b + a + b) - (a^{2} + a b + a))}{(a + b)^{2} (a + b + 1)} \\ = \frac{a b}{(a + b)^{2} (a + b + 1)} \end{aligned} \end{aligned}

Conjugate

我們現在假設 prior 為一個 beta distribution，因此其分佈為：

p^{a - 1} (1 - p)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)}

其中，

a

與

b

分別為先前 knowledge 中，成功與失敗的次數（以擲硬幣作為例子），而

p

為成功的機率。

而 likelihood 則是要用來更新 prior 的 data 分佈，為一個 binomial distribution：

(\begin{matrix} N \\ m \end{matrix}) p^{m} (1 - p)^{(N - m)}

其中，N 為試驗的次數，m 為成功的次數。

由 bayes therem 我們可以得出 posterior：

P (θ | e v e n t) = \frac{l i k e l i h o o d * p r i o r}{m a r g i n a l} = \frac{(\begin{matrix} N \\ m \end{matrix}) p^{m} (1 - p)^{(N - m)} p^{a - 1} (1 - p)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)}}{\int_{0}^{1} (\begin{matrix} N \\ m \end{matrix}) θ^{m} (1 - θ)^{(N - m)} θ^{a - 1} (1 - θ)^{b - 1} \frac{Γ (a + b)}{Γ (a) Γ (b)} d θ} = \frac{p^{m + a - 1} (1 - p)^{N - m + b - 1}}{\int_{0}^{1} θ^{m + a - 1} (1 - θ)^{N - m + b - 1} d θ}

又由

\begin{aligned} \int_{0}^{1} β (θ | m + a, N - m + b) d θ & = \int_{0}^{1} θ^{m + a - 1} (1 - θ)^{N - m + b - 1} \frac{Γ (a + N + b)}{Γ (m + a) Γ (N - m + b)} d θ \\ = \frac{Γ (a + N + b)}{Γ (m + a) Γ (N - m + b)} \int_{0}^{1} θ^{m + a - 1} (1 - θ)^{N - m + b - 1} = 1 \\ \Rightarrow \int_{0}^{1} θ^{m + a - 1} (1 - θ)^{N - m + b - 1} = \frac{Γ (m + a) Γ (N - m + b)}{Γ (a + N + b)} \end{aligned}

\begin{aligned} ∴ P (θ | e v e n t) & = \frac{l i k e l i h o o d * p r i o r}{m a r g i n a l} = \frac{p^{m + a - 1} (1 - p)^{N - m + b - 1}}{\int_{0}^{1} θ^{m + a - 1} (1 - θ)^{N - m + b - 1} d θ} \\ = \frac{p^{m + a - 1} (1 - p)^{N - m + b - 1}}{\frac{Γ (m + a) Γ (N - m + b)}{Γ (a + N + b)}} \\ = \frac{Γ (a + N + b)}{Γ (m + a) Γ (N - m + b)} p^{m + a - 1} (1 - p)^{N - m + b - 1} \\ = β (p | a + m, b + N - m) \end{aligned}

由結果我們可以發現，當有新的一筆資料要來更新 prior 時，我們只需要知道成功及失敗的次數，即可利用 beta distribution 來得到我們的 posterior。

從這裡我們又可以來探討 frequentist 與 bayesian 的差異，可以發現，成功與失敗分別為 (1,1) 與 (100,100) 時，對於 frequentist 來說，這個硬幣的機率都是 0.5，但是對於 bayesian 來說，當資料量越大，則對於分佈的信心就越高（可以想成高斯分佈的 variance 就越小）

beta distribution 的極值？

Dirichlet distribution

為 multinomial 對應 binomial 的 beta distribution，其中 multinomial：

P = (\begin{matrix} N \\ m_{1} m_{2} m_{3} . . . m_{k} \end{matrix}) \prod_{i} p_{i}^{m_{i}}

則 dirichlet distribution 為：

D i r (a) = \frac{Γ (a_{1} + a_{2} + a_{3} + . . . + a_{k})}{Γ (a_{1}) Γ (a_{2}) Γ (a_{3}) . . . Γ (a_{k})} \prod_{i} p_{i}^{a_{k} - 1}

Conjugate prior and posterior

tags: machine learning 學習筆記

Frequentist and bayesian

Gamma function

Beta distribution

mean and variance

Conjugate

Dirichlet distribution

Read more

Newton method

Gaussian

Docker Installation

Convergence of gradient decent

tags: `machine learning` `學習筆記`