# 4.2 Maximum Likelihood Estimation
1. 本節中沒有多解釋的名詞或 Probability 相關內容可參考 Appendix。
> - 以下簡稱 probability density function 為 pdf。
> - 以下簡稱 probability mass function 為 pmf。
2. 本節內容可參考本章後半部補充部分的筆記「補充:Maximum Likelihood Estimation」,有比較多且詳細的數學解釋和例子。另外,如果那邊有講到和此處相同的概念,就不會在此多細講。
---
假設我們有一個 independent and identically distributed (iid) sample:
\begin{equation}
X = \{x^t\}_{t=1}^N
\end{equation}
> 其中 $t$ 是 index,因此總共有 $N$ 個 instance $x^1,...,x^N$ 在這個 sample $X$ 中。
我們假定 $x^t$ 這些 instances 是從某個已知的 <font color = "snake">probability density family</font> ==$p(x|\theta)$== 中得到的,並且由 ++parameters++ $\theta$ 定義。
\begin{equation}
x^t \sim p(x|\theta)
\end{equation}
:::info
Q:為什麼這裡要用 probability density "family",而不是用 probability density distribution?probability density family 指的又是什麼?由 $\theta$ 定義又是什麼意思?
:::
我們先來回答這些問題再繼續原本的內容。
## probability density family
要回答這些問題,首先我們要先介紹一個名詞叫做 shape parameters。shape parameter 是我們對 parameter 分類中的一種,parameter 的分類如下:
### parameter 分類
- <font color = "snake">location parameter</font>:告訴我們 distribution 的中心在水平軸上的哪個點的 parameter。
- <font color = "snake">scale parameter</font>:告訴我們水平軸的 scale 的 parameter。
> 也就是說去增加或降低這個 parameter 會讓圖形被擠壓或拉伸。
- <font color = "snake">shape parameter</font>:決定整個 function 的 graph 形狀的 parameter
> 如果改變這個 parameter 整個形狀都會改變(前兩種 parameters 造成的改變不算形狀改變)
>
> $\rightarrow$ 就像前兩種 parameters 不會改變 shape,shape parameter 也不會位移或壓扁/伸長我們的圖形,它既不同於前兩種 parameters,也不是由他們組成的 function。
> - 並非每個 distribution 都有 shape parameter。
### 例子:Weibull distribution
直接先舉個例子,有一種 distribution 叫做 <font color = "green">Weibull distribution</font>,它的 pdf 為:
:::success
\begin{equation}
f(x) = \frac{\gamma}{\alpha}(\frac{x-\mu}{\alpha})^{(\gamma-1)}e^{-(\frac{x-\mu}{\alpha})^\gamma} \qquad x \ge \mu;\ \gamma, \alpha >0
\end{equation}
:::
在這麼多的 parameters 中:
- $\gamma$ 是 shape parameter
- $\mu$ 是 location parameter
- $\alpha$ 是 scale parameter
根據這些 parameters 值的不同,我們可以定義不同的 distribution 名稱,像是當
- $\mu = 0, \alpha = 1$ 時我們稱為 standard Weibull distribution
- $\mu = 0$ 時我們稱為 2-parameter Weibull distribution
或是當我們改變 shape parameter $\gamma$ 的值時,distribution 為各種不同的形狀:

正因為 shape parameter 允許我們的 distribution 有很多種不同的形狀,這樣的 distribution 特別適合拿來 model applications,因為較有彈性來去 model 不同的 data sets。
---
回到原本的問題:
如同上面 Weibull distribution 的例子,很多 probability distribution 指的並非單一一個 distribution,因為儘管它們的 pdf $f(x)$ 「結構」相同,但是裡面實際 parameters 的值不同。
> 像是可能有一個或多個 shape parameters,使得值不同的情況下,這些 distributions 呈現完全不同的形狀。
所以在這種情況下我們稱這群 distributions 為一個 <font color = "snake">distribution family</font>,定義如下:
:::info
A <font color = "blue">distribution family</font> is an indexed collection
\begin{equation}
P = \{f(x|\theta)\ |\ \theta \in \Omega\}
\end{equation}
of densities or probability mass functions on a common sample space.
:::
> 也就是說, $P$ 包含了許多 pdf 或 pmf $f(x|\theta_i)$ 的「不同版本」,每個結構相同,但根據不同的 $\theta_i$ 有不同的 parameter 值。
>> 是 pdf 或 pmf 根據 random variable continuous 或 discrete 而定,詳細說明可參考 Appendix A.2.1。
最後,distribution family 中的各個不同的 distributions 會不同,正是因為它們有不同的 parameters 值,所以我們說它們 <font color = "snake">defined up to parameters $\theta$</font>。
## likelihood
前面說了這麼多,我們應該也就能夠明白 parameters 對一個 distribution 的影響有多大。因此,我們希望能找到某一組 $\theta$ 使得:
:::info
sampling $x^t$ from $p(x|\theta)$ as likely as possible
:::
> 意思就是我們希望能找到一組參數 $\theta$,使得我們的 model best-fit 我們的 sample data。
>> 更進一步去解釋:如上面的例子所呈現的,每一組 $\theta$ 會定義一種 probability distribution,我們希望找到 optimal 的 $\theta$(用 $\hat{\theta}$ 表示),使得畫出來的圖和我們 experiment 做出來的 outcomes 分佈最接近。
因為我們預設我們的這 $N$ 個 instances $x^t$ 為 independent,所以在給定這樣的一個 sample $X$ 的情況下,parameter $\theta$ 的 likelihood 為個別的點的 likelihood 相乘:
> 意思就是:
>
> 因為我們在做一個 experiment $N$ 次來得到 $N$ 個 outcomes 時,這些 experiments 之間彼此獨立,所以當我們要試圖找出最接近所有 outcomes 形成的 distribution 的 function 時,這個 function 的參數是 $\theta$ 的機率,會等同:
>
> 我們這 $N$ 個 outcomes 分別有著 $\theta$ 作為 parameter 的機率相乘。

> 假設有兩個 $\theta_i, \theta_j \in \Omega$($\Omega$ 為 parameter space),如果 $p(X|\theta_i) > p(X|\theta_j)$ ,那就代表對於 $X$ 這個 sample 來說,用 $\theta_i$ 來作 parameter 的值更適合;同時,根據定義 $l(\theta_i|X) > l(\theta_j|X)$,所以當我們說找 likelihood 大的 $\theta$,就等同是在找更可能是最適合的 $\theta$。
那麼這個找出 ++optimal parameter++ ==$\hat{\theta}$== 的過程稱作 <font color = "snake">maximum likelihood estimation</font>,我們去找出某個 $\theta$ 使 likelihood 的值最大,也就是說我們++希望找到某個 $\hat{\theta}$ that maximizes $l(\theta|X)$++。
在找 $\max l(\theta|X)$ 時,我們也可以取 $log$ 再找 maximum。
> 取 $log$ 是因為不影響答案,且為了計算方便。
>> 詳細可參考下一小節「補充:Maximum Likelihood Estimation」。
於是我們再多定義一個 <font color = "snake">log likelihood </font>,也就是原本的 likelihood 定義再多取一個 $log$:

接著,下面要來討論三種常用的 distributions 它們的 parameters 的 maximum likelihood estimators(MLE)。
> 也就是我們要來找出要算這三種 distributions 最好的 parameter 要用什麼樣的 functions。
三種 distributions 為:
1. Bernoulli(2-class 常用)
2. Multinomial(Bernoulli generalize 到多個 classes)
3. Gaussian(常態分佈)
- 關於這三種 distribution 的基礎介紹可參考 Appendix。
## 4.2.1 Bernoulli Density
Bernoulli distribution 只有兩種 outcomes $\{0,1\}$,分別對應到 probability $1-p$ 和 $p$,它的 pmf 為:

expected value 和 variance 為:

> 推導過程見「A.3.1 Bernoulli Distribution」
因為我們只有一個 parameter $p$,所以我們想得到的 optimal parameter 計算方式只有 $\hat{p}$(作為 estimator)一個。
一樣假設我們有一個 iid sample $X$,裡面有 $N$ 個 instances,即 $X = \{x^t\}_{t=1}^N$,其中每個 $x^t \in \{0,1\}$。我們計算 log likelihood 來求 $\hat{p}$:

> 因為 sample iid,所以 log likelihood $L(p|X)$ 為個別 instance 的 likelihood 相乘取 log,再利用一些簡單的 log 特性就會得到上方的結果。
>> - 詳細過程參考「補充:Maximum Likelihood Estimation」
我們將 log likelihood $L(p|X)$ 對 $p$ 微分,由微分等於零的點來取極值,就會得到最大的 log likelihood 會發生在什麼樣的 $p$。
> 過程一樣參考「補充:Maximum Likelihood Estimation」。
經過一連串計算以後會得到 $\hat{p}$:

記得在 Bernoulli 的情況下,$X$ 的 expected value $E[X] = p$,所以 $p$ 的 estimator $\hat{p}$ 就是 mean 的 estimator,也就是上方 $4.4$ 的 sample average $\frac{\sum_tx^t}{N}$。
:::warning
++$\hat{p}$ 本身也是一個 random variable++,所以 $\hat{p}$ 也有自己的 distribution。因此,我們可以去討論如果從同個原本的 distribution 取出不同的 sample $X_i$,$\hat{p}$ 的 distribution 會如何改變。
:::
舉例來說:
當 $N$ 變大時,$Var(\hat{p})$ 會變小。
> 因為當 sample 變大時,sample mean 的變化量應該要變小(大數法則),也就等同於 $\hat{p}$ 的變化量變小。
## 4.2.2 Multinomial Density
考慮 Bernoulli 的 generalization,也就是我們不是只有兩個 state,而是有 $K$ 個 states($K > 2$)。
一個 random event 就是這 $K$ 個 mutually exclusive 且 exhaustive 的 states 的其中一個。
舉例來說我們有 $K$ 個 classes,每個對應到 probability $p_i$,且 $\sum_{i=1}^Kp_i=1$。
> 因為 mutually exclusive 且 exhaustive,所以所有可能的 classes 的機率相加為 $1$。
我們令一些 indicator variables $x_1,...,x_K$,如果 outcome 是 state $i$ 則 $x_i$ 為 $1$,否則為 $0$。

> 意義也就是 outcome 為 $x_1,...,x_K$ 的機率等同 $p_1\times p_2\times ...\times p_k$。
一樣我們假設做 $N$ 次 independent experiments,取得 outcomes 所成的集合 $X= \{x^t\}_{t=1}^N$,不過要注意的是這裡的每個 outcome $x^t$ 是一個 $K$ 維向量,向量中的每個 entry 值如上方定義:

> 如果第 $t$ 次 experiment $\in$ class $i$,則 $x^t$ 的第 $i$ 個 entry $x_i^t$ 為 $1$,否則為 $0$。
因為一般情況下一個 outcome 應該要只屬於某一個 class,所以在 $x^t$ 的 entries 裡,只會有一個是 $1$,其餘都是 $0$。因此滿足 $\sum_i{x_i^t}=1$。
那麼我們每個 class 的 probability $p_i$ 的 maximum likelihood estimator (MLE) 為:

> 意思就是:
>
> 我們能找到的最適合的 $p_i$ 值 $\hat{p}_i$ 是++所有 $N$ 次 experiments 的 outcome 裡面,被分到 class $i$ 的比例++。
>> 因為在每個 experiment outcome $x^t$ 裡面($t=1,...,N$),如果是 state $i$ 則 $x_i^t$ 為 $1$,否則為 $0$,所以對每個 $x^t$ 的第 $i$-th entry 加總就能知道 $N$ 次裡是 state $i$ 的有幾次。
因為有 $K$ 個 classes,且一個 $x^t$ 裡的每個 entry 值不是 $0$ 就是 $1$,所以其中一種方式是我們可想成 $K$ ++個 Bernoulli experiment++。
或是我們也可以算 log likelihood,然後找到使 likelihood 最大的 $p_i$(在條件 $\sum_{i=1}^Kp_i=1$ 之下。)
## 4.2.3 Gaussian (Normal) Density
- 課本都沒寫過程,只有直接寫出 MLE,所以在此我直接貼出我的整個計算過程:
> 關於 normal distribution 的 pdf 以及相關背景知識,可參考「A.3.5 Normal(Gaussian) Distribution」。
首先我們根據定義計算 normal distribution 的 log likelihood。
> $\rightarrow$ 這裡就可以看出為什麼 log likelihood 有時後在計算上會比直接算 likelihood 輕鬆。

接著透過分別對兩個 parameters 偏微求極值(最大值):


# 參考資料
- [Shape Parameter: Definition and Examples](https://www.statisticshowto.com/shape-parameter/)
- Engineering Statistic Handbook
- [Families of distributions](https://www.itl.nist.gov/div898/handbook/eda/section3/eda363.htm)
- [Weibull distribution](https://www.itl.nist.gov/div898/handbook/eda/section3/eda3668.htm)