# 5.2 Parameter Estimation ## 背景 前面一節我們有講到,我們可以將 sample 中的 $N$ 個 data points,每個具 $d$ 個 features,用 matrix $X$ 表示: \begin{equation} X = \begin{bmatrix} X_1^1 & X_2^1 & ... & X_d^1 \\ X_1^2 & X_2^2 & ... & X_d^2 \\ . & \\ . & \\ . & \\ X_1^N & X_2^N & ... & X_d^N \\ \end{bmatrix} \end{equation} 其中,每一列是 sample 中的一個 data point: \begin{equation} X^t = [X^t_1 \ X^t_2 \ ... \ X^t_d] \end{equation} > 第 $t$ 個 data point 有 $d$ 個 features。 每一行是 $N$ 個 data points 的某個 feature 的值。 既然我們可以用向量、矩陣來表示 data,那也可以用同樣的方式去定義 mean, variance...,這一節就是要把這些東西也寫成矩陣或是向量的形式。 --- ## mean vector 對每個 feature,我們都可以去計算所有 $N$ 個點在這項 feature 的平均值,如果我們把 $d$ 種 features 的平均值寫成一個向量,就會得到 <font color = "snake">mean vector</font> ==$\vec{\mu}$==:  ### MLE for mean: sample mean 如果我們要估計 $\vec{\mu}$,也就是對 $\vec{\mu}$ 中的每一項 $\mu_i$ 求估計值,我們說過可以取 sample,計算 sample mean。 以前只有一個 feature 時,sample mean 就是加總所有 sample 中的 data points 取平均: \begin{equation} m = \frac{\sum_{t=1}^N x^t}{N} \end{equation} > 關於 sample mean 以及後面我們會用到的 sample variance, sample standard deviation 的相關內容,可參考筆記「[補充:sample](https://hackmd.io/@pipibear/Hyn0QQ_H0)」。 推廣到我們有 $d$ 個 features 的情形:  > 即我們取一個 sample mean 的向量 $\vec{m}$,$\vec{m}$ 裡面的每一項 $m_i$ 都是 feature $i$ 的 sample mean,也就是 $N$ 個 sample data points 的 feature $i$ 加總取平均。 - 之前忘記在哪裡有說過 sample mean 是 maximum likelihood estimator for the mean,那麼現在寫成向量時 $\vec{m}$ 當然也是 $\vec{\mu}$ 的 MLE。 ## covariance matrix 同樣的道理,我們也可以對每個 feature 計算 variance,對任兩個 feature 間計算 covariance: > 關於 variance, covariance,以及下面會用到的 correlation,可參考筆記「[A.2.6 Variance](https://hackmd.io/@pipibear/HyvHi9rEA)」。  我們也可以用一個矩陣 <font color = "snake">covariance matrix</font> ==$\Sigma$== 來表示任兩種 features 間的 covariance,也就是 $\Sigma$ 的第 $ij$ 項為 feature $i$ 和 feature $j$ 間的 covariance,這個矩陣說明如下:  - 如同筆記「[A.2.6 Variance](https://hackmd.io/@pipibear/HyvHi9rEA)」 中有講過的,covariance $\sigma_{ij}$ 代表的是 $X_i$ 和 $X_j$ 之間是否 <font color ="red">linear</font> related,如果是,則根據斜率的正負我們可以判斷它們具 positive 或 negative covariance,但是我們沒辦法透過這個值的大小去解讀它們的相關性有多大,因為這個值會 depend on $X_i$ 和 $X_j$ 的單位。 > 詳細說明和圖例可參考該篇筆記。 ### estimator for covariance matrix: sample covariance matrix 像前面我們取 sample mean 來作為 mean vector 的 estimator,我們也可以取 <font color = "snake">sample covariance matrix</font> ==$S$== 來作為 covariance matrix $\Sigma$ 的 estimator:  > 關於 sample variance 和 sample covariance 的公式,如果忘記了可以參考筆記「[補充:sample](https://hackmd.io/@pipibear/Hyn0QQ_H0)」。 > - Note:這裡 $s_i^2$ 和 $s_{ij}$ 都是 biased estimator,因為取平均時我們用的是 $\frac{1}{N}$ 而非 $\frac{1}{N-1}$。 >> 關於 biased / unbiased estimator 的詳細說明可參考筆記「[4.3 Evaluating an Estimator: Bias and Variance](https://hackmd.io/@pipibear/BkS_CMuS0)」中的 "unbiased estimator" 小節。 ## sample correlation matrix 最後,對 $X_i$ 和 $X_j$ 我們也能去計算 correlation,由定義我們知道: \begin{equation} Corr(X_i,X_j) = \rho_{ij} = \frac{\sigma_{ij}}{\sigma_i\sigma_j} \end{equation} 前面我們說過 covariance $\sigma_{ij}$ 可以由 sample 求出的 $s_{ij}$ 估計,standard deviation 為 variance 開根號(取正),所以 $\sigma_i$ 也可以用 $\sqrt{s_i^2} = s_i$ 估計,所以我們就令 ==$r_{ij}$== 為 $\rho_{ij}$ 的 estimator,詳細如下:  > 因為任兩項都可以計算 correlation,所以就像前面 covariance matrix 一樣,我們也可以寫成 correlation matrix。 > > 不過課本在這裡沒有給 correlation matrix 一個符號,只有將作為 estimator 的 <font color = "snake">sample correlation matrix</font> 令為 ==$R$==。 --- 關於這個小節的定義,因為只包含 Ethem Alpaydin 的 *Introduction to Machine Learning* 這本課本的內容,所以個人覺得沒有很清楚,稍微詳細一點的定義我寫在另一篇筆記「[補充:Multivariate means and covariances](https://hackmd.io/@pipibear/S1fi3Vno0)」,有興趣可參考。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up