# 4.1 Introduction :::info 在進入這章之前,如果對一些 probability 的概念和符號不熟悉,可以參考筆記最後一部分 Appendix 的內容。 ::: ## 章節架構 前面幾章我們講過如何用 probabilities 去 model uncertainty,進而得到 optimal decisions,現在這章我們要講的是: ++如何從一個 training set 中去 estimate 這些 probabilities。++ 1. 首先我們要用 ++parametric approach++ 來做 classification 和 regression。 > 在後面幾張我們會討論 semiparametric, nonparametric approaches。 2. 接著我們會介紹 bias / variance dilemma 和 model selection methods。 > 後者是在討論我們如何在「model 的 complexity」和「emperical error」的 tradeoff 之間去決定我們要用什麼樣的 model。 >> 前面有提到關於這個 tradeoff 的例子,像是用一個多項式去 model 我們的 data points 時,提升 degree 準確度會提升,但是 complexity 也會增加。 ## 名詞介紹 - <font color = "snake">statistic</font>:任何從某個 given sample 計算出來的值。 > Q:為什麼要由 sample 計算出值,什麼值? > > 舉例來說: > > 在下一節我們會講到,假設我們大概知道我們的 data 的 pdf「長什麼樣子」,但是我們不知道其中的 parameters 確切的值。 > > 為了知道我們的 parameters 要取什麼值才是最好的(最貼近我們的 data 背後的 distribution)我們可以重複我們的 experiment $n$ 次,得到 outcomes $x_1,...,x_n$ > > 如果我們從這些 samples 裡去計算 sample mean $\bar{x}$,$\bar{x}$ 也算是一個 statistic。 > > 那算這個有什麼用? > > 舉例來說,我們的 sample 背後的 population 其實有一個「真正的」mean $\mu$,但是當然,大部分時候我們無法知道 $\mu$ 的值到底是多少,那麼我們求 $\bar{x}$ 這個 statistic 就是在想辦法去猜測、去盡可能地找一個貼近 $\mu$ 的值。 > > $\rightarrow$ 所以,statistic 的用途通常是由 sample 的計算來估計一些 parameters。 > > - ++statistic 本身也是一個 random variable++。 > - 一個 ++statistic 的 probability distribution++ 稱作 <font color = "snake">sampling distribution</font>。 > - <font color = "snake">statistical inference</font>:藉由 sample 所提供的資訊做出 decision。 ### parametric approach 如前面架構所提到的,首先我們要先談用 parametric approach 來 estimate probabilities。 $\rightarrow$ 在這裡我們假設我們的 sample 是從某種 distribution 來的,而這個 distribution 會遵照某個已知的 model。 > 舉例來說,我們的 sample 背後的 distribution 是 Gaussian。 #### parametric approach 的好處 parametric approach 的好處是我們的 ++model 由少量的 parameters 去定義++。 > 例如 mean, variance 一但我們由我們的 sample 估計出這些 parameters,我們就知道了整個 distribution。整個過程的步驟是: 1. 從 given sample 估計出 distribution 的 parameters 2. 把這些估計出來的 parameters 代進我們 assume 的 model 3. 得到 estimated distribution 4. 接著就能用這個 estimated distribution 去做出 decision 我們主要要用來 estimate parameters 的方法是 <font color = "green">maximum likelihood estimation</font>。 > 我們也會介紹 Bayesian estimation,然後在第 16 章再繼續討論。 ### density estimation 所以首先我們要來 estimate 的是 density。 <font color = "snake">(probability) density estimation</font> 在做的事是,我們用我們有的 data 來試圖去估計 data 背後的 probability density function (pdf),也就是 in general 我們去估計 $p(x)$。 [wiki](https://en.wikipedia.org/wiki/Density_estimation#:~:text=In%20statistics%2C%20probability%20density%20estimation,unobservable%20underlying%20probability%20density%20function.) 對 density estimation 有一段說明: :::info The unobservable density function is thought of as the density according to which a large population is distributed; the data are usually thought of as a random sample from that population. ::: > 在做 density estimation 時,我們會假定我們的 sample 是從某個大量的 population 中抽樣取出來的(而這個 population 的 distribution 會遵照某個特定的 pdf),我們的 sample 只是這個背後更大的 population 的某個 subset,也可以說是從這個大 population 中取得的 random sample。 > > 我們預設我們取的 sample 足以代表這整個 population,有這樣的假設,我們才能進一步去估計背後真實的 pdf。 > > <font color = "snake">unobservable density function</font> 指的是我們的 data 背後「整個 population 實際上真的 density function」,當然通常我們沒辦法準確知道我們的 data 背後的 pdf 是什麼,因此我們才說它是 "unobservable"。 #### density estimation for classification 在做 classification 時我們用 density estimation 來估計: - class densities $p(x|C_i)$ - priors $P(C_i)$ 進而去計算 posteriors $P(C_i|x)$ 然後做出 decision。 #### density estimation for regression 在 regression 時我們要用 density estimation 去估計的是 $p(y|x)$ ### 本章預設 在第四章裡面,我們假設: - $x$ 是一維的 - 我們計算的 densities(如 $p(x)$、$p(x|C_i)$⋯⋯)是 univariate > univariate 意思就是我們的 function 只包含一個變數。 :::info 第五章會把 univariate generalize 到 multivariate。 ::: # 參考資料 - NTHU lecture slides ([lecture 9: point estimation](http://mx.nthu.edu.tw/~cghsu/courses/ps/note2015/09_PointEstimation_Slides.pdf))
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up