一個 real-valued 的 random variable 如果是 normal (Gaussian) distributed,且它的 mean 、variance ,那我們就用 表示。
normal (Gaussian) distributed 的條件是它的 probability density function 滿足:
更詳細的定義和證明可參考下方「證明」小節。
normal distribution 是 continuous probability distribution 的一種,那麼為什麼稱作 "normal",是因為許多隨機的現象都會滿足如下圖這樣的 bell-shaped 分佈:
許多自然界的現象都可以被看作這種分佈的不同版本,每一種之間只有一點點不同,差異在於作為 typical value 的 可能不一樣。
如果把 看作 typical value,那麼 的意思就變成了「有多少 instances 會在這個 prototypical(典型的)值周遭變化」。
從上面這個圖中我們可以看到和 距離(不論正負)差是多少 的比例各是多少,像是:
68.2% 會落在
95.5% 會落在
如果是分佈在距離 之內,那麼機率達到 0.99,寫成數學式也就是:
實務上如果 在距離 之外(也就是 或 ),我們令 。
下圖中匡起來的地方是 normal distribution 的完整定義,首先我們先來證明這個 滿足作為一個 pdf 的 properties。
作為一個 pdf 的 properties 定義在右方藍色字的地方,有三點,其中我們只需要證明第二點。
接著用 mgf 去確認 中的 和 確實是 的 mean 和 variance:
從這裡我們也得到:
normal distribution 的 mgf 為:
如果:
mean ,variance
我們將這樣的 normal distribution 稱作 unit normal distribution (unit normal:)
或是另一種說法,如果我們有一個 random variable , 是 normally distributed with parameters (i.e. ),那麼:
這樣的做法,即下方會講的 z-normalization。
如果我們把 代入原本 normal distribution 的 pdf,就會得到:
除此之外,如果 ,則 的 cumulative distribution function (cdf,也就是 distribution function) 為:
我們通常會把 standard normal random variable 的 cdf 用 表示。
若 且 ,則:
簡單推導如下:
若 : independent normal variables,
令 ,
則 亦為 normal,且
independent normal variables 的和也是 normal 的
證明如下:
關於 moment generating function (mgf) 的更詳細的介紹,有興趣可以參考筆記「補充:moment generating function (mgf)」的內容。
打星號處證明如下:
z-normalization,又稱作 z-score normalization 或 standardization,是一種把 mean 轉換成 、 standard deviation 轉換成 的技巧。
這麼做的目的是為了讓單位、規模不同的 data sets 之間可以去做比較。
若 ,則 的 z-normalization 定義為:
這樣一來, 的值就是以 standard deviaiton 為單位, 和 之間的距離。
從 的定義衍伸出來的定理是,如果有一個 ,且 又滿足 ,則 。
定理的數學式與證明如下:
偷懶用 chatgpt 來產生的例子:
每個 data point 的 z-score ,代表這個 data point 比 mean 多或少幾個 standard deviation。
舉例來說:
代表的是第一個 data points(原值為 )比 少 個
令 iid random variables
每個 的 mean 皆為 , variance 皆為 。
- 因為我們從同個 population 中取這些 samples,且它們為 iid,意思就是每個 sample 有相同的 distribution(也就等同有相同的 mean 和 variance),且彼此之間互不影響。
- 我們會規範 是因為,即使大多數的 distribution 的 variance 都是 finite,但是也有 distribution 有 infinite variance,例如 Cauchy distribution。
CLT 在說的是:
當 很大時:
的 distribution 會接近
舉例來說,如果我們的 是 binomial,且 parameters 為
意思也就是,如果我們執行 次獨立的 Bernoulli trials,且 success 的機率為 ,那麼這 次裡的總 succes 次數就是 binomial distributed,我們把代表 success 次數的 random variable 令為 。
也可以說 就是 次 Bernoulli trials 的和(因為結果是 success 的話會加一,如果 fail 則是加零,所以總和也會等同於 success 次數。)
那麼這樣的 會滿足:
: unit normal
CLT 可以應用在讓電腦產生 normally distributed random variables,programming languages 會有可以在 之間產生 uniformly distributed (pseudo-)random numbers 的 subroutines。
如果我們用 來代表這樣的 random variables,舉個例子來看看 CLT 會帶來什麼樣的結果,我們會得到:
理由見下圖:
最後,如果我們說 ,則 estimated sample mean:
也會是 normal,且 mean 為 ,variance 為 (即 )。
意思是:
我們由一個 normal distribution 中取 個 sample,這些 sample 的 mean 本身也是一個 random variable(由 random variables 組成的 function 也會是一個 random variable)
那對於這個 sample mean ,如果我們去看他的 distribution,就也會是 normal,且滿足上述 mean 和 variance 的結果。
簡單推導過程如下:
例子: