# A.2.1 Probability Distribution and Density Functions ## probability distribution 是什麼? 在觀察一個 random experiment 的結果時,做這個 experiment 的人需要去取得一些 "measurement"。 > measurement 可以想成 random variable 的 outcome。 > > 就像從籠子裡隨機抓老鼠出來,抓到的老鼠可能是公或母,於是我們的 outcome space 就是 $\{\text{Male}, \text{Female}\}$。 > > 如果我們的 random variable $X$ 訂成把 male map 到 $0$,female map 到 $1$: > \begin{equation} > \begin{split} > X(\text{male}) &= 0 \\ > X(\text{female}) &= 1 > \end{split} > \end{equation} >> 那麼我們想知道的,就是我們的 experiment 結果為 $0$ 和為 $1$ 的情況各自的機率。 並且,我們會想知道的是 outcome 在 event $E$ ($E$ 為某個包含於 sample space $S$ 中的 subset)之中的機率。 > 舉例來說: > > 假設我們的 experiment 是去擲一個公平的六面骰子,我們將 random variable 定義為: > > $X(\text{擲到 }i) = i$ > > 則 sample space 為 $\{1,2,3,4,5,6\}$ > 我們可能會想知道擲到偶數的機率,則 event $E = \{2,4,6\}$ 如果我們能夠知道所有可能的 event 的機率,那麼我們就能知道這個 random variable 的 probability distribution。 所以: :::warning probability distribution 代表的是++一個 random variable 的 outcome 在各個 event 中的機率。++ ::: 但是當然在現實中我們通常沒辦法做到這件事,我們沒辦法知道每個 possible event 的 probability,也就是無法確切知道這個 distribution。 因此,統計學家就會對這些 distributions 提出 conjectures,也就是說去為 random variables 建立 probabilistic models。 ## probability distribution function 對一個 random variable $X$,我們對它的 distribution 感興趣的常常是在所有的 outcome 之中,如果 outcome 在某個值以內,那麼發生的機率會是多少,因為是「在某個值之內」,所以我們要討論的是 cumulative probability。我們的定義如下: 給任意一個 $a \in \mathbb{R}$(作為在某個值以內的那個值),$X$ 的 <font color = "snake">(probability) distribution function / cumulative distribution function (cdf)</font> ==$F(·)$== 定義成下方的式 $A.8$,並且滿足 $A.9$: > probability distribution function 是一個「定義任意 event 所有可能結果的機率」的 function(也就是對 random variable 可能產生的每一個值, probability distribution function 都會給出它的 cumulative probability。) > > $\rightarrow$ 意思也就是 probability distribution function 告訴我們一個 event 分佈在 random variable 所給的值的情況 ![A.8, A.9](https://hackmd.io/_uploads/HyEZbeGMA.png) > 對某個 random variable $X$,我們去衡量 $F(a)$ 的值,而這個值的定義方式就是所有可能的 outcome 中,outcome $\le a$ 的情況發生的機率。 >> 舉例來說: >> >> 在上面擲骰子的例子中,如果我們看擲到 3 的機率,也就是 $P\{2<X\le3\}$,那麼這個值就等同 $F(3)-F(2)$ ![graph](https://hackmd.io/_uploads/ByzIZlzGC.png) ### discrete case 如果 $X$ 是一個 ++discrete++ 的 random variable,則 $X$ 的 probability distribution function 就用 $\sum$ 去定義: ![A.10](https://hackmd.io/_uploads/HyJLBxzMC.png) > 其中 ==$P(·)$== 是 <font color = "snake">probability mass function (pmf)</font>,定義為: > > ![image](https://hackmd.io/_uploads/rkMPdH6NA.png) > >> - (a) 因為 $S$ 是所有可能的 outcome 所成的集合,所以既然 $x$ 在 $S$ 之中,就代表 $x$ 必定有發生過,因此它發生的機率必大於零。 >> - (b) sample space 裡既然包含了所有可能的 outcome,所有的可能都被涵蓋了,機率和必然等於 $1$。 >> - (c) 如果我們任取一個 sample space 的子集,那麼這個子集的機率就是它之中的 element 的機率和。 :::info Note:如果 pmf 是一個常數,那麼我們說這個 distribution 是 <font color = "blue">uniform</font> 的。 ::: 舉例來說: 在前面擲骰子的例子裡,假設我們的 random variable $X$ 按照骰子的點數來 map 所有可能的結果,因此我們的 sample space $S=\{1,2,3,4,5,6\}$ 因為假定這是個公平的骰子,所以骰到每一種點數的機率都是 $\frac{1}{6}$,因此 $X$ 的 pmf 為: \begin{equation} f(x) = \frac{1}{6} \qquad x=1,2,3,4,5,6 \end{equation} 在這裡, pmf 的值是常數 $\frac{1}{6}$,因此我們說這個例子的 random variable $X$ <font color = "snake">have a discrete uniform distribution</font>。 延續這個例子,如果我們要算 cdf $F(x)$(簡單來說就是算擲到 $\le$ 某個數字的機率是多少)那麼我們可以參考下方的定義: ![image](https://hackmd.io/_uploads/SJ7ZTHpVR.png) ### continuous case 如果 $X$ 是一個 ++continuous++ 的 random variable,==$p(·)$== 是 <font color = "snake">probability density function (pdf)</font>,使得我們的 probability distribution function $F(·)$ 定義成: ![A.11](https://hackmd.io/_uploads/SkmcUxfzC.png) 因為此處的 random variable 是 continuous 的,所以在一個區間內有無限多種可能的值,而且每個值的機率皆 $\ne 0$(否則就非 continuous),因此對 continuous 的 random variable 來說,$X$ 剛好是某個值的機率 $=0$。 > 直觀的想法: > 當有無限多個可能落到的點時,恰巧落到某個特定的點的機率就趨近於零。 > > 數學證明: > > 由 $P\{a \le X \le b\} = \int_a^bf(x)dx$,取 $b = a$ 代入得到: > > $P\{a \le X \le a\} = P\{X=a\} = \int_a^af(x)dx = 0$ 因此,probability density function 在某個特定的點 $x$ 的值 $p(x)$ 代表的是++落在這個點周遭的機率的 "density"++,意思是 $p(x)$ 是指 $X$ 有多大的可能會落在這個 $x$ 周遭的 interval 內,而不是恰好落在 $x$ 上。 我們可以得出結論: 對一個 continuous random variable: :::info $P\{X<a\} = P\{X \le a\} = F(a) = \int_{-\infty}^af(x)dx$ ::: 同樣的,對 continuous 的 random variable 我們也可以去定義 uniform distribution: :::info 一個 random variable $X$ has a ++uniform distribution++ 若它的 pdf 在 support 上為 constant。 > 原句為:The random variable $X$ has a uniform distribution if its pdf is equal to a constant on its support。 ::: > 因為現在我們的 random variable 是 continuous 的,所以我們不會說對「『每個』可能出現的值」,它的機率都相等,而是在整個「可能出現的值的區間上」,機率都相等。 > > 這樣的解釋有點籠統,反正可以先理解大致上的意思,更精確的定義在下方 「sample space vs support」處說明。 所以假設我們的 support 是區間 $[a,b]$,那如果 $X$ 有 uniform distribution,那我們就用 ==$U(a,b)$== 表示。另外,我們也會稱這樣的 uniform distribution 為 <font color = "snake">rectangular</font>,理由是因為 distribution 的形狀,見下圖: ![image](https://hackmd.io/_uploads/HkLZMLaNR.png) > 在左圖中我們可以看到某個 continuous random variable $X$ 的 probability density function 畫出來的圖。 > 它的 support 大概在 $0.3$ 到 $1.55$ 這個區間,在這個範圍內,我們可以看到 pdf $f(x)$ 都維持一個常數 $0.8$,也就是說這個區間內的值,發生的機率都是 $0.8$。 >> 當然這一樣是個沒有很精確的說法,但大概可以這麼理解,下方會說明這樣講的問題。 >> > 接著我們看右圖 cumulative distribution function 所對應的圖,因為在這個區間內所有的值發生的機率都相等,因此隨著 $x$ 變大,$\le x$ 的值發生的機率呈線性成長。 ## sample space vs support sample space 和 support 兩個詞好像常常模糊的被混用在指涉「所有可能的 outcomes 所成的集合」(至少因為我的 ML 課本好像沒有明確定義,所以我這樣誤解),但是兩個詞實際上是不一樣的。 在討論這個問題前,首先回顧一下,一個 <font color = "red">random variable 實際上是一個 function</font>,用來把我們做的實驗結果 map 到不同的數值,進而讓我們可以對這些數值做分析。也就是: \begin{equation} X: \ \text{all possible outcomes} \rightarrow \text{numerical value} \end{equation} 既然 random variable 是個 function,那麼也就像一般的 function 一樣,有 domain 和 range。 :::info random variable 的 domain 就稱作 <font color = "blue">sample space</font>,通常用 ==$\Omega$== 表示。 $\rightarrow$ 更簡單、直覺的意思就是: ++the set of all possible outcomes++ ::: > 在我使用的 ML 課本中,sample space 是用 $S$ 表示,不過普遍的用法是 $\Omega$;另外在我用的機率課本(參考資料那本)中,$S$ 指的是 support,因為交互使用兩本課本,並且我一開始也是把 sample space 和 support 誤解成同個東西,所以有時候可能有名詞、notation 混用的情形 >< 舉個例子: 假設現在有一個班級,班上有 30 位同學,我從班上任挑一個人,然後令 random variable $X$ 為這個人的兄弟姐妹總數。 那麼根據定義,$X$ 的 domain 就是這三十個學生,因此 $X$ 的 sample space 就是班上三十個學生。 接著,因為每個人要嘛沒有兄弟姊妹,要嘛至少有一個,因此 $X$ 會把這些學生 map 到的值必定 $\ge0$(畢竟沒有負數個兄弟姐妹),所以我們的 range 所有可能的值為正,且頂多只有 $30$ 種(最極端的情況就是班上每個人的兄弟姐妹數量都不同。) 不過,最有可能的情況是其實有很多學生會有相同的兄弟姐妹數,可能很多人都是一個兄弟姐妹,或是兩個之類。假設現在班上所有人的兄弟姐妹數所成的集合為 $M=\{0,1,2,3,4,5\}$ 也就是說,現在很多 $\Omega$ 裡的 element(那些學生),會被 map 到 $M$ 裡的同個值。 在這個例子裡,我們看 support 這個詞可能會把它想成「那些至少有一個兄弟姐妹的學生所成的集合」,收集的是部分學生,也就是一個 ++domain 的 subset++,而這個 subset 包含的是所有 domain 裡會被 map 到非零的 element。 <font color = "red">但是實際上在 probability theory 裡,我們不會用上述的意思!</font> 我們在談 support 時實際指的是 support of probability distributions。意思就是: :::info support 指的其實是 ++range 的 subset++,而這個 subset 包含的是那些++有 positive probability++ 的值。 $\rightarrow$ 也可以說 support 就像 random variable 的 ++range++。 ::: 在這個例子裡,support 也就是 $M$ > $0$ 也算!因為被 map 到零個兄弟姐妹的機率大於零。 在這個例子裡,因為我們的 random variable discrete,所以比較好去解釋,那麼如果 random variable continuous 呢? 前面有說過,在 random variable continuous 的情況下,我們用的是 probability density function (pdf),並且我們不說單一一個值發生的機率,而是說一個點附近的機率。 這個時候所有 “possible” values 這個詞就變得有點 tricky,即便是 “possible” values,機率也有可能等於零。(前面說的因為連續,所以恰巧落在某個點的機率趨近於零) 所以我們定義一個 continuous random variable $X$ 的 support 為: > 更精確的說法: > > 我們定義一個 continuous random variable $X$ 的 probability distribution 的 support 為: \begin{equation} \{x \in \mathbb{R}^n \quad|P_X(B(x,r)) > 0 \quad \forall r>0 \} \end{equation} 其中 $B(x,r)$ 為 center 在 $x$,radius 為 $r$ 的球。 > 因為 $\forall r>0$,$B(x,r)$ 的意思其實是我們在某個點 $x$ 周遭任取一個隨意大小的球。 $P_X$ 為一個計算 $X$ 的 probability 的 measure。 > 整個一起看,$P_X(B(x,r)) > 0$ 的意思也就是: > > 不管我們在 $x$ 周遭取一個多大多小的球,這個球之內的值發生的機率 $>0$ > > $\rightarrow$ 我們搜集所有滿足這個條件的 $x$,訂為當 random variable 為 continuous 時的 support。 其實英文版的或許更清楚好理解,原文可參考下方參考資料連結。 ### 常見例子 擲一個公平硬幣,假設結果為 $\{H,H,T\}$: - sample space $\Omega = \{H,T\}$ - random variable $X$ defined as: \begin{equation} \begin{split} X(H) = 1 \\ X(T) = 0 \end{split} \end{equation} $X$ 的 domain: $\{H,T\}$ $X$ 的 range:$\{0,1\}$ $X$ 的 support:$\{0,1\}$ > 因為 head 和 tail 發生的機率都不為零。 # 參考資料 - Hogg,Tanis,Zimmerman_Probability and Statistical Inference, 9th ed(2015), p.41-44, 88 - [difference between sample space and support](https://www.quora.com/What-is-the-difference-between-Sample-space-and-Support-in-the-discussion-of-probability) - Sheldon Ross, A first course in probability, 9th ed, p.191-192