機率

機率模型

什麼是機率模型?

結果不確定的實驗、現象、情況的量化

建立機率模型的兩步驟

描述可能的實驗結果 –- 樣本空間 (sample space)
樣本空間 (sample space): 可能的結果的集合，用
$Ω$ 表示。

$Ω$ 必須符合:
1. Mutually exclusive: 一次只會出現一個結果
2. Collectively exhaustive: 所有結果的機率總合為 1 (i.e. 不會出現不再
  $Ω$ 的結果)
3. At the right granularity: 用相關的事件當
  $Ω$
確立機率法則 –- 告訴我們哪個結果比較有可能
- 我們要知道的是事件 (event) 的機率
  - 事件 (event):
    $Ω$ 的子集合
  - 假設一事件
    $A$ 則該事件的機率表示為
    $P (A)$
- 機率的三個公理 (axiom)
  a. 非負 (non-negative):
  $P (A) \geq 0$
  b. 正規化 (normalization):
  $P (Ω) = 1$
  c. 可加法 (additivity):
  $A \cap B = Φ \to P (A \cup B) = P (A) + P (B)$

機率的公理

由前面機率的三個公理，我們可以衍伸一些新的結果。

$P (A) \leq 1$
證明:

$1 = P (Ω) = P (A \cup A^{C}) = P (A) + P (A^{C}) \Rightarrow P (A) = 1 - P (A^{C}) \leq 1$
$P (Φ) = 0$
證明:

$1 = P (Ω) + P (Ω^{C}) \Rightarrow 1 = 1 + P (Φ) \Rightarrow P (Φ) = 0$
如果
$A, B, C$ 沒有交集則
$P (A \cup B \cup C) = P (A) + P (B) + P (C)$
可延伸至多個事件
$P (A_{0} \cup A_{1} \cup . . . \cup A_{n}) = \sum_{i = 0}^{n} P (A_{i})$
$A \subset B \to P (A) \leq P (B)$
證明:

$B = A \cup (A^{C} \cap B) \Rightarrow P (B) = P (A) + P (A^{C} \cap B) \geq P (A)$
$P (A \cup B) = P (A) + P (B) - P (A \cap B)$
證明:

$P (A \cup B) = P (A \cap B^{C}) + P (A \cap B) + P (A^{C} \cup B)$
$= (P (A \cap B^{C}) + P (A \cap B)) + (P (A \cap B) + P (A^{C} \cup B)) - P (A \cap B)$
$= P (A) + P (B) - P (A \cap B)$
$P (A \cup B) \leq P (A) + P (B)$ (上限)

條件機率

我們一開始知道知道某個事件的初始機率，而當我們得到一個新的資訊 (條件) 後，使得原本的機率因為這個新的資訊而有新的機率。

條件機率的數學表示

P (A | B)

: 當事件

B

發生時

A

的機率

條件機率的定義

P (A | B) = \frac{P (A \cap B)}{P (B)}, P (B) > 0

機率條件和一般機率一樣有三個公理

$P (A | B) \geq 0$
$P (Ω | B) = 1$

當

B

發生時整個樣本空間的機率其實就是只會出現

B

的機率，所以

P (Ω | B) = P (B | B) = 1

$A \cap B = Φ \to P (A \cup B | C) = P (A | C) + P (B | C)$

乘法定律 (multiplication rule)

P (A \cap B) = P (A) P (B | A) = P (B) P (A | B)

A

和

B

發生的機率等於

A

發生的機率和

A

發生時

B

發生的機率的乘積。

全機率定理 (total probability theorem)

Image Not Showing Possible Reasons

The image file may be corrupted
The server hosting the image is unavailable
The image path is incorrect
The image format is not supported

Learn More →

P (B) = \sum_{i = 1}^{3} P (A_{i}) P (B | A_{i})

條件機率模型範例

定義模型:

事件
$A$ : 飛機在天上飛
- $P (A) = 0.05, P (A^{C}) = 0.95$
事件
$B$ : 雷達偵測到天上有物體
- $P (B | A) = 0.99, P (B^{C} | A) = 0.01, P (B | A^{C}) = 0.1, P (B^{C} | A^{C}) = 0.9$

當飛機在天上飛並且被雷達偵測到的機率:

P (A \cap B) = P (A) P (B | A) = 0.05 \times 0.99 = 0.495

雷達偵測到天上有物體的機率:

P (B) = P (A) P (B | A) + P (A^{C}) P (B | A^{C}) = 0.05 \times 0.99 + 0.95 \times 0.1 = 0.1445

當雷達偵測到物體是在天上飛的飛機的機率:

P (A | B) = \frac{P (A \cap B)}{P (B)} = \frac{0.495}{0.1445} = 0.34

我們會發現原本當飛機在天上飛時雷達偵測到物體的機率是 0.99 非常高，但反過來當雷達偵測到物體時該物體是在天上飛的飛機的機率卻只有 0.34。

這可以由乘法定律解釋。由乘法定律可知:

P (A \cap B) = P (A) P (B | A) = P (B) P (A | B)

從前面得到的結果我們知道

P (B)

是

P (A)

大約為三倍，所以 0.99 也大約是 0.34 的三倍。

貝氏定律 (Bayes' Rule)

Image Not Showing Possible Reasons

The image file may be corrupted
The server hosting the image is unavailable
The image path is incorrect
The image format is not supported

Learn More →

在已知

P (A_{1}), P (A_{2}), P (A_{3})

，並且知道分別在

A_{1}, A_{2}, A_{3}

發生時

B

發生的機率

P (B | A_{i})

。我們可以用這些條件推得當

B

發生時

A_{1}, A_{2}, A_{3}

哪個事件比較可能發生。

P (A_{i} | B) = \frac{P (A_{i} \cap B)}{P (B)} = \frac{P (A_{i}) P (B | A_{i})}{\sum P (A_{j}) P (B | A_{j})}

貝氏定律，主要透過

P (A_{1}), P (A_{2}), P (A_{3})

及

P (B | A_{i})

的數學模型建立出

P (B)

，而後再由

P (B)

推測

A_{i}

比較可能出現的機率。

獨立 (Independent)

用途: 當事件獨立時，可將複雜的情況簡化。

原本已知事件

B

的機率，若給定一個事件

A

發生，

B

的機率可能會改變。但若

B

的機率不變，代表

A

發生的資訊對

B

沒有用處，則我們稱這兩個事件

A

跟

B

為獨立事件。

數學定義

直覺的定義:
$P (B | A) = P (B)$ 給定了條件
$A$ 發生的條件機率等於原本
$B$ 的機率。
一般使用的數學定義:

$P (A \cap B) = P (A) P (B)$ 證明:
$P (A \cap B) = P (A) P (B | A) = P (A) P (B)$

若

A, B

為獨立事件，則

A, B^{C}

也為獨立事件。

證明:

P (A) = P (A \cap B) + P (A \cap B^{C}) = P (A) P (B) + P (A \cap B^{C})

\Rightarrow P (A \cap B^{C}) = P (A) - P (A) P (B) = P (A) (1 - P (B)) = P (A) P (B^{C})

兩個事件

A, B

沒有交集，則

A, B

不為獨立事件。

Image Not Showing Possible Reasons

The image file may be corrupted
The server hosting the image is unavailable
The image path is incorrect
The image format is not supported

Learn More →

數學的解釋:

P (A \cap B) = 0 \neq P (A) P (B) > 0

概念的解釋:

A

出現的資訊告訴我們

B

一定不會出現，代表

A

出現的資訊為有用的資訊會影響

B

的機率。

條件獨立 (Conditional Independent)

既然事件之間的機率存在獨立的關係，我們也可將其延伸到條件機率上，稱之為條件獨立。

當事件

C

發生時

A, B

為獨立事件則條件獨立的數學表示為:

P (A \cap B | C) = P (A | C) P (B | C)

這裡我們知道了獨立與條件獨立，但獨立與條件獨立並無絕對關係，我們並不能肯定若是獨立事件則這些事件在給定某些條件會形成條件獨立，給了條件可能會影響原本事件間的獨立。

以下我們舉一個例子:

給定兩個硬幣，一個是真的硬幣有正(H)反(T)兩面，而另一個是假的硬幣兩面都是正面。選擇一個硬幣投擲 2 次，我們定義下面三個事件:

A

: 第一次投擲結果為正面

B

: 第二次投擲結果為正面

C

: 選擇到真正的硬幣

按常理我們知道當

C

發生時

A, B

為條件獨立。

P (A | C) = P (B | C) = 0.5

P (A) = P (C) P (A | C) + P (C^{C}) P (A | C^{C}) = 0.5 \times 0.5 + 0.5 \times 1 = 0.75

P (B) = P (C) P (B | C) + P (C^{C}) P (B | C^{C}) = 0.5 \times 0.5 + 0.5 \times 1 = 0.75

P (A \cap B | C) = P (A | C) P (B | C) = 0.25

P (A \cap B) = P (C) P (A \cap B | C) + P (C^{C}) P (A \cap B | C^{C}) = 0.625

由上面的計算我們可知

P (A \cap B) = 0.625 \neq P (A) P (B) = 0.5625

所以原本

A, B

不為獨立事件，但當給了條件

C

則為條件獨立。

為什麼

$A, B$ 不為獨立事件呢?
直覺上的解釋，當

A

發生代表比較可能拿到假的硬幣 (因為假的硬幣第一次投擲出正面的機率高於真的硬幣)，因此

B

的機率也就上升了，也就是說

A

發生的機率對於

B

來說是有用的機率。

成對獨立 (Pairwise Independent)

給定 3 個事件

A_{1}, A_{2}, A_{3}

兩兩獨立則我們稱他們為成對獨立:

P (A_{1} \cap A_{2}) = P (A_{1}) P (A_{2})

P (A_{1} \cap A_{3}) = P (A_{1}) P (A_{3})

P (A_{2} \cap A_{3}) = P (A_{2}) P (A_{3})

而成對獨立並不代表這三個事件都是獨立，也就是說

P (A_{1} \cap A_{2} \cap A_{3}) = P (A_{1}) P (A_{2}) P (A_{3})

不一定成立。

Example:
投擲 2 個獨立的硬幣，事件

H_{1}

代表第一個投擲是正面，事件

H_{2}

代表第二個投擲是正面。且這兩個事件的機率為:

P (H_{1}) = P (H_{2}) = 0.5

。我們另外還有一個事件

C

代表兩個硬幣投擲都是同一面，而

P (C) = 0.5

。

$C$ 對於
$H_{1}$ 跟
$H_{2}$ 都互為獨立嗎?
首先我們知道
$H_{1} \cap C$ 就等同是
$H_{1} \cap H_{2}$ 所以我們可以算出其機率:

$P (H_{1} \cap C) = P (H_{1} \cap H_{2}) = P (H_{1}) P (H_{2}) = 0.25$ 我們可以發現這個機率跟
$P (H_{1})$ 和
$P (C)$ 的乘積相等
$P (H_{1}) P (C) = $ P (H_{1} \cap C) = 0.25$ 因此
$C$ 和
$H_{1}$ 互為獨立。同理也可得知
$C$ 和
$H_{2}$ 互為獨立 –-
$C$ 對於
$H_{1}$ 跟
$H_{2}$ 為成對獨立。
$C, H_{1}, H_{2}$ 三者獨立嗎?
我們知道
$H_{1} \cap H_{2} \cap C$ 實際上就是
$H_{1} \cap H_{2}$ 所以我們可以算得機率為:
$P (H_{1} \cap H_{2} \cap C) = P (H_{1} \cap H_{2}) = P (H_{1}) P (H_{2}) = 0.25$
但這個機率並不等於
$P (H_{1}) P (H_{2}) P (C) = 0.125$ 。

由上面這兩點我們可以知道成對獨立並不一定等於獨立。

現在讓我們用直覺的方法來解釋這個情況。我們知道

H_{1}

發生的情況

C

發生的機率就是

H_{2}

發生的機率，仍然是 0.5，這代表了

H_{1}

的資訊對

C

來說是沒用的所以

H_{1}, C

為獨立。但我們知道

H_{1}, H_{2}

同時都發生的話，發生

C

的機率就為 1 了。

算數 (Counting)

基本算數原則 (Basic Counting Principle)

我們想建構一個目標，這個目標是透過一系列的處理過程建構而成，假設需透過

r

個不同的階段，而每個階段都有

n_{i} (i = 1, . . ., r)

個選擇，則我們會建構出

n_{1} n_{2} . . . n_{r}

種不同的目標。

我們用一個範例來介紹基本算數原則。我們有 3 件衣服、4 雙鞋子、2件褲子，則我們可以有

3 \times 4 \times 2 = 24

種穿搭，其中衣服、鞋子、褲子則對應前面說講的建構目標的一系列階段，而這個目標就是穿搭風格，在每個階段分別有 3, 4, 2 種選擇，則總共會有 24 種不同的穿搭風格。

組合 (Combinations)

給定一個有

n

個元素的集合，我們想計算這個集合中只有

k

個元素的子集合的數量。

定義上面的描述的數學表示式為：

(\binom{n}{k})

雖然定義完了，但我們要怎麼算出

(\binom{n}{k})

也就是子集合的數量呢？

再得出這個答案前，我們先想一個問題。從這

n

個元素的集合中我們只要

k

個元素來排列會有幾種結果？

第一種解法：
這個問題我們可以用前面所講的基本算數原則來解。要建構出所有的排列結果總共有
$k$ 個處理階段，而每個階段又各自有幾種選擇呢？我們在第一個階段可以有
$n$ 種選擇，而第二個階段因為第一個階段已經選擇 1 個元素了，所以剩
$n - 1$ 個選擇，依此類推，到第
$k$ 個階段則剩
$n - k + 1$ 個選擇。所以總共會有
$\frac{n!}{(n - k)!}$ 種排列結果。

\frac{n!}{(n - k)!} = n (n - 1) . . . (n - k + 1)

第二種解法：
先選出
$k$ 個元素在做排列。也就是說我們需要知道總共有多少種
$k$ 個元素的子集合，並且每個子集合在做排列 (套用基本算數原則)，所以種共會有
$(\binom{n}{k}) k!$ 種排列結果。

由於上面這兩種方法都是得到相同答案，我們可以算出

(\binom{n}{k})

(\binom{n}{k}) k! = \frac{n!}{(n - k)!}

(\binom{n}{k}) = \frac{n!}{(n - k)! k!}

另外列出一些特性：

從
$n$ 個集合選擇
$n$ 個元素的子集合的數量為 1 (就是自己)
$(\binom{n}{n}) = 1$
從
$n$ 個集合選擇
$0$ 個元素的子集合的數量也為 1(空集合只有一個)
$(\binom{n}{0}) = 1$
從 1 到
$n$ 個元素的子集合數量的總和為
$2^{n}$ (所有的子集合數量)
$\sum_{k = 0}^{n} (\binom{n}{k}) = 2^{n}$

二項式機率 (Binomail Probability)

(\binom{n}{k})

也就是我們在多項式所熟知的二項式係數得值。

(x + 1)^{n} = (\binom{n}{n}) x^{n} + (\binom{n}{n - 1}) x^{n - 1} + . . . + (\binom{n}{k}) x^{k} + . . . + (\binom{n}{0})

假設有

n \geq 1

次獨立的硬幣投擲，且正面的機率為

P (H) = p

。二項式機率所要探討的問題就是這

n

次投擲中有

k

次正面的機率

P (k H)

。

首先我們可以算出特定的

k

次正面的投擲序列的機率：

P (particular k H sequence) = p^{k} (1 - p)^{n - k}

而我們要得到的是所有

n

次投擲中有

k

次正面的機率。每個特定的

k

次正面的投擲序列的機率都是一樣的，所以我們只要再乘上

n

次投擲中有

k

次正面的數量，也就是

(\binom{n}{k})

，所以

P (k H) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}

分割 (Partition)

將有

n

個元素的集合，拆分成

r

個子集合且每個子集合有

n_{i} (i = 1, . . ., r)

個元素，有

C

種分法，

C =

？

我們引用跟前面算出

(\binom{n}{k})

一樣的概念，計算

n

個元素的排列方法總數:

n! = C n_{1}! n_{2}! . . . n_{r}! \Rightarrow C = \frac{n!}{n_{1}! n_{2}! . . . n_{r}!}

相較於二項式係數

(\binom{n}{k}) = \frac{n!}{(n - k)! k!}

，

C = \frac{n!}{n_{1}! n_{2}! . . . n_{r}!}

稱作多項式係數 (multinomial coefficient)，而多項式係數對應到的多項式機率則為:

P (n_{1}, n_{2}, . . ., n_{r}) = \frac{n!}{n_{1}! n_{2}! . . . n_{r}!} p_{n_{1}} p_{n_{2}} . . . p_{n_{r}}

隨機變數 (Random Variable)

隨機變數是一個函數，此函數將機率性實驗的結果對應一個值。也就是說，隨機變數是一個函數將樣本空間對應到實數域。

數學符號

X

代表隨機變數，而

x

代表對應的實數。

隨機變數有下面幾個特性：

一個樣本空間可以定義多種隨機變數
隨機變數經過函數轉換後仍為隨機變數，例如：
$X + Y$ 仍為隨機變數

機率質量函數 (PMF: Probability Mass Function)

隨機變數的值是由機率性實驗的結果決定的，我們可能會想知道哪個隨機變數的值比較有可能出現，而機率質量函數就是用來描述隨機變數的機率分佈的方法。

假設一個樣本空間有 4 個事件

a, b, c, d

，每個事件的機率為 0.25 且每個事件分別對應的實數如下圖所示，則隨機變數

X = 5

的機率為

p_{X} (5) = 0.5

。

p_{X} (x) = P (X = x) = P ({ω \in Ω s.t. X (ω) = x})

機率質量函數的特性和前面講述機率的特性一樣：

任何隨機變數的機率質量函數必為正數

$p_{X} (x) \geq 0$
由於所有實驗結果的機率總和為 1，所有隨機變數的機率質量函數的值總和也必為 1
$\sum_{x} p_{X} (x) = 1$

隨機變數的獨立性

如同前面講述事件時有獨立性，隨機變數也有獨立性。對於兩個隨機變數

X

和

Y

，若這兩個隨機變數互為獨立則對於所有隨機變數

X

和

Y

所映射的值

x

和

y

，其獨立的定義與獨立事件相似:

P (X = x and Y = y) = P (X = x) P (Y = y)

也就是說，我們不管今天得到隨機變數的什麼結果都不影響另一個隨機變數的結果。

在這裡我們要順便引入一個數學表示 –- 聯合機率質量函數 (Joint PMF)。

P (X = x and Y = y) = p_{X, Y} (x, y)

這邊

p_{X, Y} (x, y)

就是聯合機率質量函數。

伯努利隨機變數 (Bernoulli Random Variable)

將樣本空間的事件對應到 0 跟 1，一個機率是

p

則另一個機率為

1 - p

。

伯努利隨機變數的參數

p \in [0, 1]

X = {\begin{array}{cl} 1, & w.p. p \\ 0, & w.p. 1 - p \end{array}

此隨機變數的 PMF:

p_{X} (0) = 1 - p, p_{X} (1) = p

離散均勻隨機變數 (Discrete Random Variable)

將樣本空間的事件對應到數值

a

到

b

並且每個事件的機率都相等。

離散均勻隨機變數的參數

a, b (a \leq b)

p \in [0, 1]

X = {\begin{array}{cl} a, & w.p. \frac{1}{b - a + 1} \\ . . . \\ b, & w.p. \frac{1}{b - a + 1} \end{array}

二項式隨機變數 (Binomial Random Variable)

我們可以用下面這種樣本空間來描述二項式隨機變數

Ω : {0, . . ., n 次出現硬幣正面的次數}

二項式隨機變數的參數

n, p \in [0, 1]

X = {\begin{array}{cl} 0, & w.p. (\binom{n}{0}) p^{0} (1 - p)^{n} \\ . . . \\ n, & w.p. (\binom{n}{n}) p^{n} (1 - p)^{0} \end{array}

此隨機變數的 PMF:

p_{X} (k) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}

幾何隨機變數 (Geometric Random Variable)

幾何隨機變數描述的等待成功的模型，也就是說在執行第

n

次才成功的模型，其中每次的執行都是獨立的。

幾何隨機變數的參數

p (0 < p \leq 1)

X = {\begin{array}{cl} 1, & w.p. (1 - p)^{1} p \\ . . . \\ n, & w.p. (1 - p)^{n - 1} p \end{array}

此隨機變數的 PMF:

p_{X} (k) = (1 - p)^{k - 1} p

p_{X} (\infty) = 0

由此隨機變數我們可以推得一事件永遠不成功的機率為 0。

期望值 (Expectation)

在這裡我們主要講的是隨機變數的期望值，也就是要知道隨機變數的平均。隨機變數的期望值的數學表示為:

E [X] = \sum_{x} x p_{X} (x)

期望值的特性

$X \geq 0 ⟹ E [X] \geq 0$
由期望值的數學表示我們知道期望值是由隨機變數映射的值
$x$ 乘上其對應的機率
$p_{X} (x)$ ，因為機率恆大於等於 0 所以一旦隨機變數映射的值都是大於等於 0 則期望值必定也大於等於 0。
$a \leq X \leq b ⟹ a \leq E [X] \leq b$
我們知道所有的
$a \leq x \leq b$ 所以我們可以推出下面的結果:

E [X] = \sum_{x} x p_{X} (x) \geq a \sum_{x} p_{X} (x) = a

E [X] = \sum_{x} x p_{X} (x) \leq b \sum_{x} p_{X} (x) = b

$c$ 為常數 (不是隨機變數)
$⟹ E [c] = c$
其實常數可看為一個隨機變數只映射到單一值 (
$c$ ) 所以其機率為 1，因此此常數的期望值就是自己。
假設一個隨機變數
$Y$ 為另一個隨機變數
$X$ 的函數轉換
$Y = g (X) ⟹ E [Y] = \sum_{x} g (x) p_{X} (x)$
證明:

$\sum_{y} \sum_{x : g (x) = y} g (x) p_{X} (x) = \sum_{y} y \sum_{x : g (x) = y} p_{X} (x) = \sum_{y} y p_{Y} (y)$
首先
$\sum_{y} \sum_{x : g (x) = y}$ 也就是要加總所有的
$g (x) p_{X} (x)$ 其
$x$ 能經過
$g ()$ 轉換成
$y$ 。而
$\sum_{x : g (x) = y} p_{X} (x) = p_{Y} (y)$ 我們可以用下面這張圖解釋:

也就
$Y$ 的機率等於原本
$X$ 會轉換到對應的
$Y$ 的機率的加總。
$E [a X + b] = a E [X] + b$ –- 期望值也能線性運算
若
$Y = g (X) = a X + b$ ，我們可推得
$E [Y] = a E [X] + b$ 。我們可以發現在線性函數下
$E [g (X)] = g (E [X])$ 。

全期望值定理 (Total Expectation Theorem)

前面再講條件機率時，我們有提到一個事件的機率可以由一系列給定的條件發生時此事件發生的機率乘上給定的條件發生的機率，也就是:

P (B) = \sum P (A_{i}) P (B | A_{i})

當時的我們還並未講述隨機變數的概念，而現在我們可以改用隨機變數的表示方法來改寫這個式子，我們把事件

B

改用隨機變數來表示:

p_{X} (x) = \sum P (A_{i}) p_{X | A_{i}} (x)

這邊改用隨機變數表示可以理解為在事件

B

所在的樣本空間用隨機變數

X

將事件映射為

x

的實數值，所以事件

B

也會映射為實數域上的

x

值。

接著我們對這個改寫後的等式兩邊帶入取期望值的公式:

\sum x p_{X} (x) = \sum P (A_{i}) \sum x p_{X | A_{i}} (x)

等式左邊便是隨機變數

X

的期望值，而等式右邊則是隨機變數

X

在給定條件事件

A_{i}

發生時的期望值，我們用

E [X | A_{i}]

表示:

E [X] = \sum P (A_{i}) E [X | A_{i}]

這也就表示一個隨機變數的期望值也可以由一系列給定條件發生時的隨機變數的期望值乘上給定的條件的發生機率組成。

這邊用『一系列』這個詞並不明確，『一系列』代表的是這些條件的發生機率總合為 1。

接下來我們來算出前面所提到的隨機變數的期望值。

伯努利隨機變數的期望值

X = {\begin{array}{cl} 1, & w.p. p \\ 0, & w.p. 1 - p \end{array}

努利隨機變數將事件分為兩類，其對應的值是 0 跟 1，其期望值為:

E [X] = 1 \cdot p + 0 \cdot (1 - p) = p

伯努利隨機變數將事件結果映射到 0 和 1，所以期望值就是被映射到 1 的事件的發生機率。

離散均勻隨機變數的期望值

在這裡我們使用跟前面不同的表示方法，減少變數以方便表示。我們把前面離散均勻隨機變數將事件映射到

a

到

b

改成

0

到

n

，所以每個事件的機率為

\frac{1}{n + 1}

。

X = {\begin{array}{cl} 0, & w.p. \frac{1}{n + 1} \\ . . . \\ n, & w.p. \frac{1}{n + 1} \end{array}

離散均勻隨機變數的每個事件機率都相同，其期望值為:

E [X] = 0 + \frac{1}{n + 1} + . . . + n \frac{1}{n + 1} = \frac{1}{n + 1} (1 + . . . + n) = \frac{n}{2}

其中

1 + . . . + n = \frac{n (n + 1)}{2}

。

若要用前面事件映射的值為

a

到

b

來看的話其實也就是

E [X] = \frac{b - a}{2}

，因為

n = b - a

。

二項式隨機變數的期望值

X = {\begin{array}{cl} 0, & w.p. (\binom{n}{0}) p^{0} (1 - p)^{n} \\ . . . \\ n, & w.p. (\binom{n}{n}) p^{n} (1 - p)^{0} \end{array}

由期望值的定義我們可以列出:

E [X] = \sum_{k = 1}^{n} k (\binom{n}{k}) p^{k} (1 - p)^{n - k}

使用公式去計算前，我們可以回想一下其實二項式隨機變數是由

n

個獨立的伯努利隨機變數組成。
假設

Y

為伯努利隨機變數，則:

X = \sum_{i = 1}^{n} Y_{i}

E [X] = \sum_{i = 1}^{n} E [Y_{i}] = n p

幾何隨機變數的期望值

X = {\begin{array}{cl} 1, & w.p. (1 - p)^{1} p \\ . . . \\ n, & w.p. (1 - p)^{n - 1} p \end{array}

由期望值的定義我們可以列出:

E [X] = \sum_{k = 1}^{\infty} k (1 - p)^{k - 1} p

但我們會發現若要直接用上面的式子計算出結果會非常困難，因此我們可以引入全期望值定理把

E [X]

拆成一塊一塊解:

\begin{aligned} E [X] & \overset{1}{=} 1 + E [X - 1] \\ \overset{2}{=} 1 + p E [X - 1 | X = 1] + (1 - p) E [X - 1 | X > 1] \\ \overset{3}{=} 1 + 0 + (1 - p) E [X] \end{aligned}

由前面提過的期望值的特性我們可以將
$E [X]$ 拆成
$1 + E [X - 1]$ 。
在物理意義上，我們可以理解為我們已經執行了一次實驗不管結果如何 (也就是 1) 再加上剩下的實驗的期望值 (也就是
$E [X - 1]$ )。
由全期望值定理，
$E [X - 1]$ 可被分成兩部分
$p E [X - 1 | X = 1]$ 以及
$(1 - p) E [X - 1 | X > 1]$ ，分別為第一次就成功跟第一次沒有成功。
若第一次就成功則不會有後面的實驗，因此
$E [X - 1 | X = 1] = 0$ 。而
$E [X - 1 | X > 1]$ 仍然是幾何隨機變數的期望值，所以
$E [X - 1 | X > 1] = E [X]$ 。

為什麼

$E [X - 1 | X > 1] = E [X]$ ?
因為幾何隨機變數每次執行都是獨立的。試想

X - 1 = 3

的情況，

X > 1

的條件其實就是第一次一定失敗所以在

X - 1 = 3

的情況下還需要失敗兩次再成功 (因為

X = 4

)，所以

P (X - 1 = 3 | X > 1)

就會等同是

P (F_{2} F_{3} H_{4} | F_{1})

，而又我們知道因為每次的成功失敗都是獨立的所以可簡化為

P (F_{2} F_{3} H_{4})

。最後這其實不就是前面失敗了兩次執行了第三次才成功的機率嗎，所以等同

P (X = 3)

。

由上面的計算可得出幾何隨機變數的期望值為:

E [X] = \frac{1}{p}

獨立與期望值

若隨機變數

X

和

Y

互為獨立，則

E [X Y] = E [X] E [Y]

且

E [g (X) h (Y)] = E [g (X)] E [h (Y)]

證明:

\begin{aligned} E [X Y] & = \sum_{x} \sum_{y} x y p_{X, Y} (x, y) \\ = \sum_{x} \sum_{y} x y p_{X} (x) p_{Y} (y) \\ = \sum_{x} x p_{X} (x) \sum_{y} y p_{Y} (y) = E [X] E [Y] \end{aligned}

變異數 (Variance)

前面我們提的期望值告訴我們隨機變數的平均值。現在，我們將介紹變異數 –- 用來量化隨機變數分布的集中或分散的程度。

首先，我們已經知道如何計算一個隨機變數的平均值，我們在這用

μ = E [X]

來表示隨機變數的平均值。而現在我們想知道究竟這個隨機變數上的值平均都距離這個平均值多遠，也就是要算

X - μ

的期望值

E [X - μ]

。然而我們會發現這樣計算的結果會是 0，很明顯的因為隨機變數的值是分散在平均值的兩側的，所以

X - μ

有正負之分。若要不看正負號，我們可以很簡單的直接取

X - μ

的平方再算期望值即可。而這就是變異數。

因此變異數的定義為:

v a r (X) = E [(X - μ)^{2}]

也可以寫成:

v a r (X) = E [X^{2}] - μ^{2}

證明:

\begin{aligned} E [(X - μ)^{2}] & = E [X^{2} - 2 μ X + μ^{2}] \\ = E [X^{2}] - 2 μ E [X] + μ^{2} \\ = E [X^{2}] - μ^{2} \end{aligned}

那怎麼算這個期望值呢?

E [(X - μ)^{2}]

其實也就可以看成是

E [g (X)]

，而這個

g (X) = (X - μ)^{2}

。由前面期望值的特性我們可以知道

E [g (X)] = \sum g (x) p_{X} (x)

，所以:

v a r (X) = \sum (x - μ)^{2} p_{X} (x)

但實際上變異數是取距離的平方為單位，並非以距離為單位。因此我們另外定義了一個數學表示 –- 標準差 (Standard deviation):

σ_{X} = \sqrt{v a r (X)}

標準差是將變異數開根號，從而將原本是以距離的平方為單位的變回以距離的單位。

變異數的特性

變異數並不像期望值有線性的特性，反而是如下的特性:

$v a r (a X + b) = a^{2} v a r (X)$ 我們先證明為什麼隨機變數加上常數後取變異數常數項會消失。首先定義隨機變數
$Y = X + b$ ，所以
$E [Y] = μ + b$ 。

$\begin{aligned} v a r (Y) & = E [(Y - (μ + b))^{2}] \\ = E [(X + b - (μ + b))^{2}] \\ = E [(X - μ)^{2}] \\ = v a r (X) \end{aligned}$ 接著我們來證明為什麼隨機變數乘上常數後取變異數常數項會變成平方。首先定義隨機變數
$Y = a X$ ，所以
$E [Y] = a μ$ 。

$\begin{aligned} v a r (Y) & = E [(Y - a μ)^{2}] \\ = E [(a X - a μ)^{2}] \\ = a^{2} E [(X - μ)^{2}] \\ = a^{2} v a r (X) \end{aligned}$
這樣的特性我們可以用其物理意義來解釋。我們知道變異數的概念是隨機變數分布的集中或分散的程度的量化，它是隨機變數的值與其平均值的距離的平方，而這個距離平方並不隨著隨機變數的左右平移 (也就是加減常數值) 而改變，所以隨機變數加上常數值再取變異數並不會改變。另外隨機變數乘上常數會使的距離變為常數倍，但因為變異數的單位是距離的平方所以隨機變數乘上常數再取變異數，會導致常數倍數也會跟著平方。
一般來說兩個隨機變數相加的變異數並不等於各自取變異數後再相加:
$v a r (X + Y) \neq v a r (X) + v a r (Y)$ 但若兩個隨機變數為獨立，則:
$v a r (X + Y) = v a r (X) + v a r (Y)$

伯努利隨機變數的變異數

前面我們已經知道伯努利隨機變數的定義

X = {\begin{array}{cl} 1, & w.p. p \\ 0, & w.p. 1 - p \end{array}

以及計算過其期望值

E [X] = p

現在我們要用變異數的定義來得到伯努利隨機變數的變異數。

\begin{aligned} v a r (X) & = E [(X - E [X])^{2}] \\ = \sum (x - E [X])^{2} p_{X} (x) \\ = (1 - p)^{2} p + (0 - p)^{2} (1 - p) \\ = p (1 - p) \end{aligned}

由上面得出的變異數我們能發現，當

p = 0.5

變異數有最大值。這說明了一件事，某種層面來看變異數也能作為測量隨機變數的隨機性。當伯努利隨機變數的機率參數為 0.5 時有最好的隨機性。

離散均勻隨機變數的變異數

已知離散均勻隨機變數的定義

X = {\begin{array}{cl} 0, & w.p. \frac{1}{n + 1} \\ . . . \\ n, & w.p. \frac{1}{n + 1} \end{array}

以及計算過其期望值

E [X] = \frac{n}{2}

現在我們要用變異數的定義來得到伯努利隨機變數的變異數，我們用第二種變異數的表示法:

\begin{aligned} v a r (X) & = E [X^{2}] - E [X]^{2} \\ = \frac{1}{n + 1} (0^{2} + 1^{2} + . . . + n^{2}) - \frac{n^{2}}{4} \\ = \frac{1}{n + 1} (\frac{1}{6} n (n + 1) (2 n + 1)) - \frac{n^{2}}{4} \\ = \frac{1}{12} n (n + 2) \end{aligned}

二項式隨機變數的變異數

我們一開始一樣列出二項式隨機變數的定義

X = {\begin{array}{cl} 0, & w.p. (\binom{n}{0}) p^{0} (1 - p)^{n} \\ . . . \\ n, & w.p. (\binom{n}{n}) p^{n} (1 - p)^{0} \end{array}

計算變異數就跟我們前面計算期望值的概念一樣，我們知道二項式隨機變數其實就是

n

個獨立的伯努利隨機變數組成，也就是

X = X_{1} + . . . + X_{n}

，其中

X_{i}

就是第

i

次 (單次) 執行成功的伯努利隨機變數，其中我們由變異數的特性我們知道

v a r (X) = v a r (X_{1} + . . . + X_{n}) = v a r (X_{1}) + . . . + v a r (X_{n})

所以二項式隨機變數的變異數為:

v a r (X) = n p (1 - p)

幾何隨機變數的變異數

對於幾何隨機變數的變異數，我們在這需要微積分的概念。我們已知幾何隨機變數的期望值為

E [X] = \frac{1}{p}

，接著我們要算的是

E [X^{2}]

。計算

E [X^{2}]

我們需要一些特殊的解法，我們首先要先解

E [X (X - 1)]

\begin{aligned} E [X (X - 1)] & = \sum_{x = 1}^{\infty} x (x - 1) p (1 - p)^{x - 1} \\ \overset{1}{=} p q \sum_{x = 1}^{\infty} x (x - 1) q^{x - 2} \\ \overset{2}{=} p q \sum_{x = 1}^{\infty} \frac{d^{2}}{d q^{2}} q^{x} \\ \overset{3}{=} p q \frac{d^{2}}{d q^{2}} (\sum_{x = 1}^{\infty} q^{x}) \\ \overset{4}{=} p q \frac{d^{2}}{d q^{2}} (\frac{q}{1 - q}) \\ = \frac{2 (1 - p)}{p^{2}} \end{aligned}

令
$q = 1 - p$ ，並多提一個
$q$ 到
$\sum_{x = 1}^{\infty}$ 的左邊讓裡面是
$q^{x - 2}$ 。
$x (x - 1) q^{x - 2}$ 其實就是微積分裡面的
$q^{x}$ 對
$q$ 做兩次微分。
微分跟
$\sum_{x = 1}^{\infty}$ 是可互換的。
無窮等比級數
$\sum_{x = 1}^{\infty} q^{x} = \frac{q}{1 - q}$ 。
證明:
首先令
$A = \sum_{x = 1}^{\infty} q^{x}$ ，我們在等式的兩邊都乘上
$q$ 得
$q A = q \sum_{x = 1}^{\infty} q^{x}$ ，而後我們將兩等式相減得
$A - q A = q \Rightarrow A = \frac{q}{1 - q}$ 。

上面我們得到了

E [X (X - 1)]

，而

E [X (X - 1)] = E [X^{2}] - E [X]

，因此我們可以得到變異數

\begin{aligned} v a r (X) & = E [X^{2}] - E [X]^{2} \\ = E [X (X - 1)] + E [X] - E [X]^{2} \\ = \frac{2 (1 - p)}{p^{2}} + \frac{1}{p} - \frac{1}{p^{2}} \\ = \frac{1 - p}{p^{2}} \end{aligned}

我們一樣可以用微積分的概念回頭去解幾何隨機變數的期望值。

機率

機率模型

什麼是機率模型?

建立機率模型的兩步驟

機率的公理

條件機率

條件機率的數學表示

條件機率的定義

條件機率模型範例

貝氏定律 (Bayes' Rule)

獨立 (Independent)

數學定義

條件獨立 (Conditional Independent)

成對獨立 (Pairwise Independent)

算數 (Counting)

基本算數原則 (Basic Counting Principle)

組合 (Combinations)

二項式機率 (Binomail Probability)

分割 (Partition)

隨機變數 (Random Variable)

機率質量函數 (PMF: Probability Mass Function)

隨機變數的獨立性

伯努利隨機變數 (Bernoulli Random Variable)

離散均勻隨機變數 (Discrete Random Variable)

二項式隨機變數 (Binomial Random Variable)

幾何隨機變數 (Geometric Random Variable)

期望值 (Expectation)

期望值的特性

全期望值定理 (Total Expectation Theorem)

伯努利隨機變數的期望值

離散均勻隨機變數的期望值

二項式隨機變數的期望值

幾何隨機變數的期望值

獨立與期望值

變異數 (Variance)

變異數的特性

伯努利隨機變數的變異數

離散均勻隨機變數的變異數

二項式隨機變數的變異數

幾何隨機變數的變異數

Read more

Turing Machine

西洋哲學史

人事論時期

No. 116 - Populating Next Right Pointers in Each Node