Try   HackMD

考研筆記 - 機率 (偉文高成)

tags: 考研 機率 數學
撰寫時間 : 2022/09/12 ~ 2022/10/28

機率模型的考前背誦表

機率模型 PMF
fX(x)
MGF
mX(t)
E[X]
Var(X)
模型關係
白努利分布
XB(1,p)
px(1p)1x
1p+pet
p
p(1p)
X
二項分布
XB(n,p)
Cxnpx(1p)nx
(1p+pet)n
np
np(1p)
ΣB(1,p)=B(n,p)
、當
n,p0
時二項分布近似成波松分布
波松分布
XPo(λ),λnp
eλλxx!
eλ(et1)
λ
λ
Po(λ1)+Po(λ2)=Po(λ1+λ2)
幾何分布
XG(p)
1p(1p)x1
pet1(1p)et
1p
1pp2
n次白努利試驗第1次成功的機率
負二項分布
XNB(p)
Cr1x1pr(1p)xr
(pet1(1p)et)r
r(1p)
r(1pp2)
ΣG(p)=NB(r,p)
均勻分布
XU[a,b]
1ba
1ba1t(etbeta)
a+b2
(interval)212
設任意機率模型的CDF為轉換函數則轉換後為
U[0,1]
高斯分布
XN(μ,σ2)
12πσe(xμ)22σ2
eμt+12σ2t2
μ
σ2
ΣN(μi,σi2)=N(i=1nμi,i=1nσi2)
指數分布
XE(λ)
λeλx
λλt
1λ
1λ2
X
gamma分布
XGamma(α,β)
xα1exβΓ(α)βα
1(1βt)α
αβ
αβ2
ΣE(λ)=Gamma(α,1λ)

ch1 機率導論

綱要

  • 機率空間由樣本空間、事件的集合、機率測度三部分組合
  • 3大公理與相關定理的證明
  • 獨立且乘法原則、互斥或加法原則
  • 重複取/不重複取的排列與組合
  • 多項式展開 - 二項式公式、二項式級數
  • 條件機率 - 樣本空間改變
  • 獨立事件與燈泡問題
  • 全機率定理與貝式定理

集合定義與運算

  1. 集合有2種表示式,一種是列舉式,把所有元素都列舉出來;另一種是描述式,描述所有集合內的共同的特性,記為
    A={xN1<x<10}
  2. 宇集(universe),為討論問題領域中,所有合乎選擇條件的元素所形成的集合,記為
    S
    或是
    Ω
  3. n(A)
    代表集合
    A
    中元素(element)的個數。
  4. 集合有相減的運算,即為差集(difference),
    AB=AB
    ,但集合沒有相加的運算。
  5. 冪集(power set),記為
    2A{XXA}
    ,代表包含於集合
    A
    中所有子集合
    X
    所形成的集合,其中包括集合
    A
    本身與空集合
    ϕ
    。而欲計算冪集元素的個數,可以使用"獨立且"乘法原則,在原集合
    A
    中每一個元素分為可取和不取的兩種情形,因此
    n(2A)=2n(A)

隨機試驗與機率空間

  1. 隨機試驗有兩個比較重要的定義 - 在相同條件下可以重複進行,隨機試驗的結果事前不可預知。
  2. 機率空間(probability space)
    (Ω,F,P)
    為人類定義出來,用於描述機率問題的,分為3個部分
    • 第一項
      Ω
      為樣本空間(sample space),一隨機試驗所有可能發生結果組成的集合。
    • 第二項
      F
      為樣本空間的冪集(power set),集合內的元素為事件(event)
      A
      ,屬於樣本空間的子集合
      AS
    • 第三項
      P
      為機率測度(probability measure),一個從集合
      F
      映至實數域
      R
      的函數,
      P:FR
      。每個事件都被此函數賦予一個0和1之間的機率值。

機率的三大公理(Kolmogorov axioms)

一隨機試驗的樣本空間

S
A
S
中的任一事件,因此所有事件的集合即為樣本空間的冪集
F
,定義機率測度
P:FR
為樣本空間的冪集映射至實數的實係數函數,並滿足以下三大機率公理

  1. P(S)=1
    ,機率總和為一。
  2. P(A)R,P(A)0,AF
    ,任一事件的機率為非負實數。
  3. 若事件
    An,n=1,2,3,
    彼此互斥(mutually exclusive),即事件交集為空集合
    AiAj=ϕ,ij
    ,則滿足加法原理
    P(nAn)=nP(An)

根據三大機率公理就可以證明出很多機率的定理,大部分的證明幾乎都是用到是第三點公理。例如機率的排容原理

P(AB)=P(A)+P(B)P(AB)的證明

  1. 列出互斥
    (AB)(AB)(AB)=ϕ
  2. 列出或
    (AB)(AB)(AB)=AB
  3. 使用加法原則
    P((AB)(AB)(AB))=P(AB)=P(AB)+P(AB)+P(AB)={P(AB)+P(AB)}+{P(AB)+P(AB)}P(AB)=P(A)+P(B)P(AB)

計數原理有4個技巧

  1. (獨立且)乘法原則
    若兩事件
    A
    B
    ,為獨立事件
    P(AB)=P(A)P(B)
    A
    n
    個元素,
    B
    m
    個元素,則由
    A
    B
    中各取一個元素,共有
    n×m
    種結果。
  2. (互斥或)加法原則
    若兩事件
    A
    B
    ,為互斥事件
    AB=ϕ
    A
    n
    個元素,
    B
    m
    個元素,則由
    A
    B
    中取一個元素,共有
    n+m
    種結果。
  3. 樹狀圖
    適用於一試驗重複執行或是多試驗循序執行。
  4. 排列與組合
    當隨機試驗可能的結果太多,則採用此技巧。分為可重複取或是不可重複取;有論次序的排列與沒有論次序的組合。

排列組合

  • 排列 - 重複取 -
    n
    物取
    r
    個重複排列有
    nr
    種情形。
  • 排列 - 不重複取 -
    n
    物取
    r
    個不重複排列有
    Prn=n(n1)(nr+1)=n!(nr)!
    種情形。
  • 排列 - 不盡相異物的排列數 - 有
    n
    件物品含有
    k
    種不同種類,分別個數為
    n1,n2,,nk
    ,則
    n1+n2+nk=n
    。若將
    n
    件物品排列,則其排列數為
    n!n1!n2!nk!
  • 多項式展開
  1. 二項式公式
    (x+y)n=k=0nn!k!(nk)!xkynk
    可以視為有
    k
    顆紅球
    x
    nk
    顆藍球
    y
    做不盡相異物的排列數。
  2. 同理可擴展至多項式公式
    (x1+x2++xk)n=0ninn!n1!n2!nk!x1n1x2n2xknk
  3. 微積分的二項式級數(binomial coefficients)與排列組合無關,是利用馬克勞林級數(以0展開的泰勒級數)證明。
    (1+x)k=n=0f(n)(0)n!xn=f(0)0!+f(0)1!x+f(0)2!x2+f(0)3!x3+=1+kx+k(k1)2!x2+k(k1)(k2)3!x3+=n=0k(k1)(kn+1)n!bimonial coefficientsxn,|x|<1=n=0(kn)xn
  • 組合 - 不重複取 -
    n
    物取
    r
    個不重複組合有
    Crn=1r!Prn=n!(nr)!r!
    種情形,就是將不重複取的排列
    Prn
    除上重複計算的排列數
    r!
    ,重要的組合公式有巴斯卡定理
    Ckn=Ck1n1+Ckn1
  • 組合 - 分組、分堆 - 若組別不同(論次序)則可以視為排列,若組別相同(不論次序)則可以視為組合。
  • 組合 - 重複取 -
    n
    物取
    r
    個重複組合有
    Hrn=Crn+r1=(n+r1)!(n1)!r!
    種情形,直觀可以理解有
    r
    個相同的圈圈要分給
    n
    個人,就是把原本
    r
    個相同的圈圈加上
    n1
    條分隔線,做不盡相異物的排列數

條件機率

  1. 若事件
    A,B
    為樣本空間
    S
    的部分集合,且
    P(B)>0
    ,在事件
    B
    已發生的條件之下,事件
    A
    發生的條件機率定義為
    P(AB)=P(AB)P(B)
    其意義等同於縮小原本樣本空間
    S
    變成
    B
    ,再從新的樣本空間
    B
    中找
    AB
    的事件。
  2. 將上式移向得
    P(AB)=P(AB)P(B),P(AB)=P(BA)P(A)
    可知欲求
    A,B
    交集的機率就是將條件機率乘上原本條件機率分母的樣本空間。
  3. 條件機率
    P(AB)
    跟原來的機率
    P(A)
    無法比較,因為樣本空間已經改變,除了以下特例
    ABP(AB)=P(AB)P(B)=P(A)P(B)P(A),P(B)>0
  4. 條件機率依然滿足機率的三大公理,只是樣本空間改變而已。

獨立事件

對於兩機率不為0的事件

A,B而言
events A and B are independent(1)P(AB)=P(A)(2)P(BA)=P(B)(3)P(AB)=P(A)P(B)
式(1)與式(2)代表條件無用 - 在事件
B
發生有無的前提都與事件A會發生的機率無關;式(3)為ch1 計數原理有4個技巧乘法原理,代表
A,B
交集機率等於個別機率相乘,可以由式(1)、式(2)移項推導
P(AB)=P(A)P(AB)P(B)=P(A)

A
B
互斥
AB=ϕP(AB)=P(ϕ)=0

定理為

events A and B are independent(4)events A and B are independent(5)events A and B are independent(6)events A and B are independent 式(6)證明
pq
如下,使用"夾擊法"的證明技巧
events A and B are independentP(AB)=P(A)P(B)P(A)=P(AB)+P(AB)P(AB)=P(A)P(AB)=P(A)P(B)=P(A)(1P(B))=P(AB)=P(A)P(B)P(AB)=P(A)P(B)events A and B are independent
需要注意3個以上的事件獨立,不只要兩個事件成對獨立
P(AB)=P(A)P(B),
,更要保證三個事件彼此也是獨立
P(ABC)=P(A)P(B)P(C)
,同理推廣到
n
個事件互為獨立的條件,由此可知獨立事件的條件是分嚴格。

獨立事件的應用為燈泡開關的迴路問題,若串聯元件
A,B
彼此獨立,則導通機率為
P(AB)=P(A)P(B)
;若並聯元件
A,B
彼此獨立,則導通機率為
P(AB)=P(A)+P(B)P(AB)=P(A)+P(B)P(A)P(B)


全機率定理

事件集

{E1,E2,,En},若集合中任二個事件為互斥
EiEj=ϕ
,且
E1E2En=S
樣本空間,稱為分割(partition)或是互斥無遺漏集合。對任意事件
A
恆有
P(A)=P(AE1)+P(AE2)++P(AEn)=P(AE1)P(E1)+P(AE2)P(E2)++P(AEn)P(En)
白話來說分割就是把樣本空間拆成一塊塊拼圖,全機率定理就是把拼圖一塊塊拼出來,再將其轉成個別條件機率,在實際情況中事件的全貌
P(A)
不容易取得,需要靠條件機率的一塊塊拼圖
P(AEi)P(Ei)
得知事情全貌。


貝氏定理

適用於題目給

P(AEi),求
P(EkA)
,事件和條件對調的問題。若
{E1,E2,,En}
為樣本空間
S
的一組分割,則任意機率大於0的事件
A
恆有
P(EiA)=P(EiA)P(A)=P(AEi)P(Ei)j=1nP(AEj)P(Ej)
分子使用條件機率推得,分母使用全機率定理推得,一般貝氏定理都是使用樹狀圖分析求得。


ch2 隨機變數

綱要

  • 隨機變數是將"抽象"的樣本空間映射到"具體"、可執行加減乘除運算的實數系的"函數"
  • 隨機變數根據值域類型分為離散型、連續型、混合型
  • 離散型隨機變數的PMF與CDF、連續型隨機變數的PDF與CDF
  • 離散型與連續型的多隨機變數
  • 條件機率函數與獨立隨機變數

隨機變數

隨機變數不具有隨機性,也不是一個變數,隨機變數

X是函數,把定義域上"抽象"的樣本空間
S
中每一個樣本點
ω
,映射到值域上"具體"、可執行加減乘除運算的實數系
R
上,記為
X:SSX,SX={X(ω)ωS,XR}
。隨機變數是一個劃時代的概念,從古典機率僅能執行集合運算,透過隨機變數將抽象的集合映射到實數系,到近代機率可以執行加減乘除、微分、積分運算。需要注意原機率空間
{S,E,P()}
透過隨機變數
X
映射到新的機率空間
{SX,EX,PX()}
依然滿足機率的三大公理。

根據隨機變數值域
SX
的種類又可分為3種

  1. SX
    集合元素有有限個或是無限但可數個,則稱為離散型隨機變數。
  2. SX
    集合元素有無限不可數,則稱為連續型隨機變數。
  3. SX
    集合元素一部分可數,另一部分不可數,則稱為混合型隨機變數。

離散型隨機變數

  1. 機率質量函數(PMF, probability mass function)
    PMF在
    x=x0
    的值為單點機率
    fX(x=x0)=PX(X=x0)
    並且PMF滿足以下2個性質
    1. 0fX(x)1
      ,PMF在0和1的區間。
    2. XfX(x)=1
      ,所有
      x
      點的PMF總和為1。

PMF常使用單位脈衝來表示,假設有樣本點

x1,x2,,則PMF
fX(x)=cnδ(xxi)

  1. 累積分布函數(CDF, cumulative distribution function)
    設離散型隨機變數
    X
    的PMF為
    fX(x)
    ,則CDF則是把
    x0
    點以前(包括
    x0
    該點)的機率"累積"起來。
    FX(x0)=PX(Xx0)=sx0fX(s)
    離散型隨機變數的CDF具有以下7個性質
    1. 0FX(x)1
      ,由於所有
      x
      點的PMF總和為1,所以CDF最大值只會是1。
    2. FX()=P(x)=1
      為必然事件;
      FX()=P(x)=0
      為不可能事件。
    3. x1<x2FX(x1)FX(x2)
      ,非遞減的階梯函數。
    4. P(X=x0)=fX(x0)=FX(x)limϵ0FX(xϵ)
      ,欲求該點機率值,等於CDF的函數值減去左極限值。
    5. P(X>x0)=1FX(x0)
      ,若原機率難求,可利用補事件的概念來求。
    6. P(a<Xb)=FX(b)FX(a)
      ,需要注意
      X
      的範圍下限是開區間,上限是閉區間,可用CDF的定義
      FX(x0)=PX(Xx0)
      去證明。
    7. 若離散型隨機變數的值域有樣本點
      x1,x2,
      ,則
      FX(xi)=limh0FX(xi+h),i=1,2,
      ,代表離散型CDF右極限值等於函數值,屬於右連續函數。

連續型隨機變數

  1. 機率密度函數(PDF, probability density function)
    給定連續型隨機變數

    X,且
    SX
    是其值域,
    E
    SX
    的任一部分集合,則機率密度函數
    fX(x)
    滿足
    PX(E)=xEfX(x)dx
    PDF具有以下性質

    1. fX(x)0
      ,PDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
    2. fX(x)dx=1
      ,所有
      x
      點積分起來的PDF總和為1。
    3. P(x=x0)=x0x0f(x)dx=0
      ,單點機率為0,無任何意義。
    4. PDF本身不是機率,需要積分才有機率的意義,連續型隨機變數最基本的單位為
      P(x0<Xx0+dx)=fX(x0)dx
    5. 由於單點機率無意義,故機率上下限小於和小於等於,大於和大於等於同義,
      P(a<X<b)=P(aX<b)=P(a<Xb)=P(aXb)=abfX(x)dx
  2. 累積分布函數(CDF, cumulative distribution function)
    設連續型隨機變數

    X的PDF為
    fX(x)
    ,則CDF則是把
    x0
    點以前的PDF"積分"起來。
    FX(x0)=PX(Xx0)=xfX(t)dt
    連續型隨機變數的CDF具有以下5個性質

    1. 0FX(x)1
      ,PDF
      fX(x)
      x
      軸所圍出來的區域面積最大為1。
    2. FX()=P(x)=1
      為必然事件;
      FX()=P(x)=0
      為不可能事件。
    3. x1<x2FX(x1)FX(x2)
      ,非遞減的連續函數。
    4. P(a<Xb)=FX(b)FX(a)
    5. dFX(x)dx=fX(x)
      ,由微積分基本定理(一)可得對CDF微分為PDF。

離散型多隨機變數

在解題上,第一步是畫出結合機率分析表

  1. 結合機率質量函數(joint PMF, joint probability mass function)
    若有2個離散型的隨機變數

    X,Y,則JPMF在
    x=x0,y=y0
    的值為單點機率
    fX,Y(x=x0,y=y0)=PX(X=x0,Y=y0)
    JPMF類似PMF滿足以下2個性質

    1. 0fX,Y(x,y)1
      ,JPMF在0和1的區間。
    2. XYfX,Y(x,y)=1
      ,所有JPMF上二維單點機率總和為1。
  2. 邊際機率質量函數(marginal PMF, marginal probability mass function)
    將不要的變數全部相加,將兩個隨機變數退化為一個隨機變數。

    fX(x)=YfX,Y(x,y)fY(y)=XfX,Y(x,y) JPMF類似PMF滿足以下2個性質

    1. 0fX(x),fY(y)1
      ,MPMF在0和1的區間。
    2. XfX(x)=YfY(y)=1
      ,退化後的MPMF即為一維的PMF,機率總和為1。
  3. 結合累積分布函數(joint CDF, joint cumulative distribution function) 若有2個離散型的隨機變數

    X,Y,則JCMF
    FX,Y(x0,y0)
    就是把二維點
    (x0,y0)
    以下的面積加起來,做機率累積
    FX,Y(x0,y0)=PX(Xx0,Yy0)
    JCDF具有以下4個性質

    1. 0FX,Y(x,y)1
      ,PDF所圍出來的區域面積最大為1。
    2. FX,Y(,)=P(x,y)=1
      為必然事件;
      FX,Y(,)=P(x,y)=1
      為不可能事件。
    3. FX,Y(,y)=0,FX,Y(x,)=0
      ,帶回定義可以發現,
      x,y
      有一邊機率是0,為不可能事件。
    4. FX,Y(x,)=FX(x),FX,Y(,y)=FY(y)
      ,代表其中一個隨機變數都加完,退化為一個變數的CDF,稱為邊際累積分布函數(marginal CDF, marginal cumulative distribution function)。

連續型多隨機變數

在解題上,第一步是畫出值域

SX,Y圖。

  1. 結合機率密度函數(joint PDF, joint probability density function)
    給定連續型隨機變數

    X,Y,且
    S
    是其值域,
    E
    S
    的任一部分集合,則機率密度函數
    fX,Y(x,y)
    滿足
    P(E)=(x,y)EfX,Y(x,y)dxdy
    PDF具有以下性質

    1. fX,Y(x,y)0
      ,JPDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
    2. fX,Y(x,y)dxdy=1
      ,所有
      x,y
      點雙重積分起來的JPDF總和為1。
    3. P(x=x0,y=y0)=x0x0y0y0f(x)dxdy=0
      ,單點機率為0,無任何意義。
    4. JPDF本身不是機率,需要積分才有機率的意義,連續型隨機變數最基本的單位為
      P(x0<Xx0+dx,y0<Yy0+dy)=fX.Y(x0,y0)dxdy
  2. 邊際機率密度函數(marginal PDF, marginal probability density function)
    將不要的變數全部積分起來,將兩個隨機變數退化為一個隨機變數。

    fX(x)=fX,Y(x,y)dyfY(y)=fX,Y(x,y)dx JPDF類似PDF滿足以下2個性質

    1. fX(x),fY(y)0
      ,PDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
    2. fX(x)dx=fY(y)dy=1
      ,退化後的MPMF即為一維的PMF,機率總和為1。
  3. 結合累積分布函數(joint CDF, joint cumulative distribution function)
    設連續型隨機變數

    X,Y的JPDF為
    fX,Y(x,y)
    ,則JCDF則是把
    (x0,y0)
    點以前的JPDF"積分"起來。
    FX,Y(x0,y0)=P(Xx0,Yy0)=xyfX,Y(s,t)dtds
    連續型隨機變數的JCDF具有以下6個性質

    1. 0FX,Y(x,y)1
      ,JPDF所圍出來的區域面積最大為1。
    2. FX,Y(,)=P(x,y)=1
      為必然事件;
      FX,Y(,)=P(x,y)=1
      為不可能事件。
    3. FX,Y(,y)=0,FX,Y(x,)=0
      ,帶回定義可以發現,
      x,y
      有一邊機率是0,為不可能事件。
    4. FX,Y(x,)=FX(x),FX,Y(,y)=FY(y)
      ,代表其中一個隨機變數都積分完,退化為一個變數的CDF,稱為邊際累積分布函數(marginal CDF, marginal cumulative distribution function)。
    5. FX,Y(x,y)xy=fX,Y(x,y)
      ,由微積分基本定理(一)可得對JCDF微分為JPDF。
    6. 可畫圖證明,記憶口訣是正正(起點、起點)得正、負負(終點、終點)得負
      P(a<Xb,c<Yd)=abcdfX,Y(x,y)dydx=FX,Y(b,d)FX,Y(b,c)FX,Y(a,d)+FX,Y(a,c)

隨機向量

n個隨機變數,寫成向量的形式
X=(X1,X2,,Xn)T
,稱為隨機向量,若皆是連續型隨機變數,同理可定義JPDF、MPDF、JCDF、MCDF。


條件機率函數

若隨機變數

X,Y的結合機率函數
fX,Y(x,y)
、邊際機率函數
fX(x),fY(y)

  • 離散型條件機率密度函數(conditional PMF)
    PXY(xy)=P(X=xY=y)=P(X=x,Y=y)P(Y=y)=fX,Y(x,y)fY(y)
  • 連續型條件機率機率函數(conditional PDF)
    fXY(xy)=fX,Y(x,y)fY(y)P[x<Xx+dxy<Yy+dy]=P[x<Xx+dx,y<Yy+dy]P[y<Yy+dy]=fX,Y(x,y)dxdyfY(y)dy=fXY(xy)dx

獨立隨機變數

給定隨機變數

X1,X2,,Xn, joint PDF
f(X1,X2,,Xn)
, marginal PDF
f(X1),f(X2),,f(Xn)
, joint CDF
F(X1,X2,,Xn)
, marginal CDF
F(X1),F(X2),,F(Xn)
rv's X1,X2,,Xn are independentf(X1,X2,,Xn)=f(X1)f(X2)f(Xn)F(X1,X2,,Xn)=F(X1)F(X2)F(Xn)
n
個隨機變數獨立的定義為個別PDF(CDF)相乘等於聯合的PDF(CDF),而ch1 獨立事件
n
個事件獨立的定義不僅需要
n
個事件成對獨立,還需要兩兩事件成對獨立、三三事件成對獨立等,條件較為"嚴格"。欲快速判斷隨機變數
X,Y
是否互為獨立,首先判斷
X
Y
的值域有無關聯,再來看joint PDF是否可以分離變數
fX,Y(x,y)=?g(x)h(y)


ch3 期望值、變異數

綱要

  • 一階(原點)動差 - 期望值、二階中心動差 - 變異數
  • 動差形成函數(MGF)、特徵函數(CF)、機率質量/密度函數(PMF/PDF)三者關係
  • 機率的比較隨機變數
    X,Y
    之間相關性的共變數與相關係數
  • 獨立 ⇒ 不相關,but不相關 !⇒ 獨立
  • 條件期望值

期望值(=平均數)

給定隨機變數

X與其PMF/PDF
fX(x)
,則
g(x)
的期望值為
E[g(x)]{xSXg(x)fX(x)g(x)fX(x)dx
由上式可知,期望值就是加權平均,這個權重就是機率分布函數。


變異數

給定隨機變數

X,其PMF/PDF
fX(x)
,則
X
的變異數為
Var(X)E{(XμX)2}={xSx(xμX)2fX(x)(xμX)2fX(x)dx
變異數為將所有數值與平均值的誤差做平方再取期望值,稱為均方誤差(MSE - mean square error),當隨機變數的PMF/PDF較鬆散時,變異數大;反之PMF/PDF較密集時,變異數小。進一步推導變異數
E{(XμX)2}=E{X22XμX+μx2}=E[X2]2E[X]μX+μX2=E[X2]μX2
可以得到變異數較方便計算的公式 - 二階動差 - (一階動差)2

由於變異數
E{(XμX)2}>0
,因此定義標準差為變異數的開根號
σXVar(X)


動差形成函數(MGF)與特徵函數(CF)

2022上一段日記 03/14(一)的動差形成函數與特徵函數,需要注意動差形成函數有收斂範圍(ROC),而特徵函數則沒有。另外機率質量/密度函數

fX(x)、特徵函數
Φ(ω)
、動差生成函數
MX(s)
這三者中只要知道任一項,即可求其他兩項(可被唯一決定)。
L1↓↑LfX(x)mn=xnfX(x)dxF↓↑F1Φ(ω)mn=(j)ndnΦdωn|ω=0ω=sj↓↑s=jωMX(s)mn=dnM(s)dsn|s=0
其中Laplace Transform與Fourier Transform與工數的定義上差了一個負號,但這兩種定義是等效的。
MX(s)=L{fX(x)}=esxfX(x)dxΦ(ω)=F{fX(x)}=ejωxfX(x)dx


期望值與變異數的性質

期望值屬於一階(原點)動差,因此具有線性運算的性質,即

E[g(X)+h(Y)]=E[g(X)]+E[h(Y)],但是期望值的乘法不能拆開,只有在隨機變數
X,Y
是獨立
的條件下
E[g(X)h(Y)]=E[g(X)]E[h(Y)]


線性代數篇 ch6 範數(norm)介紹線性代數版的柯西不等式,也有個機率版的柯西不等式,證明為令新的隨機變數
Z=YλX,λR
,並計算
E[Z2]
E[XY]2E[X2]E[Y2]
P[Y=αX]=1
時,"="才會成立。

變異數為二階中心動差,與期望值不同,不具有線性運算,而變異數的其他性質為
Var(aX+b)=a2Var(X)


共變數(=協方差)(covariance)

給定隨機變數

X,Y與平均值
μX,μY
,則共變數
Cov(X,Y)=E[(XμX)(YμY)]=σXY
其意義在於比較隨機變數
X,Y
之間的相關性
Cov(X,Y)>0
代表正相關、
Cov(X,Y)<0
代表負相關、
Cov(X,Y)=0
代表不相關。
進一步推導
Cov(X,Y)=E[(XμX)(YμY)]=E[XYμXYμYX+μXμY]=E[XY]μXE[Y]μYE[X]+μXμY=E[XY]μXμY
可以得到共變數較方便計算的公式。
與變異數做比較
Var(X)E{(XμX)(XμX)}=E[X2]μX2=Cov(X,X)=σX20
可以發現變異數就是自己跟自己的共變數,代表比較自己跟自己的關係。


相關係數(correlation coefficients)

共變數可以判斷兩隨機變數

X,Y的相關性,但只能定性,不能定量,需要除以各自隨機變數的標準差,得到定量的相關係數。
ρXYCov(X,Y)σXσY=E[XY]μXμYE[X2]μX2E[Y2]μY2
性質 - 相關係數指介於-1到1之間,即
1ρXY1
set U=XμX,V=YμYE[UV]2E[U2]E[V2]Cauchy–Schwarz inequalityCov(X,Y)2Var(X)Var(Y)(Cov(X,Y)σXσY)2=ρXY211ρXY1


獨立 ⇒ 不相關,but不相關 !⇒ 獨立

X,Y are uncorrelatedCov(X,Y)=0ρXY=0E[XY]=E[X]E[Y]X,Y are independentfX,Y(x,y)=fX(x)fY(y)FX,Y(x,y)=FX(x)FY(y)E[g(X)h(Y)]=E[g(X)]E[h(Y)] 由獨立與不相關等效的第3的定義可知,獨立是任意
g(X),h(Y)
n
階動差都可拆開,等效於
M(s1,s2)=MX(s1)MY(s2)
,而不相關是僅有一階動差能拆開
E[XY]=E[X]E[Y]
,因此獨立可以推得不相關,但不相關無法推得獨立

但有兩個例外(獨立與不相關等價)

  1. 二位元傳輸 - 隨機變數
    X,Y
    ,其值域為
    SX={0,1}=SY
  2. 高斯分布 - 隨機變數
    X,Y
    joint Gaussian distribution

共變數矩陣(covariance matrix)

將共變數推廣至

n個隨機變數。給定隨機向量
X
與平均值向量
μX
X=[X1X2Xn],μX=[μ1μ2μn]
共變數矩陣
Cov(X)E[(XμX)(XμX)T]=E[XXT]μXμXT=[σX12σX1X2σX1XnσX2X1σX22σX2XnσXnX1σXnX2σXn2]
共變數矩陣有兩個重要的特性

  1. 實對稱
    σX1X2=σX2X1,
  2. 半正定
    vTCv=E[vTxxTv]=E[(vTx)2]0

條件期望值

給定隨機變數

X,Y與其PMF/PDF
fX,Y(x,y)
E[g(X)y]{xSXg(x)f(xy)g(x)f(xy)dxE[g(Y)x]{ySYg(y)f(yx)g(y)f(yx)dx
其中
E[g(X)y]
為取
g(x)
這個函數的期望值,故先把這個函數拿進來;而期望值是作加權平均,這個權重在此就是條件機率函數
f(xy)
,並對要做期望值的函數做相加/積分,也就是
x
的函數。

可以觀察上式條件期望值就是條件
y
的函數
,當條件
y
改變時,樣本空間改變,因此機率分布,也就是
x
的範圍改變,最終期望值跟著改變。

E[E[g(X)Y]]=E[g(X)]
口訣為條件期望值做兩次,則條件可以拿掉。證明如下
E[g(X)Y]=g(x)f(xy)dx=g(x)fX,Y(x,y)fY(y)dx=W(y)a funtion of yE[E[g(X)Y]]=E[W(y)]=W(y)fY(y)dy=[g(x)fX,Y(x,y)fY(y)dx]fY(y)dyg(x)fX,Y(x,y)dxdy=E[g(X)]


ch4 變數變換

綱要

  • 單->單變數變換(連續型)的累積函數法、分割區間法
  • 雙->單變數變換(連續型)的累積函數法、公式法、動差法
  • 雙->雙變數變換(連續型)的雙變數轉換法
  • 聯合/邊際動差形成函數(JMGF/MMGF)與聯合/邊際特徵函數(JCF/MCF)
  • 隨機變數獨立的等價條件
  • 極值分布

變數變換

變數變換為機率的轉移,將舊的隨機變數

X對應到新的隨機變數
Y
,把那些機率合併起來,轉為
Y
的機率。
SXg(X)=YSY


單->單變數變換(連續型)法1 - 累積函數法

題目給定新的隨機變數

Y=g(X),欲求其PDF
fY(y)
。由於連續型的PDF不具有機率的意義,故先求CDF,透過反函數求得與
X
的關係,最後再微分得PDF。
FY(y)P(Yy)=P(g(X)y)={P(Xg1(y))g(x) is increment functionP(Xg1(y))g(x) is decreasing function={g1(y))fX(x)dxg1(y))fX(x)dxfY(y)=ddyFY(y),ySY


單->單變數變換(連續型)法2 - 分割區間法

法1無法計算,為理論證明,法2偏向一般的計算考題 - 給定題目為非單調函數,解題步驟有以下3步

  1. 繪製
    Y=g(X)
    ,將圖形切割成數段單調函數區間
    Zi
  2. 在每一單調區間
    Zi
    ,計算
    fYi(y)
    ,需要注意遞減函數需要加上絕對值,避免產生負號。
    fYi(y)|dy|=fX(x)dxfYi(y)=fX(x)|dxdy|=fX(gi1(y))|d(gi1(y))dy|
  3. 將分段的
    fYi(y)
    相加,需要注意"相同值域"的
    fYi(y)
    才能相加。
    fY(y)=i=1nfYi(y),ySY

雙->單變數變換
Z=g(X,Y)
(離散型)

題目較連續型簡單,也較少,直接求

Z的單點機率即可,繪製
SX,SY,g(X,Y)=z
值域圖,決定值域
SZ
與累積區域
R
,最後進行累加
PZ(z)=P(Z=z)=P(g(X,Y)=z)=xyfX,Y(x,y),zR


雙->單變數變換
Z=g(X,Y)
(連續型)法1 - 累積函數法

繪製

SX,SY,g(X,Y)=z值域圖,決定值域
SZ
與累積區域
R
,最後進行積分
FZ(z)P(Zz)=P(g(X,Y)z)=RfX,Y(x,y)dxdyfZ(z)=dFZ(z)dz,zSZ


雙->單變數變換
Z=g(X,Y)
(連續型)法2 - 公式法

以下3步為公式記憶的方式

  1. 首先觀察
    fZ(z)
    單位
    1/m
    fX,Y(x,y)
    單位
    1/m2
    不合,因此在不失一般性之下對
    y
    做積分。
  2. x
    換成
    y,z
    的函數,即
    x=g(y,z)
  3. 由於第二步
    x
    做變數變換,因此需要乘上面積元素間的倍率,也就是Jacobian matrix
    |xz|
    Z=X+YfZ(z)=1fX,Y(x=zy,y)dyZ=XYfZ(z)=1fX,Y(x=z+y,y)dyZ=XYfZ(z)=1|y|fX,Y(x=zy,y)dyZ=XYfZ(z)=|y|fX,Y(x=zy,y)dy
    需要注意第4個公式要積分在分母的變數,計算上較容易。
  4. 要善用步階函數
    H()
    來處理
    SX,SY
    值域問題。

只證明公式法第1點,其他證明略省

FZ(z)=P(Zz)=P(X+Yz)=RfX,Y(x,y)dxdy=ZYfX,Y(x,y)dxdyfZ(z)=dFZ(z)dz=ddz(ZYfX,Y(x,y)dx)dy=|(zy)z|fX,Y(x=zy,y)dy=1fX,Y(x=zy,y)dy


雙->單變數變換
Z=g(X,Y)
(連續型)法3 - 動差法

給定隨機變數

X,Y彼此獨立,而
Z=X+Y
,若PDF分別為
fX(z),fY(z)
,MGF分別為
MX(s),MY(s)
,CF分別為
ϕX(ω),ϕY(ω)
,則

  1. fZ(z)=fX(z)fY(z)
  2. MZ(s)=MX(s)MY(s)
  3. ϕZ(ω)=ϕX(ω)ϕY(ω)

第1點證明從法2 - 公式法出發

Z=X+Y,1fX,Y(x=zy,y)dy=1fX(zy)fY(y)dy=fX(z)fZ(z)Z=XY,1fX,Y(x=z+y,y)dy=1fX(z+y)fY(y)dy=fX(z)fZ(z) 第2點證明複習ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立兩隨機變數獨立的等價條件
E[g(X)h(Y)]=E[g(X)]E[h(Y)]
MZ(s)=E[es(X+Y)]=E[esXesY)]=E[esX]E[esY)]=MX(s)MY(s)
特徵函數同理動差生成函數的推法
ϕZ(ω)=E[ejω(X+Y)]=E[ejωXejωY]=E[ejωX]E[ejωY]=ϕX(ω)ϕY(ω)
由Laplace Transform與Fourier Transform的性質互推這3點的性質
MZ(s)=F{fZ(z)}=F{fX(z)fY(z)}=F{fX(z)}F{fY(z)}=MX(s)MY(s)ϕZ(ω)=L{fZ(z)}=L{fX(z)fY(z)}=L{fX(z)}L{fY(z)}=ϕX(ω)ϕY(ω)


雙->雙變數變換
U=g(X,Y),V=h(X,Y)
(連續型)

  1. U=g(x,y),V=h(x,y)
    求取反函數
    X=ϕ(u,v),Y=ξ(u,v)
    這4個條件決定值域
    SU,SV
  2. fU,V(u,v)=fX,Y(x=ϕ(u,v),y=ξ(u,v))|J|
    ,做變數變換時需要乘上Jacobian。
    考慮積分一小塊JPDF才具有機率的意義,避免遞減函數讓面積產生負號,故加上絕對值
    fX,Y|dxdy|fU,V(u,v)|dudv|
    其中微小面積
    |dxdy|
    |dudv|
    之間的比值稱為Jacobian
    dxdy=|J|dudv,|J|=|(x,y)(u,v)|=||xuxvyuyv||

聯合/邊際動差形成函數(JMGF/MMGF)與聯合/邊際特徵函數(JCF/MCF)

ch3 動差形成函數(MGF)與特徵函數(CF)定義動差形成函數與特徵函數,給定隨機變數

X,Y的JPDF
fX,Y(x,y)
,在此定義聯合動差形成函數(JMGF)
M(s1,s2)=E[es1X+s2Y]=es1xes2yfX,Y(x,y)dxdy
上式即為
2
維的Laplace Transform。若令
s1=0
或是
s2=0
,則JMGF會退化為單變數的邊際動差形成函數(MMGF)
MX(s1)=M(s1,0)=E[es1X+0]=es1xfX,Y(x,y)dxdy=es1xfX(x)dx
欲計算
X
Y
各階聯合動差
E[XmYn]=m+ns1ms2nM(s1,s2)|s1=s2=0

同理可定義聯合特徵函數(JCF)
ϕ(ω1,ω2)=E[ejω1X+jω2Y]=ejω1xejω2yfX,Y(x,y)dxdy
上式即為
2
維的Fourier Transform。若令
ω1=0
或是
ω2=0
,則JCF會退化為單變數的邊際特徵函數(MCF)
ϕ(ω1)=ϕ(ω1,0)=E[ejω1X+0]=ejω1xfX,Y(x,y)dxdy=ejω1xfX(x)dx
欲計算
X
Y
各階聯合動差
E[XmYn]=(j)m+nm+nω1mω2nϕ(ω1,ω2)|ω1=ω2=0


隨機變數獨立的等價條件

可擴充ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立中隨機變數獨立的等價條件

X,Y are independentfX,Y(x,y)=fX(x)fY(y)JPDF = MPDF · MPDFFX,Y(x,y)=FX(x)FY(y)JCDF = MCDF · MCDFE[g(X)h(Y)]=E[g(X)]E[h(Y)]fXY(xy)=fX(x)fXY(xy)=fY(y)M(s1,s2)=MX(s1)MY(s2)JMGF = MMGF · MMGFϕ(ω1,ω2)=ϕX(ω1)ϕY(ω2)JCF = MCF · MCF 式(3)證明
pq
,同理式(6)、式(7)
E[g(X)h(Y)]g(x)h(y)fX,Y(x,y)dxdy=g(x)h(y)fX(x)fY(y)dxdy=g(x)fX(x)dxh(y)fY(y)dx=E[g(X)]E[h(Y)]
式(4)證明
pq
,同理式(5)
fXY(xy)fX,Y(x,y)fY(y)=fX(x)fY(y)fY(y)=fX(x)


極值分布

給定

n個隨機變數
X1,X2,,Xn
獨立且其PDF為
f1(x1),,fn(xn)
、CDF為
F1(x1),,Fn(x)
。給定新的隨機變數為
Y=max(X1,X2,,Xn),Z=min(X1,X2,,Xn)
fY(y),fZ(z)


解題步驟為先求CDF,並利用隨機變數獨立的性質將JCDF拆分為MCDF。
FZ(z)=P(Zz)=P(min(X1,,Xn)z)=1P(min(X1,,Xn)>z)=1P(X1>z,X2>z,,Xn>z)=1P(X1>z)P(X2>z)P(Xn>z)=1(zf1(x1)dx1)(zf2(x2)dx2)(zfn(xn)dxn)
再來連續型對CDF微分就是PDF、離散型CDF相減就是PMF。
PZ(z)=FZ(z)FZ(z1)fY(z)=dFZ(z)dz


ch5 離散型機率變數模型

綱要

  • 白努利分布 (1次白努利試驗)
  • 二項分布 (n次白努利試驗)
  • 波松分布 (二項分布的特例使
    n,p0,npλ
    )
  • 波松程序 (波松分布的廣義結果)
  • 幾何分布 (第1次成功為止)
  • 負二項分布 (第r次成功為止)
  • 多項式分布 (k個結果的多項試驗)

白努利試驗(Bernoulli Trial)

ch1 隨機試驗與機率空間中定義的隨機試驗,滿足3個條件

  1. 結果只有2種
  2. 每次試驗彼此獨立
  3. 每次試驗機率相同

舉例來說丟銅板、取後放回的隨機取球。


白努利分布(Bernoulli Distribution)/兩點分布(Two-point Distribution)
XB(1,p)

執行

1次白努利試驗,成功的機率為
p
,令隨便變數
X
為成功的次數,則白努利分布的PMF為
fX(x)=px(1p)1x,SX={0,1}
白努利分布即為執行一次白努利試驗,也就是二項分布在
n=1
的特例,記為
XB(1,p)


依序計算白努利分布的動差生成函數、期望值、變異數,這三個重要的參數。
mx(t)=E[etX]=et(0)P(X=0)+et(1)P(X=1)=1(1p)+pet=1p+petE[X]=1P(X=1)+0P(X0)=pE[Xn]=1nP(X=1)+0nP(X0)=pVar(X)=E[X2](E[X])2=pp2=p(1p)


二項分布(binomial distribution)
XB(n,p)

執行

n次白努利試驗,成功的機率為
p
,令隨機變數
X
為成功的次數,則二項分布的PMF為
fX(x)=Cxnpx(1p)nx,SX={0,1,2,,n}
首先先排座位,挑選
x
次成功次數,即為
Cxn
,再入座機率。

檢驗上式是否符合PMF總和機率為1的條件,使用到ch1 排列組合中的二項式展開。
xSXfX(x)=x=0nCxnpx(1p)nx=(p+1p)n=1
依序計算白努利分布的動差生成函數、期望值、變異數(期望值、變異數另一種算法 - MGF取ln再微分),這三個重要的參數。
MX(t)=E[etX]=x=0netxfX(x)=x=0netxCxnpx(1p)nx=x=0nCxn(pet)x(1p)nx=(1p+pet)n(x+y)n=k=0nCknxkynklnMX(t)=nln(1p+pet)E[X]=d[lnMX(t)]dt|t=0=npet1p+pet|t=0=npVar(X)=d2[lnMX(t)]dt2|t=0=npet(1p+pet)(et)(pet)(1p+pet)2|t=0=np(1p)
最後探討模型之間的關係

  1. n
    個白努利分布的隨機變數獨立且同分布(iid),則隨機變數相加為二項分布。
    X1,X2,,Xn, where XiB(1,p)iidX=X1+X2++XnB(n,p)
    由二項定義為執行
    n
    次白努利試驗,白努利分布為執行
    1
    次白努利試驗。
  2. 獨立的二項分布相加還是二項分布。
    X1B(n1,p),X2B(n2,p)independentX=X1+X2B(n1+n2,p)
    可視為前
    n1
    次白努利試驗,加上後
    n2
    次白努利試驗。

波松分布(Poisson distribution)
XPo(λ),λnp

當二項分布白努利試驗次數趨近無限大

n(一般
n30
),成功機率
p0
(一般
p10
),而期望值
E[X]=npλ
趨於定值
fX(x)=Cxnpx(1p)nx=n!x!(nx)!(λn)x(1λn)nx=λxx!(n(n1)(nk+1)nnn)(1λn)n(1λn)k
將三式的
n
後分別為
limn(n(n1)(nk+1)nnn)=111=1limn(1λn)n=limn(1+(λ)n)n=eλlimn(1λn)k=(1)k=1
最後得波松分布的PMF為
fX(x)=eλλxx!,SX(x)={0,1,2,,n},λnp
舉例來說,在通訊傳輸,一次傳輸的bit十分巨大
n=100k
,且錯誤率極小
p=106
,透過波松分布就可近似二項分布。
Cxnpx(1p)nxeλλxx!,λnp
檢驗上式是否符合PMF總和機率為1的條件,使用到微積分自然對數的泰勒展開式。
xSXfX(x)=x=0neλλxx!=eλx=0nλxx!=eλeλ=1
依序計算波松分布的動差生成函數、期望值、變異數,這三個重要的參數。
MX(t)=E[etX]=x=0netxfX(x)=x=0netxeλλxx!=eλx=0n(λet)xx!=eλeλetek=n=0nknn!=eλ(et1)lnMX(t)=λ(et1)E[X]=d[lnMX(t)]dt|t=0=λet|t=0=λVar(X)=d2[lnMX(t)]dt2|t=0=λet|t=0=λ
最後探討模型之間的關係,獨立的波松分布相加還是波松分布。
X1Po(λ1),X2Po(λ2)independentX=X1+X2Po(λ1+λ2)
由於波松分布是二項分布的特例,因此"繼承"二項分布的模型之間的關係。


波松程序(Poisson process) - 與時間有關


已知在
(0,T)
區間時間內共發生
n
個事件,則在
(t1,t2)
區間的
t
時間內發生
x
個點(
x<n
)的機率為何?
假設隨機程序為stationary,代表機率與絕對時間無關,只與相對時間長短有關,
1
個點落在
(t1,t2)
內的機率為
(1)p=tT
x
個點落在
t
的機率則為二項分布,假設將時間切割很細,切成每一小區段機率
p
很低的白努利分布,因此
n1,Tt
,二項分布可近似於Poisson分布
(2)Cxnpx(1p)nxenp(np)xx!
將式(1)帶入式(2),並定義單位時間的平均發生率
λ=nT
,可得在
(0,t)
時間內發生的次數
x
P(X=x)=entT(ntT)xx!=eλt(λt)xx!Po(λt)
其中隨機程序
X
就是波松程序,可以視為Poisson分布的廣義結果,Poisson分布就是波松程序在
t=1
時的特例。


幾何分布(Geometric distribution)
XG(p)

執行一連串成功機率

p的白努利試驗,直到第
1
次成功為止的機率
,為負二項分布在成功次數
r=1
時的特例。有兩種可能的隨機變數

  1. 令直到第
    1
    次成功為止的執行次數
    X
    fX(x)=1p(1p)x1,SX={1,2,}
    先排座位,前面
    x1
    項都是失敗,而最後一項是成功,因此只有一種可能,後入座機率。會稱為幾何分布,是因為
    fX(x)
    具有幾何級數(geometric progression,又稱等比級數)的外型。
  2. 令直到第
    1
    次成功為止的失敗次數
    Y=X1
    fY(y)=1p(1p)y,SY={0,1,}
    單純轉換變數。
    檢驗幾何分布(執行次數
    X
    )是否符合PMF總和機率為1的條件,使用到等比級數。
    xSXfX(x)=x=0np(1p)x1=p+p(1p)+p(1p)2+=p1(1p)=1
    依序計算幾何分布(失敗次數
    Y
    )的動差生成函數、期望值、變異數,這三個重要的參數。
    MY(t)=E[etY]=y=0netyfY(y)=y=0netyp(1p)y=py=0n((1p)et)y=p(11(1p)et),|(1p)et|<1et<11p=p1(1p)et,t>ln(11p)lnMY(t)=lnpln(1(1p)et)E[Y]=d[lnMY(t)]dt|t=0=(1p)et1(1p)et|t=0=1p11+p=1ppVar(Y)=d2[lnMY(t)]dt2|t=0=[(1p)et][1(1p)et][(1p)et][(1p)et](1(1p)et)2|t=0=(1p)p+(1p)2p2=1pp2
    由於失敗次數
    Y
    加上成功次數
    1
    等於執行次數
    X
    ,記為
    X=Y+1
    ,因此
    MX(t)=E[etX]=E[et(Y+1)]=MY(t)etE[X]=E[Y]+1Var(X)=Var(Y)

負二項分布(Negative binomial distribution)
XNB(p)

執行一連串成功機率

p的白努利試驗,直到第
r
次成功為止的機率
。有兩種可能的隨機變數

  1. 令直到第
    r
    次成功為止的執行次數
    X
    fX(x)=Cr1x1pr(1p)xr,SX={r,r+1,}
    先排座位,前面
    x1
    項中有
    r1
    項是成功,而最後一項是成功,因此只有$ C^{x - 1}_{r - 1}$種可能,後入座機率。
  2. 令直到第
    1
    次成功為止的失敗次數
    Y=Xr
    fY(y)=Cr1y+r1pr(1p)y,SY={0,1,}
    單純轉換變數。
    檢驗負二項分布(執行次數
    X
    )是否符合PMF總和機率為1的條件,使用到ch1 排列組合中微積分的二項式級數。
    xSXfX(x)=x=rnCr1x1pr(1p)xr=Cr1r1pr+Cr1rpr(1p)+Cr1r+1pr(1p)2+=pr+rpr(1p)+r(r+1)2pr(1p)2+=pr[1+r(1p)+r(r+1)2(1p)2+]=pr[1+[r][(1p)]+[r][r1]2![(1p)]2+]=pr[1(1p)]r=prpr=1
    此分布會被稱為"負"二項的原因,是因為存在
    [1(1p)]r
    的"負"次方的二項式級數。
    依序計算負二項分布(失敗次數
    Y
    )的動差生成函數、期望值、變異數,這三個重要的參數。
    MY(t)=E[etY]=y=0netyfY(y)=y=0netyCr1y+r1pr(1p)y=y=0nCyrpr[(1)(1p)et]yCyr=(1)yCr1y+r1=pry=0nCyrpr[(1p)et]y=pr(1(1p)et)r(1+x)k=n=0Cnkxn,|x|<1=(p1(1p)et)r,t>ln(11p)lnMY(t)=rlnprln(1(1p)et)E[Y]=d[lnMY(t)]dt|t=0=r((1p)et1(1p)et)|t=0=r(1p1(1p))=r(1pp)Var(Y)=d2[lnMY(t)]dt2|t=0=r([(1p)et][1(1p)et][(1p)et][(1p)et](1(1p)et)2)|t=0=r((1p)p+(1p)2p2)=r(1pp2)
    由於失敗次數
    Y
    加上成功次數
    1
    等於執行次數
    X
    ,記為
    X=Y+r
    ,因此
    MX(t)=E[etX]=E[et(Y+r)]=MY(t)ertE[X]=E[Y]+rVar(X)=Var(Y)
    最後探討模型之間的關係,若
    n
    個幾何分布的隨機變數獨立且同分布(iid),則隨機變數相加為負二項分布。
    X1,X2,,Xr, where XiG(p)iidX=X1+X2++XnNB(r,p)

多項式分布(Multinomial distribution)
XMN(n,p1,p2,,pk)

ch5 白努利試驗(Bernoulli Trial)其中一項定義為"結果只有2種",若將其推廣結果為

k種,則稱為多項試驗(multinomial trials)。執行
n
次多項試驗,成功的機率個別為
p1,p2,pk
,令隨便向量
X=[X1,X2,,Xk]
為個別隨機變數成功的次數,則多項式分布的PMF為
P(X1=x1,X2,=x2,,Xk=xk)=n!x1!x2!xk!p1x1p2x2pkxk
先排座位,根據ch1 排列組合中不盡相異物的排列數,再入座機率。

依序計算多項式分布的結合動差生成函數、單變數的期望值、單變數的變異數,這三個重要的參數。
MX(t1,t2,,tk)=E[et1X1et2X2etkXk]=x1X1x2X2x1Xket1x1et2x2etkxk(n!x1!x2!xk!p1x1p2x2pkxk)=x1X1x2X2(n!x1!x2!xk!)[(p1et1)x1][(p2et2)x2][(pketk)xk]=(p1et1+p2et2+pketk)nE[X1]=t1(p1et1+p2et2+pketk)n|(t1,t2,,tk)=(0,0,,0)=(p1et1+p2et2+pketk)np1et1|(t1,t2,,tk)=(0,0,,0)=n(p1+p2++pk)n1p1=np1E[X12]=2t12(p1et1+p2et2+pketk)n|(t1,t2,,tk)=(0,0,,0)=n(n1)(p1et1+p2et2+pketk)n2(p1et1)(p1et1)+n(p1et1+p2et2+pketk)n1p1et1|(t1,t2,,tk)=(0,0,,0)=n(n1)p12+np1Var(X1)=E[X12]E[X1]2=(n(n1)p12+np1)(np1)2=np1(1p1)
觀察上式中
E[X1],Var(X1)
與二項分布的期望值與變異數相同,此為多項試驗退化為白努利試驗的結果,取決於觀測者不同的觀察角度,舉例來說同一個骰子觀測者A觀察骰子有6種可能結果,屬於多項試驗,而觀測者B只在乎骰子點數一點有無出現次數,結果從6種退化成只有2種,屬於白努利試驗。

最後計算共變異數與相關係數。
Cov(X1X2)=E[X1,X2]E[X1]E[X2]=2t1t2(p1et1+p2et2+pketk)n|(t1,t2,,tk)=(0,0,,0)(np1)(np2)=n(n1)p1p2(np1)(np2)=np1p2ρX1,X2=Cov(X1X2)σX1σX2=np1p2np1(1p1)np2(1p2)=p1p2(1p1)(1p2)
由原關係
X1+X2=n
可看出當
X1
增加,則在
n
固定之下,
X2
必減少,因此呈現負相關,共變數與相關係數皆為負值。


ch6 連續型機率變數模型

綱要

  • 均勻分布
  • 高斯/常態分布
  • 求解任意高斯函數區間機率 - 先標準化再查表
  • 指數分布 (等待1次事件的時間、兩次事件發生的間隔)
  • gamma分布 (等待n次事件的時間)
  • 卡方分布 (標準常態分佈的平方)
  • 無記憶性有離散型的幾何分布、連續型的指數分布
  • 二維結合高斯分布的MPDF、CPDF、JMGF
  • n維結合高斯分布線性組合仍是n維結合高斯分布且獨立與不相關等價

均勻分布(Uniform distribution)
XU[a,b]

隨機變數

X的PDF為
fX(x)={1ba,axb0,elsewhere
依序計算均勻分布的動差生成函數、期望值、變異數,這三個重要的參數。
MX(t)=E[etX]=abetxfX(x)dx=abetx(1ba)dx=1ba1t(etbeta)E[X]=abxfX(x)dx=abx(1ba)dx=12(1ba)(b2a2)=a+b2midpointVar(X)=E[X2](E[X])2=abx2(1ba)dxa+b2=b2+ab+a23a+b2=(ab)212(interval)212
任意隨機變數
X
的CDF
FX(x)
為連續函數,則經過ch4 單->單變數變換(連續型)法1 - 累積函數法,隨機變數
Y
必為均勻分布。
FY(y)=P(Yy)=P(FX(x)y)=P(XFX1(y))=FX(FX1(y))=yfY(y)=ddyFY(y)=1,0y1U[0,1]
在應用分面,計算機生成的均勻分布
YU[0,1]
,經過適當的變數變換
X=F1(Y)
後,就可以生成任意機率分布的CDF
F(x)


高斯/常態分布(Normal/Gaussian distribution)
XN(μ,σ2)

對白努利試驗而言,當

n,p0,λnp時二項分布可以近似於Poisson分布,而另一種近似的函數就是高斯分布,根據De Moivre-Laplace定理,當
np(1p)1
時,則是事件發生率為
Cxnpx(1p)nx12πσe(xμ)22σ2,μnp,σnp(1p)
因此定義高斯/常態分佈為隨機變數
X
的PDF
fX(x)=12πσe(xμ)22σ2
其中
μ
稱為位置參數,為眾數(機率最大)、中位數(剛好把機率分半)、平均數;
σ
稱為形狀參數,為標準差,決定PDF的胖瘦。

檢驗上式是否符合PDF總和機率為1的條件,積分時做變數變換將指數上面的東西"打包"成一單變數,並使用到極座標的積分技巧
fX(x)dx=12πσe(xμ)22σ2dxset u=xμ2σ,du=dx2σ,dx=2σdu=12πσeu2(2σdu)=1πeu2du=1πeu2duew2dw=1π02π0er2rdrdθ=1ππ=1
依序計算高斯分布的動差生成函數、期望值、變異數,這三個重要的參數。
MX(t)=E[etX]=etxfX(x)=etx12πσe(xμ)22σ2dx=e12σ2{2σ2tx}12πσe12σ2{(x22μx+μ2}dx=12πσe12σ2{x22(μ+σ2t)x}e12σ2(μ2)dx=12πσe12σ2{x(μ+σ2t)}2dxeμt+12σ2t2=eμt+12σ2t2lnMX(t)=μt+12σ2t2E[X]=d[lnMX(t)]dt|t=0=μ+σ2t|t=0=μVar(X)=d2[lnMX(t)]dt2|t=0=σ2|t=0=σ2
最後探討模型之間的關係,若
n
個獨立的高斯分布相加還是高斯分布。
X1,X2,,Xn,XiN(μi,σi2)independentX=X1+X2+XnN(i=1nμi,i=1nσi2)
現實中許多隨機現象
X
本身雖不具有常態分布,但經過ch4 變數變換單變數轉換,對其取對數
Y=ln(X)
後,就會表現出常態分布的性質,稱為對數常態分布(Log-Normal distribution)


高斯/常態分布的其他性質

高斯轉換

XN(μ,σ2)經過線性運算
Y=aX+b
依然是高斯分布
N(aμ+b,a2σ2)
MY(t)=E[etY]=E[et(aX+b)]=etbE[e(at)X]=etbMX(at)=etbeμ(at)+12σ2(at)2=e(aμ+b)+12(a2σ2)t2
因此就可定義高斯分布的標準化
Z=Xμσ
將任意高斯經過標準化後化為
ZN(0,1)
,而
ZN(0,1)
稱為標準常態分布或是Z分布,其CDF稱為phi function
Φ(z)=fX(Zx)=x12πez22dz
phi function的性質為對y軸對稱(
μ=0
),因此
Φ(z)=1Φ(z),Φ(0)=12
,而phi function的補事件就是Q function
Q(z)=1Φ(z)
,積分範圍為標準常態分佈的尾端機率(tail probability),在通訊領域會大量用到。

欲計算任意高斯分布
XN(μ,σ2)
的區間機率
P(a<x<b)
,首先做標準化後化為標準常態分布,再來查Phi function的表。
P(a<x<b)=P(aμσ<xμσZN(0,1)<bμσ)=Φ(bμσ)Φ(aμσ)
若phi function算出來是負的,則使用對稱性質
Φ(z)=1Φ(z)
,將其轉換為正的phi function才可以查到表。


指數分布(Exponential distribution)
XE(λ)

波松程序(Poisson process) - 與時間有關提及,對波松程序而言,在

(0,t)秒時間內發生的次數
x
呈現波松分布
P(X=x)=eλt(λt)xx!Po(λt),λ:mean occurrence rate

首先令隨機變數
T
為兩件事情的間隔時間,由於連續型隨機變數單點機率無意義,所以先求其CDF,為
(0,t)
時間內至少一次事件發生的機率
P(Tt)
,使用補事件改為
1P(T>t)
,也就是說在
(0,t)
時間內沒有任何事件發生,也就是發生的次數
x=0
的波松分布,並對CDF微分可得PDF。
FT(t)=P(Tt)=1P(T>t)=1P(nothing happens in (0,t))=1P(X=0),XPo(λt)=1eλt(λt)00!=1eλtfT(t)=dFT(t)dt=λeλt
因此定義指數分布,其隨機變數
X
的PDF遵循
fX(x)=λeλx,x>0,λ>0
其中隨機變數
X
代表等待一次需要花的時間,而
λ
為事件的平均發生率(mean occurrence rate,單位是"次/時間"),由於單位時間內發生的次數
Y
E[Y]=λ
,因此兩次事件發生的時間間隔即為其倒數
E[X]=1E[X]=1λ


依序計算指數分布的動差生成函數、期望值、變異數,這三個重要的參數。
MX(t)=E[etX]=etxfX(x)=0etxλeλxdx=λ0e(tλ)xdx,tλ<0=λλt,t<λlnMX(t)=lnλln(λt)E[X]=d[lnMX(t)]dt|t=0=01λt|t=0=1λVar(X)=d2[lnMX(t)]dt2|t=0=01(1)(λt)2|t=0=1λ2
指數分布可視為gamma分布在
α=1,β=1λ
時的特例
Gamma(1,1λ)=x11ex1/λΓ(1)(1λ)1=λeλx=E(λ)
同理動差生成函數、期望值、變異數
MX(t)=1(1βt)α=1(11λt)1=λλtE[X]=αβ=11λ=1λVar(X)=αβ2=1(1λ)2=1λ2


gamma分布
XGamma(α,β)

gamma分布,其隨機變數

X的PDF遵循
fX(x)=xα1exβΓ(α)βα,x0,α>0,β>0

gamma函數的定義與性質

Γ(x)=0tx1etdtΓ(x+1)=Γ(x),Γ(1)=Γ(2)=1,Γ(12)=πΓ(n+1)=n!,nN

其中

α稱為形狀(shape)參數、
1β=λ
稱為尺度(scale)參數。意義在於等待
α
次事件發生的時間
,為指數函數的廣義推廣,因此就可探討模型之間的關係,
α
個獨立且同分布(iid)的指數分布相加後會是gamma分布
X1,X2,,Xα,XiE(λ)iidX=X1+X2+XnGamma(α,1λ)
依序計算gamma分布的動差生成函數、期望值、變異數,這三個重要的參數。
MX(t)=E[etX]=etxfX(x)=0etxxα1exβΓ(α)βαdx=1Γ(α)βα0xα1e(1βt)xdx=1Γ(α)βα0zα1(1βt)α1ezdz11βt=1Γ(α)βα1(1βt)αΓ(α)=1(1βt)α,t<1βlnMX(t)=αln(1βt)E[X]=d[lnMX(t)]dt|t=0=αβ1βt|t=0=αβVar(X)=d2[lnMX(t)]dt2|t=0=0(αβ)(β)(1βt)2|t=0=αβ2


卡方分布(chi-square distribution)
Xχ2(n)

卡方分布,其隨機變數

X的PDF遵循
fX(x)=xn21ex2Γ(n2)2n2,x0,nN
記為
Xχ2(n)
,其中
n
稱為自由度(degree of freedom),
nN
,卡方分布可視為gamma分布在
α=n2,β=2
時的特例。

探討模型之間的關係,
n
個標準常態分布的平方相加後,會是卡方分布
Z1,Z2,,Zn,ZiN(0,1)X=Z12+Z22+Zn2χ2(n)
使用ch4 單->單變數變換(連續型)法2 - 分割區間法證明自由度是1的卡方分布。
goal : find Z=X2,where XN(0,1)Z1:Z0X=Z2Z=xfX1(y)=fZ(z=x)|d(x)dy|=12πe(x)2212x =122πxex2,x0Z1:Z0X=Z2Z=xfX2(y)=fZ(z=y)d(x)dx=12πe(y)2212x =122πxex2,x0fX(x)=fX1(x)+fX2(x)=12πxex2=x121ex2Γ(12)212,x0,Xχ2(1)


波松程序的解題流程

綜合上述觀念,波松程序解題流程第一步是由題意求得平均時間的發生率

λ (次數/時間),再來求以下3個

  1. 次數(離散) - 在時間
    (t,t+T)
    內事件發生次數
    XPo(λT)
  2. 時間(連續) - 等待
    1
    次事件發生的時間(兩次事件發生的間隔)
    TE(λ)
  3. 時間(連續) - 等待
    n
    次事件發生的時間
    TGamma(n,1λ)

無記憶性(memoryless)

無記憶性代表過去發生的事件與現在無關,定義為

P(Xs+tXs)=P(Xt) 舉例來說客戶等待
s
秒的前提下,還需要多等
t
秒的機率,與之前是否等待
s
秒無關。
P(Xs+t)P(Xs)=x=s+t+1p(1p)x1x=s+1p(1p)x1=(1p)s+t(1p)s=(1p)t=P(Xt)P(Xs+t)P(Xs)=s+tλeλxdxsλeλxdx=eλ(s+t)eλs=eλt=P(Xt)
根據上述定義可證明離散型的幾何分布
XG(p)
無記憶性,因為前
r
次失敗都不影響下次可能會失敗或是成功的機率,因為每次試驗都是獨立的白努利試驗;而連續型的指數分布
XE(λ)
無記憶性,因為事件的平均發生率(mean occurrence rate)
λ
是常數,而不是時間的函數,故不隨時間改變。


失敗率(failure rate)

R(x)limΔ0P(xXx+ΔxXx)Δx 在時間點
x
,物品仍然存活的條件之下,在故障發生在下一刻
x+Δx
的條件機率,也就是單位時間的事件發生率
R(x)limΔ0P(xXx+ΔxXx)Δx=limΔ01ΔxP(xXx+Δx)P(Xx)=limΔ01Δxf(x)Δx1P(Xx)=f(x)1F(x)=f(x)F(x)
失敗率為PDF除以CDF的補事件
將指數函數帶入上式計算失敗率
R(x)=f(x)F(x)=λeλx1(1eλx)=λ=const.
代表物件今天故障與明天故障的機率是相同的,所以前面才會推得指數分布是無記憶性。


結合高斯分布

二維結合高斯分布

S=X,YBN(μ1,σ12,μ2,σ22,ρ)的PDF為
fX,Y(x,y)=12πσ1σ21ρ2exp(12(1ρ2){(xμ1σ1)22ρ(xμ1σ1)(yμ2σ2)+(yμ2σ2)2})
欲計算二維結合高斯分布的邊際機率密度函數(MPDF)
fX(x),fY(y)
,由於計算量太大,需要半背半推,依序與
X
無關的常數提出來、補上數字使其變成完全平方式,接下來與常態分布相關的常數放在外面,最後後面那項的指數積分剛好與分母消掉得到答案。
fY(y)=12πσ1σ21ρ2exp(12(1ρ2){(xμ1σ1)22ρ(xμ1σ1)(yμ2σ2)+(yμ2σ2)2})dx=exp(12(1ρ2)(yμ2σ2)2)2πσ1σ21ρ2exp(12(1ρ2){(xμ1σ1)22(xμ1σ1)ρ(yμ2σ2)+ρ2(yμ2σ2)2})dxexp(12(1ρ2)(yμ2σ2)2ρ2)=12πσ2exp(12(yμ2σ2)2)
因此可推得二維高斯分布的邊際機率密度函數就是一維高斯分布
YN(μ2,σ2)
,同理
fX(x)


欲計算二維結合高斯分布的條件機率密度函數(Conditional PDF)
f(xy)
、條件期望值
E[XY]
、條件變異數
Var(XY)
f(xy)=fX,Y(x,y)fY(y)=12πσ1σ21ρ2exp(12(1ρ2){(xμ1σ1)22ρ(xμ1σ1)(yμ2σ2)+(yμ2σ2)2})12πσ2exp(12(yμ2σ2)2)==12πσ11ρ2exp(12(1ρ2)σ12[x(μ1+ρσ1σ2(yμ2))]2)rv's XYN(μ1+ρσ1σ2(yμ2)=E[XY],σ22(1ρ2)=Var(XY))
二維結合高斯分布的結合動差形成函數(JMGF)(證明省略,不會考)為
MX,Y(t1,t2)=exp(μXt1+μYt2+12(σX2t2+2ρσXσYt1t2+σY2t2))
給定隨機向量
X=[X1,X2,,Xn]T
,屬於n維結合高斯分布,若隨機向量
Y
X
的線性組合
Y=Ax+b
,則
Y
也為結合高斯分布(證明省略),並且其平均值
μY
與變異數
CY
μY=E[Y]=E[Ax+b]=AE[X]+b=AμX+bCY=E[(YμY)(YμY)]=E[A(XμX)(XμX)AT]=AE[(XμX)(XμX)]AT=ACXAT
參照ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立,但有兩個例外(獨立與不相關等價),一是二位元傳輸、二是結合高斯分布,二維結合高斯分布的證明如下 - 給定二維結合高斯分布的隨機變數
X,Y
不相關,因此相關係數
ρ=0
fX,Y(x,y)=12πσ1σ21ρ2exp(12(1ρ2){(xμ1σ1)22ρ(xμ1σ1)(yμ2σ2)+(yμ2σ2)2})=12πσ1σ2exp(12{(xμ1σ1)2+(yμ2σ2)2})=(12πσ1exp(12(xμ1σ1)2))(12πσ2exp(12(yμ2σ2)2))=fX(x)fY(y)


ch7 機率不等式、取樣、極限定理

綱要

  • 馬可夫不等式 - 單尾端的機率有上限(平均值除以
    a
    )
  • 柴比雪夫不等式 - 雙尾端的機率有上限(變異數除以
    ϵ
    的平方)
  • 樣本平均數、樣本變異數、大數法則、中央極限定理

馬可夫不等式(Markov's inequality)

若隨機變數

X符合2個條件 - 值域大於0
SX={x0}
、平均值
μ
存在,則
P(Xa)μa
代表大於
a
單尾端的機率有上限,此上限為平均值除以
a

證明
μ0xfX(x)dx=0axfX(x)dx+axfX(x)dxaxfX(x)dx0axfX(x)dx0aafX(x)dxx(a,)=aP(Xa)


柴比雪夫不等式(Chebyshev's inequality)

若隨機變數

X符合2個條件 - 平均值
μ
存在、變異值
σ2
存在,則
P(Xμ∣≥ϵ)σ2ϵ2
代表向左右延伸
ϵ
以外雙尾端的機率有上限,此上限為變異數除以
ϵ
的平方。根據補空間概念,上式可推得
ϵ
以內中心區域的機率有下限為
P(Xμ∣≤ϵ)1σ2ϵ2
σ2(xμ)2fX(x)dx=μϵ(xμ)2fX(x)dx+μϵμ+ϵ(xμ)2fX(x)dx+μ+ϵ(xμ)2fX(x)dxμϵ(xμ)2fX(x)dx+μ+ϵ(xμ)2fX(x)dxμϵμ+ϵ(xμ)2fX(x)dx0ϵ2μϵfX(x)dx+ϵ2μ+ϵfX(x)dxX<μϵXμ<ϵ(Xμ)2>ϵ2=ϵ2P(Xμ∣≥ϵ)


樣本平均數、樣本變異數、大數法則

簡單隨機抽樣(simple random sampling)是指從母體任意抽取

n個單位作為樣本
X1,X2,,Xn
,每個簡單樣本獨立且同分布(idd),其分布等同母體分布。

樣本平均數
E[X]=E[1n(X1+X2++Xn)]=1n(nμ)=μ
樣本變異數
Var(X)=Var(1n(X1+X2++Xn))=1n(Var(X1)++Var(Xn))=1n2(nσ2)=σ2n
當測量越精確,
n
,樣本變異數
Var(X)=limnσ2n=0
,代表每次實驗都會是平均值
μ
樣本平均數趨近於母體的平均值,稱為大數法則(large number rule)


中央極限定理

任意母體

X(μ,σ2)取出來的簡單樣本
X1,X2,,Xn
,做樣本平均數
Xn=1n(X1+X2+Xn)X(μ,σ2)
再做標準化
Zn=XnμσnX(0,1)
n
趨近無限大會是標準常態分佈
ZnnN(0,1)
考題有2種,若
X1,X2,,Xn
取自母體
X(μ,σ2)
的一組簡單樣本

  1. 平均型
    limnXn=limn(1n(X1+X2+Xn))N(μ,σ2n)
  2. 總和型
    limnSn=limn(X1+X2+Xn)N(nμ,nσ2)
    由於呈現高斯分布,所以利用ch6 高斯/常態分布的其他性質求解高斯函數區間機率 - 先標準化再查表。