# Section 2:Hardy-Weinberg Equilibrium 哈定-溫伯格平衡(?)
## 第三節:族群中的基因頻率與基因型頻率
### 哈溫平衡
* Hardy-Weinberg Equilibrium 是將 Mondel 遺傳放到一個廣大的人口群考量看人口中的對偶基因頻率Allele frequency :
1. 如何估計。
2. 何時達到平衡(世代繁衍中保持不變)
3. 會受到哪些因素影響,而無法保持平衡
* 可透過基因定型調查個體的基因型 genotype
* 基因型 Genotype: 一生物個體內的DNA所包含的所有基因座(e.g. A, B,...etc) genetic locus 的allele組合。
* Genotic locus A 會有 allele A,a
* 基因型頻率可估對偶基因頻率Allele frequency)(aka 基因頻率 Gene frequency)
* 基因頻率 Gene frequency: 特定 genetic locus 之 allele 在人群中的出現頻率。
For example, 對一個只有兩種allele A,a的genetical locus 進行 100人的定型:
|||AA|Aa|aa|Total|
---|---|---|---|---|---|
人數||30|60|10|100|
基因數|A|30*2=60|60*1=60|10*0=0|120
||a|30*0=0|60*1=60|10*2=20|80
* Gene frequency of A is f(A)=120/200=0.6
* .. f(a)=80/200=0.4
Mondel 存疑派的問題:
1. 這樣的頻率是否會隨世代繁衍而改變?
2. 短指基因為顯性基因,若以上述所說,則幾代之後應該會變成三人短指對一人正常?
### Hardy-Weinberg Equilibrium
假設只有兩種對偶基因A,a. f(A)=p, f(a)=q, p+q=1
Genotype與及frequency 如下:
||A|a
---|---|---|
A|AA(p^2^)|Aa(pq)
a|aA(pq)|aa(q^2^)
Genotype的分布如下:
AA|Aa|aa|
--|--|--|
p^2^|2pq|q^2^
而新一代的Gene frequency:
f(A)=p^2^+1/2(2pq)=p(p+q)=p(?)
f(a)=q^2^+1/2(2pq)=q(p+q)=q(?)
**Conclusion**
在下列情況下++基因頻率在世代繁衍中會保持不變++:
1. 交配隨機(無近親交配/族群不會太小,否則易出現極端值e.g.亞當夏娃近視)
2. 無明顯對抗因素(生育率存活率/移民/突變)
### Hardy-Weinberg Equilibrium 有什麼用途?
* 對於一個只有兩種allele (A,a)的 genetic locus而言,gene frequency 雖然以三種 genotype,但在總人數固定的條件下,其實只有兩個自由參數(p,q),甚至只要有p,q任一一個參數(q=1-p)就能估出三種genotype的gene frequency
* 可估隱性疾病之致病gene frequency。很多先天性代謝疾病在兩個allele都是突變型(e.g. aa)才會發病。For example, 假設苯酮尿症(phenylketonuria, PKU)從55715中發現5病患,其疾病基因的頻率q=(5/55715)^0.5^=9.5*10^-3^,算罕見,但事實上異型合子(外表正常,但帶有疾病基因者)H~c~=2pq/(2pq+p^2^)=2q/1+p大約50人就有1人帶有疾病基因。
### 如何檢驗哈溫平衡
基因定型後,如何判定基因型分佈是否偏離哈溫平衡的預測?
* 用卡方檢定。但若是樣本數小,違反使用卡方檢定(***x***^2^ test)之假設時,可採葉氏連續性校正,將分子扣除0.5後再平方;或是使用費雪精確檢定。
* ***x***^2^ = Σ^3^~i=1~ (O~i~ - E~i~)^2^/6129*2, ***df***=資料點參數-期望值參數
* O~i~ - 基因型的觀察人數
* E~i~ - 期望人數
* 期望人數=i之期望值*總觀察人數
* df - 自由度
Example: 一項針對 6129 位受試者進行MN血型的分析,請問觀察值與預測值之間是否有顯著差異?
||MM|MN|NN|總共|
--|--|--|--|--|
觀察人數|1787|3037|1305|6129
1. df = 3 - 2 = 1
* 資料點參數 - 兩個自由變動的類別 M,N + 總數n
* 期望值參數 - 一個參數(因為只要一個allele frequncy p就可知其他三種)+ 總數n
2. f(M) = p = (1787*2+3037)/6129*2 = 0.539
3. f(N) = q = 1-0.539=0.461
4. Exp[f(MM)]=p^2^=0.291
5. Exp[f(MN)]=2pq=0.496
6. Exp[f(NN)]=q^2^=0.212
7. 乘上總觀察人數可得基因型之期望分佈
||M/M|M/N|N/N|
--|--|--|--|--|
期望人數|1782.7|3045.6|1300.7
8. ***x***^2^=0.0489
9. 查表發現該統計值對應p=0.9,小於1(0代表無偏差,卡方值愈大代表愈偏差),得結論為沒有偏離哈溫平衡。
## 基因頻率的估算及其變異量
考慮雙對偶基因 bi-allele所構成之genotype進行基因頻率估計時,若allele 數目增加時,如何進行allele frequency的點估計,以及若將變異量考慮進去的話變異量要如何計算。
* 兩種點估計法:伯恩斯坦法以及EM演算法
### 伯恩斯坦法
對於沒有唯一對應的基因型,在求某一點時把所有不含該點的外表型當作一種genotype,透過扣除法來估算。
Example: 人類ABO血型有三種allele(I^B^, I^B^, i),但在實際測量時只能測得四種外表形(?)(A[I^A^I^A^, I^A^i], B[I^B^I^B^, I^B^i], AB[I^A^I^B^], O[ii])。現在對2060位成人進行血型判定,結果如下:
|A|B|AB|O
--|--|--|--|
862|365|131|702
令三種allele frequency分別為:f(I^A^)=p, f(I^B^)=q, f(i)=r
由於O型的人對應的genotype只有ii,因此r大約=f(O)^0.5^,但是p, q沒有唯一對應的genotype,因此用伯恩斯坦法來估計:
p大約=1-(q^2^+2qr+r^2^)^0.5^ = 1-(f(B+O))^0.5^
q大約=1-(p^2^+2pr+p^2^)^0.5^ = 1-(f(A+O))^0.5^
也就是在求I^A^頻率時,把所有不含I^A^的外表型想成是一種non-I^A^之allele所組成的genotype,因此f(non-I^A^)=(f(non-I^A^)^2^)^0.5^ => f(I^A^) = 1-f(non-I^A^)
最後可得p=0.2803, q=0.1287, r=0.5838
### EM 演算法
透過期望式expectation與極大化maximization兩步驟疊代,幾回合之後估計值會小於某個預定門檻,也就是收斂converge(?)。
Example: 續上題
**Step1 - E step**
令C(A), C(B), C(O),C(AB)分別代表各血型的人數。在哈溫平衡條件下,各種genotype的Exp為:
(I^A^I^A^): x~1~ = C(A)*[p^2^/(p^2^+2pr)]
(I^A^i): x~2~ = C(A)*[2pr/(p^2^+2pr)]
(I^B^I^B^): x~3~ = C(B)*[q^2^/(q^2^+2qr)]
(I^B^i): x~4~ = C(B)*[2qr/(q^2^+2qr)]
(ii): x~5~ = C(O)
(I^A^I^B^): x~6~ = C(AB)
將從伯恩斯坦法算出的pqr代入上面的exp可得:
x~1~=166.8865, x~2~=695.1135, x~3~=36.2316
x~4~=328.7684, x~5~=702, x~6~=131
**Step2 - M step**
假設上面估出來的genotype數目為真正的數目,則allele frequency最大概似法估計值 maximum likelihood estimates可寫為:
p^\^^ = (2x~1~+x~2~+x~6~)/2(Σx~i~)
q^\^^ = (2x~3~+x~4~+x~6~)/2(Σx~i~)
r^\^^ = (2x~5~+x~2~+x~4~)/2(Σx~i~)
做完step1~2算是完成一回的recusive,接著可以用新的pqr再回去step1算新的x~1~\~x~6~,直至pqr估計值之和為1。
### 基因頻率的變異量
略
## 影響哈溫平衡的因素
### 適合度(天擇)
有些疾病本身會導致適合度fitness降低,導致generation間的gene frequency不再維持不變。
Example: 以單一隱性基因所引起的白化症albinism為例,假設人口中盛行率為1/20000,並且fitness=0(完全不會產生下一代,不管是生物性或人為的理由),要過多久其盛行率才會降低成一半,也就是1/40000?
下圖為三種genotype的不同fitness:
||AA|Aa|aa|Total
--|--|--|--|--|
起始世代|p^2^|2pq|q^2^|1
Fitness|1|1|0
配子貢獻|p^2^|2pq|0|p^2^+2pq
假設第零代時,allele frequency標記為q~0~,我們可推算出每一代人口中allele frequency of a:
q~0~ = q
q~1~ = pq/(p2+2pq)=q/(p+2q)=q~0~/(1+q~0~)(?)
q~2~ = q1/(1+q~1~)=(q~0~/1+q~0~)/[1+(q~0~/1+q~0~)]
......
q~t~ = q~0~/(1+tq~0~)
如果要將gene frequency從q~0~降到q~t~,所需要的代數為:
t = (q~0~-q~t~)/q~0~q~t~ = (1/q~t~)-(1/q~0~)
### 近親繁殖 Inbreeding(非隨機交配)
若有 inbreeding,由於雙親間具有血緣關係,違反隨機交配的條件導致哈溫不平衡。
Example: 植物自交self-fertilization在起始世代時:
p(AA)=1/4, p(Aa)=1/2, p(aa)=1/4,經過一代self-fertilication後:
p(AA)=(1/4)*1+(1/2)*1/4=3/8
p(Aa)=(1/2)*1/2=2/8
p(aa)=(1/4)*1+(1/2)*1/4=3/8
中間減少,兩旁增加,已偏離哈溫平衡。若再self-fertilization一次
p(AA)=(3/8)*1+(2/8)*1/4=7/16
p(Aa)=(2/8)*1/2=2/16
p(aa)=(3/8)*1+(2/8)*1/4=7/16
然侯檢查每一代的allele frequency
G1: p(A)=1/4+1/2*1/2=1/2
G2: p(A)=3/8+2/8*1/2=1/2
G3: p(A)=7/16+2/16*1/2=1/2
會發現allele frequency沒有變動。由此可推論,inbreeding對genotype的影響包含:
1. increase 同型合子homozygous(AA,aa)的frequency
2. decrease 異型合子heterozygous(Aa)的frequency
3. 對所有基因都有影響,而不像選形配種assortative mating,只會影響該「形」之基因。(?)
近親繁殖係數inbreeding coefficient用來量化inbreeding對gene frequency的效應。
Example: 人口中heterzygous的頻率為H,在哈溫平衡下的heterzygous的frequency為H~0~,coefficient F為:(?)
F = H~0~-H/H~0~,移項後可將H用F的函數來表示:
H = H~0~-H~0~F = H~0~(1-F) = 2pq(1-F)
也就是說,相對於隨機交配而言,heterzygous頻率所減少的幅度就是F。透過F和基偶基因頻率,便可算出三種genotype的頻率:
p(AA) = p^2^(1-F)+pF = p^2^+pqF
p(Aa) = 2pq(1-F) = 2pq-2pqF
p(aa) = q^2^(1-F)+qF = q^2^+pqF