Section 2：Hardy-Weinberg Equilibrium 哈定-溫伯格平衡(?)

# Section 2：Hardy-Weinberg Equilibrium 哈定-溫伯格平衡(?) ## 第三節：族群中的基因頻率與基因型頻率 ### 哈溫平衡 * Hardy-Weinberg Equilibrium 是將 Mondel 遺傳放到一個廣大的人口群考量看人口中的對偶基因頻率Allele frequency ： 1. 如何估計。 2. 何時達到平衡（世代繁衍中保持不變） 3. 會受到哪些因素影響，而無法保持平衡 * 可透過基因定型調查個體的基因型 genotype * 基因型 Genotype: 一生物個體內的DNA所包含的所有基因座(e.g. A, B,...etc) genetic locus 的allele組合。 * Genotic locus A 會有 allele A,a * 基因型頻率可估對偶基因頻率Allele frequency)(aka 基因頻率 Gene frequency) * 基因頻率 Gene frequency: 特定 genetic locus 之 allele 在人群中的出現頻率。 For example, 對一個只有兩種allele A,a的genetical locus 進行 100人的定型： |||AA|Aa|aa|Total| ---|---|---|---|---|---| 人數||30|60|10|100| 基因數|A|30*2=60|60*1=60|10*0=0|120 ||a|30*0=0|60*1=60|10*2=20|80 * Gene frequency of A is f(A)=120/200=0.6 * .. f(a)=80/200=0.4 Mondel 存疑派的問題： 1. 這樣的頻率是否會隨世代繁衍而改變？ 2. 短指基因為顯性基因，若以上述所說，則幾代之後應該會變成三人短指對一人正常？ ### Hardy-Weinberg Equilibrium 假設只有兩種對偶基因A,a. f(A)=p, f(a)=q, p+q=1 Genotype與及frequency 如下： ||A|a ---|---|---| A|AA(p^2^)|Aa(pq) a|aA(pq)|aa(q^2^) Genotype的分布如下： AA|Aa|aa| --|--|--| p^2^|2pq|q^2^ 而新一代的Gene frequency： f(A)=p^2^+1/2(2pq)=p(p+q)=p(?) f(a)=q^2^+1/2(2pq)=q(p+q)=q(?) **Conclusion** 在下列情況下++基因頻率在世代繁衍中會保持不變++： 1. 交配隨機(無近親交配/族群不會太小，否則易出現極端值e.g.亞當夏娃近視) 2. 無明顯對抗因素(生育率存活率/移民/突變) ### Hardy-Weinberg Equilibrium 有什麼用途？ * 對於一個只有兩種allele (A,a)的 genetic locus而言，gene frequency 雖然以三種 genotype，但在總人數固定的條件下，其實只有兩個自由參數(p,q)，甚至只要有p,q任一一個參數(q=1-p)就能估出三種genotype的gene frequency * 可估隱性疾病之致病gene frequency。很多先天性代謝疾病在兩個allele都是突變型(e.g. aa)才會發病。For example, 假設苯酮尿症(phenylketonuria, PKU)從55715中發現5病患，其疾病基因的頻率q=(5/55715)^0.5^=9.5*10^-3^，算罕見，但事實上異型合子(外表正常，但帶有疾病基因者)H~c~=2pq/(2pq+p^2^)=2q/1+p大約50人就有1人帶有疾病基因。 ### 如何檢驗哈溫平衡基因定型後，如何判定基因型分佈是否偏離哈溫平衡的預測？ * 用卡方檢定。但若是樣本數小，違反使用卡方檢定(***x***^2^ test)之假設時，可採葉氏連續性校正，將分子扣除0.5後再平方；或是使用費雪精確檢定。 * ***x***^2^ = Σ^3^~i=1~ (O~i~ - E~i~)^2^/6129*2, ***df***=資料點參數-期望值參數 * O~i~ - 基因型的觀察人數 * E~i~ - 期望人數 * 期望人數＝i之期望值*總觀察人數 * df - 自由度 Example: 一項針對 6129 位受試者進行MN血型的分析，請問觀察值與預測值之間是否有顯著差異？ ||MM|MN|NN|總共| --|--|--|--|--| 觀察人數|1787|3037|1305|6129 1. df = 3 - 2 = 1 * 資料點參數 - 兩個自由變動的類別 M,N + 總數n * 期望值參數 - 一個參數（因為只要一個allele frequncy p就可知其他三種）+ 總數n 2. f(M) = p = (1787*2+3037)/6129*2 = 0.539 3. f(N) = q = 1-0.539=0.461 4. Exp[f(MM)]=p^2^=0.291 5. Exp[f(MN)]=2pq=0.496 6. Exp[f(NN)]=q^2^=0.212 7. 乘上總觀察人數可得基因型之期望分佈 ||M/M|M/N|N/N| --|--|--|--|--| 期望人數|1782.7|3045.6|1300.7 8. ***x***^2^=0.0489 9. 查表發現該統計值對應p=0.9，小於1(0代表無偏差，卡方值愈大代表愈偏差)，得結論為沒有偏離哈溫平衡。 ## 基因頻率的估算及其變異量考慮雙對偶基因 bi-allele所構成之genotype進行基因頻率估計時，若allele 數目增加時，如何進行allele frequency的點估計，以及若將變異量考慮進去的話變異量要如何計算。 * 兩種點估計法：伯恩斯坦法以及EM演算法 ### 伯恩斯坦法對於沒有唯一對應的基因型，在求某一點時把所有不含該點的外表型當作一種genotype，透過扣除法來估算。 Example: 人類ABO血型有三種allele(I^B^, I^B^, i)，但在實際測量時只能測得四種外表形(?)（A[I^A^I^A^, I^A^i], B[I^B^I^B^, I^B^i], AB[I^A^I^B^], O[ii]）。現在對2060位成人進行血型判定，結果如下： |A|B|AB|O --|--|--|--| 862|365|131|702 令三種allele frequency分別為：f(I^A^)=p, f(I^B^)=q, f(i)=r 由於O型的人對應的genotype只有ii，因此r大約=f(O)^0.5^，但是p, q沒有唯一對應的genotype，因此用伯恩斯坦法來估計： p大約=1-(q^2^+2qr+r^2^)^0.5^ = 1-(f(B+O))^0.5^ q大約=1-(p^2^+2pr+p^2^)^0.5^ = 1-(f(A+O))^0.5^ 也就是在求I^A^頻率時，把所有不含I^A^的外表型想成是一種non-I^A^之allele所組成的genotype，因此f(non-I^A^)=(f(non-I^A^)^2^)^0.5^ => f(I^A^) = 1-f(non-I^A^) 最後可得p=0.2803, q=0.1287, r=0.5838 ### EM 演算法透過期望式expectation與極大化maximization兩步驟疊代，幾回合之後估計值會小於某個預定門檻，也就是收斂converge(?)。 Example: 續上題 **Step1 - E step** 令C(A), C(B), C(O),C(AB)分別代表各血型的人數。在哈溫平衡條件下，各種genotype的Exp為： (I^A^I^A^): x~1~ = C(A)*[p^2^/(p^2^+2pr)] (I^A^i): x~2~ = C(A)*[2pr/(p^2^+2pr)] (I^B^I^B^): x~3~ = C(B)*[q^2^/(q^2^+2qr)] (I^B^i): x~4~ = C(B)*[2qr/(q^2^+2qr)] (ii): x~5~ = C(O) (I^A^I^B^): x~6~ = C(AB) 將從伯恩斯坦法算出的pqr代入上面的exp可得： x~1~=166.8865, x~2~=695.1135, x~3~=36.2316 x~4~=328.7684, x~5~=702, x~6~=131 **Step2 - M step** 假設上面估出來的genotype數目為真正的數目，則allele frequency最大概似法估計值 maximum likelihood estimates可寫為： p^\^^ = (2x~1~+x~2~+x~6~)/2(Σx~i~) q^\^^ = (2x~3~+x~4~+x~6~)/2(Σx~i~) r^\^^ = (2x~5~+x~2~+x~4~)/2(Σx~i~) 做完step1~2算是完成一回的recusive，接著可以用新的pqr再回去step1算新的x~1~\~x~6~，直至pqr估計值之和為1。 ### 基因頻率的變異量略 ## 影響哈溫平衡的因素 ### 適合度（天擇）有些疾病本身會導致適合度fitness降低，導致generation間的gene frequency不再維持不變。 Example: 以單一隱性基因所引起的白化症albinism為例，假設人口中盛行率為1/20000，並且fitness=0（完全不會產生下一代，不管是生物性或人為的理由），要過多久其盛行率才會降低成一半，也就是1/40000？下圖為三種genotype的不同fitness： ||AA|Aa|aa|Total --|--|--|--|--| 起始世代|p^2^|2pq|q^2^|1 Fitness|1|1|0 配子貢獻|p^2^|2pq|0|p^2^+2pq 假設第零代時，allele frequency標記為q~0~，我們可推算出每一代人口中allele frequency of a: q~0~ = q q~1~ = pq/(p2+2pq)=q/(p+2q)=q~0~/(1+q~0~)(?) q~2~ = q1/(1+q~1~)=(q~0~/1+q~0~)/[1+(q~0~/1+q~0~)] ...... q~t~ = q~0~/(1+tq~0~) 如果要將gene frequency從q~0~降到q~t~，所需要的代數為： t = (q~0~-q~t~)/q~0~q~t~ = (1/q~t~)-(1/q~0~) ### 近親繁殖 Inbreeding（非隨機交配）若有 inbreeding，由於雙親間具有血緣關係，違反隨機交配的條件導致哈溫不平衡。 Example: 植物自交self-fertilization在起始世代時： p(AA)=1/4, p(Aa)=1/2, p(aa)=1/4，經過一代self-fertilication後： p(AA)=(1/4)*1+(1/2)*1/4=3/8 p(Aa)=(1/2)*1/2=2/8 p(aa)=(1/4)*1+(1/2)*1/4=3/8 中間減少，兩旁增加，已偏離哈溫平衡。若再self-fertilization一次 p(AA)=(3/8)*1+(2/8)*1/4=7/16 p(Aa)=(2/8)*1/2=2/16 p(aa)=(3/8)*1+(2/8)*1/4=7/16 然侯檢查每一代的allele frequency G1: p(A)=1/4+1/2*1/2=1/2 G2: p(A)=3/8+2/8*1/2=1/2 G3: p(A)=7/16+2/16*1/2=1/2 會發現allele frequency沒有變動。由此可推論，inbreeding對genotype的影響包含： 1. increase 同型合子homozygous(AA,aa)的frequency 2. decrease 異型合子heterozygous(Aa)的frequency 3. 對所有基因都有影響，而不像選形配種assortative mating，只會影響該「形」之基因。(?) 近親繁殖係數inbreeding coefficient用來量化inbreeding對gene frequency的效應。 Example: 人口中heterzygous的頻率為H，在哈溫平衡下的heterzygous的frequency為H~0~，coefficient F為：(?) F = H~0~-H/H~0~，移項後可將H用F的函數來表示： H = H~0~-H~0~F = H~0~(1-F) = 2pq(1-F) 也就是說，相對於隨機交配而言，heterzygous頻率所減少的幅度就是F。透過F和基偶基因頻率，便可算出三種genotype的頻率： p(AA) = p^2^(1-F)+pF = p^2^+pqF p(Aa) = 2pq(1-F) = 2pq-2pqF p(aa) = q^2^(1-F)+qF = q^2^+pqF