SNPs & Variants
===
###### tags: `基因體/三級分析`
###### tags: `基因體`, `SNP`, `dbSNP`, `Variant`, `db`, `序列變異命名法`, `Sequence Variant Nomenclature`, `HGVS`
<br>
[TOC]
<br>
## SNPs 定義
- **發音**
- "snips"
- **全名**
- Single Nucleotide Polymorphism, 單核苷酸多型性
- **意義**
- DNA 序列中的一對鹼基對,發生變異
- **成為 SNP 的條件門檻** (見後面說明,已經被捨棄?)
- **[定義 (次世代定序知識櫥窗-圖爾思生物科技 (BIOTOOLS CO)](http://toolsbiotech.blog.fc2.com/blog-entry-39.html)**
> If more than 1% of a population does not carry the same nucleotide at a specific position in the DNA sequence, then this variation can be classified as a SNP.
>
> 如果超過1%的群體在DNA序列中的某個特定位置不攜帶相同的核苷酸,則該變異可以歸類為SNP。
>
> **超過1%的群體**:
> 100個個體,某個位置的變異有超過1個以上的個體集合
>
> **換句話說**:
> 在 100 個個體中(分母),在 DNA 序列的某個位置上,「只有一個」個體發生突變(分子),不算是 SNP。
- **現象**
- SNP 是遺傳變異中最常見的一種
- [佔所有已知多態性(已知變異?)的 90% 以上](https://vip.biotrainee.com/d/62-dbsnp)
- **[發生頻率](https://vip.biotrainee.com/d/62-dbsnp)**
- 每 500 ~ 1000 鹼基對,就會出現一個
- 通常用 千分之一 的機率來估計數量
- 估計總數可達 300 萬個
- 3e6 / 3e9 = 3e-3 = 0.001 = 1/1000
- 目前科學界已經發現 400 萬個 SNPs
- 補充資料
- [從SNP到個人化醫療—轉譯醫學的展望.pdf](http://www.thco.com.tw/v_comm/inc/download_file.asp?re_id=2627&fid=18239)

<br>
- [single_nucleotide_polymorphism_snp](http://bioinfo.cs.ccu.edu.tw/wiki/doku.php?id=single_nucleotide_polymorphism_snp)

> 但依照現代生物資訊對演化較好的見解,此定義已不再需要。例如dbSNP【註1 】之SNP亦包含小於等於1%的等位基因變異頻率在內。 【註1】dbSNP:Single Nucleotide Polymorphisms資料庫,是來自於National Center for Biotechnology Information (NCBI)。
>
==備註:此定義已經被捨棄==
- **[發生位置](http://toolsbiotech.blog.fc2.com/blog-entry-39.html)**

- **同義突變(synonymous SNP)** ([sɪˋnɑnəməs][snips]) (synonymous)
- 發生 SNP,但「不會」引起編碼胺基酸的改變
- **非同意突變(Non-Synonymous SNP)** (missense|nonesense)
- **錯義突變(missense)**
- 某一胺基酸的密碼子變成另一種密碼子,造成胺基酸的種類和序列發生改變,喪失原有的蛋白質功能。
- i.e. 使密碼所對應的胺基酸改變
- **無義突變(nonsense)**
- 某一胺基酸的密碼子變成 UAA, UGA, UAG(中止密碼子),形成不完整的多肽鏈。
- i.e. 使原本可以製造蛋白質的密碼,變成停止密碼
<br>
## SNP 變異種類
- [組成 DNA 的四種鹼基](http://highscope.ch.ntu.edu.tw/wordpress/?p=2887)

- CT 同類
- 胞嘧啶(cytosine,C)[ˋsaɪto͵sin]
- 胸腺嘧啶(thymine,T)[ˋθaɪmin]
- AG 同類
- 腺嘌呤(adenine,A)[ˋædənɪn]
- 鳥嘌呤(guanine,G)[ˋgwɑnin]
- [基因產生的變異種類](http://terms.naer.edu.tw/detail/1318059/)
1. 鹼基的取代 (base substitution)
- 同類鹼基置換 (transitions)(大陸:轉換)
- 嘌呤被嘌呤取代,嘧啶被嘧啶取代
- 異類鹼基置換 (transversions)(大陸:顛換)
- 嘌呤被嘧啶取代,或嘧啶被嘌呤取代

([圖片來源](https://www.mun.ca/biology/scarr/Transitions_vs_Transversions.html))
2. 刪除突變(deletion mutation)
- DNA 上缺少一個或一段鹼基
3. 插入突變(insertion mutation)
- DNA 上增加一個或一段的鹼基。
- 一個點的突變
- 鹼基的轉換或置換 -> SNP
- 插入一個鹼基 -> indel
- 遺失一個鹼基 -> indel
<br>
## SNP 變異統計
- ### 在基因變異中,SNP 佔了 90%

(資料來源:2020/10/08 - [NVIDIA][GTC] 深度學習與基因體研究 - 范盛娟博士)
- ### 在 SNP 變異中,C 被取代成 T 佔了三分之二(66.6%)
目前已知的SNP中,所佔比例最多、最常發生的單一. 鹼基對變異,就是以T(thymin)取代C(cytosine),約佔已. 知SNP總數的三分之二。

(資料來源:[http://www.thco.com.tw/v_comm/inc/download_file.asp?re_id=2627&fid=18239](http://www.thco.com.tw/v_comm/inc/download_file.asp?re_id=2627&fid=18239))
<br>
## SNP 致病案例
- ### 20201008 - [NVIDIA][GTC] GPU在次世代基因定序上的運用
> 胡務亮醫師 / 台大醫院 / 小兒科&基因醫學部
- 即使只有一個 SNP (nucleotide chnage),也可能產生嚴重疾病

- 如 Progeria (早老症),17歲年華看起來像老人
- 如 Hemophilia (血友病),無法凝血,英國 Victoria 女皇
- ### [鐮刀型貧血](http://www.thco.com.tw/v_comm/inc/download_file.asp?re_id=2627&fid=18239)

(圖片來源:[從SNP到個人化醫療 — 轉譯醫學的展望](http://www.thco.com.tw/v_comm/inc/download_file.asp?re_id=2627&fid=18239))
<br>
## Haplotype 單倍型
- ### [簡介1](https://ir.nctu.edu.tw/bitstream/11536/45823/1/151501.pdf) (來源:使用智慧型三目標基因演算法選取標籤單核苷酸多型性)
> 資料來源由國際單型圖譜計畫(International HapMap Project) 所取得資料來源,因 HapMap 資料格式都是基因型,為了方便計算,將找到的資料轉成二進制格式,
>
> 基因型格式定義:
> - 野生型純合子(homozygous wild type)為 0
> - 備註:[野生型是指没有发生突变的,可以是AA、aa(纯合)](https://zhidao.baidu.com/question/310082172556764884.html)
> - 突變型純合子(homozygous mutate)為 1
> - 異型合子(heterozygous)為 2
> <br>
>
> 如圖 3,G1 為異型合子,G2 為同型合子。表 1 為國際 Haplotype 圖譜計畫資料。
> 
>
> 基因型資料:
> - 野生型純合子為 0 (應該是指原型)
> - 突變型純合子為 1 (應該是指攜帶一個突變)
> - 異型合子為 2 (應該是指攜帶兩個突變)
>
- 其他補充資料
- [從SNP到個人化醫療—轉譯醫學的展望.pdf](http://www.thco.com.tw/v_comm/inc/download_file.asp?re_id=2627&fid=18239)

異型合子同時具有兩種SNP
- ### 簡介2 (2020/10/08 - [NVIDIA][GTC] 深度學習與基因體研究 - 范盛娟博士)

- Haplotype 就是:**緊鄰的一組 SNP** (或稱為一個 block 的 SNP)
- 緊鄰的 SNP,容易一整組遺傳到下一代
- 定義:
- A set of closely linked genetic markers present on one chromosome which tend to be inherited together
- 存在於一個染色體上的一組緊密連鎖的遺傳標記,傾向於一起遺傳
- ### 簡介3 ([華大百科 - 單倍型](https://www.itsfun.com.tw/%E5%96%AE%E5%80%8D%E5%9E%8B/wiki-2024676-5540556))
> 單倍型,是**單倍體基因型**的簡稱,
>
> 在遺傳學上是指在同一染色體上進行共同遺傳的多個基因座上等位基因的組合;
>
> 通俗的說法就是**若干個決定同一性狀的緊密連鎖的基因**構成的基因型。按照某一指定基因座上基因重組發生的數量,單倍型甚至可以指至少兩個基因座或整個染色體。
<br>
<hr>
<br>
## SNP 生物標記
- [Analysis of SNP Marker Data for Predictions](https://faculty.cnr.ncsu.edu/fikretisik/wp-content/uploads/sites/3/2015/06/SNP-marker-Data-Analysis-CTGN-Presentation.pdf)
- we have minor allele frequency in the locus for a given tree instead of genotype. If we assume A is the minor allele, then AA=0, AC/CA=1, CC=2. The columns are again locus ID
- The 0 values are missing values. For some reason some trees were not genotyped (lack of enough DNA etc.)
- The following SAS script converts 3406 SNP marker loci genotypic classes (0, 1, 2) to format required by GS3 (11, 12, 22).
- Let assume we have SNPs in the data coded 0, 1, 2. The codes correspond with three genotypes of a single SNP: **0=homozygous (AA), 1=heterozygous (AC), 2=homozygous (CC)**.
- What is Allelic Substitution Effect?
:::warning
:bulb: **重點整理**
- 其中
- AA, CC 都是 homozygous
- AC, CA 都是 heterozygous
- 術語:
- homozygous: 純合子, 同型合子, 同質接合子
- heterozygous: 雜合子, 異型合子, 異質接合子
- 使用頻率:
純/雜合子 (最常用) > 同/異型合子 > 同/異質接合子 (較少看到)
- 示意圖

:::
<br>
<hr>
<br>
## 關聯性研究 | 關聯性分析
- ### [研究DTNBP1基因上的單一核苷酸多態性與台灣精神分裂症的關聯性](http://cyc2012.dyu.edu.tw/pdf/E-2-研究DTNBP1基因上的單一核苷酸多態性與台灣精神分裂症的關聯性(蔡明勳).pdf)
> #為何需要自己的生物資料庫(biobank)
- DTNBP1 基因的其中兩個 SNPs(SNP-[rs146937431](https://www.ncbi.nlm.nih.gov/snp/rs146937431) 和 SNP-[rs2619539](https://www.ncbi.nlm.nih.gov/snp/rs2619539))的對偶基因頻率分析顯示和精神分裂症無顯著關聯,而 SNP-rs3213207 和台灣的精神分裂病人具有顯著關聯(p 值小於 0.001),
- 表 1. PCR 擴增 DTNBP1 基因 3 個 SNPs 分別的引子對序列與預期 PCR 產物大小

- **表 3. SNP-rs146937431 型式與精神分裂症之關聯性分析結果**

> 將我們所蒐集的 DNA 樣本序列結果與 NCBI 資料庫裡的 SNP-rs146937431 的資料做比較,NCBI 資料庫中正常人是 AA 同型合子,病人是 TT 同型合子;而我們分析此 SNP 在台灣精神分裂症病人與正常人皆傾向於 AA 同型合子,與資料庫的正常人是符合,但台灣的精神分裂症病人並無NCBI 資料庫中 TT 同型合子傾向。
- 使用卡方分析將精神分裂症病人與正常人進行關聯性分析,以 Chi-Square 統計發現 p 值未小於 0.05
- 說明 SNP-rs146937431 基因多態性與台灣人罹患精神分裂症,與藥物控制良好與否皆無關聯
- 說明 SNP-rs2619539 基因多態性與台灣人罹患精神分裂症,與藥物控制良好與否皆無關聯
- ### [使用智慧型三目標基因演算法選取標籤單核苷酸多型性](https://ir.nctu.edu.tw/bitstream/11536/45823/1/151501.pdf)
<br>
<hr>
<br>
## 其他類型變異、染色體異常、遺傳變異(Genetic Variation)
- ### NVIDIA GTC 2020 - 20201006_A21214_GPU加速變異點位辨認流程

- Variants (基因體變異)
- SNPs (Single Nucleotide Polymorphism, 單核苷酸多型性)
- Indels (Insertion & Deletion, 插入 & 刪除/缺失)
- SV (Structural Variant, 結構變異)
- CNV (Copy-Number Variation, 拷貝數變異)
- Inversion (倒置)
- Translocation (位移、異位)
- Duplication (重複)
- ### 其他參考資料
- [染色體異常](http://163.28.10.78/content/junior/bio/tc_wc/textbook/ch08/supply8-4-0.htm)
- ### SNP/SNV vs INDELs vs CNVs
- [Germline INDELs and CNVs in a cohort of colorectal cancer patients: their characteristics, associations with relapse‐free survival time, and potential time‐varying effects on the risk of relapse](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5463068/)

> those variants shorter than 1 kb are called INDELs, whereas larger variants are called CNVs
- b: base 鹼基
- =1b: SNP/SNV
- 1b<x<1000b: INDELs
- else: CNVs
<br>
- [Variant Types (New)](https://hackmd.io/kN7MzZZjTsKlOXLYy3gV5Q#Variant-Types-New)
變異類型的新定義
<br>
## Sequence Variant Nomenclature
> - 序列變異命名法
> - Nomenclature [ˋnomən͵kletʃɚ]
- [Sequence Variant Nomenclature](https://varnomen.hgvs.org/)
- [[hgvs] Recommended Reference Sequences types are](https://varnomen.hgvs.org/bg-material/refseq/)
> (建議的參考序列類型):
- 帶有前綴 NC_、NT_、NW_、NG_、NM_、NR_ 或 NP_ 的 RefSeq 序列
- `N?_`: N 表示 Nucleotide 核苷酸,意指 gene 基因, genomic 基因體學
i.e. N 表示 核苷酸, 基因, 基因體學 的代名詞
- #### NC: Nucleotide / Chromosome
- 基因染色體
- 例如 NC_000023.11 (X染色體)
- #### NT: Nucleotide / con**t**igs/scaffolds
> - [Scaffolding (bioinformatics)](https://en.wikipedia.org/wiki/Scaffolding_(bioinformatics))
> ]
> - [What is “contigs” in Picard's ReorderSAM?](https://biology.stackexchange.com/questions/56158/what-is-contigs-in-picards-reordersam)

- genomic contigs or scaffolds
基因體接合序列/框架
- 例如 NT_010718.17, NW_003315950.2
- #### NG: Nucleotide / region
- gene/genomic region
基因/基因組區域
- 例如 NG_012232.1
- #### NM: Nucleotide / mRNA
- coding transcript
非編碼轉錄本
- 例如 NM_004006.2
- [What is the difference between XM_ and NM_ accessions?](https://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_is_the_difference_between)
- XM_ 來自自動標注
- NM_ 來自真實提交
- #### NR: Nucleotide / non-coding transcript
- non-coding transcript
非編碼轉錄本
- non-protein-coding transcript
- 例如 NR_004430.2
- #### protein: Nucleotide / protein
- 蛋白質
- 例如 NP_003997.1
- [HGVS simple](https://varnomen.hgvs.org/bg-material/simple/)
<br>
## 參考資料
- [基础数据库之dbSNP](https://vip.biotrainee.com/d/62-dbsnp)
- [[NCBI][RefSeq] RefSeq Frequently Asked Questions (FAQ)](https://www.ncbi.nlm.nih.gov/books/NBK50679/#RefSeqFAQ.what_is_the_difference_between)