ANNOVAR for mm9
===
###### tags: `基因體/三級分析`
###### tags: `生物資訊`, `基因體`, `三級分析`, `Annovar`, `mm9`, `Mus musculus`
<br>
[TOC]
<br>
## 標記對象

- 學名
- Mus musculus (小家鼠)
- Wiki
- https://zh.wikipedia.org/wiki/%E5%B0%8F%E5%AE%B6%E9%BC%A0
<br>
## Step0 - 要標注什麼?(宏觀概念)
- 輸入 / 輸出
- **input**
```
1 19215217 19215217 T C
1 33803084 33803084 A G
1 33803198 33803198 A G
1 37499237 37499237 T C
1 37499238 37499238 T C
1 37500003 37500003 T C
1 43826936 43826936 T C
1 58853960 58853960 A G
1 58854487 58854487 A G
1 60436865 60436865 T C
```
- 已知:
- 染色體編號
- 起始/結束位置
- SNP & Indel 變異資訊
<br>
- **output**
```
intronic Tfap2b 1 19215217 19215217 T C
UTR3 Bag2 1 33803084 33803084 A G
UTR3 Bag2 1 33803198 33803198 A G
UTR3 Mgat4a 1 37499237 37499237 T C
UTR3 Mgat4a 1 37499238 37499238 T C
UTR3 Mgat4a 1 37500003 37500003 T C
intronic Uxs1 1 43826936 43826936 T C
intronic Casp8 1 58853960 58853960 A G
intronic Casp8 1 58854487 58854487 A G
intronic Cyp20a1 1 60436865 60436865 T C
```
- 需要哪些資料,才能對個體進行標記?
- 「已標記過」的群體資料
```
172 NM_001145824 chr2 - 104266638 104334646 104270011 104312002 16 104266638,104270883,104271308,104273324,104273711,104274494,104274746,104275092,104277153,104278007,104279386,104280362,104281401,104286668,104310905,104334104, 104270488,104271011,104271544,104273465,104274002,104274656,104274871,104275214,104277277,104278164,104279571,104280449,104281521,104286792,104312004,104334646, 0 Hipk3 cmpl cmpl 0,1,2,2,2,2,0,1,0,2,0,0,0,2,0,-1,
```
[](https://i.imgur.com/7PaflTN.png)
- [基因名稱(Name of gene) 的代碼](https://asia.ensembl.org/info/genome/genebuild/annotation_sources.html)
- NM_:known mRNA (已知 mRNA)
- NP_:known protein (已知蛋白質)
- XM_:predicted mRNA (預測的 mRNA, 未知 mRNA)
- XP_:predicted protein (預測的蛋白質, 未知蛋白質)
- [其他代碼](https://www.ncbi.nlm.nih.gov/books/NBK50679/)
- NC_ represent the finished genome and plasmids
(表示完成的基因組和質粒)
- NG_:non-transcribed pseudogenes or genomic regions
(非轉錄的假基因或基因體區域)
- XR_:non-coding RNA (非編碼RNA)
- 完整代碼清單
- [[Wiki] RefSeq](https://en.wikipedia.org/wiki/RefSeq)
- [[NCBI手冊] 第18章 - 參考序列(RefSeq)資料庫庫](https://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.refseq_accession_numbers_and_mole/?report=objectonly)
<br>
- mRNA 參考序列(群體)
<br>
## Step1 - 下載 Annovar 工具
- 請參考 [ANNOVAR](https://hackmd.io/VdHP3H1ARIiZkSrG-MXvDQ)
<br>
## Step2 - 下載「已標記過」的群體資料(不含 DNA 序列)
- **目的**
- 根據「已標記過」的群體資料,對待測個體的基因,進行標記
- **環境預備**
- **先進入到 annovar 資料夾**
```
# 預期至少會有底下 4 支基本的 perl 檔 (舊版&新版共有的)
annovar
├── annotate_variation.pl
├── coding_change.pl
├── convert2annovar.pl
└── retrieve_seq_from_fasta.pl
```
隨後的「指令」與「建立的資料夾」,都是以 annovar 資料夾為基準
<br>
- **建立子資料夾 mousedb,用來儲放老鼠的基因庫**
```
annovar
├── humandb
│ ├── ...
│ └── hg19_refGene.txt
├── mousedb
│ ├── ...
│ └── mm9_refGene.txt
├── pigdb
│ ├── ...
│ └── susScr11_refGene.txt
```
- 如果是人類,通常就建立 humandb
- 如果是老鼠,就建立 mousedb
- 如果是豬隻,就建立 pigdb
- 以此類推(或是建立自己喜歡的名稱)
<br>
- **指令**
- **[方法一]** 透過 Annovar 官網定義的代碼下載
```perl
./annotate_variation.pl -buildver mm9 -downdb -webfrom annovar refGene mousedb
```
- ```./annotate_variation.pl```
- ```-buildver mm9``` (版本:mm9)
- ```-downdb -webfrom annovar refGene``` (來源:annovar)
- ```mousedb``` (用來存放相關 db 的資料夾名稱,用「本地端 db」來稱呼)
<br>
- **[方法二]** 直接從 UCSC 抓取
```perl
./annotate_variation.pl -buildver mm9 -downdb refGene mousedb.2
```
- ```./annotate_variation.pl```
- ```-buildver mm9``` (版本:mm9)
- ```-downdb refGene``` (來源:UCSC)
- ```mousedb``` (用來存放相關 db 的資料夾名稱,用「本地端 db」來稱呼)
<br>
- 不管來源是 Annovar, 或是 UCSC,看不出兩者的資料差異。
兩者皆是從
ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/database/refGene.txt.gz
抓取
<br>
- 抓取後,會將 refGene.txt.gz 解壓縮,並放在 mousedb 下
檔案名稱的前綴,會加上 buildver,變成 mm9_refGene.txt
```
annovar
├── mousedb
│ └── mm9_refGene.txt
```
<br>
- 所以,你可以:
**[方法三]** 直接從 UCSC 的 [ftp](ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/database/) 手動抓取
或是 **[方法四]** 透過 wget 抓取
```bash
# download:
wget ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/database/refGene.txt.gz
# decompress:
# -k, --keep: keep (don't delete) input files
# -d, --decompress decompress
gzip -kd refGene.txt.gz
```
<br>
## Step3 - 下載老鼠的 DNA 參考序列(群體)
- **目的**
- 用來提取「群體的參考序列」,後續可用來重建「標記過的特徵序列」
<br>
- **指令**
```
./annotate_variation.pl -buildver mm9 -downdb seq mousedb/mm9_seq
```
- ```./annotate_variation.pl```
- ```-buildver mm9``` (版本:mm9)
- ```-downdb seq``` (來源:UCSC)
- ```mousedb/mm9_seq``` (將序列資料存放在此)
```
annovar
├── mousedb
│ ├── mm9_refGene.txt
│ └── mm9_seq
│ ├── chromFa.tar.gz (原始檔,底下為解壓縮)
│ ├── chr1.fa
│ ├── chr1_random.fa
│ ├── chr2.fa
│ ├── ...
│ ├── chr19.fa
│ ├── ...
│ ├── chrM.fa
│ ├── chrUn_random.fa
│ ├── chrX.fa
│ ├── chrX_random.fa
│ ├── chrY.fa
│ └── chrY_random.fa
```
- 或是直接由 UCSC 的 [ftp](ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/) 下載
ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
> README: chromFa.tar.gz
> The assembly sequence in one file per chromosome.
> Repeats from RepeatMasker and Tandem Repeats Finder
> (with period of 12 or less) are shown in lower case;
> non-repeating sequence is shown in upper case.
- fa 檔案內容

- 可以想像成:以前 email 格式
- [[Wiki] FASTA格式](https://zh.wikipedia.org/wiki/FASTA%E6%A0%BC%E5%BC%8F)
```fasta
> 這是註解,用來描述序列的相關資訊,只限單行
序列1
序列2
序列3
...
(每行序列最好不要超過 80 行,超過就切到下一行)
```
- 不只用來存放 A/C/T/G,也可以用來存放胺基酸序列
```
>P01013 GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP
```
<br>
## Step4 - 重建「已標記過的特徵序列」
- **真正說法**
- 重新建構成「老鼠轉錄表達基因fasta格式文件」
- **目的**
- 供檢測 DNA 序列相似度(?)
- **指令**
```
./retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt --format refGene --seqdir mousedb/mm9_seq/ --outfile mousedb/mm9_refGeneMrna.fa
```
- ```./retrieve_seq_from_fasta.pl```
- Input:
- ```mousedb/mm9_refGene.txt``` (「已標記過」的群體資料)
- ```--format refGene```
- ```--seqdir mousedb/mm9_seq/``` (群體的參考序列)
- Output:
- ```--outfile mousedb/mm9_refGeneMrna.fa```
- **重建結果 (mm9_refGeneMrna.fa)**
- **NM_001145824** ([NCBI](https://www.ncbi.nlm.nih.gov/nuccore/NM_001145824))
>\>NM_001145824 Comment: this sequence (leftmost exon at chr2:104266638) is generated by ANNOVAR on Mon Aug 19 15:09:38 2019, based on re
gions speficied in mousedb/mm9_refGene.txt and sequence files stored at mousedb/mm9_seq/.
GGCGGCCGAGGCCGGCGGGCGCGCGGAGGAGGGGCCCGATATCGGGGCG
GCCTGCCGCAGCTGCCCGGGTGACGACTGCCGGCAGCGCGGCGCCCCGA
...
GTGTATTACTGTTGATTCACTTTGAATTAAAATATATATATTGCGGCAA
<br>

<br>
- **NM_001177756** ([NCBI](https://www.ncbi.nlm.nih.gov/nuccore/NM_001177756))
>\>NM_001177756 Comment: this sequence (leftmost exon at chr2:11393057) is generated by ANNOVAR on Mon Aug 19 15:09:38 2019, based on reg
ions speficied in mousedb/mm9_refGene.txt and sequence files stored at mousedb/mm9_seq/.
GCCGCGCTACCGGTCAGATCTTAAAAGGCCGGGCAGTGCGTGTGGCATC
CCGACAGAACTGGAGAGGAGCAAGTGGCAGTGCTGGGTGTTGGGACCGT
...
TTGTCAAGTTTGTATATTTAGGAAATATAATAAAATGTGTTAATTTTAA
<br>
- (more)

<br>
## Step5 - 對老鼠個體進行標記
- **輸入範例:**
```test.input.txt```
```
1 19215217 19215217 T C
1 33803084 33803084 A G
1 33803198 33803198 A G
1 37499237 37499237 T C
1 37499238 37499238 T C
1 37500003 37500003 T C
1 43826936 43826936 T C
1 58853960 58853960 A G
1 58854487 58854487 A G
1 60436865 60436865 T C
```
- 染色體編號
- 染色體上的起始位置
- 染色體上的結束位置
- 參考基因組鹼基
- 變異鹼基
<br>
- **輸出結果**
```test.variant_function```
```
intronic Tfap2b 1 19215217 19215217 T C
UTR3 Bag2 1 33803084 33803084 A G
UTR3 Bag2 1 33803198 33803198 A G
UTR3 Mgat4a 1 37499237 37499237 T C
UTR3 Mgat4a 1 37499238 37499238 T C
UTR3 Mgat4a 1 37500003 37500003 T C
intronic Uxs1 1 43826936 43826936 T C
intronic Casp8 1 58853960 58853960 A G
intronic Casp8 1 58854487 58854487 A G
intronic Cyp20a1 1 60436865 60436865 T C
```
- **基因區段 (基因功能區)** ([Annovar:Help](http://annovar.openbioinformatics.org/en/latest/user-guide/gene/))

([圖片來源](https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%BF%BB%E8%AF%91%E5%8C%BA))

([圖片來源](https://zoro.ee.ncku.edu.tw/mlb2011/res/proj1/5.pdf))
- **exonic & intronic**:
Exonic region, 外顯子區段(外顯子編碼胺基酸的區域)
Intronic region, 內含子區段
- **UTR3 & UTR5**:
3' UTR, 3' untranslated region, 3' 非轉譯區
5' UTR, 5' untranslated region, 5' 非轉譯區
- **upstream & downstream**:

([圖片來源](http://blog.sina.com.cn/s/blog_4b07ffbc01016r71.html))
編碼順序:[上游][5'端] ---> [3'端][下游]
[Bag2](https://www.ncbi.nlm.nih.gov/gene/213539):[downstream][UTR3]...[UTR5][upstream]
- 33802328 downstream
- 33802329 UTR3
- ...
- 33814595 UTR5
- 33814596 upstream
upstream, 起始密碼子之前的基因(?)
upstream region, 上游區域
downstream region, 下游區域
題外話:[調控基因](https://baike.baidu.com/item/%E5%90%AF%E5%8A%A8%E5%AD%90)

- **splicing & ncrna**:
- ncrna:
- ncRNA
- non-coding RNA
- [非編碼核糖核酸](https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%B7%A8%E7%A2%BC%E6%A0%B8%E7%B3%96%E6%A0%B8%E9%85%B8)
- 同義詞
- 非信使核糖核酸
- 定義
- 不轉譯成蛋白質的RNA分子
- 功能
- 生產 tRNA(轉移RNA)
- rRNA(核糖體RNA)
- 一些小RNA
- **integenic**:
Intergenic region, 基因間區段
<br>
- **基因名稱**
- [Bag2](https://www.ncbi.nlm.nih.gov/gene/213539)
- [Mgat4a](https://www.ncbi.nlm.nih.gov/gene/269181)
- [Casp8](https://www.ncbi.nlm.nih.gov/gene/12370)
- 染色體編號
- 染色體上的起始位置
- 染色體上的結束位置
- 參考基因組鹼基
- 變異鹼基
<br>
## 標記後的資料,意味著什麼?
- 標記名稱
- [BRCA1和BRCA2基因與致癌機轉](https://blog.xuite.net/chingshengyeh/blog/116965680)
- ### 點突變
- BRCA1 發生 M1775R 的點突變時,也是致病性的突變
- [NM_007294.3(BRCA1):c.5324T>G (p.Met1775Arg)](https://www.ncbi.nlm.nih.gov/clinvar/variation/17694/)
- BRCA1 發生 S1613G 的點突變時,則是良性的基因變異,與致癌無關。
- [NM_007294.3(BRCA1):c.4837A>G (p.Ser1613Gly)](https://www.ncbi.nlm.nih.gov/clinvar/variation/41827/)
- ### 基因體資訊

- BRCA1 ([Wiki](https://en.wikipedia.org/wiki/BRCA1))
- BRCA1 有 24 個 exon
- 轉譯而成的 BRCA1 蛋白質共有 1863 個胺基酸
- BRCA2 ([Wiki](https://en.wikipedia.org/wiki/BRCA2))
- BRCA2 有 27 個 exon
- 轉譯而成的 BRCA2 蛋白質共有 3418 個胺基酸
<br>
## 參考資料
- [[台部落] Annovar 軟件註釋流程](https://www.twblogs.net/a/5b7fe56d2b717767c6b25d06)