ANNOVAR for mm9

ANNOVAR for mm9 === ###### tags: `基因體/三級分析` ###### tags: `生物資訊`, `基因體`, `三級分析`, `Annovar`, `mm9`, `Mus musculus` [TOC] ## 標記對象 ![](https://upload.wikimedia.org/wikipedia/commons/thumb/c/c4/Maus_im_Haus.JPG/640px-Maus_im_Haus.JPG) - 學名 - Mus musculus (小家鼠) - Wiki - https://zh.wikipedia.org/wiki/%E5%B0%8F%E5%AE%B6%E9%BC%A0 ## Step0 - 要標注什麼？（宏觀概念） - 輸入 / 輸出 - **input** ``` 1 19215217 19215217 T C 1 33803084 33803084 A G 1 33803198 33803198 A G 1 37499237 37499237 T C 1 37499238 37499238 T C 1 37500003 37500003 T C 1 43826936 43826936 T C 1 58853960 58853960 A G 1 58854487 58854487 A G 1 60436865 60436865 T C ``` - 已知： - 染色體編號 - 起始/結束位置 - SNP & Indel 變異資訊 - **output** ``` intronic Tfap2b 1 19215217 19215217 T C UTR3 Bag2 1 33803084 33803084 A G UTR3 Bag2 1 33803198 33803198 A G UTR3 Mgat4a 1 37499237 37499237 T C UTR3 Mgat4a 1 37499238 37499238 T C UTR3 Mgat4a 1 37500003 37500003 T C intronic Uxs1 1 43826936 43826936 T C intronic Casp8 1 58853960 58853960 A G intronic Casp8 1 58854487 58854487 A G intronic Cyp20a1 1 60436865 60436865 T C ``` - 需要哪些資料，才能對個體進行標記？ - 「已標記過」的群體資料 ``` 172 NM_001145824 chr2 - 104266638 104334646 104270011 104312002 16 104266638,104270883,104271308,104273324,104273711,104274494,104274746,104275092,104277153,104278007,104279386,104280362,104281401,104286668,104310905,104334104, 104270488,104271011,104271544,104273465,104274002,104274656,104274871,104275214,104277277,104278164,104279571,104280449,104281521,104286792,104312004,104334646, 0 Hipk3 cmpl cmpl 0,1,2,2,2,2,0,1,0,2,0,0,0,2,0,-1, ``` [![](https://i.imgur.com/7PaflTN.png)](https://i.imgur.com/7PaflTN.png) - [基因名稱(Name of gene) 的代碼](https://asia.ensembl.org/info/genome/genebuild/annotation_sources.html) - NM_：known mRNA (已知 mRNA) - NP_：known protein (已知蛋白質) - XM_：predicted mRNA (預測的 mRNA, 未知 mRNA) - XP_：predicted protein (預測的蛋白質, 未知蛋白質) - [其他代碼](https://www.ncbi.nlm.nih.gov/books/NBK50679/) - NC_ represent the finished genome and plasmids (表示完成的基因組和質粒) - NG_：non-transcribed pseudogenes or genomic regions (非轉錄的假基因或基因體區域) - XR_：non-coding RNA (非編碼RNA) - 完整代碼清單 - [[Wiki] RefSeq](https://en.wikipedia.org/wiki/RefSeq) - [[NCBI手冊] 第18章 - 參考序列（RefSeq）資料庫庫](https://www.ncbi.nlm.nih.gov/books/NBK21091/table/ch18.T.refseq_accession_numbers_and_mole/?report=objectonly) - mRNA 參考序列（群體） ## Step1 - 下載 Annovar 工具 - 請參考 [ANNOVAR](https://hackmd.io/VdHP3H1ARIiZkSrG-MXvDQ) ## Step2 - 下載「已標記過」的群體資料（不含 DNA 序列） - **目的** - 根據「已標記過」的群體資料，對待測個體的基因，進行標記 - **環境預備** - **先進入到 annovar 資料夾** ``` # 預期至少會有底下 4 支基本的 perl 檔 (舊版＆新版共有的) annovar ├── annotate_variation.pl ├── coding_change.pl ├── convert2annovar.pl └── retrieve_seq_from_fasta.pl ``` 隨後的「指令」與「建立的資料夾」，都是以 annovar 資料夾為基準 - **建立子資料夾 mousedb，用來儲放老鼠的基因庫** ``` annovar ├── humandb │ ├── ... │ └── hg19_refGene.txt ├── mousedb │ ├── ... │ └── mm9_refGene.txt ├── pigdb │ ├── ... │ └── susScr11_refGene.txt ``` - 如果是人類，通常就建立 humandb - 如果是老鼠，就建立 mousedb - 如果是豬隻，就建立 pigdb - 以此類推（或是建立自己喜歡的名稱） - **指令** - **[方法一]** 透過 Annovar 官網定義的代碼下載 ```perl ./annotate_variation.pl -buildver mm9 -downdb -webfrom annovar refGene mousedb ``` - ```./annotate_variation.pl``` - ```-buildver mm9``` (版本：mm9) - ```-downdb -webfrom annovar refGene``` (來源：annovar) - ```mousedb``` (用來存放相關 db 的資料夾名稱，用「本地端 db」來稱呼) - **[方法二]** 直接從 UCSC 抓取 ```perl ./annotate_variation.pl -buildver mm9 -downdb refGene mousedb.2 ``` - ```./annotate_variation.pl``` - ```-buildver mm9``` (版本：mm9) - ```-downdb refGene``` (來源：UCSC) - ```mousedb``` (用來存放相關 db 的資料夾名稱，用「本地端 db」來稱呼) - 不管來源是 Annovar, 或是 UCSC，看不出兩者的資料差異。兩者皆是從 ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/database/refGene.txt.gz 抓取 - 抓取後，會將 refGene.txt.gz 解壓縮，並放在 mousedb 下檔案名稱的前綴，會加上 buildver，變成 mm9_refGene.txt ``` annovar ├── mousedb │ └── mm9_refGene.txt ``` - 所以，你可以： **[方法三]** 直接從 UCSC 的 [ftp](ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/database/) 手動抓取或是 **[方法四]** 透過 wget 抓取 ```bash # download: wget ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/database/refGene.txt.gz # decompress: # -k, --keep: keep (don't delete) input files # -d, --decompress decompress gzip -kd refGene.txt.gz ``` ## Step3 - 下載老鼠的 DNA 參考序列（群體） - **目的** - 用來提取「群體的參考序列」，後續可用來重建「標記過的特徵序列」 - **指令** ``` ./annotate_variation.pl -buildver mm9 -downdb seq mousedb/mm9_seq ``` - ```./annotate_variation.pl``` - ```-buildver mm9``` (版本：mm9) - ```-downdb seq``` (來源：UCSC) - ```mousedb/mm9_seq``` (將序列資料存放在此) ``` annovar ├── mousedb │ ├── mm9_refGene.txt │ └── mm9_seq │ ├── chromFa.tar.gz (原始檔，底下為解壓縮) │ ├── chr1.fa │ ├── chr1_random.fa │ ├── chr2.fa │ ├── ... │ ├── chr19.fa │ ├── ... │ ├── chrM.fa │ ├── chrUn_random.fa │ ├── chrX.fa │ ├── chrX_random.fa │ ├── chrY.fa │ └── chrY_random.fa ``` - 或是直接由 UCSC 的 [ftp](ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/) 下載 ftp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz > README: chromFa.tar.gz > The assembly sequence in one file per chromosome. > Repeats from RepeatMasker and Tandem Repeats Finder > (with period of 12 or less) are shown in lower case; > non-repeating sequence is shown in upper case. - fa 檔案內容 ![](https://i.imgur.com/HF43ArI.png) - 可以想像成：以前 email 格式 - [[Wiki] FASTA格式](https://zh.wikipedia.org/wiki/FASTA%E6%A0%BC%E5%BC%8F) ```fasta > 這是註解，用來描述序列的相關資訊，只限單行序列1 序列2 序列3 ... (每行序列最好不要超過 80 行，超過就切到下一行) ``` - 不只用來存放 A/C/T/G，也可以用來存放胺基酸序列 ``` >P01013 GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP ``` ## Step4 - 重建「已標記過的特徵序列」 - **真正說法** - 重新建構成「老鼠轉錄表達基因fasta格式文件」 - **目的** - 供檢測 DNA 序列相似度(?) - **指令** ``` ./retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt --format refGene --seqdir mousedb/mm9_seq/ --outfile mousedb/mm9_refGeneMrna.fa ``` - ```./retrieve_seq_from_fasta.pl``` - Input: - ```mousedb/mm9_refGene.txt``` (「已標記過」的群體資料) - ```--format refGene``` - ```--seqdir mousedb/mm9_seq/``` (群體的參考序列) - Output: - ```--outfile mousedb/mm9_refGeneMrna.fa``` - **重建結果 (mm9_refGeneMrna.fa)** - **NM_001145824** ([NCBI](https://www.ncbi.nlm.nih.gov/nuccore/NM_001145824)) >\>NM_001145824 Comment: this sequence (leftmost exon at chr2:104266638) is generated by ANNOVAR on Mon Aug 19 15:09:38 2019, based on re gions speficied in mousedb/mm9_refGene.txt and sequence files stored at mousedb/mm9_seq/. GGCGGCCGAGGCCGGCGGGCGCGCGGAGGAGGGGCCCGATATCGGGGCG GCCTGCCGCAGCTGCCCGGGTGACGACTGCCGGCAGCGCGGCGCCCCGA ... GTGTATTACTGTTGATTCACTTTGAATTAAAATATATATATTGCGGCAA ![](https://i.imgur.com/7PaflTN.png) - **NM_001177756** ([NCBI](https://www.ncbi.nlm.nih.gov/nuccore/NM_001177756)) >\>NM_001177756 Comment: this sequence (leftmost exon at chr2:11393057) is generated by ANNOVAR on Mon Aug 19 15:09:38 2019, based on reg ions speficied in mousedb/mm9_refGene.txt and sequence files stored at mousedb/mm9_seq/. GCCGCGCTACCGGTCAGATCTTAAAAGGCCGGGCAGTGCGTGTGGCATC CCGACAGAACTGGAGAGGAGCAAGTGGCAGTGCTGGGTGTTGGGACCGT ... TTGTCAAGTTTGTATATTTAGGAAATATAATAAAATGTGTTAATTTTAA - (more) ![](https://i.imgur.com/5nWn65g.png) ## Step5 - 對老鼠個體進行標記 - **輸入範例：** ```test.input.txt``` ``` 1 19215217 19215217 T C 1 33803084 33803084 A G 1 33803198 33803198 A G 1 37499237 37499237 T C 1 37499238 37499238 T C 1 37500003 37500003 T C 1 43826936 43826936 T C 1 58853960 58853960 A G 1 58854487 58854487 A G 1 60436865 60436865 T C ``` - 染色體編號 - 染色體上的起始位置 - 染色體上的結束位置 - 參考基因組鹼基 - 變異鹼基 - **輸出結果** ```test.variant_function``` ``` intronic Tfap2b 1 19215217 19215217 T C UTR3 Bag2 1 33803084 33803084 A G UTR3 Bag2 1 33803198 33803198 A G UTR3 Mgat4a 1 37499237 37499237 T C UTR3 Mgat4a 1 37499238 37499238 T C UTR3 Mgat4a 1 37500003 37500003 T C intronic Uxs1 1 43826936 43826936 T C intronic Casp8 1 58853960 58853960 A G intronic Casp8 1 58854487 58854487 A G intronic Cyp20a1 1 60436865 60436865 T C ``` - **基因區段 (基因功能區)** ([Annovar:Help](http://annovar.openbioinformatics.org/en/latest/user-guide/gene/)) ![](https://i.imgur.com/jKyLGs8.png) ([圖片來源](https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%BF%BB%E8%AF%91%E5%8C%BA)) ![](https://i.imgur.com/CAcNTUQ.png) ([圖片來源](https://zoro.ee.ncku.edu.tw/mlb2011/res/proj1/5.pdf)) - **exonic & intronic**: Exonic region, 外顯子區段（外顯子編碼胺基酸的區域） Intronic region, 內含子區段 - **UTR3 & UTR5**: 3' UTR, 3' untranslated region, 3' 非轉譯區 5' UTR, 5' untranslated region, 5' 非轉譯區 - **upstream & downstream**: ![](https://i.imgur.com/Uplcwap.jpg) ([圖片來源](http://blog.sina.com.cn/s/blog_4b07ffbc01016r71.html)) 編碼順序：[上游][5'端] ---> [3'端][下游] [Bag2](https://www.ncbi.nlm.nih.gov/gene/213539)：[downstream][UTR3]...[UTR5][upstream] - 33802328 downstream - 33802329 UTR3 - ... - 33814595 UTR5 - 33814596 upstream upstream, 起始密碼子之前的基因(?) upstream region, 上游區域 downstream region, 下游區域題外話：[調控基因](https://baike.baidu.com/item/%E5%90%AF%E5%8A%A8%E5%AD%90) ![](https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=67769bff34d12f2eda08a6322eabbe07/c995d143ad4bd1136f6a4d1a58afa40f4bfb0576.jpg) - **splicing & ncrna**: - ncrna: - ncRNA - non-coding RNA - [非編碼核糖核酸](https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%B7%A8%E7%A2%BC%E6%A0%B8%E7%B3%96%E6%A0%B8%E9%85%B8) - 同義詞 - 非信使核糖核酸 - 定義 - 不轉譯成蛋白質的RNA分子 - 功能 - 生產 tRNA（轉移RNA） - rRNA（核糖體RNA） - 一些小RNA - **integenic**: Intergenic region, 基因間區段 - **基因名稱** - [Bag2](https://www.ncbi.nlm.nih.gov/gene/213539) - [Mgat4a](https://www.ncbi.nlm.nih.gov/gene/269181) - [Casp8](https://www.ncbi.nlm.nih.gov/gene/12370) - 染色體編號 - 染色體上的起始位置 - 染色體上的結束位置 - 參考基因組鹼基 - 變異鹼基 ## 標記後的資料，意味著什麼？ - 標記名稱 - [BRCA1和BRCA2基因與致癌機轉](https://blog.xuite.net/chingshengyeh/blog/116965680) - ### 點突變 - BRCA1 發生 M1775R 的點突變時，也是致病性的突變 - [NM_007294.3(BRCA1):c.5324T>G (p.Met1775Arg)](https://www.ncbi.nlm.nih.gov/clinvar/variation/17694/) - BRCA1 發生 S1613G 的點突變時，則是良性的基因變異，與致癌無關。 - [NM_007294.3(BRCA1):c.4837A>G (p.Ser1613Gly)](https://www.ncbi.nlm.nih.gov/clinvar/variation/41827/) - ### 基因體資訊 ![](https://i.imgur.com/7dGuTky.jpg) - BRCA1 ([Wiki](https://en.wikipedia.org/wiki/BRCA1)) - BRCA1 有 24 個 exon - 轉譯而成的 BRCA1 蛋白質共有 1863 個胺基酸 - BRCA2 ([Wiki](https://en.wikipedia.org/wiki/BRCA2)) - BRCA2 有 27 個 exon - 轉譯而成的 BRCA2 蛋白質共有 3418 個胺基酸 ## 參考資料 - [[台部落] Annovar 軟件註釋流程](https://www.twblogs.net/a/5b7fe56d2b717767c6b25d06)