# TogoDX documentation draft
## Case 1: 類似した発現状況を示す遺伝子・タンパク質を標的とする医薬品の開発状況を調べる
##### 更新履歴
- 2023-03-15作成
- 2023-03-24更新
### 目的
- 肺および腸で組織特異的に高い遺伝子発現が確認され、タンパク質として細胞膜表面に局在し、また何らかのタンパク質と化合物の直接の相互作用を検出する方法のデータが存在し、さらに「感染」に対する薬効がある化合物に関わる、ヒトのタンパク質の一覧を取得する
### 背景
- COVID-19を引き起こすSARS-CoV-2ウイルスが細胞内に侵入する上で重要な役割を果たすタンパク質として、ACE2やTMPRSS2が知られています。そのため、これらのタンパク質を標的とする治療法や予防法の開発が研究されています。
- [ACE2 (Angiotensin-converting enzyme 2)](https://www.uniprot.org/uniprotkb/Q9BYF1/): ACE2は、SARS-CoV-2ウイルスがヒト細胞に侵入するのに必要な受容体です。この受容体は、主に肺、小腸、心臓、腎臓などの細胞表面に存在しています。SARS-CoV-2ウイルスは、ACE2に結合することで細胞内に侵入し、感染を引き起こします。
- [TMPRSS2 (transmembrane serine protease 2)](https://www.uniprot.org/uniprotkb/O15393/): TMPRSS2は、SARS-CoV-2ウイルスの融合に必要なタンパク質であり、ウイルスが細胞内に侵入するのを助けます。TMPRSS2は、ACE2と同様に、主に肺や小腸などの細胞表面に存在しています。SARS-CoV-2ウイルスは、まずACE2に結合し、次にTMPRSS2によって細胞内に侵入します。
- ACE2およびTMPRSS2が、肺や小腸を構成する細胞の細胞膜表面で高発現することを手がかりに、類似した発現状況を示す遺伝子・タンパク質を標的とする医薬品(候補)がどのぐらい開発されているのかについて網羅的に調べてみます。
### 探索条件とその意図
- [この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=uniprot&annotations=%5B%7B%22attributeId%22%3A%22structure_data_existence_uniprot%22%7D%2C%7B%22attributeId%22%3A%22compound_drug_development_phase_chembl%22%7D%5D&filters=%5B%7B%22attributeId%22%3A%22gene_specific_expression_in_tissues_hpa%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22Intestine%22%7D%2C%7B%22node%22%3A%22Lung%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22protein_cellular_component_uniprot%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22GO_0005886%22%2C%22ancestors%22%3A%5B%22GO_0110165%22%2C%22GO_0016020%22%5D%7D%5D%7D%2C%7B%22attributeId%22%3A%22interaction_chembl_assay_existence_uniprot%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22compound_drug_indication_mesh_chembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22D007239%22%7D%5D%7D%5D)
#### Select target dataset
- `UniProt`
- 最終的に出力したいのはタンパク質のIDリストなので、タンパク質DBである`UniProt`を選択
#### Add filters
- `Gene` / `Tissue-specific high expression (HPA)` / `Lung`
- [The Human Protein Atlas project(HPA)](https://www.proteinatlas.org/) (ヒトの細胞、組織、臓器に存在するすべてのヒトタンパク質を様々なオミックス技術を統合してマッピングするプロジェクト)で得られた37組織中で、「Lung(肺)」に高発現が認められた遺伝子(236個)
- `Gene` / `Tissue-specific high expression (HPA)` / `Intestine`
- HPAで得られた37組織中で、「Intestine(腸)」に高発現が認められた遺伝子(758個)
- `Protein` / `cellular component` / `cellular anatomical entity` / `membrane` / `plasma membrane`
- ヒトの各タンパク質に[UniProtが根拠情報とともに付与したGeneOntology(GO)](https://www.uniprot.org/help/gene_ontology)のCellular component (細胞内局在)カテゴリに由来する機能アノテーション(GO term)の中で、「plasma membrane(細胞膜)」に局在することが知られているタンパク質(7,400個)
- `Interaction` / `ChEMBL assay existence` / `Conf-score 9: Direct single protein target assigned`
- UniProtの各エントリーに対して、そのタンパク質と化合物の直接の相互作用を検出する方法(ChEMBL assay)が存在し、さらに、アッセイとターゲットの関係に付与された[信頼度スコア](https://chembl.gitbook.io/chembl-interface-documentation/frequently-asked-questions/chembl-data-questions#what-is-the-confidence-score)の中で、最も高い信頼度(Direct single protein target assigned)が付与されているタンパク質(3,388個)
- `Compound` / `Drug indication` / `Infections`
- ChEMBLの化合物に対して、MeSH(Medical Subject Headings)シソーラスを用いた薬剤適応疾患の分類の中で、「Infections(感染)」に対する適応が認められている化合物(2,041個)
#### Map attributes
- `Structure` / `Structure data existence`
- UniProtの各エントリーに付与されている、PDBにおけるタンパク質立体構造データの有無を区別して検索できます。同じタンパク質でも異なる条件で立体構造を取得されている場合があります。
- `Compound` / `Max drug development phase`
- ChEMBLの化合物には、世界のある地域で特定の疾患/診断(適応症)の治療薬として承認されている医薬品および臨床試験プロセスで適応症を調査中の臨床候補医薬品に関する情報が含まれており、すべての適応症における化合物の最高の開発段階(研究段階、第1-3相、上市後)に基づく分類です。
### 結果とその考察・応用
- `97`のタンパク質(UniProt)の一覧が得られました。
- 肺および腸で組織特異的に高い遺伝子発現が確認され、タンパク質として細胞膜表面に局在し、また何らかのタンパク質と化合物の直接の相互作用を検出する方法のデータが存在し、さらに「感染」に対する薬効がある化合物に関わる、ヒトのタンパク質
- 
#### 得られたリストの解釈例
- このリストの中には、[ACE2](https://www.uniprot.org/uniprot/Q9BYF1)や[TMPRSS2(リスト中ではTMPS2)](https://www.uniprot.org/uniprotkb/O15393/)も含まれています。
- SARS-CoV-2ウイルスはACE2やTMPRSS2を標的とすることが知られていますが、今回の検索方法の組み合わせで**共起した他のタンパク質との関連性を調べる**ことや、また、将来、異なるウイルスによる呼吸器・消化器系の疾患が流行した場合に、**このタンパク質のリストをそのウイルスの標的候補として検討する**きっかけになります。
- 実際に、SARS-CoV-2ウイルスと関連する中東呼吸器症候群コロナウイルス(MERS-CoV)が細胞に感染するときの受容体である[DPP4(Dipeptidyl peptidase 4)](https://www.uniprot.org/uniprotkb/P27487/entry)は主に肺の肺細胞、多核上皮細胞、気管支粘膜下腺細胞、腎臓と小腸の上皮細胞、および活性白血球に発現していることが知られており([ref](https://doi.org/10.1038/nature12005))、このリストに含まれています。
- リスト中で関連が示されたタンパク質と医薬品との関係
- ACE2 と [RIFAMPIN: CHEMBL374478](https://www.ebi.ac.uk/chembl/compound_report_card/CHEMBL374478/)
- 
- 1965年に発見されたリファンピシンは、1971年に米国で承認され、世界保健機関(WHO)の必須医薬品リストに掲載されている医薬品です。
- リファンピシンは、ウイルスによる細胞の形質転換を阻害する抗ウイルス薬であり、他の現代の抗ウイルス薬と比較して非常に安価なジェネリック医薬品として広く利用されています。
- 最近の*in-silico*解析によって、リファンピシンがコロナウイルス疾患の治療に再利用できる最も有望な既存薬の1つであることが示されています([ref](https://doi.org/10.5501%2Fwjv.v11.i2.90))。
- TMPRSS2 と [CAMOSTAT: CHEMBL590799](https://www.ebi.ac.uk/chembl/compound_report_card/CHEMBL590799/)
- 
- カモスタットは、セリンプロテアーゼ阻害剤に分類されており、TMPRSS2の発現を抑制します。
- カモスタットは急性膵炎などの治療薬剤として日本で開発され、すでに国内で長年にわたって処方されてきた薬剤です。安全性については十分な臨床データが蓄積されており、速やかに臨床治験を行うことが可能です。
- カモスタットはSARS-CoV-2の治療薬としてフェーズ3まで進んでいるほか、カテプシンB阻害剤との組合せによりSARS-CoV-2感染効率を低下させることが確認されています([ref](https://www.cell.com/molecular-therapy-family/nucleic-acids/fulltext/S2162-2531(21)00259-6))。
### 他の解析ツールを用いた解析例
- Jupyter Notebookを用いたネットワーク解析
- [Data analysis with TogoDX: Network visualization](https://nbviewer.org/github/togodx/dx-notebook/blob/development/notebook/TogoDX-network-visualization.ipynb)
- [TogoDX使用時と不使用時の検索手順の比較](https://docs.google.com/spreadsheets/d/15WMNEH4Rv0_KhsQUiF5oZy5q-b2bZcwcNVC0k0Xjkkc/edit#gid=0)
---
<br><br>
## Case 2: 特定の疾患に関連する遺伝子をリストアップし、それらのタンパク質と相互作用する可能性のある化合物を取得する
##### 更新履歴
- 2023-03-15作成
- 2023-03-20更新
### 目的
「網膜色素変性症」に関わるヒト遺伝子についてリストアップした後、それらのオーソログ遺伝子がゼブラフィッシュにおいて保存されているものに絞り込み、それらのタンパク質と相互作用する可能性のある化合物を調べる。
### 背景
網膜色素変性症は指定難病の一つで治療方法も確立していないが、研究アプローチとしてモデル生物を用いた薬剤候補スクリーニング実験が考えられる([参考文献](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8425951/))。ここでは、網膜色素変性症およびそれに関連する表現型に着目して、TogoDXを用いた検索を行ってみる。
### 探索条件とその意図
- [この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=ensembl_gene&annotations=%5B%7B%22attributeId%22%3A%22compound_drug_development_phase_chembl%22%7D%5D&filters=%5B%7B%22attributeId%22%3A%22protein_disease_related_proteins_uniprot%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22682%22%7D%2C%7B%22node%22%3A%221014%22%7D%2C%7B%22node%22%3A%22510%22%7D%2C%7B%22node%22%3A%22901%22%7D%2C%7B%22node%22%3A%22182%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22gene_specific_expression_in_tissues_hpa%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22Retina%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22gene_ortholog_existence_homologene%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22organism_10%22%7D%5D%7D%5D)
#### Select target dataset
- `Ensembl gene`
- 遺伝子ごとに情報をまとめたリストを作成したいので、遺伝子DBである`Ensembl gene`を選択
#### Add filters
* `Protein` / `Disease-related proteins`
* Retinitis pigmentosa(網膜色素変性症)
* Congenital stationary night blindness(先天停止性夜盲)
* Cone-rod dystrophy(錐体桿体ジストロフィー)
* Leber congenital amaurosis(レーバー先天黒内障)
* `Gene` / `Tissue-specific high expression (HPA)`
* Retina(網膜)
* `Gene` / `Ortholog existence`
* Zebrafish (Danio rerio)
* ゼブラフィッシュを網膜疾患のモデル生物と想定して、オーソログが存在することを条件として指定
#### Map attributes
* `Compound` / `Max drug development phase`
### 結果とその考察・応用
* 指定した疾患に関連するヒト遺伝子で、ゼブラフィッシュにもオーソログが存在する42の遺伝子が得られた。
#### 得られたリストの解釈例
* さらに、それらのタンパク質と相互作用する可能性のある化合物が得られる。このうち、第IV相試験(製造販売後臨床試験)に達している化合物は46件である。
* 関連する遺伝子が多くまた表現型も多様なため、得られた化合物が疾患に対して有効かはどうかを判定することは難しいが、少なくともCHEMBL91 (Miconazole) については、上記参考文献の実験でも網膜色素変性症に対し神経保護剤として有効であるという結果が出ている。

---
<br><br>
## Case 4: 難病に関連するデータを素早く集める
### 目的
難病関連データは、ドキュメントとしてまとめられている場合が多く、解析や調査に利用できるデータを素早く集めるのは困難な場合が多い。そこで、[全指定難病338疾患](https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/0000084783.html)(2023/3/10時点)とそれら疾患のサブタイプついて、国外の疾患データベースと紐付いた840疾患を対象に、TogoDXを用いて難病関連データを取得する。
- 以下の難病関連データを取得
- フェーズ4の医薬品
- 病的バリアント(コード領域)
- 疾患原因遺伝子
- 疾患原因遺伝子のオーソログが他生物にあるか
- 疾患原因タンパク質
- パスウェイ
- 国外の疾患データベースへのリンク
### 検索方法
1. フェーズ4の医薬品:[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22compound_drug_development_phase_chembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%224%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Compound` / `Drug development phase` / `4: Indication Discovery & expansion`
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`

2. 病的バリアント(コード領域):[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22gene_biotype_ensembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22protein_coding%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22variant_clinical_significance_togovar%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22pathogenic_or_likely_pathogenic%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Gene` / `Gene biotype` / `protein coding`
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`
- `Variant` / `Clinical significance` / `Pathogenic/Likely pathogenic`

3. 疾患原因遺伝子:[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%7B%22attributeId%22%3A%22disease_diseases_mondo%22%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22parentNode%22%3A%221000001%22%2C%22ancestors%22%3A%5B%5D%7D%2C%7B%22attributeId%22%3A%22gene_cellular_component_ncbigene%22%7D%2C%7B%22attributeId%22%3A%22gene_molecular_function_ncbigene%22%7D%2C%7B%22attributeId%22%3A%22gene_high_level_expression_refex%22%7D%2C%7B%22attributeId%22%3A%22gene_high_level_expression_gtex6%22%7D%2C%7B%22attributeId%22%3A%22gene_specific_expression_in_tissues_hpa%22%7D%2C%7B%22attributeId%22%3A%22gene_specific_expression_in_cells_hpa%22%7D%5D&filters=%5B%7B%22attributeId%22%3A%22gene_biotype_ensembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22protein_coding%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Gene` / `Gene biotype` / `protein coding`
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`
- Map attributes
- `Disease` / `Diseases in Mondo`
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`
- `Gene` / `Cellular component`
- `Gene` / `Molecular function`
- `Gene` / `Tissue-specific high expression (RefEx GeneChip)`
- `Gene` / `Tissue-specific high expression (GTEx)`
- `Gene` / `Tissue-specific high expression (HPA)`
- `Gene` / `Cell type-specific high expression (HPA)`

4. 疾患原因遺伝子のオーソログが他生物にあるか:[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22gene_ortholog_existence_homologene%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22organism_02%22%7D%2C%7B%22node%22%3A%22organism_03%22%7D%2C%7B%22node%22%3A%22organism_04%22%7D%2C%7B%22node%22%3A%22organism_05%22%7D%2C%7B%22node%22%3A%22organism_06%22%7D%2C%7B%22node%22%3A%22organism_07%22%7D%2C%7B%22node%22%3A%22organism_08%22%7D%2C%7B%22node%22%3A%22organism_09%22%7D%2C%7B%22node%22%3A%22organism_10%22%7D%2C%7B%22node%22%3A%22organism_11%22%7D%2C%7B%22node%22%3A%22organism_12%22%7D%2C%7B%22node%22%3A%22organism_13%22%7D%2C%7B%22node%22%3A%22organism_14%22%7D%2C%7B%22node%22%3A%22organism_15%22%7D%2C%7B%22node%22%3A%22organism_16%22%7D%2C%7B%22node%22%3A%22organism_17%22%7D%2C%7B%22node%22%3A%22organism_18%22%7D%2C%7B%22node%22%3A%22organism_19%22%7D%2C%7B%22node%22%3A%22organism_20%22%7D%2C%7B%22node%22%3A%22organism_21%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Gene` / `Ortholog existence` / `Chimpanzee (Pan troglodytes), Rhesus monkey (Macaca mulatta), Mouse (Mus musculus), Rat (Rattus norvegicus), Dog (Canis lupus familiaris), Cow (Bos taurus), Chicken (Gallus gallus), Western clawed frog (Xenopus tropicalis), Zebrafish (Danio rerio), Fruit fly (Drosophila melanogaster), Malaria mosquito (Anopheles gambiae), Nematode (Caenorhabditis elegans), Budding yeast (Saccharomyces cerevisiae), Fission yeast (Schizosaccharomyces pombe), Ascomycetes (Kluyveromyces lactis), Ascomycetes (Eremothecium gossypii), Rice blast fungus (Magnaporthe oryzae), Ascomycetes (Neurospora crassa), Thale cress (Arabidopsis thaliana), Rice (Oryza sativa)`
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`

5. 疾患原因タンパク質:[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22protein_disease_related_proteins_uniprot%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22225%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`
- `Protein` / `Disease-related proteins` / `Disease variant`

6. パスウェイ:[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22interaction_compounds_in_pathway_reactome%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22R_HSA_1430728%22%7D%2C%7B%22node%22%3A%22R_HSA_1643685%22%7D%2C%7B%22node%22%3A%22R_HSA_162582%22%7D%2C%7B%22node%22%3A%22R_HSA_392499%22%7D%2C%7B%22node%22%3A%22R_HSA_382551%22%7D%2C%7B%22node%22%3A%22R_HSA_168256%22%7D%2C%7B%22node%22%3A%22R_HSA_112316%22%7D%2C%7B%22node%22%3A%22R_HSA_74160%22%7D%2C%7B%22node%22%3A%22R_HSA_5653656%22%7D%2C%7B%22node%22%3A%22R_HSA_8953897%22%7D%2C%7B%22node%22%3A%22R_HSA_109582%22%7D%2C%7B%22node%22%3A%22R_HSA_73894%22%7D%2C%7B%22node%22%3A%22R_HSA_8963743%22%7D%2C%7B%22node%22%3A%22R_HSA_8953854%22%7D%2C%7B%22node%22%3A%22R_HSA_1640170%22%7D%2C%7B%22node%22%3A%22R_HSA_1266738%22%7D%2C%7B%22node%22%3A%22R_HSA_1474244%22%7D%2C%7B%22node%22%3A%22R_HSA_1852241%22%7D%2C%7B%22node%22%3A%22R_HSA_4839726%22%7D%2C%7B%22node%22%3A%22R_HSA_397014%22%7D%2C%7B%22node%22%3A%22R_HSA_69306%22%7D%2C%7B%22node%22%3A%22R_HSA_9612973%22%7D%2C%7B%22node%22%3A%22R_HSA_400253%22%7D%2C%7B%22node%22%3A%22R_HSA_1474165%22%7D%2C%7B%22node%22%3A%22R_HSA_5357801%22%7D%2C%7B%22node%22%3A%22R_HSA_9609507%22%7D%2C%7B%22node%22%3A%22R_HSA_1500931%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`
- `Interaction` / `Compounds in pathway` / `Metabolism, Disease, Signaling, Pathways, Metabolism of proteins, Transport of small molecules, Immune System, Neuronal System, Gene expression (Transcription), Vesicle-mediated transport, Cellular responses to external stimuli, Hemostasis, DNA Repair, Digestion and absorption, Metabolism of RNA, Cell Cycle, Developmental Biology, Extracellular matrix organization, Organelle biogenesis and maintenance, Chromatin organization, Muscle contraction, DNA Replication, Autophagy, Circadian Clock, Reproduction, Programmed Cell Death, Protein localization, Cell-Cell communication`

7. 国外の疾患データベースへのリンク:[この検索条件の再現](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%7B%22attributeId%22%3A%22disease_diseases_mondo%22%7D%5D&filters=%5B%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_related_dbs_mondo%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22Orphanet%22%7D%2C%7B%22node%22%3A%22DOID%22%7D%2C%7B%22node%22%3A%22OMIM%22%7D%2C%7B%22node%22%3A%22GARD%22%7D%2C%7B%22node%22%3A%22ICD9%22%7D%2C%7B%22node%22%3A%22OMIMPS%22%7D%5D%7D%5D)
- Select target dataset
- `NANDO`
- Add filters
- `Disease` / `Diseases in NANDO` / `Designated intractable disease`
- `Disease` / `Cross referenced disease DBs in Mondo` / `Orphanet, DOID, OMIM, GARD, ICD9, OMIMPS`
- Map attributes
- `Disease` / `Diseases in Mondo`

### 結果
| 難病関連データ | 取得データ数 | ダウンロードファイルリンク | TogoDXリンク |
| -------- | -------- | -------- | -------- |
| フェーズ4の医薬品 | 160疾患に対する97件のフェーズ4医薬品 | [ダウンロード](https://drive.google.com/file/d/13dzn60vwzxQIO_7BDrrZw4vzsAhZ9ErP/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22compound_drug_development_phase_chembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%224%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D) |
| 病的バリアント | 211疾患に対する1,965件の病的バリアント | [ダウンロード](https://drive.google.com/file/d/1sNuIazRao0BwYXLq0Wj2vpkV_RbuIeuA/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22gene_biotype_ensembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22protein_coding%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22variant_clinical_significance_togovar%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22pathogenic_or_likely_pathogenic%22%7D%5D%7D%5D) |
| 疾患原因遺伝子 | 322疾患に対する366件の疾患原因遺伝子<br>・更に,366件の疾患原因遺伝子に対する以下のメタデータ<br> =382件の細胞構成要素カテゴリー<br> =382件の分子機能カテゴリー<br> =326件の組織特異的高発現データ(RefEx)<br> =364件の組織特異的高発現データ(GTEx)<br> =366件の組織特異的高発現データ(HPA)<br> =13件の疾患階層データ | [ダウンロード](https://drive.google.com/file/d/1j7hzypFHgmNi6Phx5TWVRATOMEafAPus/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%7B%22attributeId%22%3A%22disease_diseases_mondo%22%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22parentNode%22%3A%221000001%22%2C%22ancestors%22%3A%5B%5D%7D%2C%7B%22attributeId%22%3A%22gene_cellular_component_ncbigene%22%7D%2C%7B%22attributeId%22%3A%22gene_molecular_function_ncbigene%22%7D%2C%7B%22attributeId%22%3A%22gene_high_level_expression_refex%22%7D%2C%7B%22attributeId%22%3A%22gene_high_level_expression_gtex6%22%7D%2C%7B%22attributeId%22%3A%22gene_specific_expression_in_tissues_hpa%22%7D%2C%7B%22attributeId%22%3A%22gene_specific_expression_in_cells_hpa%22%7D%5D&filters=%5B%7B%22attributeId%22%3A%22gene_biotype_ensembl%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22protein_coding%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D) |
| 疾患原因遺伝子のオーソログが他生物にあるか | Chimpanzee (Pan troglodytes):<br> 307疾患に対する341件の疾患原因遺伝子<br>Rhesus monkey (Macaca mulatta):<br> 277疾患に対する308件の疾患原因遺伝子<br>Mouse (Mus musculus):<br> 317疾患に対する356件の疾患原因遺伝子<br>Rat (Rattus norvegicus):<br> 309疾患に対する347件の疾患原因遺伝子<br>Dog (Canis lupus familiaris):<br> 311疾患に対する347件の疾患原因遺伝子<br>Cow (Bos taurus):<br> 310疾患に対する345件の疾患原因遺伝子<br>Chicken (Gallus gallus):<br> 273疾患に対する291件の疾患原因遺伝子<br>Western clawed frog (Xenopus tropicalis):<br> 277疾患に対する305件の疾患原因遺伝子<br>Zebrafish (Danio rerio):<br> 278疾患に対する302件の疾患原因遺伝子<br>Fruit fly (Drosophila melanogaster):<br> 137疾患に対する131件の疾患原因遺伝子<br>Malaria mosquito (Anopheles gambiae):<br> 130疾患に対する129件の疾患原因遺伝子<br>Nematode (Caenorhabditis elegans):<br> 115疾患に対する103件の疾患原因遺伝子<br>Budding yeast (Saccharomyces cerevisiae):<br> 46疾患に対する51件の疾患原因遺伝子<br>Fission yeast (Schizosaccharomyces pombe):<br> 42疾患に対する45件の疾患原因遺伝子<br>Ascomycetes (Kluyveromyces lactis):<br> 47疾患に対する51件の疾患原因遺伝子<br>Ascomycetes (Eremothecium gossypii):<br> 46疾患に対する48件の疾患原因遺伝子<br>Rice blast fungus (Magnaporthe oryzae):<br> 70疾患に対する46件の疾患原因遺伝子<br>Ascomycetes (Neurospora crassa):<br> 67疾患に対する65件の疾患原因遺伝子<br>Thale cress (Arabidopsis thaliana):<br> 84疾患に対する84件の疾患原因遺伝子<br>Rice (Oryza sativa):<br> 77疾患に対する75件の疾患原因遺伝子 | [ダウンロード](https://drive.google.com/file/d/1uwbuq0eQpaZmfWLcm-sxonbDMxtPRI8r/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22gene_ortholog_existence_homologene%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22organism_02%22%7D%2C%7B%22node%22%3A%22organism_03%22%7D%2C%7B%22node%22%3A%22organism_04%22%7D%2C%7B%22node%22%3A%22organism_05%22%7D%2C%7B%22node%22%3A%22organism_06%22%7D%2C%7B%22node%22%3A%22organism_07%22%7D%2C%7B%22node%22%3A%22organism_08%22%7D%2C%7B%22node%22%3A%22organism_09%22%7D%2C%7B%22node%22%3A%22organism_10%22%7D%2C%7B%22node%22%3A%22organism_11%22%7D%2C%7B%22node%22%3A%22organism_12%22%7D%2C%7B%22node%22%3A%22organism_13%22%7D%2C%7B%22node%22%3A%22organism_14%22%7D%2C%7B%22node%22%3A%22organism_15%22%7D%2C%7B%22node%22%3A%22organism_16%22%7D%2C%7B%22node%22%3A%22organism_17%22%7D%2C%7B%22node%22%3A%22organism_18%22%7D%2C%7B%22node%22%3A%22organism_19%22%7D%2C%7B%22node%22%3A%22organism_20%22%7D%2C%7B%22node%22%3A%22organism_21%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D) |
| 疾患原因タンパク質 | 322疾患に対する468件のタンパク質 | [ダウンロード](https://drive.google.com/file/d/1zYxviO5udUAMcPe7XHx4gMmP03FiXBAA/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22protein_disease_related_proteins_uniprot%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22225%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D) |
| パスウェイ | 72疾患に対する49件のパスウェイ | [ダウンロード](https://drive.google.com/file/d/1HNyr4NACHCquJf8X9zEeYEHx_ZOQlcav/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%5D&filters=%5B%7B%22attributeId%22%3A%22interaction_compounds_in_pathway_reactome%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22R_HSA_1430728%22%7D%2C%7B%22node%22%3A%22R_HSA_1643685%22%7D%2C%7B%22node%22%3A%22R_HSA_162582%22%7D%2C%7B%22node%22%3A%22R_HSA_392499%22%7D%2C%7B%22node%22%3A%22R_HSA_382551%22%7D%2C%7B%22node%22%3A%22R_HSA_168256%22%7D%2C%7B%22node%22%3A%22R_HSA_112316%22%7D%2C%7B%22node%22%3A%22R_HSA_74160%22%7D%2C%7B%22node%22%3A%22R_HSA_5653656%22%7D%2C%7B%22node%22%3A%22R_HSA_8953897%22%7D%2C%7B%22node%22%3A%22R_HSA_109582%22%7D%2C%7B%22node%22%3A%22R_HSA_73894%22%7D%2C%7B%22node%22%3A%22R_HSA_8963743%22%7D%2C%7B%22node%22%3A%22R_HSA_8953854%22%7D%2C%7B%22node%22%3A%22R_HSA_1640170%22%7D%2C%7B%22node%22%3A%22R_HSA_1266738%22%7D%2C%7B%22node%22%3A%22R_HSA_1474244%22%7D%2C%7B%22node%22%3A%22R_HSA_1852241%22%7D%2C%7B%22node%22%3A%22R_HSA_4839726%22%7D%2C%7B%22node%22%3A%22R_HSA_397014%22%7D%2C%7B%22node%22%3A%22R_HSA_69306%22%7D%2C%7B%22node%22%3A%22R_HSA_9612973%22%7D%2C%7B%22node%22%3A%22R_HSA_400253%22%7D%2C%7B%22node%22%3A%22R_HSA_1474165%22%7D%2C%7B%22node%22%3A%22R_HSA_5357801%22%7D%2C%7B%22node%22%3A%22R_HSA_9609507%22%7D%2C%7B%22node%22%3A%22R_HSA_1500931%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%5D) |
| 国外の疾患データベースへのリンク | OMIM:414疾患に対する384件のリンク<br>OMIMPS:89疾患に対する79件のリンク<br>Orphanet:664疾患に対する626件のリンク<br>DOID:511疾患に対する475件のリンク<br>GARD:560疾患に対する516件のリンク<br>ICD9:278疾患に対する252件のリンク | [ダウンロード](https://drive.google.com/file/d/11V1H-9ZDKyMK88rEveigms6omGvvFfzg/view?usp=share_link) | [TogoDXリンク](https://togodx.dbcls.jp/human/?dataset=nando&annotations=%5B%7B%22attributeId%22%3A%22disease_diseases_mondo%22%7D%5D&filters=%5B%7B%22attributeId%22%3A%22disease_diseases_nando%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%221000001%22%7D%5D%7D%2C%7B%22attributeId%22%3A%22disease_related_dbs_mondo%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%22Orphanet%22%7D%2C%7B%22node%22%3A%22DOID%22%7D%2C%7B%22node%22%3A%22OMIM%22%7D%2C%7B%22node%22%3A%22GARD%22%7D%2C%7B%22node%22%3A%22ICD9%22%7D%2C%7B%22node%22%3A%22OMIMPS%22%7D%5D%7D%5D) |
---
<br><br>
## Step-by-step tutorial
* 俯瞰ビューで例えば染色体のバーを見てみる。各染色体の遺伝子数などの、内訳が読み取れる (X染色体 2,481件など) 。Boxの幅は内訳の数に比例する。

* 内訳の少ないものも見るには、Log scaleにチェックを入れてboxの幅を以下のように変える。

あるいは、バーの名前をクリックしてAttributeを下に展開する。例えばChromosomeというところをクリックすると、染色体リストが下に展開して内訳の少ないものまで確認できる。

* 展開した内訳をスクロールすると、MT (ミトコンドリア) 37件などがある。これに対応する遺伝子のリストを見るには、MTにチェックを入れ、View resultsをクリックする。

以下のように、結果がテーブルで表示される。

左端のカラムは、Ensembl gene IDになっている。
* 例えばNCBI gene IDに変更するには、右上のReturnをクリックして俯瞰ビューに戻ってから、Select target datasetのプルダウンメニューでNCBI geneを選択すればよい。

View resultsで結果を見に行くと、Ensembl gene IDとNCBI gene IDと間で変換が行われ、今度はNCBI gene IDをキーとしたテーブルが現れる。

UniProt IDなど様々なものをキーとして選ぶことができる。
* 上記MT 37遺伝子を対象として、別の軸での分類を行ってみる。Map attributesでGene biotypeバーを選択して、結果を見る。37遺伝子についてGene biotypeの内訳がヒストグラムで表示される。protein coding 13、tRNA 22、rRNA 2 となっている。


* Attributeをいくつか追加してみる。俯瞰ビューに戻り、Map attributesでProtein domainsバーと、DiseaseのPhenotypic anormalityバーを追加する。結果を見ると、MTの13個のタンパク質の全てが、Transmembraneドメインを持っている。それらの多くは、眼の表現型異常に関わっている。

* ここでfilterを変えてみる。Condition builderでClearを押してから、Add filtersでChromosomeバーのX、DiseaseのPhenotypic anormalityバーにあるAbnormality of the eyeを選択する。その結果、遺伝子3つが出てくる。

結果のテーブルの中にあるHPOのID`0007939`をクリックすると、ポップアップウィンドウで詳細情報を見ることができる。OPN1LW (赤オプシン)とOPN1MW (緑オプシン)は、Blue cone monochromacyに関係していることが分かる。

* 今度は、病気のバーから検索を開始してみる。難病の原因遺伝子が、どの染色体にコードされているかを見てみる。Condition builderをClearしてから、Add filtersでDiseases in NANDOバーに含まれるトップレベルの2つのボックスにチェックを入れる。Map attributesでChromosomeのバーを選択する。その結果、難病に関わる630遺伝子について、染色体ごとのカウントが出る。

テーブル左上にあるラジオボタンでHits/All(%)を選択すると、ヒストグラムの表示が変わり、MTに対するカウント22は59%という割合に変わる。これは、22/37=59%を意味している。MTに濃縮していることが分かる。

---
<br><br>
## Case 2: 子宮頸がんで発現変動する遺伝子から、マーカーの候補となる偽遺伝子を探索する
[Zhu et al. (2022)](https://cancerci.biomedcentral.com/articles/10.1186/s12935-021-02440-7) は、HPV 陽性型子宮頸がんの発症に関与する因子の候補として偽遺伝子TCAM1P を同定した。
この報告では以下のような手順で TCAM1Pを得ている。
- TCGA のデータから、子宮頸がんで発現変動する遺伝子を取得
- そのうち偽遺伝子を抽出
偽遺伝子は、当初は機能を失った領域と考えられていたが、ncRNA として機能を持つものなどが存在することが次第に明らかになってきた。[Cheetham et al. (2020)](https://www.nature.com/articles/s41576-019-0196-1) のレビューでは、偽遺伝子としてアノテーションされているがゆえに詳細な解析の対象外になってしまった領域が存在することを指摘している。疾患における発現変動偽遺伝子を調べることで、疾患の機序を理解するのに重要な因子でありながら今まで見逃されていたものを発見することができる可能性がある。
- さらにGTEx のデータから、遺伝子発現の組織特異性の指標であるtau 値が高いものに絞り込む。
cancer/testis antigen (CTA) と呼ばれる、がんで発現が見られるが正常組織では精巣でしか発現していないタンパク質というものがある。膜上に抗原として提示されていると免疫療法の標的として都合が良い。今回探索の対象としているのは ncRNA であるが、マーカーとして同じようなメリットがあることを期待してこの基準で絞り込みを行っている。
絞られたもののうち、TCAM1P は tau > 0.99 で特に高く、かつ高発現しているのが精巣であった。
- 子宮頸がんを調べた他のデータセットを GEO で探し、発現変動偽遺伝子の一致を調べる
共通して得られたのは TCAM1P だけだった。
これらのことから TCAM1P を有力な候補として定め、in vivo での解析へと進めている。
以下ではこの絞り込みの部分の再現を TogoDX で試みる。
### 検索方法の組み合わせ
- Select target dataset
- Ensembl gene
- Add filters
- Gene / Gene biotype / pseudogene 系全部
- Gene / Tau index / 0.99 - 1
- Gene / Tissue-specific high expression (GTEx) / Testis
- Map your IDs
[GEPIA2](http://gepia2.cancer-pku.cn/#degenes) で、CESC (Cervical squamous cell carcinoma and endocervical adenocarcinoma) で発現上昇する遺伝子 5762 個を取る。パラメータはデフォルト。
### 結果
TCAM1P を含む 4 つの偽遺伝子に絞り込むことができた。

## Case 2(修正案): cancer/testis antigen (CTA)と同じ発現パターンを示す偽遺伝子を探索する
### 目的
cancer/testis antigen (CTA)と同様の発現パターンを示す偽遺伝子を探索し、偽遺伝子が関与する発がんの病理を解明するための候補としたい。
### 背景
子宮頸がんに関与するタンパク質として cancer/testis antigen (CTA)が知られている (Kulkarni et al. (2012))。CTA はがん組織と精巣のみで発現していることから、がんの免疫療法において副作用の心配がないターゲットタンパク質と言われている。一方、機能を持つ偽遺伝子の存在が次第に明らかになってきた(Cheetham et al. (2020))。CTA と同じ発現パターンと病理を持つ偽遺伝子を探索して新たな免疫療法のターゲットを発見したい。偽遺伝子TCAM1Pは有望な候補である([Zhu et al. (2022)](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8753837/))。
### TogoDX 上での操作:
以下の条件 1 から 3 までが CTA の性質を記述している。
- 条件 1. 子宮頸がんで発現が上昇している
対応する操作:GEPIA2 で、CESC (Cervical squamous cell carcinoma and endocervical adenocarcinoma) で発現上昇する遺伝子 5762 個を Map your IDs に入力する。
- 条件 2. 正常組織では精巣で発現している
対応する操作:Add filter に Gene / Tissue-specific high expression (GTEx) / Testis を追加する。
- 条件 3. 正常組織では特定の組織以外では発現していない。条件 2 との AND なので精巣に限定される。
対応する操作: Add filter に Gene / Tau index / 0.99 - 1 を追加する。
- 条件 4. 偽遺伝子である
対応する操作:Add filter に Gene / Gene biotype / pseudogene 系を全部追加する。
### 結果
TCAM1P を含む 4 つの偽遺伝子に絞り込むことができた。