# A deep learning method for HLA imputation and trans-ethnic MHC fine-mapping of type 1 diabetes
## 書誌情報
- Nature Commmunications (12 March 2021)
- **著者**:Tatsuhiko Naito, Ken Suzuki, Jun Hirata, Yoichiro Kamatani, Koichi Matsuda , Tatsushi Toda, Yukinori Okada (医科歯科大のチーム)
- [論文リンク](https://www.nature.com/articles/s41467-021-21975-x),[Supplementリンク](https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-021-21975-x/MediaObjects/41467_2021_21975_MOESM1_ESM.pdf)
## 概要
- HLA(Human Leukocyte Antigen=ヒト白血球抗原)のgenotypeを推定する深層学習モデル:DEEP\*HLAを作成した
- 日本人とヨーロピアンのHLA reference panelデータで評価を行ったところレアなアレルに対して既存手法よりもかなり高い予測精度を示した。
- DEEP\*HLAを1型糖尿病のGWASデータに適応すると日本人集団と欧米人集団とで共通した発症リスクを有するHLA遺伝子配列を発見できた
## 本論文の選定理由
- genotype,SNP等に関する自分の知識が曖昧だったので整理したかった
- 深層学習でSNPを扱う方法を学びたかった
## 背景
### HLA遺伝子とは
第6染色体短腕にある遺伝子。MHC(Major Histocompatibility Complex:主要組織適合性遺伝子複合体)領域に存在し,HLAをコードしている.(古典的HLA,非古典的HLA,HLA様遺伝子)
### HLAとは
- Human Leukocyte Antigen:ヒト白血球抗原.ほぼ全ての細胞表面に存在し,免疫に関わる。
- 関節リウマチ(RA)や1型糖尿病など多くの疾患に関連している。
- 薬剤に対する反応がHLA遺伝子型によって異なる。
- HLA遺伝子型と疾患の相関が民族によって異なる。
- たとえばAsp57が無いHLA-DQB1はヨーロピアンでは1型糖尿病(T1D)との強い相関があるが、日本人では相関が見られない
**→transethnicなリスクアレルの解明によってMHC領域の遺伝的構造がより理解できるようになる。**
### HLAアレルの表現方法

[参考リンク](http://plaza.umin.ac.jp/~yokada/yokada.files/HLAimputation_Okada_20141121.pdf)

[参考リンク](https://www.jstage.jst.go.jp/article/mhc/23/3/23_185/_pdf/-char/ja)
- 第1区域はHLA抗原型に対応する数字(HLA特異性)
- 第2区域はアミノ酸配列の違いごとのタイプ(血清学的に抗原型は同じ)
- ここまでで、HLA遺伝子の特定のアミノ酸配列を表現できる=4 digit
- 第3区域はエクソン内にあるアミノ酸配列を変えない塩基の同義置換
- 第4区域はエクソン以外の塩基置換で区別されるアレル
- 最後にN(null)がある場合は塩基置換や欠損によって終始コドンが生じてアミノ酸翻訳が途中で終わってしまうアレルを意味する。→細胞表面にHLA分子が発現しなくなってる。。
### HLA imputation
- HLA遺伝子のタイピングには高額のアッセイと時間が必要(=~10万円/sample)
- 通常のSNPジェノタイプデータからHLA遺伝子多型をin sillicoかつ高精度で推定可能になる。→コスト削減
- 深層学習を用いない既存手法ではレアアレルに対する予測精度が低かったり、MHC領域固有の連鎖不均衡(Linkage disequibrium)の問題をモデルに組み込めていなかった

## 用語整理
- 座位(locus):相同染色体上の遺伝子がある場所のこと。
- アレル(allele):相同染色体上の対になってる部分
- ハプロタイプ(haplotype):アレルの組み合わせ
- HLAはプロタイプはHLA-A,C,B,DR,DQ,DPのタイプの組み合わせということ
- ディプロタイプ(diplotype):ハプロタイプの組み合わせ
- 遺伝型(genotype):ある座位のアレルの組み合わせ
- SNV:single nucleotide variant.特定の生物種集団について塩基配列を解析したとき、頻度に関わらず存在する変異。
- SNP:single nucleotide polymorphism,一塩基多型.1%以上の頻度で変異が認められたSNV.
- LD:Linkage Disequiblium,連鎖不均衡.染色体組み替えの際にアレル同士の移動の仕方が独立でないこと

[参考リンク](https://www.dynacom.co.jp/product_service/packages/snpalyze/sa_t1_basic_01.html)
## 手法
### データ
- 日本人のリファレンスパネル(n=1,118),33種類のHLA遺伝子に関するデータ + 日本人の個人データ(n=908),SSOで同定された8種類のHLAに関する4digitのデータ
- T1FGC(Type 1 Diabetes Genetics Consortium):ヨーロッパ人のreference panel (n=5,122).
- SSO(sequence specific oligonucleotide)で同定された8種類のHLA遺伝子アレルデータ

### モデル
**Input形式**
- 物理的に近い距離にあるHLA遺伝子を4つのグループに分類(LDを活かす)
- ハプロタイプ全体のSNVデータ
- マイナーなSNVを[1,0],メジャーなSNVを[0,1]としたbinary vector

- CNNベースのマルチタスク学習
- 入力グループ全体を処理するShared Netと,各HLA遺伝子ごとに細かい型の確率分布を出力するEach Netから成る。
## 実験
**評価指標**:4種類
Sensitivity,Positive predictive value(PPV),$R^2$,Concordance rate
**比較手法**
- **HIBAG** (HLA Genotype Imputation with Attirubute Bagging):HLAアレルの尤度を推定するEMベースの分類器
- **SNP2HLA**
### 実験1
- 日本人リファレンスパネル(n=1,118)に対してDEEP\*HLAを適用。比較手法とtotalのaccuracyはそこまで差が出なかったが、rare allele (freq<1%)に対する予測精度は既存手法を大きく上回った。
- 日本人のindivisualデータ(n=908)ではDEEP\*HLAの既存手法との予測精度の優位性がより明確になった。

- EuropianのT1DGC リファレンスパネルに対しても同様の実験を行い、DEEP\*HLAの性能が既存手法より高いことがわかった。

### 実験2
- 実験1と同じデータに対して8つの代表的なHLA遺伝子に対してそれぞれに対する予測精度を確かめた。
- DEEP\*HLAがほとんどのHLA遺伝子に対して最も高い正解率と最も低いvarianceを出していると言える。

### 実験3
- HLA imputationにおけるリファレンスパネルとターゲット集団の民族的違いの影響を調べるため、1000genome projectのデータ(1KGv3)を使って評価を行った。
- 日本人のリファレンスパネルのみで学習し、1KGv3の様々な民族に対してimputationした。結果、DEEP\*HLAが一番精度は高かったが全ての比較手法でレアアレルに対しての予測精度も高かった。またJPT以外の他の民族グループに対しては全て実用的な精度に達しなかった(EAS:East Asiaでも低かったのは意外)
- JPT以外で既存手法に負けてるのは、DEEP\*HLAがJPTに対して過学習してしまっているからだと考えられる。
- Europianのリファレンスパネルと混ぜて学習、同じデータに対してimputationすると全ての民族に対して大幅に予測精度上がった。
- EURに対しても一番高いスコアになった。

### 実験4:Transethnic MHC fine-mapping of T1D
- JapaneseとEuropianの混合リファレンスパネルで学習したDEEP\*HLAをBBJとUKBのT1D GWASデータに対して適応した。
- GWASデータへのimputationをまずはコホート別に行い、その結果を統合することでtransethnicなMHC fine-mappingを行った。
- 関連解析の結果、HLA-DRβ1の71番目アミノ酸変異体がT1Dに最も優位に関連していると確認された。これは既知の結果と一致する。
- この変異と密接に関連する他のHLA変異をstepwise condition association analysisによって探索したところ,HLA-DQβ1の185番目アミノ酸、HLA-DQβ1の30番目アミノ酸,HLA-DRβ1の74番目アミノ酸,HLA-DQβ1の70番目アミノ酸の順に関連度が高かった。←これは既知のアレル変異セットとは異なっていた。
- Transethnic fine-mappingの利点を示すために、コホートごとのfine-mappingも行った。
- BBJではHLA-DQB1の185番目aa, UKBではHLA-DRB1の71番目aaがそれぞれT1Dと最も有意に関連していることが出力された。**←ここまではtransethnic解析と同じ。**
- 関連性topの変異からの条件付き解析では関連する別の変異を特定できなかった。
- transethnic解析の結果、集団間の異なるLDパターンを調べることによって、より有意性のある多くの変異体セットを見つけることができる。



## 感想/その他
- なぜSNP解析よりもHLAタイピングの方がコストがかかるのか
- japaneseとeuropianでgenotypingに使ってるプラットフォームが違うのは大丈夫なの?
- アレル頻度=1(100%)ってどういうこと?
- 日本人とeuropianのリファレンスパネル混ぜると他の民族に対しての予測精度も上がるのは面白かった。ただサンプル数が増えた影響だけかも
- stepwise condition association analysisは何してるのかよくわからなかった。