# Vaxign-ML: supervised machine learning reverse vaccinology model for improved prediction of bacterial protective antigens
https://academic.oup.com/bioinformatics/article/36/10/3185/5756199?login=false
## Abstract
* Vaxign-ML
* 預測細菌保護性抗原(bacterial protective antigens; BPAgs)而設計的監督式機器學習(ML)分類方法,用於反向疫苗學(RV)。
## Introduction
* 反向疫苗學(RV)
* 1990 : B型腦膜炎球菌的整個基因組序列確定腦膜炎球菌蛋白疫苗候選者
* 用生物信息學方法選擇和驗證了28個免疫原性蛋白質,隨後進行實驗驗證
* RV 預測程序的創建 : 僅使用生物特徵作為數據輸入
* RV 程序可以根據算法方法或輸入特徵類型進行特徵化
* 基於規則的過濾
* NERVE / Vaxign
* 10多種病原細菌的疫苗設計研究,如幽門螺旋桿菌、鮑氏不動桿菌和分枝桿菌屬
* Jenner-predict/ VacSol
* 機器學習(ML)分類
* VaxiJen
* 擴展了 VaxiJen 的訓練數據並修改了 ML 算法
* 最終訓練數據
* 200個細菌保護性抗原(BPAgs)和200個非保護性蛋白質
* 非保護性:如果該蛋白質與BPAgs沒有同源性(BLASTp),則選擇該蛋白質
* ANTIGENpro
* 早先提到的所有ML RV程序都不是設計用於預測"真核疫苗候選物"的
* Goodswen : 第一個並且唯一的針對真核病原體的ML RV
* 由於缺乏報告的真核PAgs,這項研究將表面暴露並且至少有一個T細胞表位的蛋白質視為陽性樣本。這些收集的數據可能缺乏支持的實驗證據
* 具有表位的蛋白質並不保證該蛋白質能夠引起保護性免疫反應
* Protegen
* 手動收集了590個PAgs,涵蓋了由病原體(細菌、病毒和寄生蟲)引起的100多種傳染性疾病,以及包括癌症和過敏在內的非傳染性疾病
* 這些收集的PAgs中的每一個都是能夠引起保護性免疫反應的抗原,並且至少有一種實驗室動物模型已經進行了實驗驗證
## Method
* DataSet
* 正樣本和負樣本從Protegen和Uniprot中下載並處理
* Protegen數據庫(Yang等,2011)中下載了具有支持實驗證據的BPAgs
* 50種Gram陽性和Gram陰性病原細菌的584個BPAgs
* 具有30%以上序列相似性的BPAgs被視為同源蛋白質,這是同源蛋白質的常用閾值& 並且被從研究中刪除
* 最終正樣本包括397個BPAgs
* 為這些蛋白質序列註釋了生物和生理化學特徵
* 特徵(509個生物學和理化特徵)
* 生物學特徵
* Gram(6)染色、亞細胞定位(Yu等,2010)、黏附概率(Sachdeva等,2005)、跨膜螺旋(Krogh等,2001)、信號肽(Petersen等,2011)和免疫原性(Fleri等,2017)
* 理化特徵
* 轉換和分佈(Dubchak等,1995)、拟序列順序(Chou,2000)、Moreau-Broto自相關(Feng和Zhang,2000;Lin和Pan,2001)和Geary自相關(Sokal和Thomson,2006)
* 電荷、親水性、極性和溶劑可及性等各種理化性質
* Model
* 包括邏輯回歸(LR)、支持向量機(SVM)、k-最近鄰(KNN)、隨機森林(RF)(Pedregosa等,2012)和極端梯度提升(XGB)(Chen和Guestrin,2016)
# Vaxign-DL: A Deep Learning-based Method for Vaccine Design and its Evaluation
https://www.biorxiv.org/content/10.1101/2023.11.29.569096v1.full.pdf
## Abstract
* Vaxign-DL
* 深度神經網絡使用階層結構的層次來組裝非線性模型
* 通過學習數據的多層抽象,提供了計算設計模型中的數據驅動方法
* Vaxign-DL 使用一個三層完全連接的神經網絡模型
* 使用與 Vaxign-ML 開發中使用的相同的細菌疫苗候選者訓練數據
## Introduction
* 疫苗的工作原理是通過呈現一種蛋白質給免疫系統
* 選擇的蛋白質,稱為保護性抗原,通常是由負責引起傳染病的生物體產生的
* 內源性蛋白質改造的保護性抗原
* 對保護性候選者進行體外分析的使用被稱為反向疫苗學(RV)
* 過濾
* NERVE * Vaxign -> 僅根據一組特定標準評估給定的保護性抗原,以建議其是否是一個良好的疫苗抗原靶點
* Vaxign工具會在發現高數量的跨膜螺旋時過濾蛋白質
* 單獨評估每個標準,而不是整體考慮,可能導致數據的錯誤分類
* 機器學習
* Vaxign-ML和Vaxi-DL
* 機器學習能夠查看相同的輸入集並提供更全面的預測。
* Vaxign-ML使用了一套實驗驗證的保護性抗原的黃金標準集
## Method
* DataSet
* 從先前為 Vaxign-ML 生成的數據集中分配了正類和負類
* 從 Protegen(Positive)和 UniProt(Negative) 數據庫中檢索和處理這些序列->利用公開可用的生物信息學軟件對這些蛋白質序列的生物和理化屬性進行了注釋
* 由於數據集中存在固有的類不平衡,我們採用了多種抽樣策略
* 397 個正樣本實例和 3,970 個負樣本實例(+:− = 1:10)
* 509 個不同的特徵。這些特徵包括生物和理化特徵
* 一列表示是否為 Gram+ 或 Gram- 細菌來合併 Gram+ 和 Gram- 細菌數據
* 革兰氏阳性细菌: 这类细菌的细胞壁较厚,含有大量的葡聚糖和胺基葡聚糖。革兰氏阳性细菌在革兰氏染色中呈紫色。
* 革兰氏阴性细菌: 这类细菌的细胞壁相对较薄,主要由脂多糖和一些葡聚糖组成。革兰氏阴性细菌在革兰氏染色中呈红色。
* 特徵中的大多數對應於給定序列的物理性質,即分子的疏水性、平均靈活性、極化能力、可變性、自由能、殘基體積、立體壓力和分子的溶劑可及性的預測。其餘的主要特徵是生物學預測,包括 6 個可能的細胞外位置的定位概率、使用 TMHMM(12)預測跨膜螺旋,以及黏附素概率(13)。
* Benchmark
* https://github.com/VIOLINet/Vaxign-ML-docker/tree/master/Benchmark
* 131個陽性的保護性抗原(59個Gram+抗原和72個Gram-抗原)
* 115個陰性抗原(40個Gram+抗原和75個Gram-抗原)
* 這些蛋白質是從Dalsass等人(2019年)(15)和Heinson等人(2017年)(16)那裡整合過來的。
* 我們通過添加一個名為Gram染色的新特徵,將Gram+和Gram-數據集合併在一起
-------------------------------------------------------------------------
# Allergry & toxicity
# AlgPred 2.0: an improved method for predicting allergenic proteins and mapping of IgE epitopes
* AlgPred 2.0是一個用於預測蛋白質中過敏原蛋白和過敏原區域的網絡伺服器
* 用於訓練、測試和驗證的數據集包括10,075個過敏原和10,075個非過敏原
* 使用了10,451個實驗驗證的免疫球蛋白E(IgE)表位來識別蛋白質中的抗原區域
* 驗證
* 對數據集進行了基本局部比對搜尋工具(BLAST)搜索
* 已知過敏原的相似性水平預測了過敏原
* 從IEDB數據庫獲取的IgE表位在數據集中進行搜索,以根據它們在蛋白質中的存在預測過敏原
* 使用基於模式的方法,如多重EM用於模式誘導/模式對齊和搜索工具,來預測過敏原
## Introduction
* 像塵蟎、花粉等過敏原引起的I型過敏反應引發免疫球蛋白E(IgE)抗體。這種過敏反應導致炎性介質(如組織胺、來自肥大細胞和嗜碱性粒細胞的細胞因子)的釋放
* 對過敏原的第一次接觸引發了過敏反應
* 有各種分子可以充當過敏原,包括小的化學物質或生物分子,如蛋白質。
* 相同過敏原的第二次接觸導致效應器反應
* I型過敏反應是由免疫球蛋白E(IgE)介導的,它被產生以對抗過敏原。過敏原引起I型過敏反應,這導致過敏原特異性IgE表位的產生。
* 表位與肥大細胞和嗜碱性粒細胞結合
* 再次將過敏原暴露給已經被IgE抗體包覆的敏化肥大細胞和嗜碱性粒細胞會導致顆粒脫顆,釋放介質和組織胺、白三烯等炎症分子,這導致從輕微過敏反應到突然死亡的過敏性休克
* 
* Recognition of Allergen by Antigen-Presenting Cells (APCs):
過敏原首先被抗原呈現細胞(APCs)識別,這些細胞包括樹突細胞、巨噬細胞和B淋巴細胞。
* Antigen Processing and Presentation:
APCs處理和呈現過敏原,將其片段呈現在細胞表面的主要組織相容性複合物(MHC)分子上。
* Activation of T Helper Cells:
活化的T輔助細胞(Th細胞)與APCs相互作用,進一步激活和調節免疫反應。
* Differentiation of B Cells into Plasma Cells:
Th細胞刺激B淋巴細胞,導致它們分化為漿細胞。
* Production of Immunoglobulin E (IgE) Antibodies:
漿細胞產生免疫球蛋白E(IgE)抗體,這些抗體專門針對特定的過敏原。
* Binding of IgE to Mast Cells and Basophils:
IgE抗體結合到肥大細胞和嗜碱性粒細胞的表面,這稱為敏化。
* Sensitization of Mast Cells and Basophils:
肥大細胞和嗜碱性粒細胞被敏化,即它們的表面覆蓋著IgE抗體。
* Reexposure to Allergen:
當再次暴露於相同過敏原時,這次與敏化的細胞相互作用。
* Degranulation and Release of Mediators:
敏化的肥大細胞和嗜碱性粒細胞脫顆,釋放包括組織胺、白三烯等炎症介質的顆粒。
* Inflammatory Response:
釋放的介質引起炎症反應,導致過敏症狀,如皮膚紅腫、呼吸困難等。
* 方向
* 局限性
* 相似性搜索
* 監督學習的模型
* 模式的方法
* 方法
* AlgPred:
* 基於支持向量機(SVM)的模型
* IgE表位的映射
* 模式引發的多重EM(MEME)/模式對齊和搜索工具(MAST)模式
* 基於基本局部比對搜索工具(BLAST)的相似性搜索 '
* AllerTool:
* SVM + 相似性
* 預測蛋白質的過敏原性和過敏性交叉反應
* AllerHunter
* 1356個過敏原蛋白進行建模,使用SVM對成對的序列相似性進行建模
* PREAL
* 1176個過敏原蛋白的生化和物理化學特性開發了SVM模型
* AllergenFP
* 描述符指紋的2427個過敏原數據集上開發,用於建立預測模型
* AllerCatPro
* 在4180個過敏原上開發,用於從其序列和3D表位映射中預測蛋白質的過敏原潛力
* 侷限性
* 大多數方法都是在小數據集上開發的
* 數據集中存在冗余蛋白質
* 沒有IgE表位的映射
* 沒有納入模式信息
* DataSet(過敏原)
* COMPARE(https://comparedatabase.org)
* 2018個過敏原
* Allergen Online
* 存儲庫提取了2078個過敏原
* AlgPred
* 570個過敏原和700個非過敏原
* AllerTOP
* 2427個過敏原和2427個非過敏原
* Swiss-Prot
* allergen AND reviewed: yes -> Positive
* 小於50個氨基酸的蛋白質,以及具有與過敏原序列相似性的非過敏原序列均被刪除
* NOT allergen NOT cancer NOT allergenic AND reviewed: yes -> Negative
* 消除redundent

* Mapping of epitopes
* 映射IgE表位可以用於將任何蛋白質識別為過敏原
* IgE表位負責誘導抗體,這反過來在動物體內引起過敏反應
* Source
* 來自IEDB 的15,046個 + 381,196個和35,219個非IgE表位
* AllerBase 的863個
* IgPred [31] 的2341個
* 映射IgE表位
* 基於BLAST的搜索
* 我們將蛋白質與IgE表位的數據庫進行搜索。如果對給定期望值(E值)截止值的IgE表位存在擊中,則將查詢蛋白質分配為過敏原
* BLAST的最佳匹配
* BLAST在不同的E值截止值下將蛋白質搜索到過敏原或非過敏原的數據庫。如果BLAST的最佳匹配是與數據庫的過敏原序列相匹配,則將蛋白質分配為過敏原
* 我們對正確的陽性預測(過敏原蛋白質)分配了“+0.5”的分數,對正確的陰性預測(非過敏原蛋白質)分配了“-0.5”的分數,對沒有擊中的情況分配了“0”的分數。
* BLAST的前五個最佳匹配的集成
* 我們考慮了一種投票方法來注釋查詢蛋白質。如果與查詢蛋白質序列相對應的至少有五個或更多的擊中,則我們將其視為擊中
* 基於模式(Motif)的方法和類別(class)識別(MERCI)
* MERCI軟件來識別在實驗驗證的IgE表位中存在的模式
* 使用MERCI對相同的蛋白質序列進行分類。如果找到了模式,我們分配了“+0.5”的分數,如果未找到模式,則分配了“0”的分數。
* MEME
* 套件允許發現新的模式並執行各種基於模式的分析
* 模式表示為位置依賴的字母概率矩陣,該矩陣描繪了模式中每個位置上每個可能字母的出現概率
* FASTA格式的主要序列文件(訓練集)為輸入,並使用統計建模技術生成包含多個所需模式的輸出文件
* MAST
* MAST [13]模塊用於搜索與一組模式(從MEME的輸出中獲得)的匹配。它以MEME的輸出文件為輸入,並在MEME矩陣上擊中查詢文件(測試集)以搜索模式的匹配
* Feature
* Composition-based features
* 氨基酸組成(AAC)
* 給定的蛋白質序列,AAC提供一個20長度的向量,其中每個元素是序列中特定類型的氨基酸殘基的分數
* 二肽組成(DPC)
* DPC以一個400長度的特徵向量的形式提供了蛋白質序列中氨基酸的成對組成信息(例如A-A,A-C,A-D....Y-W,Y-Y等)
* Evolutionary information-based features
* PSSM-400(20*20) : PSI-BLAST
* 它包含了相對於給定蛋白質序列中的每個氨基酸的每種類型的20個氨基酸的發生次數組成
* 每個蛋白質創建了一個PSSM矩陣
* Model
* 
# ToxinPred2: an improved method for predicting toxicity of proteins
* ToxinPred2的基於Web的工具,用於預測蛋白質的毒性
* 基於基本局部比對搜索工具(BLAST)的相似性
* 基於模式類別識別的Motif-EmeRging
* 相似性和基於模式的技術實現了正確預測的高概率,但靈敏度/覆蓋率較差
* 預測模型
* 平衡靈敏度和特異性
* 毒素是具有對生物體產生有害效應潛力的物質
* 自然存在於植物中,也可以由動物(蛇、蜘蛛、錐螺)和不同類型的微生物(如細菌、真菌,以增強其致病性)產生
* 無論是自然的還是合成的,只要個體暴露於它們,就可能導致不良的健康效應
* 特定細菌物種(如肉毒桿菌、霍亂弧菌、破傷風梭菌)的毒素會引起致命的疾病
* 霍亂、破傷風梭菌引起破傷風
* 蠍毒液可能過度刺激神經信號,導致麻痺
* 蛇毒液可能是神經毒性的,引起神經肌肉麻痺,同時還損害循環系統
* 毒素通常是蛋白質、肽和化學物質等大分子

## 過去方法
* 廣泛"專門"用於某些動物來源的毒素
* BTXpred [16] 和 NTXpred : 細菌毒素和神經毒素
* ClanTox : 主要蛋白質序列的動物毒素分類器
* ToxClassifier : 毒液毒素
* 深度學習:TOXIFY和ToxDL
* TOXIFY可用於將動物毒液蛋白分類為非毒性蛋白,而ToxDL可用於評估動物源蛋白的毒性
* 通用的方法
* ToxinPred:向量機(SVM)的方法,利用多種特徵,如氨基酸組成(AAC)、二肽組成以及從序列中導出的毒性基序/區域
* NNTox是一種基於機器學習的方法,用於基於多種基因本體學注釋來檢測蛋白質的毒性
* ATSE和ToxIBLT,用於使用序列的結構、演化和物理化學特性來預測蛋白質/肽的毒性
## DataSet
* UniProt
* toxin AND reviewed: yes : 正數據集
* 丟棄了包含‘BJOUXZ’,小於35個氨基酸以及與有毒序列相似的非有毒序列的所有蛋白質序列
* NOT toxin NOT allergen AND reviewed: yes : 負數聚集
* 長度小於35個氨基酸且具有非標準字符的序列
## Tool
* Blast : 和上面差不多
* Motif : 和上面差不多
## Feature:
* Composition-based features : 9163 features
* Evolutionary information-based features:
* PSSM
## Model
* 
---------------------------------------------------------
# DeepAlgPro: an interpretable deep neural network model for predicting allergenic proteins
* 深度神經網絡的模型,稱為 DeepAlgPro
* 蛋白(IgE)介導的I型過敏反應,當敏感的個體再次接觸相同的過敏原時,該反應在幾分鐘內發生,然後通過表位與特定的IgE結合。目前可用的診斷和治療方法旨在緩解症狀,但藥物無法長期緩解過敏性疾病 [4]。因此,IgE介導的這種I型過敏反應的預防原則是識別過敏原,避免再次接觸,切斷或干擾超敏反應過程中的連接,以終止後續反應
## 過去方法
* 僅使用基於序列相似性的方法時
* 方法
* 第一個是使用窗口覆蓋 80 個氨基酸進行滑動搜索,並將相似性 35% 視為相同的標準
* 評估短鏈氨基酸並評估新蛋白質是否包含與已知過敏原相同的 6-8 個連續氨基酸( 6-8 mers 命中)
* 缺點
* 對於與現有數據庫中已知過敏原相似性較小的新過敏原可能被遺漏
* 通過使用相似性方法,許多蛋白質可能會被錯誤地標記為過敏原,導致有效資源的浪費
* 根據WHO/FAO提出的原則預測的 200 個可能過敏原中,實際上只有一個是過敏原
* 生物信息學和機器學習的過敏原預測工具
* 方法
* AllerHunter將配對序列相似性視為特徵,並使用支持向量機進行分類
* AllergenFP [11] 和 AllerTop v.2 [12] 都使用氨基酸 E 描述符表示蛋白質,前者使用指紋方法進行分類,而後者使用各種機器學習方法進行分類 並證明了K最近鄰(KNN)的性能最好
* AllerCatPro [13] 在 2019 年開發,將 k-mer 命中原則和表位信息結合起來預測過敏原,已升級到 2.0 版本以實現更準確的預測
* 當BLAST搜索、基序豐富度和 Motif EmeRging and with Classes Identification 未能命中表位數據集時,AlgPred 2.0 使用隨機森林(RF)模型預測蛋白質的過敏性
* Nedyalkova 等人 [16] 提出了一種新的化學計量學方法來探索食品蛋白質的過敏性,發現支持向量機(SVM)是最好的分類器
* 缺點
* 當前用於識別過敏原的機器學習方法相對較淺,是在小數據集上開發的
* 難以應用於廣泛的野外大規模過敏原
* 深度學習
* Wang
* comparative analysis of novel deep learning and ensemble learning models to predict the allergenicity of food proteins
* 進行了一項使用基於Transformer的深度學習和集成學習模型來識別食物過敏原的比較分析,比較了它們各自的優勢
* 僅針對食物過敏
* ProAllD
* E描述符來描述蛋白質並利用長短時記憶(LSTM)來識別過敏的深度神經網
## DeepAlgPro
* 卷積神經網絡(CNN)與多頭自注意(MHSA)結合的模型,適用於大規模過敏原的預測
## DataSet(過敏原)
* 3550個過敏原和3550個非過敏原
* 已存在資料集
* SDAP
* IUIS過敏原命名法
* COMPARE
* UniProt
* allergen AND reviewed: yes AND Protein Existence: Evidence at protein level (Pos)
* Protein Existence: Evidence at protein level NOT allergen NOT allergenic NOT allergy NOT cancer NOT antigen AND reviewed: yes (Neg)
* 先前研究中使用的數據集
* AllerTOP v.2的2427個
* AlgPred 2.0的10,075個過敏原
## 模型
* Encoding Layer
* 該模型將蛋白質序列轉換為一個N × L維度的矩陣,其中L是最長的序列長度,為1000,N對應於20種標準氨基酸,0則用於填充。
* 卷積層 + ReLu + 最大池層
* (in_channels: 21, out_channels: 16, stride: 1, kernel_size: 5)
* MHSA機制 + Sigmoid
* 8個heads和24個隱藏層
* 全連接層,將輸出轉換為介於0和1之間的值
* 
* BCELoss
* batch_size = 72 learning rate = 0.0001 and epochs = 120
## 其他機制
### 尋找關鍵區域
* Gradient-weighted Class Activation Mapping (Grad-CAM)
* Grad-CAM權重高於最大值80%的位置的上游和下游七個氨基酸
* MEME 5.5.0
* 廣泛存在的motifs(-nmotifs 200)
* AllerBase、IgPred和免疫表位數據庫(IEDB)中收集線性表位序列,並使用MEME 5.5.0(-evt 0.05)尋找motifs
* Tomtom 5.5.0比較上述找到的motifs
----------------------------------------------------------------
# AllerCatPro—prediction of protein allergenicity potential from the protein sequence
# AllerCatPro 2.0: a web server for predicting protein allergenicity potential
* AllerCatPro 2.0通過使用蛋白質的氨基酸序列和預測的3D結構之間的相似性,預測輸入蛋白質之間的相似性
* 過敏原蛋白質需要被T和B細胞識別,以觸發對蛋白質特定IgE的產生,和/或它們需要與體內巨噬細胞或肥大細胞上的IgE產生反應,以觸發IgE介導的過敏反應的引發。
* 世界衛生組織/國際免疫學會(IUIS)、綜合蛋白質致敏原資源(COMPARE)、食物過敏研究與資源計劃(FARRP)、UniProtKB和Allergome等數據庫的專家精心編輯的
* 
* 4979個蛋白質致敏原、162個低致敏原蛋白質和165個自體免疫致敏原的廣泛數據集實現的
* 並在命中的情況下 最相似的致敏原的詳細結果
* 交叉反應
* 蛋白質信息(UniProt/NCBI)
* 功能性(Pfam,InterPro,SUPFAM)
* IgE患病率的臨床相關性(Allergome)
* 致敏原信息(B)
* 最相似的3D表面抗原通過具有相同抗原殘基的結構視圖的鏈接
* 藍色表示正電荷,紅色表示負電荷,灰色表示所有其他氨基酸類型(C)
* 所有與查詢蛋白質具有顯著序列相似性的相似致敏原,並在輸出表的潛在交叉反應的鏈接中引用其數量
* 在輸出表的鏈接中顯示的所有可能的相似自體免疫致敏原
* 所有可能的相似低致敏潛力

# Method

* 1. 氨酰胺的類似性(Gluten-like)
* 谷氨酰胺的類似重複(Gluten-like Q-repeats)獨立於任何其他相似性分數
* 對於肽中的每個9-mer窗口,計算了氨基酸頻率,並通過使用在“腸病毒9-mer”窗口中的頻率與背景數據庫頻率(這裡使用的是UniProtKB)的對數奇數比來衍生出組成指紋分數
* 這個對數奇數分數用於評分查詢蛋白質中的所有9-mer,如果9-mer的分數在FARRP“腸病毒肽”的平均值加減一個標準差之內,則觸發Gluten-like Q-repeat的擊中。
* 谷氨酰胺類預測除非與已知的蛋白質致敏原相似,否則不會產生'強有力的證據'
* 2. AllerCatPro 2.0檢查查詢序列與我們已知致敏原的3D模型/結構數據庫中代表性序列的相似性。
* 1. 3D模型/結構數據庫中有714個代表性蛋白質致敏原
* 已知致敏原進行BLASTP搜索(11)並且輸入序列的E值<0.001,
* 大約有900個模型是使用MODELLER(Webb和Sali,2017)在兩個步驟中創建的。建模過程分為兩個步驟。首先,使用MODELLER的salign類執行基於動態編程的結構對齊,然後構建100個結構模型,計算每個模型的離散優化蛋白質能量(DOPE)分數,並選擇能量最低的模型進行第2步,即循環細化。
* 為了每個結構,都按照以下程序創建了一個表格來定義表位:首先,使用YASARA識別所有表面可接觸的殘基(到可溶解表面的距離<2.55 Å,這是根據已知蛋白質-抗體複合物的結合界面所得的實驗推導閾值),然後將每個表面殘基視為一個表位的假定中心,包括所有距離中心殘基12 Å的其他表面殘基。此距離的選擇是為了匹配IgE抗體與過敏原的典型複合物中所見的結合界面大小(Dall'antonia等人,2014)。還需要至少13個殘基的最小表位大小。該程序作為YASARA中的自定義Yanaconda宏腳本實現(Krieger和Vriend,2014)。
* 使用BLASTP(Altschul等人,1997)對我們的3D結構/模型數據庫進行查找(E值<0.001)。為了將查詢蛋白質與3D結構的最接近的已知過敏原進行比較,使用附加的BLASTP搜索(E值<0.001)將查詢蛋白質與我們已知的過敏原數據庫進行比較
* MAFFT(Katoh和Standley,2014)使用L-INS-I設置創建三個序列的多序列比對:查詢,最佳3D擊中和最佳過敏原擊中。然後,使用上面描述的表位定義表,將查詢和過敏原的對齊殘基分配給各自的表位。最後,通過所有表位進行循環,比較查詢和過敏原之間的表位殘基的相同性,以確定具有最高相似性的表位。
* 
* 2. 如果AllerCatPro 2.0找不到任何結構命中,然後應用線性窗口方法來預測查詢序列是否為蛋白質致敏原
* 如果發現80個殘基上的35%同一性的規則,則具有強有力的證據。在使用線性窗口規則後,如果沒有找到命中
* 3. (3 * 6)-mers命中方法,評估查詢序列
* 將查詢蛋白質分割為其各自的6-mer,並刪除具有序列熵<0.34(以log2為基礎的比特分數)和具有含糊不清的氨基酸(BJOUXZ)的低複雜度的6-mer
* 將剩餘的查詢6-mer與源自我們已知過敏原數據庫的6-mer數據庫進行比較。如果已知過敏原和查詢蛋白質之間共享了至少三個不同的6-mer,則找到對已知過敏原的命中。
----------------------------------------------------
# ChAlPred: A web server for prediction of allergenicity of chemical compounds (2021)
* 目前尚无法预测化学物质的过敏潜力的方法
* IEDB数据库的403个过敏原和1074个非过敏原化学化合物。使用PaDEL软件计算了这些化合物的分子描述符,以开发不同的预测模型并从生物兴趣化合物数据库(ChEBI)[31]下载了相应的化合物结构
* 并使用2D、3D和FP描述符在20%的验证数据上进行评估
* 机器学习
* 观察到使用混合描述符开发的基于随机森林的模型表现最好
## Chemical Component(DataSet)
* 免疫表位数据库(IEDB)收集了过敏原和非过敏原化学化合物
* 519个具有过敏原性质的化合物
* 2211个非过敏原化学化合物
* Filter : non-peptidic; No IgE; No histamine; No hypersensitivity; No allergy; No Cancer
* 并从生物兴趣化合物数据库(ChEBI)下载了相应的化合物结构
* 化合物ID用于下载519个过敏原和2211个非过敏原化学化合物的2D和3D结构文件
## Descriptor(Feature)
* PaDEL软件[29]计算了过敏原和非过敏原化学化合物的化学描述符/特征
* 
* scikit learn的标准缩放器包完成的,即sklearn.preprocessing.StandardScaler,该包基于z分数归一化算法
* 并非所有的描述符都是显著的 -> 最相关的特征是很重要的
* VarianceThreshold
* VarianceThreshold特征选择方法从所有描述符文件中删除了低方差的特征
* 在删除低方差特征后,我们剩下了286个2D描述符、362个3D描述符和1957个FP描述符
* 低方差的特征在不同样本之间的变化很小,可能对模型的训练过程贡献有限
* Python脚本来计算每个数据集的所有描述符之间的成对相关性
* 删除了那些相关性大于或等于0.6(≥0.6)的特征。通过这种方式,剩下的是彼此相关性小于0.6(<0.6)的特征
* 高度相关的特征可能表明它们提供的信息是相似或冗余的
* SVC-L1
* 它实现了具有线性核的支持向量分类器(SVC),受到L1正则化的惩罚。它选择非零系数,然后实施L1惩罚,以从大型特征向量中选择相关特征以减少维数
* SVC通过找到可以有效区分不同类别的决策边界(超平面)来完成分类任务
* 已经开发了许多工具来使用不同的方法估计化学物质的毒性,例如The Toxicity Estimation Software Tool (TEST)。它使用定量结构-活性关系(QSAR)来估计化学物质的毒性 [67]。VegaQSAR [68]、Toxtree [69] 和 PreADMET [70] 是基于QSAR模型的其他工具,用于预测化学分子的毒性。基于机器学习的工具,如由Sharma等人开发的ToxiM,使用机器学习方法预测小分子化学物质的毒性和与毒性相关的特性 [26]
---------------------------------------------------------------
# A Comparative Analysis of Novel Deep Learning and Ensemble Learning Models to Predict the Allergenicity of Food Proteins