# Immunoinformatics-aided design of a new multi-epitope vaccine adjuvanted with domain 4 of pneumolysin against Streptococcus pneumoniae strains
## Abstract
* 識別多個高度保守蛋白質中的高抗原區域,以開發能夠影響肺炎球菌多個感染階段
* 預測了高度保護抗原PspA(1-5類)和PhtD的B細胞和T細胞表位,並將免疫顯性肽段用合適的連接子連接在一起。
* Ply的第4結構域,作為潛在的TLR4激動劑候選,被附加到構建的末端,以提高表位疫苗的免疫原性。
* 該蛋白質具有酸性和親水性。構建了蛋白質的3D結構,並進行了精煉,Ramachandran圖、ProSA-web、ERRAT和Verify3D驗證了最終模型的質量。
* 分子對接分析表明,通過Ply第4結構域設計的構建與TLR4有著強烈的相互作用, 通過分子動力學證實了對接複合體的結構穩定性。
## Introduction
* 肺炎鏈球菌(Streptococcus pneumoniae)是一種革蘭氏陽性細菌
* 抗生素治療的高昂成本和抗生素抗性的增加使得針對肺炎球菌的疫苗接種成為一種特別具吸引力的干預手段
* 有兩種主要類型的肺炎球菌疫苗
* 23種不同膠囊多糖的23價肺炎球菌多糖疫苗(PPV)
* 由主要多糖與載體蛋白質結合而成的7價、10價或13價肺炎球菌結合疫苗(PCV)
* 基於蛋白質的肺炎球菌疫苗,包含大多數或所有菌株共有的保守蛋白質
* 肺炎球菌表面蛋白A(PspA)
* 存在於所有肺炎球菌的臨床分離株中,這種抗原有助於肺炎球菌逃避宿主的防禦系統,通過干擾補體分子在細菌表面的沉積,並阻礙乳鐵蛋白肽的殺菌活性
* Domain
* 氨基酸1-288,α-螺旋域(α-HD),包括A、A'和B區域;
* 可變且高度免疫原性的
* 氨基酸289-370,富含脯胺的區域(C區域);
* 氨基酸371-571,負責表面附著的膽鹼結合域。
* **蛋白的N端的α-HD和C區域是暴露在表面的,可以與宿主免疫系統進行交互作用**
* 並且保護作用似乎是由其**N端(A區域)的約100個氨基酸"和"C端的約100個氨基酸(B區域)** 的表位引起的
* B區域的序列變異性被分為六個"分支",稱為clade-defining region(CDR)
* 家族1包括兩個clade(1和2);
* 超過95%的肺炎球菌分離株屬於家族1和家族2,因此開發基於這兩個家族的PspA疫苗的努力主要集中在這兩個家族上
* PspA蛋白的A和C區域具有保守的表位,對交叉反應產生影響
* 家族2包括三個clade(3、4和5);
* 家族3僅有一個clade(6),在0.1-4%的菌株中發現。
* 肺炎球菌組織三胺酸蛋白D(PhtD)
* 多組織三胺酸家族,其特徵是存在五個組織三胺酸基序(HxxHxH)
* 高度保守的蛋白質,由所有肺炎球菌株表達
* 通過鋅結合抑制補體的沉積並介導細菌附著
* PhtD的**C端片段(PhtD-C)更暴露在表面**,因此可能是該蛋白質的比其他區域更具**免疫原性**的區域
* 使用PhtD-C的截短衍生物進行免疫化更能誘導抗體反應和保護免疫
* 佐劑 -> Ply4
* 誘導更快、更有效和更持久的免疫反應
* 蛋白質 Toll 样受体(TLR)激动剂作為有前途的疫苗佐劑候選者
* 激活TLR信號傳導、產生促炎細胞因子和抗原呈遞細胞的成熟
* 它們可以基因融合到肽抗原,從而確保抗原-佐劑同時向同一細胞進行共遞送,從而更有效地激活免疫系統
* 已證明許多肺炎球菌蛋白質被 Toll 样受体感知
* 肺炎溶血素(Ply)、DnaJ、RrgA 肺炎球菌纖毛1型蛋白
* 研究表明肺炎溶血素(Ply)的C端域4(Ply4)單獨具有TLR4激動劑活性
* 可以建議**Ply4可能是潛在的疫苗佐劑候選者**
* 前提是可以進行修改以消除其毒性
## 疫苗建構
### AA序列
* B細胞和輔助T細胞表位預測
* PspA2的A區域(PspA2-A)
* PspA1-5的B區域(PspA1-5-B)
* PspAs的C區域(PspA-C)
* DBL6A (Clade 1) [AC AAF27701]
* WU2 (Clade 2) [AC AAF27710]
* BG8090 (Clade 3) [AC AAF27713]
* EF5668 (Clade 4) [AC AAC62252]
* ATCC6303 (Clade 5) [AC AAF27715]
* PhtD的C端(從氨基酸383–853)
* PhtD蛋白来自R6菌株 [AC AAK99711]
* Ply蛋白来自D39菌株 [AC ABJ53672]
* 佐劑
* Pneumolysin的域4(從氨基酸360–471)被用作潛在的基於TLR4配體的佐劑
* 域4中進行了三次突變,Asp385Asn,Cys428Gly和Trp433Phe,以消除溶血素的毒性
### 跨膜區域
* TMHMM伺服器 -> 候選序列中沒有跨膜區域
* 位置和环境: 膜蛋白主要位于生物膜(例如细胞膜、内质网膜等),而可溶蛋白则存在于细胞质或细胞器的溶液中。这种分布差异决定了它们在细胞中的位置和所处环境的特殊性。
* 功能: 膜蛋白和可溶蛋白通常具有不同的生物学功能。膜蛋白可能参与细胞信号传导、物质转运和细胞黏附等与细胞膜相关的功能。可溶蛋白则可能是酶、激素、抗体等在细胞质中执行特定生物学功能的分子。
* 结构: 膜蛋白的结构通常包括跨膜区域,这些区域嵌入到生物膜中。这种结构使它们能够与膜相互作用。相比之下,可溶蛋白的结构通常更适合在溶液中执行其功能。
* 药物靶点: 许多药物的靶点是膜蛋白,因为这些蛋白参与许多疾病的发病机制。了解膜蛋白的结构和功能有助于药物设计和开发。
* 评估PspA和PhtD蛋白的跨膜区域。TMHMM是基于隐马尔可夫模型的工具,可以高度准确地区分膜蛋白和可溶蛋白。
### 結構預測
* I-TASSER預測PspA2的A區域或PhtD-C的3D結構
* 並使用ModRefner和GalaxyRefne進行優化
* SAVES伺服器基於PROCHECK和ERRAT的驗證結果顯示在Ramachandran圖中
### B细胞抗原预测
* LBTope、ABCPred、IEDB的Emini表面可及性预测工具
* Ellipro和DiscoTope服务器进行了B细胞抗原的预测
#### 預測結果
PspA2的A区域的表位详见附加文件1:表S2,PspA1-5的B区域的表位详见附加文件1:表S3-S7。PspAs的C区域的B细胞表位是基于最近研究中仅考虑经验证实的表位获得的(附加文件1:表S8)[23, 24, 49]。PhtD-C的线性和构象B细胞表位详见附加文件1:表S9和S10。
### T细胞辅助抗原(MHC-II)表位预测
* NetMHCIIpan 4.0 -> 预测MHC-II类抗原的表位
* 包括8个常见人类DRB1等位基因:01:01, 03:01, 04:01, 07:01, 08:01, 11:01, 13:01和15:01,
* 3个小鼠等位基因:H2-IAb, IAd和IEd)
#### 預測結果
根据IEDB的排名百分比<10.0和NetMHCIIpan SBs的%Rank<1.0,选择了PspA2的A区域,PspA1-5的B区域以及PhtD-C的结合亲和力较高的表位进行进一步分析。IEDB和NetMHCIIpan预测的PspA(PspA2-A和PspA1-5-B)和PhtD-C的MHC-II结合表位
### 最终疫苗序列构建
* 构建包含Ply、PhtD和PspA的考虑肽段,通过合适的连接物连接在一起,总共590个氨基酸,
* 综合考虑了在不同服务器之间共享的高分B细胞和MHC-II表位,使用3D结构选择了最终合适的结构域
* GPGPG连接物合并在一起,主疫苗序列的总长度为461个氨基酸
* 为增强表位疫苗的免疫原性,考虑将肺炎杆菌溶素的第4结构域作为佐剂候选。含有三个突变D385N、C428G和W433F的Ply4的氨基酸序列
* 通过EAAAK连接物连接到上述肽段的N-末端
* GPGPG连接物将6xHis标签添加到设计的疫苗构建的C-末端,这有助于有效识别和纯化蛋白质



# Multi epitope vaccine candidate design against Streptococcus pneumonia
* 专注于利用四种表面抗原蛋白(Ply、PsaA、PspA和PspK)开发多表位亚单位疫苗
* NetCTL 1.2、IEDB(免疫表位数据库)和ABCpred预测B细胞和T细胞表位。在疫苗构建序列中添加了强化免疫原性的佐剂(griselimycin)
* ClusPro 2.0将疫苗结构与Toll样受体4(TLR-4)进行了对接
* 
* 
## Introduction
* 疫苗主要依賴多糖抗原,通過誘導保護性抗體進行貪婪噬菌作用
* 不同血清型之間多糖模式的獨特性,跨保護受到限制,使得疫苗的效力僅限於設計中包含的特定血清型]
* 缺乏跨保護和膠囊多糖的獨特性質
* 保守
* 肺炎球菌表面蛋白,包括肺炎球菌表面蛋白A(PspA)、肺炎激素(Ply)、肺炎球菌表面黏附蛋白A(PsaA)、肺炎球菌表面蛋白K(PspK)和PspC等
* 良好抗原性得分、保守性,以及它們在細胞表面更加暴露
* Ply 存在於所有的致病血清型中,並且已被廣泛研究其潛力成為疫苗
* PsaA 和 PspA 是經典的保守蛋白,存在於大多數臨床相關的血清型中。它們具有免疫原性並有助於肺炎的發病機制
* PspK 作為一種重要的表面蛋白,以其在黏附宿主細胞和定植中的作用而聞名
* 疫苗
* 抗原蛋白的**B細胞和T細胞表位組成的多聚疫苗**,結合到單一重組蛋白上,用於對抗流感。有趣的是,後者多聚疫苗的人體試驗顯示其具有誘導對抗流感的跨菌株免疫力的潛力
* 評估了致病性肺炎球菌菌株中保守、抗原、經典或非經典分泌的表面蛋白,**多表位蛋白序列**
## Material
* 肺炎溶素(Pneumolysin) - Uniprot ID: Q04IN8 (TACY_STRP2)
* 肺炎球菌表面粘附蛋白A(Pneumococcal surface adhesin A) - Uniprot ID: P0A4G2 (MTSA_STRPN)
* 肺炎球菌表面蛋白A(Pneumococcal surface protein A) - Uniprot ID: A0A1M4NIN7 (A0A1M4NIN7_STREE)
* 肺炎球菌表面蛋白K(Pneumococcal surface protein K) - Uniprot ID: H2BJK0 (H2BJK0_STREE)
## Tool
### T-cell epitope
#### 記憶T細胞 -> NetCTL1.2
* 誘導"主動免疫"
* 免疫記憶對抗再次感染
#### 幫手T細胞 -> IEDB MHC II
* 對於HTL表位的預測,選擇的物種/基因座是人類/HLA-DR,使用7-等位基因的人類白血球抗原(HLA)參考集。此外,表位的長度為15個氨基酸,根據百分位數進行分類,最小的百分位數表示對MHC-II的高親和力。
### INF-gamma -> IFN-gamma
* 誘導IFN-gamma免疫反應的潛力。預測基於基於模式、支持向量機(SVM)和混合方法的工具。通過選擇IFN-c與非IFN-c(Dhanda等,2013)的模型進行預測。帶有IFN-c陽性的表位已用於體外疫苗構建。
* 陽性的IFN-gamma分數,表明它們有潛力引起免疫反應
### B-cell -> ABCPred(linear) & ElliPro(CE)
* ABCPred : 預測了B細胞表位。對於表位的識別,窗口長度為16mer,基於循環神經網絡
* ElliPro
### 抗原性質預測 -> VaxiJen V2.0
* 已選擇具有抗原特性的表位進行疫苗構建。
* VaxiJen v2.0是一種基於蛋白質序列的自動交叉協變換(ACC)的新型無序列比對的抗原預測方法,將蛋白質序列轉換為主要氨基酸特性的均勻向量,用於評估疫苗的抗原性
### 過敏原/細胞毒性的識別 -> AllerTop v2.0 / AllerFP / ToxinPred
* AllerTop 使用(kNN)、自動和交叉協變換(ACC)以及氨基酸E描述符機器學習技術,通過探索蛋白質的理化特性進行過敏原的分類。
* AllergenFP,它是一種基於描述符的指紋方法,用於檢測過敏原和非過敏原。該方法主要基於四步驟的算法。首先,通過特性(包括大小、疏水性、相對豐度、α螺旋和β折片形成傾向)定義蛋白質序列(Dimitrov,Naneva等人,2014)。這些方法用於預測序列的過敏性,
* ToxinPred,檢查所有表位的毒性。已選擇具有非過敏和非毒性特性的蛋白質序列進行進一步分析。
## 疫苗
### 多表位疫苗構建 : 表位 + 輔助劑 + 連接子
* 相連: 使用了NetCTL 1.2、IEDB MHC II伺服器和ABCpred伺服器預測的CTL、HTL和B細胞表位。將線性CTL表位與AAY連接子相連,B細胞和HTL表位與GPGPG連接子相連。
* 輔助劑 : griselimycin(APD ID:AP02688,https://aps.unmc.edu/)
* 連接子 : EAAAK連接子進行連接
### 生物性質 -> Expasy Protparam
* 理論等電點(pI)
* 氨基酸組成、
* 體外和體內半衰期
* 不穩定性和脂肪指數
* 分子量(MW)
* 平均疏水性(GRAVY)
### Secondary structure -> PSIPRED / RaptorX / DeepCNF
* PSIPRED服務器: 生成疫苗構建的次級結構。該在線工具還可以高效地預測跨膜、拓撲、跨膜螺旋、折疊和域識別等
* RaptorX Property: 次級結構特徵
* DeepCNF: SS 溶劑可及性, 無序區域
### 三級結構預測(RobettraFold)&加強(GalaxRefine)&驗證(ProSA/ERRAT/VADAR)
* RobettraFold(預測)
* GalaxRefine : 重新打包和分子動力學模擬來放鬆結構
* 驗證
* ProSA:估算了與精確輸入結構相關的總質量分數,並以Z分數的形式顯示。如果Z分數超出原生蛋白質的屬性範圍,則表明結構可能包含錯誤
* ERRAT : 非鍵結的原子之間的相互作用和整體質量因子
* VADAR : Ramachandran圖
### Docking & MoleculeDynamic:
* 抗原分子與特定免疫受體之間的界面
* ClusPro 2.0 : Toll-like receptor-4和疫苗對接
* iMODS web : 蛋白質的靈活性
# In silico design of an epitope-based vaccine against choline binding protein A of Streptococcus pneumoniae
* 不變肽基疫苗(Invariant peptide-based vaccines)不僅對所有年齡組具有免疫原性,而且對所有肺炎球菌血清型都提供保護
* 膽鹼結合蛋白A(CbpA) : 潛在的免疫原外源性蛋白質 -> T細胞、B細胞和IFNγ誘導表位被組合成MEV
* T細胞表位 : AMATGWLQYNGSWYY
* MHC-I和MHC-II具有親和力,還具有較高的人群涵蓋率
* 分子對接(MD)分析評估了T細胞表位與MHC分子之間的親和力
* B細胞和IFNγ誘導表位
* 保守性、致敏性、免疫原性和親水性
* 
## Introduction
* 肺炎球菌對克林黴素、紅黴素、四環素和三甲噁唑/磺胺甲噁唑的耐藥率分別為95.8%、95.2%、93.6%和66.7%也不能對所有肺炎球菌血清型提供保護
* 13價結合疫苗PCV13(Prevnar)
* 95個血清型中的13個血清型
## 序列
* pSORTb : 蛋白質的亞細胞位置是通過
* VaxiJen 2.0 : 利用默認參數評估它們的抗原性 -> 膽鹼結合蛋白A(CbpA)
## 工具
### T-cell ->NetCTL v1. / NetMHCpan
* NetCTL
* CbpA的氨基酸序列中鉴定了T细胞表位
* 还对CbpA蛋白的T细胞表位进行了分析,并量化了每个表位与MHC I的亲和力分数
* 抗原性肽段(TAP)的运输效率和MHC I亲和力
* NetMHCpan / PREDIVAC
* MHC I和MHC II的亲和力
* 在这里,考虑了大约320个人类HLA-DR等位基因、330个人类HLA_DP等位基因和280个人类HLA_DQ等位基因,每个HLA类型选择了5-10个成员。
* ic50 ≤ 100的MHC II等位基因
* PREDIVAC工具交叉检查了这些表位,以测量它们与MHC I的亲和力。
### B-cell -> ABCpred
### 誘導干擾素 -> IFN-epitope
### 人種覆蓋率(IEDB) & 保守性分析(IEDB; conservancy)
* IEDB人群覆盖工具 : 使用MHC I和II的综合分数来测量全球范围内的人群覆盖。
* 各种HLA表达在不同的族群中有所不同。HLA等位基因的这种较高多态性限制了人类种群中对特定抗原的认知比例
* 引发特定HLA构成人群免疫应答的T细胞表位可能对其他人群无效
* 使用MHC I和II的综合分数来测量全球范围内的人群覆盖。
* IEDB保守性分析工具: http://tools.immuneepitope.org/tools/conservancy/iedb_input
* NCBI数据库中检索了1000株S. pneumoniae菌株的CbpA蛋白序列的FASTA格式
* 9-mer表位的序列一致性阈值设定为100%
* 15-mer表位的序列一致性阈值设定为90%
* 对于每个潜在表位,通过评估993株肺炎球菌的CbpA蛋白序列的一致性水平来进行测量。
* 結果
* 所有的表位在考虑到序列同一性阈值>90%的情况下都显示出超过90%的保守性,
* 肽AMATGWLQYNGSWYY和LNSNGAMATGWLQYN的最低同一性水平为86.67%,这意味着它们位于蛋白质的一个保守区域,变异最小
### 过敏原性评估 : AllerTOP v2
* 肽的过敏性质对于避免其潜在的副作用
### 同源建模和结构穩定性分析
* MODELLER v9构建了CbpA的同源模型
* Ramachandran图中没有残基位于不允许区域
* ProSa & PROCHECK & Galaxy refine服务器评估&優化模型結構
* 模型的89.1%的残基位于最偏爱区域,9.7%的残基位于附加允许区域,1.2%残基位于宽松允许区域
* TMHMM -> 肽是否位于蛋白质的跨膜螺旋中
* CbpA蛋白序列中的跨膜螺
* 发现预测的肽段不位于跨膜区域
* Frustratometer Server -> 蛋白质结构的稳定性和能量差异
* 模拟模型还通过结构挫折分析进行了评估,并发现表位区域没有挫折
* DISOPRED
* 两个肽段不位于蛋白的无序区域
### Docking : CABS dock & HADDOK
* HLA分子与建议的表位之间的结合预测
* HLAB15:01分子的晶体结构(1XR8)作为MHC I的候选分子
* 选择HLA-DRB101:04(5NI9)作为MHC II的候选分子进行分子对接分析
* 成果
* 
* 
* 
* 所有相互作用(距离小于4.5 Å的残基)都在图S4中作为接触图显示。在接触图中显示了几个非极性接触
* 这些接触在9-mer表位和HLA-B15:01之间检测到。然而,还在肽和HLA-B15:01的Arg97、Thr73、Asn70、Tyr7和Gln155之间发现了极性相互作用,特别是氢键(表S4)
* 15-mer肽通过氢键与HLA-DRB1*01:04的Tyr78、His13、Glu9和His81相互作用。该肽还通过氢键与HLA-DR分子的beta亚基的Asn82以及alpha亚基的Ser53、Asn62和Gln9相互作用。在HLA-DR的alpha亚基的Asn62和肽分子的Gly11之间存在立体位阻作用
* MEV与Toll样受体的分子对接
* 多表位疫苗与TLR2和TLR4之间的相互作用
* TLR2的晶体结构(PDB ID 2Z7X)和TLR4(PDB ID 3FXI)
## 疫苗:
* 
* GPGPG连接序列组装了顶级T细胞、B细胞和IFNγ诱导表位,并在肽的N末端添加了半胱氨酸残基
* AllerTop 2.0服务器评估了嵌合疫苗的过敏原性
* SOPMA测量了疫苗的二级结构
* iTASSER构建了嵌合疫苗的三级结构
* Galaxy refine服务器对结果的3D结构进行了优化
* ProSa [34]和Procheck [29],评估了优化结构的质量。
# In silico designing of a novel epitope-based candidate vaccine against Streptococcus pneumoniae with introduction of a new domain of PepO as adjuvant
# Reverse and structural vaccinology approach to design a highly immunogenic multi-epitope subunit vaccine against Streptococcus pneumoniae infection
# Development of a Universal Multi-Epitope Vaccine Candidate against Streptococcus suis Infections Using Immunoinformatics Approaches
# In silico design of an epitope-based vaccine against PspC in Streptococcus pneumoniae using reverse vaccinology

# Integrated immunoinformatics and subtractive proteomics approach for multi-epitope vaccine designing to combat S. pneumoniae TIGR4
* CTL、HTL和B細胞表位的評估和選擇
對S. pneumoniae第4型的選擇蛋白質進行了表位預測,預測了145個CTL表位,根據其高抗原性、非過敏性和非毒性的特性選擇了前五個CTL表位(附表S1)。同樣地,預測了總共41個HTL表位。評估了這些HTL表位誘導細胞因子(如IL-4、IL-10和IFN-γ)的能力,最終選擇了六個表位用於設計MEV構建(附表S2)。我們發現了50個線性B細胞表位,選擇了七個非過敏性、非毒性且高度抗原的表位用於設計MEV構建(附表S3)。
* MEV序列構建的設計
選擇的CTL、HTL和B細胞表位用於創建最終的MEV構建;這些高度抗原性、非過敏性和非毒性的表位然後通過它們相應的連接子AAY、GPGPG和KK連接在一起(圖1A)。連接子對於支持疫苗中的表位呈現以及防止連接處表位的形成非常有用。選擇了連接肽EAAAK用於將佐劑與MEV連接起來,因為它提高了整體結構的穩定性,並通過有效分離減少了蛋白質成分的結合。最終的疫苗序列,基於許多表位,有392個氨基酸(圖1B),展示了所有選定表位及其相應連接子的組織。

# An in silico deep learning approach to multi-epitope vaccine design: a SARS-CoV-2 case study(2021)
* DeepVacPred的基於人工智慧的深度學習方法,用於預測和設計多表位疫苗
* 分析了26個亞基候選物中的線性B細胞表位、細胞毒性T淋巴細胞(CTL)表位和輔助T淋巴細胞(HTL)表位。該研究確定了其中最佳的11個候選物,以構建針對SARS-CoV-2病毒的多表位疫苗
* 人群涵蓋率、抗原性、過敏原性、毒性、理化性質和二級結構,顯示其高質量
## Introduction
* 理想的疫苗
* 理想的亞基應包含多個B細胞表位和T細胞表位
* 並且應具有高抗原性以觸發人體的保護反應
* SARS-CoV-2
* 尖刺蛋白可以附著在細胞上,迫使病毒通過細胞膜,從而實現病毒進入
* 宿主細胞蛋白酶對尖刺蛋白的蛋白水解活化也是一個關鍵的決定因素
* 。誘導對SARS-CoV-2尖刺蛋白進行免疫反應的B細胞和T細胞,* tj
* 傳統方式
* 每個體外疫苗設計工具只能實現單一的預測目標
* BepiPred只能用於解決B細胞表位預測的一個步驟,當涉及T細胞表位預測時,需要使用不同的工具
* 
* (A) 傳統的體外疫苗設計過程。我們必須使用眾多的疫苗設計工具。評估和次單元的選擇非常耗時。目前沒有一個工具能夠將所有預測納入全面分析,直接選擇最佳的疫苗亞基。
* (B)由DeepVacPred框架進行的體外疫苗設計。通過在DeepVacPred框架內部使用DNN架構替換眾多的預測、評估和選擇,我們能夠在一秒內直接預測出極少數的潛在疫苗亞基,並在遠小於傳統方法的數據上進行後續的評估和疫苗構建。
* DeepVacPred
* 預測和全面的評估替換為深度神經網絡(DNN)架構
* 在DeepVacPred框架中,潛在的疫苗亞基的數量可以首先減少到約30個,然後通過可靠且流行的體外方法對預測的亞基進行進一步的評估和疫苗構建,以構建最終的疫苗。
## Material
* IEDB
* 5000個最新的已知B細胞表位
* 2000個已知的包含MHC-1和MHC-2結合物的T細胞表位(T)
* 結合相同數量的不是T細胞或B細胞表位的蛋白質,形成一個表位和非表位的數據集
* 
* DataSet
* 正數據集中的蛋白質序列必須包含至少一個T細胞表位和一個B細胞表位,並且必須是保護性抗原
* 笛卡爾積:含兩個集合的所有有序對的集合
* 由收集的B細胞表位數據集和T細胞表位數據集形成的兩個笛卡爾積,即T × B和B × T,可以涵蓋所有已知B細胞和T細胞表位的可能組合
## Method
* 正數據集和負數據集被"Z描述符"標註 + 通過自動交叉協方差(ACC)轉換32轉換為相同長度的45維向量
* 可以預測輸入是否為包含B細胞和T細胞表位的保護性抗原,實現直接判斷序列是否可以是潛在疫苗亞基的能力
* 此外,我們在T細胞表位數據集上訓練另一個具有相同結構的DNN,它可以判斷輸入序列是否可以是T細胞表位
* 多層卷積神經網絡(CNN)和一個四層線性神經網絡連接在一起,形成了一個帶有雙分類輸出的深度神經網絡(DNN)
# Predicting Multi-epitope Vaccine Candidates Using Natural Language Processing and Deep Learning(2023)
* 傳統的體外多表位疫苗設計過程通常涉及使用多種計算工具來預測疫苗亞單位
* 研究人員必須手動整合和全面評估這些結果,這導致在應對迅速傳播的病毒時效率較低
* 楊 : 流程由多個生物信息學工具組成
* Data
* T細胞表位和B細胞表位被連接在一起,使得正集由取Cartesian乘積(T×B和B×T)形成
* 涵蓋了所有正T細胞和B細胞表位的"組合"
* 原始數據僅有數千個唯一的表位序列。在這少量信息上進行訓練時
* Model
* 其中一個組件是一個深度神經網絡(DNN)架構,用於預測下游驗證和構建的潛在亞單位
* DNN模塊是一種兩階段方法,而不是端對端方法
* 它並未充分發揮深度學習的威力。需要進行特徵工程
* 化學描述符將原始氨基酸序列轉換為數值向量。這導致在網絡的培訓和推斷中產生額外開銷
* 我們觀察到了一些問題。數據集只基於幾千個唯一樣本,儘管它有近百萬個對象。高度相關的數據可能不包含足夠的信息,
* 端對端的深度學習框架
* 我們重新創建了數據集
* 免疫表位數據庫(IEDB)中收集了T細胞和B細胞表位數據
* 160,000個肽序列,約是之前數據集的十倍大小
* 數據以一種使相同的表位不會同時出現在訓練集和留存測試集中的方式進行拆分
* 我們設計並基於長短時記憶(LSTM)架構對表位進行建模和訓練
* 作為基準,我們還訓練了一個分類器,該分類器使用從大型預訓練模型中提取的嵌入。
* 與CNN和RNN相比,Transformer對結構的假設更少,並且在大型數據集上訓練時表現出色。為了利用大量未標記的數據,研究人員開發了不同的基於Transformer的模型,並使用遮罩語言建模[14]–[16]進行了自我監督學習,通過學習的有意義的嵌入
## Material
* IEDB(免疫表位數據庫)中收集了表位數據
* T細胞和B細胞表位數據,僅使用具有連續氨基酸的"線性肽"
* 正T、負T、正B和負B數據集
* 正和負是指測試的結果
* 類1或類2分子相關的T細胞表位
* 每個四個數據集,隨機抽取了40000個序列,並將其分為訓練集和測試集,測試集佔20%
* 串聯(T+B),然後將序列隨機重排並串聯(B+T)
* 以避免相同的T細胞和B細胞表位在串聯序列中存在兩次
* 它是平衡的,正負類別中的樣本數相等。由於訓練集中沒有數據泄漏,因此它可以為模型在未見數據上的泛化能力提供公正的評估。
## Methods
* 二元分類問題
* 原始肽序列作為輸入,並預測每個序列是否是潛在的疫苗組分
* 潛在的疫苗組分包含正 T 細胞和 B 細胞表位,因此可以引發強烈的免疫反應
* NLP
* 在每個分詞序列的末尾添加一個 eos 標記,並在 eos 之後應用 pad 標記,以將一批序列填充為相同的大小
* Model 1
* 
* 輸入
* N(批次大小) × S(Seq長度) 的輸入
* 嵌入層
* One-hot -> 線性變換 -> 每個長度為 E 的行向量對應一個標記
* N × S 的輸入整數張量轉換為形狀為 N × S × E(嵌入大小) 的數值張量
* 權重的初始化方法 : [PMBEC 矩陣](https://www.researchgate.net/figure/The-peptideMHC-binding-energy-covariance-PMBEC-matrix-The-20-amino-acid-residues-are_fig1_40041202)
* 
* PMBEC 量化了在肽結合到 MHC 分子的上下文中,每個 20 個標準氨基酸之間的相似性
* PMBEC 矩陣中的相應行向量來表示每個氨基酸
* 對這些向量進行的分層聚類結果主要與氨基酸殘基的理化性質相符
* 在PyTorch或其他深度學習框架中,可以使用相應的初始化函數,例如torch.nn.init.constant_或torch.nn.init.normal_,並將 PMBEC 矩陣中的行向量作為初始化值。
* CNN層
* 滑動序列時,卷積內核檢測蛋白質中短片段的模式,即基序。然后,匯聚為LSTM提供有用的信息進行整合
* BiLSTM層
* 序列的上下文進行預測
* 均勻分佈中初始化
* LSTM 的輸出是形狀為 N × S × H(Hidden State) 的序列表示
* 全連接層
* Nomalization
* 整流線性單元(ReLU) + FCN進行分類
* Model 2
* 四層的全連接網絡
* 在傳入網絡之前,每個蛋白質序列被轉換為一個45維的向量
* 每個氨基酸都通過Z描述符 [7] 表示為一個三維向量 + 整個序列通
* Model 3
* 使用了ESM-1b的嵌入來訓練一個 logistic regression (LR) 模型
* 為了為 LR 提供輸入,我們擷取了cls標記的1280維嵌入,它可以編碼蛋白質的生化特性和結構信息。
# Result
* 原論文中的模型[2]在我們的數據集上表現不佳
* 該方法在未見數據上的泛化能力不佳
* ESM-1b嵌入的 logistic regression 分類器作為基準
* 它的推理時間極慢
* 我們的最佳模型比基線具有顯著更好的性能
* 滑動序列時,卷積內核檢測蛋白質中短片段的模式,即基序。然后,匯聚為LSTM提供有用的信息進行整合