# Machine Learning Reveals Protein Signatures in CSF and Plasma Fluids of Clinical Value for ALS CSF和血漿中的蛋白質特徵進行機器學習,對ALS的臨床價值 原文網址:https://www.nature.com/articles/s41598-018-34642-x ALS : 肌萎縮側索硬化症(Amyotrophic lateral sclerosis),漸凍症。 CSF : 腦脊髓液(cerebral spinal fliud)。 ## 摘要: 研究團隊發現CSF中和血漿中的特定蛋白含量在染疫患者和正常人(對照組)間有落差,患者的CSF中有大量參與complement activation, acute phase response and retinoid signaling pathways。 經過機器學習之後,他們用Monte Carlo cross-validation approach(蒙特卡洛交叉驗證法)進行成果檢驗,發現使用Linear discriminant analysis(線性判別分析)進行機器學習後,AUC的中位數是0.94,四分位數的範圍為0.88到1.0,三種蛋白質(還沒看到哪三種)組成了一個預測模型,可以解釋ALS-FRS分數(一種量表,用於測量和跟踪人的身體功能隨時間的變化)49%的變化。 最後,他們對兩種機器學習後結果較好的蛋白質chitinase-3 like 1 protein 和 alpha-1-antichymotrypsin進行模型訓練,然後使用蛋白質體學(proteomics)研究另一組單獨的CSF樣本(樣本來自被診斷為ALS和其他神經系統疾病的個體)。 結果證明用採檢特定蛋白質體含量在ALS中臨床上面的潛力。 ## 介紹 肌萎縮性側索硬化症(ALS)是一種進行性致命疾病,從症狀發作到死亡的生存時間中位數是三年,好發於40和55歲之間。沒有有效的治療方法,並且該病的病因仍然不受掌控,只有少數病例歸因於遺傳基因突變(5-10%)。此外,目前不存在具有診斷或預後價值的生物標誌物。 診斷通常要在症狀發作後的1-2年才能確定,並且可能會有其他混淆性疾病(confounding disorders)有相似的表現型(上、下運動神經元退化),這種定性疾病評估會導致誤診。 盡早確定患者的症狀,減少不必要的資源浪費(例如測試,手術和患者焦慮)。此外,在疾病分類和臨床試驗中,定量評估疾病進展和診斷為ALS的個體的治療干預效果的能力都滿重要的。 選擇CSF是因為它鄰近損傷部位,它更可能有ALS的生物標誌物被檢查到。血漿則是因為它易於採樣和不良反應的可能性小,所以也被納入數據當中。 有了數據之後,使用機器學習算法開發用於ALS的診斷和預後模型。接下來,開發了一種**靶向蛋白質體學測定法**,以研究另外一組(非拿來訓練的資料)患有ALS和其他神經系統疾病的個體的CSF樣品中兩種蛋白質標記的specificity。 然後將這些數據與健康樣本集中的目標蛋白質數據進行比較,證明此發現據有臨床價值。 ## 研究方法 ### Sample Preparation(實驗樣品製備) 血漿以及CSF來源:Northeastern Amyotrophic Lateral Sclerosis Consortium (NEALS) >Pooled CSF fluid was subjected to protein depletion with the following volumes of manufacturer depletion material: 45, 65, 85, and 105 µL in quadruplet. > >糟糕這句看不太明白,拿的腦脊髓液量比較大會除了樣本內蛋白質含量應該會比較準之外還有什麼特別的嗎? 使用隨機小組的方式設計製備了CSF和血漿樣品,來減少每組中年齡,性別和疾病狀況的變異性。(隨機的方式我可能要想一下) ### LC MS/MS Liquid Chromatography - Tandem Mass Spectrometry(液相色譜 - 串聯質譜) 先拿配置出來的液體混合血漿蛋白,然後離心等等,看...看不太懂。 ### Database Search(搜索資料庫) 使用算法:Proteome Discoverer 1.4 and the Sequest hyper-threaded algorithm. 蛋白質數據是根據SwissProt人類蛋白質組數據庫進行搜索的,後面它對數據做得處理部分有點理解模糊。 後面的數據沒有看到這裡的數據庫分析做了什麼事情。 ### Targeted Protein Method Development & Analysis(靶向蛋白質方法開發與分析) 選擇一些樣品送入儀器,並對數據進行一些處理。 ### Univariate Statistics 上述處理完之後,將腦脊液和血漿蛋白數據分別導入Perseus(一個計算平台,可以對蛋白質體學數據進行全面分析)。蛋白質豐度被log2轉化,然後將數據中缺失值均超過25%的蛋白質剔除出數據。 然後,使用從寬度為0.3的常態分佈中選擇的隨機數估算剩餘的缺失值,並從每個樣本的平均豐度下移1.8個標準偏差單位。 >[name=繹帆] >???這樣每次結果都會不一樣ㄟ,拿常態分佈做是可以的嗎? 使用雙尾t檢驗評估ALS和健康樣品之間的平均蛋白質豐度差異。使用基於排列(n = 250)的FDR方法在Perseus中進行檢驗校正。 數據初步處理完之後,執行簡單的線性回歸,然後確定回歸線的斜率明顯大於0的概率。 為了進一步確定其重要性,建立了ALS與健康人CSF和血漿中每種蛋白質豐度之間的Pearson相關係數。 在血漿的每個排列(n = 10000)和原始CSF蛋白豐度之間創建了相關係數的分佈。 通過確定排列分佈中大於原始Pearson相關係數的絕對值的值的數量,計算出顯著性的p值。該數字除以排列數,然後乘以2(two-tailed)。 two-tailed:進行雙側檢定時,由於臨界區域落在抽樣分配的兩端,因此研究者所定的允許犯錯機率便要分成左右二個區域。 ### Multivariate Statistics統計分析 數據導入RStudio。 另外including Applied Predictive modeling, e1071, carett, pROC, plyr and several other embedded packages. 反正就導入幾個重要的packages。 首先通過顯著性(q<0.05)過濾蛋白質列表,然後通過相關性過濾。如果兩個蛋白質相關(皮爾森係數> 0.6),則保留所有其他蛋白質中平均相關性最低的蛋白質。最後,選擇剩下的前五個最重要的蛋白質進行分類。 進行了四種不同的常用機器學習算法,linear discriminant analysis, random forests, support vector machines, and generalized linear models. 使用每種方法對數據進行五次重複(n = 50)交叉驗證。另外對於GLM模型,使用了logit鏈接功能。為了確保最佳性能,使用兩個成本參數(2^-2^,2^-1^,2^0^ ... 2^12^),並在每個分割(隨機選擇樣本數目)對SVM和隨機森林分類進行參數調整。 使用 accuracy, sensitivity, specificity, AUC, Cohen’s Kappa statistic來評估性能。由於每個模型都是在相同的數據子集上進行訓練和測試,因此使用paired t-test來評估在重複採樣數據集上的模型性能。 ### Pathway Analysis(途徑分析) 發現在腦脊液中有重要意義的蛋白質(p<0.05)提交給Ingenuity Pathway Analysis。我們遵循使用超幾何學測試評估途徑富集的具體指南,包括提交經驗背景蛋白質數據庫39。通過使用至少兩個樣品中檢測到的所有蛋白質來創建數據庫。P值和Z分數用於評估途徑富集。使用Cytoscape 40中的stringAPP應用程序創建了蛋白質相互作用網絡。 Ingenuity Pathway Analysis:分析軟體與資料庫,幫助研究人員分析. 手上分子生物學實驗後的資料 ## Results and Discussion(成果與討論) ![](https://i.imgur.com/Ppz9Eqk.png) A.表示血液與CSF抽取的地方。 >[name=繹帆] >原來腦脊髓液是這樣抽的,我在看前面的時候都想說直接把針筒插到腦袋XD B.樣本來自33名ALS患者,其中66%是男性。對照組則是30個被認為是健康的個體。 C.樣品分為3組進行樣品製備和做LC MS / MS分析。 D.性別、年齡和疾病狀態被屏蔽(讓測試時研究人員對實驗樣本處於未知的狀態)來最小化測量偏差。每個循環包含21個樣品:11個ALS患者樣本和10個對照組樣本。這3組患者數據之間的年齡中位數差異不明顯。 E.表示樣品使用標準實驗室程序進行處理,並通過LC-MS / MS進行分析,然後進行蛋白質鑑定和無標記定量。 F.使用單變量和多變量技術的組合來識別生物標誌物,研究受干擾的途徑以及建立診斷和預後模型。 G.用於靶向蛋白質組學實驗的一組樣品。 >[name=繹帆] >其實我不太懂n到底是什麼意思欸,前面我以為是排列數據數,但是好像我有點誤會了。 ### Univariate Analysis(單變量分析) 直接對每個蛋白質進行分析(初篩),發現ALS患者跟對照組在CSF中有27種蛋白質差異較大,血漿中的蛋白質數據差異不太明顯。 **這樣的成果已可以在臨床上實際應用** ![](https://i.imgur.com/zQaSBW5.png) Fold change: defined as the ratio between the two quantities; for quantities A and B, then the fold change of B with respect to A is B/A. 可以看出差異,但看...看不太懂圖要幹嘛該怎麼辦 火山圖:https://en.wikipedia.org/wiki/Volcano_plot_(statistics) ![](https://i.imgur.com/zxTKmag.png) A.顯示了每個蛋白質通道中被上調或下調重要蛋白質的百分比。 但他沒有圖例阿喂,灰色和紅色線條區代表什麼啦! 然後這幾種蛋白質以前就被認定與ALS患者中就被認定會被干擾,因為他涉及一些補體系統,以及先天免疫系統的一部分。 B.顯示了已知蛋白質相互作用的可視化。 他使用stringAPP在Cytoscape(生物分子相互作用網絡集成模型的軟體)中分析蛋白質數據,以進行蛋白質相互作用網絡分析。分離出相互作用的蛋白質組,並分別使用DAVID(也是軟體,使用他的生物資料對大量基因進行系統性分析)進行基因本體分析確定蛋白質的生物學功能。 感覺這邊就是在用數據分析的角度重新看以前的研究部份。 ### Univariate Analysis(多變量分析) 使用機器學習來將數據給予權重一起分析。 ![](https://i.imgur.com/2tQzf0r.png) A.機器學習的過程 1. 用q-value、correlation、t-statistic做特徵選擇(用於把多餘的數據篩掉) 2. 使用機器學習模型訓練(linear discriminant analysis, random forests, support vector machines, and generalized linear models) 5-fold repeated cross validation應該是指上圖的五種方法驗證效果吧? 3. model evaluation:評估模型成效 將訓練好的模型套入resampled的數據集 >[name=繹帆] >這裡的resampled因為我英文不好,應該是指拿另外一組數據集來做測試,不是拿原本的數據集來做驗證吧? 4. 做ROC找出AUC等等 B.盒狀圖表 用了五種方法來評估resampled的數據集。 經過評估之後,LDA可以從數據中看出是更好的模型。 ![](https://i.imgur.com/Hix7tF0.png) A.殘差平方和,應該是拿來給損失函數進行反饋的。 ![](https://i.imgur.com/VcISibp.png) A.每個模型中resampled的數據集曲線下的平均面積與蛋白質數量的函數關係圖。 然後圖中的曲線可以表明選取的蛋白質數越多,對於症狀的診斷會有顯著增益。 B.(後面五張圖) 使用不同的檢定標準來測試三種機器學習模型。 使用ROC曲線下的面積作為最終認定的標準,線性非線性SVM的結果是一樣的,並都優於Random Forest。 但綜合全圖非線性SVM只需要18種蛋白質含量的測定就可以達到檢測效果最佳,所以他是較佳的。 然後重複跑出最大的AUC值,可以把需要的蛋白質數量從18種降到12種,而檢測效果不降低超過5%。 >[name=繹帆] >???請問這樣是對的嗎?這樣是因為數據量小才可以這樣吧,感覺很多作法一直再降低他的再現性ㄟ 最終模型中使用的蛋白質的完整列表有附在附錄,不影響論文理解就不再轉了。 * 但其中幾種蛋白質參與了已知在ALS患者中的一些機制當中,例如:急性炎症反應,蛋白水解,補體激活,胞吐作用和血液凝固。 ![](https://i.imgur.com/hZEiB1M.png) 使用生物驗證的方法,對其中兩組蛋白質進行檢驗。 發現alpha-1-antichymotrypsin and chitinase-3 like 1這兩種蛋白質跟ALS和其他類似神經疾病患者的疾病有相關。 但具體為什麼可以證明相關性我不清楚,生物真的太差XD。 ## Conclusions(結論) 目標:找尋具有診斷和/或預後價值的生物標誌物,以及進一步了解與ALS相關的改變的過程。 可以證明在CSF中提取的蛋白質對於ALS診斷是有效果的。 使用此數據集訓練了一個LDA模型,該模型在resampled的數據集上的AUC值中位數是0.94,四分位數範圍為0.88-1。 alpha-1-antichymotrypsin and chitinase-3 like 1這兩種蛋白質也被證明可以拿來解釋ALS-FRS分數的一些東西。(這部分不太清楚) 血漿雖然不能明確診斷,但有可以基於蛋白質特徵進行疾病初步分析的潛力。 證實了以前有關ALS一些有關蛋白質通道的研究。 未來實驗會往縱向採樣其他生物流體來分析的方式來展開研究。 # 報告 1. problems問題 目前沒有有效的手段來診斷ALS,並且可能發生誤診。 2. objectives目的 嘗試以機器學習從腦脊髓液和血漿中的蛋白質體數據中,找出對ALS進行有效診斷的方式,來改進現有的診斷方式。 3. hypotheses假設 腦脊髓液和血液裡面有ALS的生物標誌物,只要把該生物標誌物找到,就可以應用於ALS患者的診斷。 4. research subject研究主題 利用機器學習的方式來對腦脊髓液和血液中的蛋白質體進行分析,找出蛋白質體與染病之間的關聯性。 5. research methods (processes)研究方法(過程) 先從Northeastern Amyotrophic Lateral Sclerosis Consortium (NEALS)獲得血漿與CSF樣本,經過一連串離心等過程之後,得到樣本蛋白量數據。 得到數據之後,先透過做特徵選擇來把多餘數據剃除,然後將數據丟到機器學習的模型當中,得到可以高度分辨(ALS患者與相關疾病患者)與正常人的函數。 然後將另外一組蛋白質數據放到已經訓練好的模型當中檢驗成果。 最後將得出來的數據成果與以前對ALS做的研究相關聯,以過往研究有指出哪些蛋白和ALS疾病有關聯加強論證自己的數據。 6. results結果 機器學習確實有效,作者列出了單變量分析結果和多變量分析結果來表明機器學習的效果,並且得出來的結果可以與過往相關研究互相論證。 7. recommendation (future studies)建議(未來研究) 我覺得直接講好了,都看光光我要講什麼。 8. your personal points個人觀點 我覺得直接講好了,都看光光我要講什麼。 ## 轉載許可 對原文有部分改寫成自己的筆記,請閱:https://www.nature.com/articles/s41598-018-34642-x Rights and permissions Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons license, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons license, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons license and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this license, visit http://creativecommons.org/licenses/by/4.0/.