### 基於等變擴散模型的形狀條件三維分子生成 https://youtu.be/_ds-CfRCC_U?si=Cl0ND7RcOeziTPrr https://openreview.net/pdf?id=JWfvMT43pZ https://news.osu.edu/generative-ai-on-track-to-shape-the-future-of-drug-design/ **摘要** 本報告根據來源資料,介紹了基於生成式人工智慧 (Gen AI) 在藥物發現領域的應用,特別是由 Xia Ning 教授及其團隊開發的一種新穎的生成模型 ShapeMol。傳統藥物開發過程緩慢且昂貴,成功率極低,需要花費約 26 億美元和超過十年的時間才能將單一藥物推向市場。生成式 AI 有望徹底改變這一過程,使其更有效率。ShapeMol 是一種形狀條件三維分子生成模型,專注於配體導向藥物設計 (LBDD),它能根據給定的三維形狀生成新的分子。這與結構導向藥物設計 (SBDD) 不同,SBDD 需要蛋白質結合口袋的高品質三維結構,而這些結構通常不可得。ShapeMol 利用等變形狀編碼器將分子表面形狀映射到潛在嵌入,然後使用等變擴散模型基於這些嵌入生成三維分子。為了提高生成分子與條件分子之間的形狀相似度,開發了 ShapeMol+g,它整合了形狀引導機制。實驗結果顯示,ShapeMol 和 ShapeMol+g 能夠生成新穎、多樣且具藥物相似性,並與給定形狀條件保持更高三維形狀相似度的分子,表現優於現有的基準方法。 **1. 引言** 藥物發現是尋找潛在治療方法的關鍵步驟。然而,這是一個眾所周知的緩慢、昂貴且成功率極低的過程。傳統上,化學家需要篩選數以百萬計的分子來尋找可能的藥物,這過程極其耗時。生成式 AI,特別是像 ChatGPT 這樣的模型,展示了生成新內容的能力。研究人員正在探索 Gen AI 是否能夠解決科學和人類學中最基本的問題,例如藥物發現。 配體導向藥物設計 (LBDD) 是藥物發現中的一種重要方法,它利用已知與蛋白質靶點相互作用的配體來識別新的藥物候選分子。基於形狀的虛擬篩選工具(如 ROCS)已被廣泛用於在化合物庫中尋找與已知配體形狀相似的分子。然而,這些工具無法探索新的化學空間。因此,迫切需要開發生成方法來生成具有所需三維形狀的新穎分子。 ShapeMol 的開發旨在解決生成具有特定三維形狀的新穎分子的需求。它利用了生成式 AI 的力量,旨在革新藥物發現過程,使其更快捷、更有效。 **2. 方法** ShapeMol 是一個新穎的生成模型,用於條件式三維分子生成。其核心思想是根據給定的三維形狀來生成新的三維分子結構。ShapeMol 由兩個主要模組組成:一個等變形狀嵌入模組 (SE) 和一個等變擴散模型 (DIFF)。 **2.1 等變形狀嵌入 (SE)** SE 模組負責將給定分子的三維表面形狀表示為等變的潛在嵌入 (Hs)。分子表面形狀被表示為點雲 (P)。SE 包含一個編碼器 (SE-enc) 和一個解碼器 (SE-dec)。 * **形狀編碼器 (SE-enc)**:SE-enc 將點雲 (P) 映射到等變潛在嵌入 (Hs)。為確保平移等變性,SE-enc 將點雲的中心移至零點。為確保旋轉等變性,SE-enc 採用了向量神經元 (VNs) 和動態圖卷積神經網絡 (DGCNNs)。最終的形狀嵌入 Hs 是透過對所有點的嵌入進行平均池化生成。 * **形狀解碼器 (SE-dec)**:SE-dec 用於預訓練 SE 模組,其目標是根據形狀嵌入 Hs 預測三維空間中查詢點到分子表面的帶符號距離。帶符號距離的正負值表示查詢點位於表面內部或外部。這個預測過程結合了查詢點的位置、分子表面形狀以及點與表面之間的相互作用。SE-dec 的預測對於三維分子表面形狀的旋轉是不變的。 * **SE 預訓練**:SE 通過最小化預測帶符號距離與真實帶符號距離之間的平方誤差損失來進行預訓練。這使得 ShapeMol 能夠學習到可以用作三維分子生成條件的 Hs。 **2.2 形狀條件分子生成 (DIFF)** DIFF 模組是一個形狀條件分子擴散模型,用於生成三維分子結構(即原子坐標和特徵),其生成過程受形狀潛在嵌入 (Hs) 的調節。DIFF 模型基於去噪擴散機率模型。 * **前向擴散過程 (DIFF-forward)**:這個過程是一個馬爾可夫鏈,逐步向訓練分子的連續原子位置添加高斯雜訊,並向離散原子特徵添加類別雜訊。隨著時間步長 t 從 1 增加到 T,雜訊水平增加,最終在步驟 T 時,雜訊數據近似於標準常態分布和均勻類別分布。 * **後向生成過程 (DIFF-backward)**:DIFF 通過學習逆轉前向擴散過程來實現生成。它從雜訊數據 (xt, vt) 去噪到 (xt-1, vt-1),並以形狀潛在嵌入 (Hs) 為條件。模型使用一個預測器 fΘ(xt, vt, Hs) 來預測步驟 t 時的原始原子位置和特徵 (x̃0,t, ṽ0,t)。這個預測器包含兩個多層圖神經網絡:一個等變圖神經網絡 (EQ-GNN) 用於等變地預測原子位置,一個不變圖神經網絡 (INV-GNN) 用於不變地預測原子特徵。EQ-GNN 確保原子位置的預測會隨著變換而改變,而 INV-GNN 確保原子特徵的預測在變換下保持不變。 * **模型訓練**:ShapeMol 通過最小化原子位置預測與真實位置之間的平方誤差以及原子特徵預測的 KL 散度來優化 DIFF 模型。特別地,對於原子位置損失,ShapeMol 使用一個基於信噪比的步長權重 (wx_t),在數據雜訊水平較低時賦予損失較高的權重,這有助於模型在有足夠信號時更準確地恢復分子結構。總損失是位置損失和特徵損失的加權和。 * **分子生成與形狀引導**:在推斷階段,ShapeMol 通過逐步去噪來生成新分子。可以選擇使用額外的形狀引導機制 (ShapeMol+g),通過調整預測的原子位置來使其更靠近給定分子的形狀。這種調整是在預測位置與給定形狀的點足夠遠時進行的。形狀引導僅在雜訊較多的早期擴散步驟(例如 t = T 到 S,其中 S > 1)應用,以提供更多指導。 **2.3 合成路徑生成** 除了生成分子結構本身,研究工作也探索了如何生成合成這些生成或現有分子的反應途徑。例如,對於 FDA 批准的治療肥厚性心肌病的藥物 Mavacamten,ShapeMol 的生成式 AI 方法可以準確地生成其專利合成反應。同時,它還可以提供其他可行的合成選項,這有助於簡化和加速合成過程。當合成所需的小分子原料也不存在時,需要設計一系列反應來製造所有中間分子。一種策略是從商業可用的分子開始嘗試不同配置,直到達到目標。另一種策略,也是研究人員提出的新想法,是從目標分子開始,逆向尋找反應中斷裂的鍵,並以此倒推合成步驟。這種逆向工作的策略為生成式 AI 提供了一種全新的解決方案。 **3. 實驗** **3.1 實驗設置** 實驗使用 MOSES 數據集中的分子,其三維構象由 RDKit 計算得出。訓練集和測試集的劃分與先前的 SQUID 工作相同。ShapeMol 的訓練數據集包含超過 150 萬個分子。與基於碎片的 SQUID 不同,ShapeMol 不對計算出的三維構象進行額外調整,也不受預定義碎片庫的限制,可以接受任何三維構象作為輸入並生成分子。 **3.2 對照方法與評估指標** ShapeMol 和 ShapeMol+g 與最先進的基準方法 SQUID 以及一種虛擬篩選方法 (VS) 進行了比較。對於每個測試分子(條件),ShapeMol、ShapeMol+g 和 SQUID 生成 50 個候選分子用於評估。VS 則從訓練集中隨機採樣 500 個分子,並選取形狀相似度最高的 50 個作為候選。 評估指標包括: * **有效性 (#v%)**:有效分子的百分比。 * **有效且完整 (#s%)**:有效且結構完整的分子的百分比。 * **獨特性 (#u%)**:獨特分子的百分比。 * **藥物相似性 (QED)**:生成分子的平均藥物相似性分數。 * **形狀相似性 (avgSims, maxSims)**:生成分子與條件分子之間的平均或最大三維形狀相似度。形狀相似度通過對齊後兩分子之間的重疊體積計算,使用 ShaEP 工具進行對齊。 * **圖結構相似性 (avgSimg, maxSimg)**:生成分子與條件分子(或具有最高形狀相似度的生成分子)之間的圖結構相似度。這使用 RDKit 計算的 Morgan 指紋的 Tanimoto 相似度。 * **多樣性 (div)**:生成分子之間的多樣性。 **3.3 實驗結果** 如表 1 所示,ShapeMol+g 在平均形狀相似度 avgSims 上達到最高 (0.746±0.036),相較於最佳基準方法 VS (0.729±0.039) 提高了 2.3%。這表明 ShapeMol+g 能夠生成與形狀條件更緊密對齊的分子。ShapeMol+g 在最大形狀相似度 maxSims 上也取得了第二好的性能 (0.852±0.034)。儘管 ShapeMol+g 在 maxSims 上略遜於最佳基準方法 SQUID (0.904±0.070),但其最大圖結構相似度 maxSimg (0.247±0.068) 遠低於 SQUID (0.549±0.243)。這顯示 ShapeMol+g 生成的分子在形狀上相似,但在結構上更具新穎性,不像 SQUID 可能生成高度相似甚至相同的分子。與 SQUID 不同的是,ShapeMol 和 ShapeMol+g 能夠生成不受固定鍵長、鍵角或預定義碎片庫限制的分子。 圖 2 展示了由不同方法生成的分子示例。ShapeMol 生成的分子與條件分子的形狀相似度最高。這證明了 ShapeMol 生成在三維形狀上更相似於條件分子,且具有競爭力品質的新分子的能力。 **3.4 消融研究與參數研究** * **擴散加權方案**:ShapeMol 在擴散過程中使用了不同的步長權重 (wx_t),這基於信噪比。一項消融研究表明,這種不同的加權方案相比於均勻權重,能顯著提高生成分子的品質,包括更高比例的有效和完整分子以及更高的藥物相似性 (QED)。不同的權重使得生成的分子鍵長分布更接近真實分子。 * **形狀引導參數**:對形狀引導的距離閾值 (γ) 和停止步長 (S) 進行的參數研究顯示,增大 γ 和 S(表示更強的形狀引導)會使平均和最大形狀相似度隨之提高。這證實了形狀引導在增強生成分子與給定形狀之間的相似度方面的有效性。研究也發現,引入形狀引導需要在生成分子的品質 (QED) 和形狀相似度之間進行權衡。 * **形狀條件的有效性**:一項消融研究比較了帶形狀條件 (Hs) 和不帶形狀條件的 ShapeMol 性能。結果顯示,帶有形狀條件的 ShapeMol 在 avgSims 和 maxSims 方面始終優於不帶形狀條件的模型。此外,形狀條件還能提高 QED,並可能減輕形狀引導引起的結構扭曲。這證實了將形狀條件納入 ShapeMol 和 ShapeMol+g 有助於提高形狀相似度,同時在形狀引導下維持生成分子的藥物相似性。 **4. 討論與結論** 本報告介紹了 ShapeMol,一種新穎的生成模型,用於根據給定分子的三維形狀生成三維分子。ShapeMol 結合了等變形狀編碼器和等變擴散模型,並可選擇性地應用形狀引導機制 ShapeMol+g 以提高形狀相似度。實驗結果顯示,ShapeMol 和 ShapeMol+g 在生成具有更高形狀相似度和競爭力品質的分子方面,優於現有的基準方法。模型的靈活性使其不受傳統方法中固定鍵長/角度或預定義碎片庫的限制。 ShapeMol 及其相關研究展示了生成式 AI 在革新藥物發現方面的巨大潛力。通過生成具有所需特性的分子(如與靶點結合的形狀和高結合親和力),可以顯著加速發現過程。例如,為 cdk6 基因(與多種癌症相關)生成的分子,不僅性能與 FDA 批准的藥物相似,甚至更簡單且結合親和力更高。此外,生成合成路徑的能力進一步縮短了從設計到實現的時間。 研究團隊強調了跨學科合作的重要性,結合了 AI 專家、化學家和數據科學家的知識來指導和加速創新。未來的願景包括開發能夠為個別患者設計個性化藥物,並能高效經濟地製造的生成式 AI 方法。最終目標是將生成式 AI 發展成為一個值得信賴的工具,以促進更多的科學創新並增強人類福祉。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up