# dyMEAN
* 當前基於學習的方法存在兩個主要缺陷:
* 1) 僅處理整個抗體設計流程中的某個子任務,使得它們次優或資源密集;
* 2) 忽略了框架區域或側鏈,無法捕捉全原子幾何結構。
* 為了解決這些問題,我們提出了動態多通道等變圖網絡(dyMEAN),這是一種針對**E(3)-等變抗體設計的端到端全原子模型,給定表位和不完整的抗體序列**。
* 先探索結構**初始化作為對抗體結構的知識性猜測**,然後提出**影子paratope來連接表位與抗體**。
* **1D序列和3D結構均通過一個自適應的多通道等變編碼器進行更新該編碼器能夠在考慮全原子的情況下處理可變大小的蛋白質殘基**。
* 最後,通過**影子paratope的對齊將更新的抗體對接到表位**。
* 與之前的工作(Luo et al., 2022;Kong et al., 2022)相比,這不同於以往的多階段解決方案
* 我們基於保守殘基探索知識指導的結構初始化,並提出**影子paratope來捕捉抗原-抗體相互作用**,該方法對**它們的初始方向和位置不變**。
* 1D序列和3D結構通過自適應多通道消息傳遞進行迭代更新,這有利於在**考慮全原子幾何時容忍不同殘基中通道(即原子)數量的變化**
* 我們通過**對齊影子paratope實現表位-抗體對接**。該網絡還符合E(3)-等變性,這是3D生物學中展示的關鍵特性

## Irdoduction
現有工作可以分別解決每個局部問題,但缺乏對整體情況的掌握,使其次優。進行濕實驗,例如通過冷凍電子顯微鏡獲取抗原-抗體複合體結構,某種程度上可以繞過這些次優,但成本和勞動力需求大大增加(Carter, 2006)。因此,計算管道和實驗方法的缺陷都迫切需要一個計算的端到端解決方案
全原子幾何對描述抗原-抗體複合體內的相互作用至關重要(Foote & Winter, 1992;Jones & Thornton, 1996)。**目前的工作通常只建模骨架原子**(Jin et al., 2021;Kong et al., 2022),或僅考慮側鏈的方向(Luo et al., 2022)。儘管Jin et al. (2022) **開始嘗試將所有側鏈原子納入層次圖中,但其效率問題使其不得不忽略除了CDR-H3以外的所有抗體組件(見附錄G),導致上下文建模不完整**,從而設計不準確。整個抗體的全原子幾何具有更大的規模,需要一個計算效率更高且更有效的模型
#### 抗體設計
* 語言模型則因缺乏結構建模而次優。
* 最近,社區見證了序列-結構共同設計方法的出現及其相對於以往方法的優越性(Jin et al., 2021;2022;Luo et al., 2022;Kong et al., 2022)。**然而,它們僅限於基於流程的抗體設計的某些階段。例如,Jin et al. (2021) 僅在單鏈上生成CDRs**,
* 而Luo et al. (2022) 和 Kong et al. (2022) 則在給**定對接複合體的情況下填充CDRs,這需要難以獲得的前提條件**
* Jin et al. (2022) 試圖在**局部結合界面上同時生成和對接CDR-H3,然而,其基於距離的初始化、分層編碼和自回歸優化的低效性(見附錄G)阻礙了其擴展到整個抗體**
* **與上述工作不同,我們在端到端和全原子的方式下,給定表位和不完整序列直接生成完整的複合體。**
#### 蛋白質對接
* 一般而言,蛋白質對接在給定兩個蛋白質的未結合結構的情況下,預測其對接複合體(Kozakov et al., 2017;Yan et al., 2020;Ganea et al., 2021)。**儘管它們需要事先知道兩個蛋白質的結構,我們的工作同時生成抗體的結構並將其對接到抗原上**。
* 另一個區別在於對**抗原和抗體上結合區域的先驗知識(即表位和抗原決定位)。僅抗原上的某些表位在治療中構成有意義的目標(Yuan et al., 2020),而抗原決定位主要來自CDRs,尤其是CDR-H3(Kuroda et al., 2012)。因此,抗體對接主要關注局部結合界面,而許多蛋白質對接方法(如EquiDock,Ganea et al., 2021)假設不知道表位和抗原決定位的先驗知識,這使得它們在這種情況下次優**
* 蛋白質對接方法在處理抗體-抗原任務時,通常不會特別考慮表位(epitope)和抗原決定位(paratope),而是將它們當作普通的蛋白質介面來處理。這樣的方法可能會忽略這些特殊區域的重要性,從而導致無法得到最優解。
#### 等變圖神經網絡
**等變圖神經網絡設計有期望的歸納偏置,即結果不應依賴於觀察的視角,這即E(3)-等變性**。隨著3D數據的日益豐富,出現了大量的等變神經網絡(Thomas et al., 2018;Gasteiger et al., 2020;Fuchs et al., 2020;Satorras et al., 2021)。**我們的工作與Kong et al. (2022) 提出的多通道等變圖網絡密切相關,其中每個殘基節點有多個對應於不同原子的坐標(即通道)**。我們提出了一個更強大的多通道等變消息傳遞版本,能夠適應全原子建模中變化的通道數量。
## METHOD
#### CDR

每條鏈都包含幾個恆定區(constant domains)和一個可變區(variable domain)。顧名思義,恆定區在不同的抗體之間保持不變,而可變區則變化以實現對不同抗原的不同結合特異性,因此是抗體設計的主要關注點。我們將重鏈和輕鏈的可變區分別記作VH和VL。
可變區進一步分為交替排列的四個框架區域(FRs)和三個互補決定位區(CDRs)。抗原和抗體的結合區域分別稱為表位(epitope)和抗原決定位(paratope)。在本文中,抗原決定位指的是重鏈中的CDR-H3,因為它具有高度變異性並在結合中起主導作用(MacCallum et al., 1996)。
#### GRAPH-DEFINATION
* Graph:
* Epitope : $g_{E}(V_{E},E{E})$
* Antibody : $g_{A}(V_{E},E{A})$
* Vertices: $V_{E}$ / $V_{A}$
* AA類型si :
* 四种主要的原子类型:碳 (C)、氮 (N)、氧 (O) 和硫 (S)
* 每个原子被赋予一个位置编码,表示从该原子到 Cα 原子的化学键数量(根据 IUPAC 的规定)
* 
* 属性矩阵 A 的每一行向量是原子类型嵌入和位置编码嵌入的和。
* 对于未知残基,分配最大的原子通道数,每个通道用 \[MASK\] 原子类型和 \[MASK\] 原子位置填充。这有助于保持一致性并有效处理未知残基
* 多通道3D座標矩陣$Xi \in R^{3 \times ci}$
* ci channel的大小 e.g. 原子的數量
* 假如只有ca N O C的骨架 那就是4
* 這裡使用KNN 所以ci是不固定的
* 
* 我們在**重鏈、輕鏈和表位中分別插入三個全局節點**,
* 並連接到各自鏈中的所有節點。
* 重鏈和輕鏈的全局節點彼此相連
* 维度 d:
- 属性矩阵的维度 d应该较小以保持计算效率。
- 因为几何关系 Rij∈Rd×d的维度是d的平方,较大的d会显著增加计算复杂度。
- 实验发现 d=16在捕捉必要信息和计算效率之间取得了良好的平衡。
### TASK
* Paratope $Vp \in VA$
* Input: **給定一個表位圖$G_{E}(V_{E},E_{E})$ 和不完整的抗體序列${Si|i \in VA, i \notin Vp}$**
* Output: 同時生成互補決定位的1D序列以及與表位結合的抗體的完整3D結構
* $Si|i \in Vp$ 和 $Xi|vi \in VA$

#### dyMEAN
##### Step 1 2:

1. 初始化結構(Si)
* SI 基于不完整的抗体序列,首先初始化抗体图GA的座標$Xi^{0}$和hidden state$hi^{0}$
* $G_{A} = {SI}(s_i \in V_A, i \notin V_P), i \in V_A$]
* 初始化$Xi^{0}$
* 我们知道抗体的框架区 (FRs) 在空间变化中是高度保守的
* 这启发我们**首先检测 FRs 中高度保守的残基,然后用它们来草绘其他残基的位置**
* 我们借助于比较一维序列来反映三维空间相似性
* 首先通过**某种抗体编号系统(如 IMGT)对数据集中的抗体序列进行比对**。如果某个残基类型在**95%以上的抗体中是一致的,我们就认为它是高度保守的**
* 通过** Kabsch 算法对这些保守残基的骨架(即 N, Cα, C, O)坐标进行对齐**,并计算这些残基的**平均骨架坐标**
* 骨架模板$Z_{ri} \in R^{3 \times 4} | r_i \in W$
* W是檢測到的保守殘疾的位置編號結合
* 我们在重链中识别了16个这样的残基,在轻链中识别了18个
* 非保守殘基的做標Z
* 对于在位置编号上位于两个最近保守残基之间的残基,我们用统一间距进行线性插值
* 对于位于链的两端的残基,我们从最近的保守残基向外进行线性插值,使用在(1)中计算的最近一对残基的间隔
* 填充侧链中 α-碳的坐标将Zu擴張到 $X_i^{0}$
* 我们将第 i 个残基的位置编号记作 ri使用相同编号系统的骨架模板 $Zr∈{R^{3×4} ∣ r ∈ W}$ ,我们通过线性插值保守残基之间的残基坐标,并向外扩展两端的残基坐标来初始化结构的骨架坐标 Zri
*

* 坐标进一步规范化,以符合标准高斯分布 N(0,1),通过进行3D均值平移和1D方差规范化(所有抗体的所有维度共享相同的规范化因子,以确保一致的尺度)
* 我们通过公式 1 定义的距离为 GA构建 kNN 边
* 初始化$hi^{0}$
* 我们通过氨基酸类型 si 和位置编号 ri 来推导每个节点的初始嵌入:
* $h_i^{0} = f(si,ri) = f_{si} + f_{ri}$
* fsi和fri分别定义了可学习的氨基酸嵌入和位置嵌入。
* 对于未知的表位残基,我们用特殊类型 \[MASK\] 表示 si
2. shadow paratope(SP)
* SP 将一个共享隐藏状态的**阴影paratope(Gs)附加到GE上**
* 創建一個聯合圖: 对于连接表位和抗体进行对接至关重要
* $G_s = SP(G_E,G_P)$
* 通过共享隐藏状态 hi和与原始paratope相同的拓扑结构,在表位和抗体之间传递 E(3) 不变信息。
* 其3D坐标和最终对接结构与抗体的初始位置无关
* 它只与原始表位交换不变信息(hi 非 Xi)
* 阴影表位的隐藏向量 hi 从原始paratope复制
* Xi根據根据标准高斯分布 N(0,I)N(0, I) N(0, I) 在表位中心附近初始化
* 然后 GS合并到表位图 GE 中,创建 GE∪GS
* $Gs = (Vs,Es)$
* Es包含从原始表位中复制的内部边缘,以及连接到表位的外部边缘
* KNN
* 
* 
### step3 - > step 5

3. 自适应多通道编码器 (AME):
* AME 通过消息传递迭代更新**所有顶点的Xi和hi**
* AME 能够处理**不同通道大小的 Xi,以便通过涉及骨架原子以外的侧链来考虑全原子几何形态**。这就是我们称之为自适应的原因
* 第l層跟新隱藏h和做標X
* $h_i , Xi = AME(G_E,G_S,G_A), i \in V_E \cup V_S \cup V_A$
* 
* 几何关系提取器 TR > E(3)不變
* Xij中每对通道之间的通道间距离
* $D_{ij}(p,q) = ||Xi(:,p) - Xj(:,q)||_{2}$
* 使用两个可学习的权重$Wi \in R^{Ci \times 1}$和$Wj \in R^{Cj \times 1}$描述Dij的通道尖相關杏
* 两个可学习的属性矩阵$Ai \in R^{Ci \times d}$和$Aj \in R^{Cj \times d}$每个通道和输出维度中的有用模式
* 最終輸出$R_{ij} \in R^{d \times d}$
* $R_{ij} = A_{i}^{T}(wi,wj^{T} \bigodot Dij)Aj$
* 无论 ci或 cj的变化如何,Ri**保持相同的形状** / ϕm和ϕh的静态维度输入
* 几何消息缩放器 TS > O(3)等變
* 缩放输入坐标 $X∈R^{3×c}$ 与非几何消息 $s=ϕx(mij)∈R^{C}$(其中 C是通道大小的上限)来生成几何消息
* $TS(X,s) => X' = x . diag(s')$
* s'是pooling window C-c+1和步數為1的平均池化結果
* diag()输入向量作为对角元素的矩阵,因此输出 X′形状与 X相同
* 信息交換 > E(3)-不变的
* 图 GE和抗体图 GA是断开的,但它们通过阴影表位GS的隐藏状态交换信息
* 我们首先在 GA上进行一层 AME,并从原始表位 GP将隐藏向量 hi复制到阴影表位 GS
* 在 GE∪GS上进行一层 AME
* 并反向从 GS将隐藏向量复制到 GP
* 述两个阶段交替进行,直到 L 层。我们额外在 GAG_A G A 上运行一层消息传递,以在整个抗体中广播更新的信息
* 總體來說次迭代都会更新所有顶点的隐藏状态和坐标

4. 預測胺基酸類型:Pi
* $P_i = Predict(H_i), i \in V_P$
* $P_i^{t} = Softmax(\phi(h_i^{T}))$
* 
* 
5. Docking:
* 该步骤将抗体GA对接到阴影表位 GS上,生成绑定复合结构$\hat{X_i}$。
* 
### Training

### 損失函數:
* 序列损失 Lseq
* * 交叉商損失 lce -> 指导每次迭代的序列预测
* 
* 结构损失 Lstruct
* 
* 对接损失 Ldock
* 
### PROVE E(3)-invariant

#### 什麼是 E(3)?
E(3) 是歐幾里得群,包含了三維空間中的所有平移和旋轉操作。Q 是正交矩陣代表旋轉,t 是三維向量代表平移。
#### 幾何關係提取器 TR 是 E(3)-不變的
- 幾何關係提取器 TR 用於計算兩個點集 Xi和 Xj之間的幾何關係。
- E(3)-不變性意味著,對於任意 E(3) 變換 gg g,TR 的輸出不會改變
- $D_{ij} = ||QXi(:,p) + t) - QXj(:,q) + t)||$
- 展開
- $D_{ij}(p,q) = ||Q(Xi(:,p) - Xj(:,q))||$
- 因為 Q是正交矩陣,我們有 ∣∣Qv∣∣=∣∣v∣∣所以
- $||Q(Xi(:,p) - Xj(:,q))|| = ||Xi(:,p) - Xj(:,q)||$'
- 這表示旋轉和平移不會改變兩點之間的距離。
- 
#### TS 是 O(3)-等變的
- 幾何消息縮放器 TS 用於縮放點集 XX X
- O(3)-等變性意味著,對於任意正交變換 Q,縮放後的點集進行旋轉和平移與先旋轉和平移後再縮放的結果相同。
- TS(QX,s) = (QX). diag(s')
- diag(s')是個對角矩陣用來縮放
- 展開
- TS(QX,s) = Q(X.diag(s')) = Q.TS(X,s)
- 所以
- QX' = TS(QX,s) = QTS(X,s) = QX'
#### AME 是 E(3)-等變的
* 我們需要證明兩個主要點:
1. 信息交換過程是 E(3)-不變的。
2. 傳播過程對於特徵 hh h 是 E(3)-不變的,對於位置 XX X 是 E(3)-等變的。
* **信息交換過程**:
- 信息交換過程通過共享隱狀態和拓撲結構來實現。隱狀態和拓撲結構是 E(3)-不變的,所以信息交換過程是 E(3)-不變的。
* **傳播過程**:
- 根據引理 C.2,我們知道 TR 是 E(3)-不變的,從而計算出的幾何關係也是不變的。
- 根據引理 C.3,幾何消息縮放器 TS 是 O(3)-等變的。
所以,考慮到上述兩點,傳播過程對於特徵 h是 E(3)-不變的,對於位置 X是 E(3)-等變的。
結合這兩點,我們得出 AME 是 E(3)-等變的。
#### 對接過程是 E(3)-等變的
* E(3)-等變性意味著,對於抗體和抗原施加不同的 E(3) 變換,對接結果會相應地變換。

#### 最後證明

### Experiment
* 我們提取了離抗體最近的48個殘基作為表位,這足以包含抗原中的所有結合殘基
* 我們使用現有的競爭方法來實現整個流程的每個子任務(結構預測⇒對接⇒CDR生成⇒側鏈打包)。對於抗體結構預測,我們選擇了IgFold (Ruffolo & Gray, 2022) 的官方實現,它是專為抗體領域設計的AlphaFold (Evans等人, 2022)的專門化版本。對於對接,我們利用了HDock (Yan等人, 2020),這是一種基於知識評分函數的流行模型。對於CDR生成,我們實現了以下基線:RosettaAb (Adolf-Bryfogle等人, 2018) 使用統計能量函數引導搜索最佳序列和結構;MEAN (Kong等人, 2022) 使用等變注意力圖網絡生成1D序列和3D結構;Diffab (Luo等人, 2022) 是一種基於擴散的生成模型,考慮了側鏈方向性。為了進一步涉及側鏈,我們使用Rosetta (Alford等人, 2017) 來處理側鏈打包,這也是RosettaAb的一個內置步驟。此外,我們實現了HERN (Jin等人, 2022),它不需要外部結構預測、對接和側鏈打包,但對於框架區域建模不敏感,且在自回歸生成所有原子方面效率低下
* 我們在**結構抗體數據庫(SAbDab,Dunbar等人,2014)上訓練所有模型**,該數據庫於2022年11月檢索,並使用RAbD基準(Adolf-Bryfogle等人,2018)進行評估,該基準由專家選出的**60個多樣性複合體組成。我們按照CDR-H3聚類將SAbDab分為訓練集和驗證集,比例為9:1**(Jin等人,2021;Kong等人,2022)。每個聚類由CDR-H3序列同一性超過40%的抗體組成,根據BLOSUM62替換矩陣計算(Henikoff & Henikoff,1992)。測試集中相同聚類的抗體被排除,以維持令人信服的泛化測試。我們使用MMseqs2 (Steinegger & Söding, 2017)實現聚類過程,**訓練集和驗證集中抗體(聚類)的數量分別為3256(1644)和365(182)**。
#### 表位結合的CDR-H3生成 (§ 5.1)
* 我們使用以下指標進行定量評估:
- **氨基酸回收率 (AAR)**:定義為生成序列和真實序列的重疊比例;
- **CAAR** (Ramaraj等人, 2012):計算距離表位殘基最小距離小於6.6Å的結合殘基的AAR;
- **TMscore** (Zhang & Skolnick, 2004; Xu & Zhang, 2010):測量生成結構和真實結構之間的全局相似性,以Cα坐標為基準;
- **局部距離差異測試 (lDDT)** (Mariani等人, 2013):對比生成結構和真實結構之間的原子間距離矩陣的差異;
- **均方根偏差 (RMSD)**:計算CDR-H3絕對坐標的均方根偏差,無Kabsch對齊;
- **DockQ** (Basu & Wallner, 2016):對對接質量的綜合評分。
- TMscore和lDDT的範圍從0到1,且對抗體結構的E(3)變換不變,而RMSD和DockQ則關注抗體與表位的相對位置,對其敏感。


如表1所示,我們的dyMEAN在幾乎所有指標上都顯著優於所有基線,證明了其在恢復1D序列、3D結構和結合界面方面的優越性。與流水線模型(RosettaAb∗, DiffAb∗和MEAN∗)相比,**dyMEAN是端到端的,能夠減少抗體設計過程中每個階段可能累積的誤差,因此表現更好**。與對框架區域建模不敏感的HERN相比,dyMEAN在1D生成和對接方面明顯更具優勢,**這表明在抗體設計中表徵全上下文幾何結構是有用的,甚至是不可或缺的。此外,通過SI初始化結構的TMscore和lDDT有意義**,但仍遠未令人滿意,這解釋了後續AME在dyMEAN中信息傳遞的重要性。
* 複合結構預測 (§ 5.2)
這項任務預測給定完整抗體序列(包括CDR-H3)的對接複合結構。我們報告了TMscore、lDDT、RMSD和DockQ的指標。由於不需要生成CDR,流水線方法簡化為:IgFold⇒Hdock⇒Rosetta。為了更好地描繪我們方法的有效性,我們還以兩種方式實現了HERN的對接版本:(1) 以IgFold預測的骨架結構作為輸入,HERN輸出對接的骨架,然後由Rosetta進行側鏈打包;(2) 以真實抗體結構作為輸入,HERN對接CDR-H3和其他區域到表位。我們在SAbDab上訓練所有模型,訓練-驗證比例為9:1,並在IgFold論文(Ruffolo & Gray,2022)中使用的測試集(51個抗原-抗體複合體)上進行評估,以避免在測試期間應用IgFold時可能的數據洩露。
如表2所示,dyMEAN在結構預測和對接方面均超過所有其他方法。令人興奮的是,儘管IgFold利用了來自預訓練抗體語言模型(Ruffolo等人,2021)的嵌入,並使用了來自AlphaFold(Jumper等人,2021)的額外38k個抗體結構進行訓練,我們的模型仍然在TMscore和lDDT方面取得了更好的結果,**展示了其學習抗體結構分佈的更強能力。至於應用真實結構進行對接的基線GT⇒HERN,我們的dyMEAN仍然獲得了更好的對接精度**,這表明dyMEAN在揭示具有全上下文幾何結構的表位-抗體相互作用方面確實表現優異。我們還探索了將其他CDR納入影子抗原決定位點的情況,詳見附錄
#### 親和力優化
另一個常見的應用是優化給定抗體的親和力。根據Kong等人(2022)的建議,我們使用結合親和力變化(ΔΔG)作為目標,這是由基於GNN的預測器(Shan等人,2022)預測的。我們還在附錄K中提供了使用FoldX(Schymkowitz等人,2005)作為親和力預測器的結果。
我們在SKEMPI V2.0(Jankauskaitė等人,2019)的抗體上進行評估。我們還報告了改變的殘基數量ΔL,因為許多實際情況更喜歡較小的ΔL(Ren等人,2022)。為了調整dyMEAN以適應這個任務,我們額外訓練了一個MLP,用於擬合上述ΔΔG預測器的複合圖表示。然後我們進行梯度搜索,以定位所有殘基的有利初始狀態,這些狀態可能會產生具有更高親和力的複合體。需要進行一些額外的調整,詳見附錄D。對於比較基線,我們使用MEAN的ITA,並在其論文中建議的去噪過程中的(T - t)步的中間狀態來處理DiffAb。所有模型在相同設置下的SAbDab上進行訓練,如第5.1節所述。對於測試集中的每個抗體,我們生成100個候選者並記錄頂級候選者的ΔΔG,然後計算相應的ΔL。
### 結果
表3總結了所有測試抗體的平均ΔΔG和ΔL。結果顯示,dyMEAN生成的抗體具有最低的ΔΔG和可控的ΔL變化。雖然DiffAb也可以通過減少t來控制ΔL,但其親和力優化能力有限。MEAN達到了理想的ΔΔG,但以ΔL的巨大變化為代價。值得一提的是,即使僅允許改變1或2個殘基,我們的模型仍然能夠達到理想的性能。圖5(右)展示了一個這種情況的例子。
