# Lecture 1 - DeepSeek mHC 架構解析:重塑大模型基礎連接
本堂課深入解讀 DeepSeek 團隊於 2026 年初發布的論文《mHC: Manifold Constrained Hyper-Connections》。課程核心在於探討如何跳脫單純堆疊參數的競賽,透過底層架構的創新(流形約束超連接),解決傳統超連接在大規模訓練中的不穩定性與顯存消耗問題,並結合工程優化,為通用人工智慧(AGI)的發展開闢一條高效能、低成本的新路徑。
---
## 1. 📉 大模型發展的瓶頸與挑戰
隨著 AI 規模競賽的白熱化,單純增加參數量的邊際效應遞減,行業面臨嚴峻挑戰。
* **規模與效率失衡**:當模型參數突破 5000 億後,通用能力提升不足 5%,但算力消耗增加 3 倍以上。
* **商業化困境**:高昂的成本與技術門檻將中小企業擋在門外,落地艱難。
* **DeepSeek 的破局**:不走堆砌參數的老路,而是從基礎架構入手,提出 **mHC (Manifold Constrained Hyper-Connections)** 架構。
## 2. 🔗 從殘差連接到超連接 (Hyper-Connections)
要理解 mHC,必須先回顧 Transformer 架構的演進

### 殘差連接 (Residual Connection)
* **定義**:自 2015 年何愷明提出以來,是大模型的核心,透過建立恆等映射(Identity Mapping)解決梯度消失問題。
* **功能**:如同一條高速公路,確保前向特徵與後向梯度能穩定流動。
### 超連接 (Hyper-Connections, HC)
* **定義**:為了提升性能,打破單一路徑限制,讓每個網絡層能與更多層建立連接。
* **優勢**:增強特徵傳播豐富性,捕捉更複雜的語義關聯。
* **致命缺陷**:
1. **訓練不穩定性**:破壞了恆等映射屬性,導致信號爆炸和梯度不穩(實驗顯示最大增益幅度接近 3000)。
2. **顯存消耗巨大**:大量跨層連接導致內存訪問開銷激增,千亿參數級別模型難以訓練。
3. **可擴展性受限**:難以應用於更大參數或更長序列的場景。
> **核心矛盾**:行業迫切需要一種新架構,能在保留超連接性能增益的同時,解決穩定性和效率問題。
## 3. 🧩 mHC 核心機制:流形約束 (Manifold Constraint)
mHC 的目標是保留超連接的「加寬殘差流」優勢,並透過數學約束恢復穩定性。
### 雙隨機矩陣流形 (Doubly Stochastic Matrix Manifold)
為了恢復恆等映射屬性,mHC 將連接矩陣約束在雙隨機矩陣流形上。
* **雙隨機矩陣的條件**:
1. 所有元素非負。
2. 每一行元素之和為 1。
3. 每一列元素之和為 1。
### 兩大數學性質支撐
1. **非擴張映射 (Non-expansive Mapping)**:
* 雙隨機矩陣的 **Spectral Norm** 不超過 1。
* **結果**:信號傳遞時幅度不會被放大,從數學上杜絕了信號爆炸。
2. **組合封閉性**:
* 兩個雙隨機矩陣相乘,結果仍是雙隨機矩陣。
* **結果**:多層傳遞後,信號始終滿足 Spectral Norm ,確保深度網絡的穩定性。
### 實現與效果
* **演算法**:使用 **辛克霍恩-諾普 (Sinkhorn-Knopp)** 算法進行迭代歸一化(限制為 20 次迭代)。
* **兼容性**:當維度 $n=1$ 時,退化為原始殘差連接,便於技術遷移。
* **實驗數據**:
* 複合映射最大增益幅度約為 **1.6**(對比傳統 HC 的 3000),穩定性提升三個數量級。
* **性能提升**:在 BBH (+2.1%)、DROP (+2.3%)、GSM8K、MMLU 等任務上全面超越傳統 HC 架構。
## 4. ⚙️ 基礎設施優化:解決顯存與效率難題
DeepSeek 團隊通過三大工程優化策略,解決了跨層連接帶來的顯存與計算瓶頸。
### 1. 算子融合 (Operator Fusion)
* **原理**:將多流殘差計算、矩陣乘法、激活函數等整合成一個統一的計算內核。
* **效益**:減少內存訪問次數與數據傳輸量,提升帶寬利用率。
### 2. 選擇性重計算 (Selective Recomputation)
針對多流殘差結構的內存開銷,採用「前向丟棄、反向重計算」策略。
* **前向傳播**:丟棄 mHC 內核產生的中間激活值,僅保留初始值。
* **反向傳播**:即時重計算中間激活值。
* **優勢**:以極小的計算成本(不含層函數)換取大量顯存空間,可支持更大 Batch Size 或數據規模。
### 3. 通信重疊調度 (Communication Overlap)
* **原理**:將重計算過程與設備間(GPU/節點)的通信過程進行重疊。
* **效益**:並行處理計算與通信,減少空閒時間,提升分佈式訓練效率。
> **綜合效益**:當殘差流擴展率 時,mHC 架構的額外訓練時間開銷僅為 **6.7%**,但換來了極高的穩定性與失敗率降低。
## 5. 🚀 總結與未來展望
* **技術哲學**:DeepSeek 展現了工程上的極致優化,不盲目堆算力,而是優化 **Transformer** 最基礎的組件。
* **通用性**:mHC 是一種通用框架,適用於 NLP、CV 及多模態模型,無需大規模改造即可導入。
* **前瞻預測**:論文結論已在內部大規模訓練中得到佐證,預示著 **DeepSeek V4** 或 **R2** 模型可能即將發布(預計春節期間)。
---
**下一步**:如果您對論文中提到的「辛克霍恩-諾普 (Sinkhorn-Knopp) 算法」的具體數學推導感興趣,我可以為您進一步詳細拆解其運作原理。