# Lecture 1 - DeepSeek mHC 架構解析:重塑大模型基礎連接 本堂課深入解讀 DeepSeek 團隊於 2026 年初發布的論文《mHC: Manifold Constrained Hyper-Connections》。課程核心在於探討如何跳脫單純堆疊參數的競賽,透過底層架構的創新(流形約束超連接),解決傳統超連接在大規模訓練中的不穩定性與顯存消耗問題,並結合工程優化,為通用人工智慧(AGI)的發展開闢一條高效能、低成本的新路徑。 --- ## 1. 📉 大模型發展的瓶頸與挑戰 隨著 AI 規模競賽的白熱化,單純增加參數量的邊際效應遞減,行業面臨嚴峻挑戰。 * **規模與效率失衡**:當模型參數突破 5000 億後,通用能力提升不足 5%,但算力消耗增加 3 倍以上。 * **商業化困境**:高昂的成本與技術門檻將中小企業擋在門外,落地艱難。 * **DeepSeek 的破局**:不走堆砌參數的老路,而是從基礎架構入手,提出 **mHC (Manifold Constrained Hyper-Connections)** 架構。 ## 2. 🔗 從殘差連接到超連接 (Hyper-Connections) 要理解 mHC,必須先回顧 Transformer 架構的演進 ![截圖 2026-01-24 01.36.42](https://hackmd.io/_uploads/HkrkLB-U-x.png) ### 殘差連接 (Residual Connection) * **定義**:自 2015 年何愷明提出以來,是大模型的核心,透過建立恆等映射(Identity Mapping)解決梯度消失問題。 * **功能**:如同一條高速公路,確保前向特徵與後向梯度能穩定流動。 ### 超連接 (Hyper-Connections, HC) * **定義**:為了提升性能,打破單一路徑限制,讓每個網絡層能與更多層建立連接。 * **優勢**:增強特徵傳播豐富性,捕捉更複雜的語義關聯。 * **致命缺陷**: 1. **訓練不穩定性**:破壞了恆等映射屬性,導致信號爆炸和梯度不穩(實驗顯示最大增益幅度接近 3000)。 2. **顯存消耗巨大**:大量跨層連接導致內存訪問開銷激增,千亿參數級別模型難以訓練。 3. **可擴展性受限**:難以應用於更大參數或更長序列的場景。 > **核心矛盾**:行業迫切需要一種新架構,能在保留超連接性能增益的同時,解決穩定性和效率問題。 ## 3. 🧩 mHC 核心機制:流形約束 (Manifold Constraint) mHC 的目標是保留超連接的「加寬殘差流」優勢,並透過數學約束恢復穩定性。 ### 雙隨機矩陣流形 (Doubly Stochastic Matrix Manifold) 為了恢復恆等映射屬性,mHC 將連接矩陣約束在雙隨機矩陣流形上。 * **雙隨機矩陣的條件**: 1. 所有元素非負。 2. 每一行元素之和為 1。 3. 每一列元素之和為 1。 ### 兩大數學性質支撐 1. **非擴張映射 (Non-expansive Mapping)**: * 雙隨機矩陣的 **Spectral Norm** 不超過 1。 * **結果**:信號傳遞時幅度不會被放大,從數學上杜絕了信號爆炸。 2. **組合封閉性**: * 兩個雙隨機矩陣相乘,結果仍是雙隨機矩陣。 * **結果**:多層傳遞後,信號始終滿足 Spectral Norm ,確保深度網絡的穩定性。 ### 實現與效果 * **演算法**:使用 **辛克霍恩-諾普 (Sinkhorn-Knopp)** 算法進行迭代歸一化(限制為 20 次迭代)。 * **兼容性**:當維度 $n=1$ 時,退化為原始殘差連接,便於技術遷移。 * **實驗數據**: * 複合映射最大增益幅度約為 **1.6**(對比傳統 HC 的 3000),穩定性提升三個數量級。 * **性能提升**:在 BBH (+2.1%)、DROP (+2.3%)、GSM8K、MMLU 等任務上全面超越傳統 HC 架構。 ## 4. ⚙️ 基礎設施優化:解決顯存與效率難題 DeepSeek 團隊通過三大工程優化策略,解決了跨層連接帶來的顯存與計算瓶頸。 ### 1. 算子融合 (Operator Fusion) * **原理**:將多流殘差計算、矩陣乘法、激活函數等整合成一個統一的計算內核。 * **效益**:減少內存訪問次數與數據傳輸量,提升帶寬利用率。 ### 2. 選擇性重計算 (Selective Recomputation) 針對多流殘差結構的內存開銷,採用「前向丟棄、反向重計算」策略。 * **前向傳播**:丟棄 mHC 內核產生的中間激活值,僅保留初始值。 * **反向傳播**:即時重計算中間激活值。 * **優勢**:以極小的計算成本(不含層函數)換取大量顯存空間,可支持更大 Batch Size 或數據規模。 ### 3. 通信重疊調度 (Communication Overlap) * **原理**:將重計算過程與設備間(GPU/節點)的通信過程進行重疊。 * **效益**:並行處理計算與通信,減少空閒時間,提升分佈式訓練效率。 > **綜合效益**:當殘差流擴展率 時,mHC 架構的額外訓練時間開銷僅為 **6.7%**,但換來了極高的穩定性與失敗率降低。 ## 5. 🚀 總結與未來展望 * **技術哲學**:DeepSeek 展現了工程上的極致優化,不盲目堆算力,而是優化 **Transformer** 最基礎的組件。 * **通用性**:mHC 是一種通用框架,適用於 NLP、CV 及多模態模型,無需大規模改造即可導入。 * **前瞻預測**:論文結論已在內部大規模訓練中得到佐證,預示著 **DeepSeek V4** 或 **R2** 模型可能即將發布(預計春節期間)。 --- **下一步**:如果您對論文中提到的「辛克霍恩-諾普 (Sinkhorn-Knopp) 算法」的具體數學推導感興趣,我可以為您進一步詳細拆解其運作原理。