# DeepSeek-R1 論文筆記 ## **一句話總結:** DeepSeek-R1**像一個能自學的學生**,靠**自己**練習變聰明,而不是請老師從頭教,這讓它的訓練**更便宜、更快、更有效!** # 完整筆記: ## 1. DeepSeek團隊研究目標 - **透過強化學習(RL)提升 LLM 的推理能力,同時降低訓練成本**。 - **專注於數學、程式競賽(Codeforces)、研究生級 QA**。 **結果**:數學與推理能力接近 OpenAI o1,優於 GPT-4o。 --- ## 2. 知識蒸餾(Knowledge Distillation)是啥? ### **如何讓小模型學習大模型的推理能力?** - **Soft Labels**:讓小模型學習機率分佈,而非單一答案。 - **CoT Distillation**:讓小模型學習大模型的推理過程,而不只是結果。 - **降低計算成本**:小模型可直接學大模型的智慧,避免重新 RL 訓練。 **結果**:小模型在低成本下獲得接近大模型的推理能力。 --- ## 3. Cold Start Data ### **為什麼需要這項技術?** - **RL 訓練初期,模型產生的輸出可能混亂,學習效率低**。 - **解決方案**: - 先用少量高品質數據微調(SFT)。 - 讓 RL 訓練從較好的基礎開始,提升可讀性與學習效率。 **結果**:加速 RL 訓練,減少無效探索,節省計算資源。 --- ## 4. GRPO(Group Relative Policy Optimization) ### **為什麼GRPO不需要Critic來監督?** - **傳統 PPO 需要 Critic 來評分模型輸出,導致計算成本無法下降**(幾乎翻倍)。 - **GRPO 方法**: - 讓模型一次輸出多個答案,然後**自己**比較優劣。 - **最好的答案 → 高獎勵** - **較差的答案 → 低獎勵** - **不需要 Reward 模型(Critic)**,減少 50% 計算成本。 **結果**:降低 RL 訓練成本,提高訓練效率與穩定性。 --- ## 5. 如何降低訓練成本? | 方法 | 如何降低成本? | | --- | --- | | **使用 RL 而非全監督學習(SFT)** | 減少人工標註成本 | | **冷啟動數據** | 加快 RL 收斂,減少 GPU 運算資源 | | **GRPO 取代 PPO** | 省去 Critic 訓練,降低 50% 計算成本 | | **知識蒸餾** | 讓小模型學大模型,避免重新 RL 訓練 | | **精選數據** | 避免訓練低品質數據,提升效率 | **結果**:DeepSeek-R1 以較低的成本達到接近 OpenAI o1的水準。 --- ## 6. 論文中談論的挑戰和未來發展方向 ### **目前挑戰** - **一般知識(如 MMLU、GPQA)仍不如 OpenAI o1**(因為 RL 主要提升推理,不是記憶性知識,就像一個不會背書的學生,但是很會邏輯思考)。 - **多語言支援仍需提升**(目前主要專注於中英)。 ### **未來發展方向** 1. **提升一般能力**(如角色扮演、多輪對話)。 2. **加強多語言支援**。 --- ## 7. 總結 - **DeepSeek-R1 透過 RL(GRPO)提升推理能力,降低計算成本**。 - **冷啟動數據讓 RL 訓練更穩定、更快收斂**。 - **知識蒸餾讓小模型也能學會大模型的推理能力,減少訓練成本**。 - **數學 & 競程能力接近 OpenAI o1-1217,優於 GPT-4o**。 **DeepSeek-R1 提供了一種「低成本、高效 LLM 訓練」的方式,讓除了GPT o1以外的模型在推理能力上更有競爭力。**
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up