# [2025李宏毅ML] 第8講:大型語言模型的推理過程不用太長、夠用就好 :::success :+1: 筆記全集Book 請至: https://hackmd.io/@4j/r1U_UJ_pye/ ::: :::info 2025生成式AI時代下的機器學習_李宏毅 課程網站 https://speech.ee.ntu.edu.tw/~hylee/ml/2025-spring.php video: https://www.youtube.com/watch?v=ip3XnTpcxoA [[ppt]](https://docs.google.com/presentation/d/1OovnEYdAocl8HUFx2hMvPX8dsLrqPdmd/edit#slide=id.p1) [[pdf]](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2025-course-data/reason_shorter.pdf) (20250506) ::: :::spoiler 目錄 [TOC] ::: ![image](https://hackmd.io/_uploads/r1eZlOIxel.png =500x) ## 本章討論:如何避免「想太多」? ![image](https://hackmd.io/_uploads/ryiWgdIeel.png =500x) ▪ **案例1:推理長度 vs 正確率** 此實驗不能判定 推理長度越長 導致正確率變低 有可能是因為問題變難 :( ![image](https://hackmd.io/_uploads/rJLzx_Lele.png =300x) ![image](https://hackmd.io/_uploads/SJZ7e_Uggl.png =300x) ▪ **案例2:推理長度 vs 正確率** 同一問題問多次 推理長度越長(1-->5)正確率並沒有越高 ![image](https://hackmd.io/_uploads/r1hQxOUxel.png =500x) 最好的工程師 不是把事情做到完美 而是在有限資源下 把事情做到最好 ## 1. 更強的思維鏈 (Chain-of-Thought, CoT) ![image](https://hackmd.io/_uploads/SkPEldLxxx.png =500x) (對 上一節 學做reasoning的四個方法 分別討論) ![image](https://hackmd.io/_uploads/HJbreOIxxg.png =500x) ▪ **chain of draft** 控制prompt,告訴他每步都只是草稿,草稿的每一條不超過5字 (右上圖)有時候CoD會比長篇大論CoT的效果好一點 ## 2. 給模型推論工作流程 ![image](https://hackmd.io/_uploads/H1iSlu8xlx.png =500x) 人工設定 ex: sampling 少一點、beam search 的 beam小一點、樹狀結構的樹小棵一點 ## 3. 教模型推理過程 (Imitation Learning) ![image](https://hackmd.io/_uploads/B1EUlOUlgg.png =500x) 在老師模型可以答對的情況下,選擇最短推理過程的,做為學生模型的訓練資料 ![image](https://hackmd.io/_uploads/r1C8g_Ieee.png =500x) ▪ 案例:Implicit(隱性的) CoT 讓他學習產生答案時,學習漸進式的縮減 reasoning 過程的 token 最後得到過會新算的模型,能力跟原先會 reasoning 的差不多(簡單任務上) ## 4. 以結果為導向學習推理 (Reinforcement Learning, RL) ![image](https://hackmd.io/_uploads/HJDDx_Iege.png =500x) 直接做 RL ![image](https://hackmd.io/_uploads/HJiYedLexe.png =500x) DeepSeek-R1 報告裡發現,隨著RL的學習,產生的輸出越來越長 ![image](https://hackmd.io/_uploads/rksqgO8xlx.png =500x) ▪ **RL 的方法產生了超長的「推理」過程** 因為 訓練時沒人教 AI 要在意 Reasoning Process 的長度! 做法:訂一個長度標準,超過就是不好的 --> 這樣不好。應是 問題難推理長度長;問題易推理長度短 ![image](https://hackmd.io/_uploads/rk1TgdUlel.png =500x) 通常是會讓他先回答多次,取出答對時的RP平均長度,得到此合適長度值 用此合適長度值來當標準,設定reward(要答對且比標準短才是正面的) ![image](https://hackmd.io/_uploads/SkSe-uUxgl.png =500x) ▪ **教模型 控制「推理」的長度** 需答對 且 長度符合要求 Reward 定義為 "正確率-目標和實際推理長度差異" ![image](https://hackmd.io/_uploads/HkdbZOIegg.png =500x) ▪ 案例:是可以透過RL學習,控制長度的,但測試在 out od domain 資料上就沒這麼精準 ▪ **控制長度優點**:可以依照運算需求選擇不同長度的推論 ![image](https://hackmd.io/_uploads/ryx-fb_Ilel.png =500x) 案例:L1(經控制長度訓練) 的表現比 強制cut掉長度的模型(S1)好很多 且長度越長情況下,能力會越接近沒有控制長度的模型 ![image](https://hackmd.io/_uploads/H1g7-OLgxg.png =500x) ▪ **推理長度也是 "過猶不及"!** 脖子太長到超過樹葉,也沒有好處! --END--