[2025李宏毅ML] 第8講：大型語言模型的推理過程不用太長、夠用就好

# [2025李宏毅ML] 第8講：大型語言模型的推理過程不用太長、夠用就好 :::success :+1: 筆記全集Book 請至: https://hackmd.io/@4j/r1U_UJ_pye/ ::: :::info 2025生成式AI時代下的機器學習_李宏毅課程網站 https://speech.ee.ntu.edu.tw/~hylee/ml/2025-spring.php video: https://www.youtube.com/watch?v=ip3XnTpcxoA [[ppt]](https://docs.google.com/presentation/d/1OovnEYdAocl8HUFx2hMvPX8dsLrqPdmd/edit#slide=id.p1) [[pdf]](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2025-course-data/reason_shorter.pdf) (20250506) ::: :::spoiler 目錄 [TOC] ::: ![image](https://hackmd.io/_uploads/r1eZlOIxel.png =500x) ## 本章討論：如何避免「想太多」? ![image](https://hackmd.io/_uploads/ryiWgdIeel.png =500x) ▪ **案例1：推理長度 vs 正確率** 此實驗不能判定推理長度越長導致正確率變低有可能是因為問題變難 :( ![image](https://hackmd.io/_uploads/rJLzx_Lele.png =300x) ![image](https://hackmd.io/_uploads/SJZ7e_Uggl.png =300x) ▪ **案例2：推理長度 vs 正確率** 同一問題問多次推理長度越長(1-->5)正確率並沒有越高 ![image](https://hackmd.io/_uploads/r1hQxOUxel.png =500x) 最好的工程師不是把事情做到完美而是在有限資源下把事情做到最好 ## 1. 更強的思維鏈 (Chain-of-Thought, CoT) ![image](https://hackmd.io/_uploads/SkPEldLxxx.png =500x) (對上一節學做reasoning的四個方法分別討論) ![image](https://hackmd.io/_uploads/HJbreOIxxg.png =500x) ▪ **chain of draft** 控制prompt，告訴他每步都只是草稿，草稿的每一條不超過5字 (右上圖)有時候CoD會比長篇大論CoT的效果好一點 ## 2. 給模型推論工作流程 ![image](https://hackmd.io/_uploads/H1iSlu8xlx.png =500x) 人工設定 ex: sampling 少一點、beam search 的 beam小一點、樹狀結構的樹小棵一點 ## 3. 教模型推理過程 (Imitation Learning) ![image](https://hackmd.io/_uploads/B1EUlOUlgg.png =500x) 在老師模型可以答對的情況下，選擇最短推理過程的，做為學生模型的訓練資料 ![image](https://hackmd.io/_uploads/r1C8g_Ieee.png =500x) ▪ 案例：Implicit(隱性的) CoT 讓他學習產生答案時，學習漸進式的縮減 reasoning 過程的 token 最後得到過會新算的模型，能力跟原先會 reasoning 的差不多(簡單任務上) ## 4. 以結果為導向學習推理 (Reinforcement Learning, RL) ![image](https://hackmd.io/_uploads/HJDDx_Iege.png =500x) 直接做 RL ![image](https://hackmd.io/_uploads/HJiYedLexe.png =500x) DeepSeek-R1 報告裡發現，隨著RL的學習，產生的輸出越來越長 ![image](https://hackmd.io/_uploads/rksqgO8xlx.png =500x) ▪ **RL 的方法產生了超長的「推理」過程** 因為訓練時沒人教 AI 要在意 Reasoning Process 的長度! 做法：訂一個長度標準，超過就是不好的 --> 這樣不好。應是問題難推理長度長;問題易推理長度短 ![image](https://hackmd.io/_uploads/rk1TgdUlel.png =500x) 通常是會讓他先回答多次，取出答對時的RP平均長度，得到此合適長度值用此合適長度值來當標準，設定reward(要答對且比標準短才是正面的) ![image](https://hackmd.io/_uploads/SkSe-uUxgl.png =500x) ▪ **教模型控制「推理」的長度** 需答對且長度符合要求 Reward 定義為 "正確率-目標和實際推理長度差異" ![image](https://hackmd.io/_uploads/HkdbZOIegg.png =500x) ▪ 案例：是可以透過RL學習，控制長度的，但測試在 out od domain 資料上就沒這麼精準 ▪ **控制長度優點**：可以依照運算需求選擇不同長度的推論 ![image](https://hackmd.io/_uploads/ryx-fb_Ilel.png =500x) 案例：L1(經控制長度訓練) 的表現比強制cut掉長度的模型(S1)好很多且長度越長情況下，能力會越接近沒有控制長度的模型 ![image](https://hackmd.io/_uploads/H1g7-OLgxg.png =500x) ▪ **推理長度也是 "過猶不及"！** 脖子太長到超過樹葉，也沒有好處！ --END--