# 【生成式AI導論 2024】第8講:大型語言模型修練史 — 第三階段: 參與實戰,打磨技巧 (Reinforcement Learning from Human Feedback, RLHF) ## 三個訓練階段簡述 1. Pretrain(預訓練) * 目標:學會做「文字接龍(text completion)」。 * 特性:Self-supervised learning(自督導式學習),大量資料來自網路,不需人類標註。 2. Instruction Fine-Tuning(指令微調) * 目標:讓模型依照人類指令回答。 * 特性:Supervised learning(監督式學習),人類提供問題與正確答案。 3. RLHF(從人類回饋中增強學習) * 目標:讓模型根據人類偏好調整行為。 * 特性:透過比較「哪個答案比較好」,而不是每步驟都直接指導。 ## 什麼是 RLHF? * RLHF:Reinforcement Learning from Human Feedback(從人類回饋中增強學習)。 * Human Feedback:例如在ChatGPT中重新生成回答,並比較新舊回答哪個較好,即提供回饋。 ✅ 訓練的不是逐字生成正確,而是整體結果讓人更滿意。 ## 資料型態的差異 | 階段 | 資料來源 | 形式 | 特點 | |-------------------------|--------------|--------------|------------------------------------| | Pretrain | 網路資料 | 完成接龍 | Self-supervised(自督導) | | Instruction Fine-Tuning | 人類標註 | 問答對 | Supervised(監督式) | | RLHF | 人類比較 | 哪個答案好 | Reinforcement Learning(增強式) | ## RLHF 的操作概念 * 人類不用再自己寫出正確答案,只要判斷兩個答案哪個較好。 * 減少人類負擔,提高回饋資料的收集速度。 ✅ 讓模型學習「結果好就好」,不再只關心過程中的每一步是否完美。 ## 模型學習觀念的轉變 * Instruction Fine-Tuning:只問每一步接得對不對(過程導向)。 * RLHF:只問最後整體結果好不好(結果導向)。 #### 比喻說明 * 如同《天龍八部》的珍瓏棋局,虛竹靠著「中間看似錯誤的一步」反而贏得整體勝利。 ## 類比:語言模型與 AlphaGo | 項目 | AlphaGo | 語言模型 | |----------------|-----------------------------|----------------------------------| | 任務 | 落子(下一步棋) | 接文字(下一個Token) | | 學習方式 | 棋譜模仿 ➔ 自我對弈強化學習 | 網路接龍 ➔ 人類偏好強化學習 | | 回饋取得方式 | 規則(輸贏明確) | 人類判斷(無絕對標準) | ## 引入 Reward Model(回饋模型) * 為什麼需要 Reward Model? * 人類時間有限,無法無限提供回饋。 * 訓練一個可以模擬人類喜好的模型。 * 如何訓練 Reward Model? * 蒐集人類比較兩個答案哪個好的資料。 * 訓練模型能夠針對一個答案輸出一個「好壞分數」。 * Reward Model 使用方式 * 篩選最好的答案:產生多個回答,選最高分的。 * 指導語言模型微調:讓語言模型優先產生高分答案。 ## 過度學習 Reward Model 的風險 * 過度學習 ➔ 出現奇怪現象,如 * 回答強迫加上"please" * 無意義地插入"???"符號 * 真實人類的喜好與虛擬Reward Model的喜好逐漸背離。 * ❗ 適度依賴 Reward Model,避免過度擬態。 ## 現代新興方法(避免過度依賴Reward Model) * DPO(Direct Preference Optimization) * KTO(Kullback–Leibler divergence-based methods) * 正在開發中,目前效果與RLHF互有高低,尚待更多驗證。 ## 下一步展望:RLAIF(Reinforcement Learning from AI Feedback) * 讓 **強大的AI(如GPT-4)** 給模型回饋,而不是靠真人。 * 更進一步,**語言模型自我回饋(Self-Rewarding)** 也正在探索。 ## 挑戰:好答案的標準模糊化 * 什麼叫好?(Helpfulness 有幫助 vs. Safety 安全) * 同一回答,從不同面向評價會有不同結論。 * 多數大型語言模型(如LLaMA)同時訓練多個 Reward Model,根據情境調整重點。 ## 未來挑戰:人類也無法正確判斷的問題 * 語言模型未來要面對的,將是「連人類也無法準確評斷好壞」的複雜問題。 * 回饋的正確性變得更難保證,模型自我演進將成為研究重點。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up