【生成式AI導論 2024】第8講：大型語言模型修練史 — 第三階段: 參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)

# 【生成式AI導論 2024】第8講：大型語言模型修練史 — 第三階段: 參與實戰，打磨技巧 (Reinforcement Learning from Human Feedback, RLHF) ## 三個訓練階段的資料比較 ![image](https://hackmd.io/_uploads/HJj_gv6ikg.png) * 我們在第一階段都是提供模型下一個階段該有的輸出(文字接龍) * 第二階段時這些輸出是人提供的，格式跟第一接端類似，只是第一階段是自己找第二階段是人給的 * 第三階段沒有人明確告訴機器該產生什麼token，只有告訴機器哪個答案比較好 ## RL怎麼做 * 微調參數，目的是讓答案A產生的機率筆答案B高![image](https://hackmd.io/_uploads/B1RQZPTo1e.png) * ChatGPT的微調參數方法是PPO ## RLHF vs Instruction Fine-tuning * 人類角度 * RLHF比較輕鬆，只要按一個按鈕就好 * 人類有時自己也寫不出答案，但判斷哪個答案比較好很容易 * 模型角度 * Instruction Fine-tuning，只問過程不問結果 * 模型要學的就是怎麼接下一個字 * 假設每次接龍都是對的，生成結果就會好 * 對於生成結果沒有通盤考量(只考量接龍正確性層面) * RLHF，只問結果不問過程 * 模型進入新的思考模式 * 對生成結果做通盤考量 * 學習到每次接龍都是對的不一定結果最好 ## 語言模型 vs AlphaGo * 透過RL，將語言模型做的事變成和下圍棋類似，最後贏就好了、結果對了就好了，並且都是不同疊代更新答案。![image](https://hackmd.io/_uploads/HkVP7_6ikl.png) * 並且文字接龍和棋局有異曲同工之妙，整體看起來都是在做生成式學習。![image](https://hackmd.io/_uploads/HJVhXuaiJl.png) * 連訓練方式都有異曲同工之處 * AlphaGo 1. 學習棋譜資料(對應語言模型第一階段、第二階段) 2. RL * 語言模型 1. Pre-train by 網路資料 2. Instruction Fine-tuning by 人類老師 3. RLHF * 圍棋的好壞輸贏是明確的，但回答很難直接分辨好壞，因此透過"比較"取得結果好壞。 * 透過跟AlphaGo的比較，我們可以常試用AI自己學習做RL。用人類的回饋創造一個可以評辨好壞的模型，輸出哪個結果比較好。![image](https://hackmd.io/_uploads/rk-CI_aikg.png) * 可以透過語言模型挑選出最好看的答案給使用者![image](https://hackmd.io/_uploads/Hy2-w_poJl.png) * 回饋模型的主要用法是用來訓練語言模型![image](https://hackmd.io/_uploads/H1qfP_ajyl.png)![image](https://hackmd.io/_uploads/HJz7Ddpokx.png) * 但是[過度向虛擬人類](https://arxiv.org/abs/2009.01325)學習是有害的![image](https://hackmd.io/_uploads/BkPTvd6jyl.png) * 不需要虛擬人類的算法: * [DPO](https://arxiv.org/abs/2305.18290)(作業會用) * [KTO](https://arxiv.org/abs/2402.01306) * RLHF已經在進化為RLAIF，透過另一個模型去判斷與討論答案，甚至生成和判斷可以用同一個語言模型。(不能產生好答案不代表沒有判斷好答案的能力)![image](https://hackmd.io/_uploads/rJPJsu6skx.png) * RL的問題 * 什麼叫做"好": Helpfulness vs Safety![image](https://hackmd.io/_uploads/SyUdsOpsJx.png) * 人類自己都無法正確判斷的狀況(eg. 職涯決定、人生未來決定)