# 【生成式AI導論 2024】第8講:大型語言模型修練史 — 第三階段: 參與實戰,打磨技巧 (Reinforcement Learning from Human Feedback, RLHF) ## 三個訓練階段的資料比較  * 我們在第一階段都是提供模型下一個階段該有的輸出(文字接龍) * 第二階段時這些輸出是人提供的,格式跟第一接端類似,只是第一階段是自己找第二階段是人給的 * 第三階段沒有人明確告訴機器該產生什麼token,只有告訴機器哪個答案比較好 ## RL怎麼做 * 微調參數,目的是讓答案A產生的機率筆答案B高 * ChatGPT的微調參數方法是PPO ## RLHF vs Instruction Fine-tuning * 人類角度 * RLHF比較輕鬆,只要按一個按鈕就好 * 人類有時自己也寫不出答案,但判斷哪個答案比較好很容易 * 模型角度 * Instruction Fine-tuning,只問過程不問結果 * 模型要學的就是怎麼接下一個字 * 假設每次接龍都是對的,生成結果就會好 * 對於生成結果沒有通盤考量(只考量接龍正確性層面) * RLHF,只問結果不問過程 * 模型進入新的思考模式 * 對生成結果做通盤考量 * 學習到每次接龍都是對的不一定結果最好 ## 語言模型 vs AlphaGo * 透過RL,將語言模型做的事變成和下圍棋類似,最後贏就好了、結果對了就好了,並且都是不同疊代更新答案。 * 並且文字接龍和棋局有異曲同工之妙,整體看起來都是在做生成式學習。 * 連訓練方式都有異曲同工之處 * AlphaGo 1. 學習棋譜資料(對應語言模型第一階段、第二階段) 2. RL * 語言模型 1. Pre-train by 網路資料 2. Instruction Fine-tuning by 人類老師 3. RLHF * 圍棋的好壞輸贏是明確的,但回答很難直接分辨好壞,因此透過"比較"取得結果好壞。 * 透過跟AlphaGo的比較,我們可以常試用AI自己學習做RL。用人類的回饋創造一個可以評辨好壞的模型,輸出哪個結果比較好。 * 可以透過語言模型挑選出最好看的答案給使用者 * 回饋模型的主要用法是用來訓練語言模型 * 但是[過度向虛擬人類](https://arxiv.org/abs/2009.01325)學習是有害的 * 不需要虛擬人類的算法: * [DPO](https://arxiv.org/abs/2305.18290)(作業會用) * [KTO](https://arxiv.org/abs/2402.01306) * RLHF已經在進化為RLAIF,透過另一個模型去判斷與討論答案,甚至生成和判斷可以用同一個語言模型。(不能產生好答案不代表沒有判斷好答案的能力) * RL的問題 * 什麼叫做"好": Helpfulness vs Safety * 人類自己都無法正確判斷的狀況(eg. 職涯決定、人生未來決定)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up