RLHF
Reinforce Learning Human feedback
image
Supervised Fine-Tuning(SFT) : 採用supervised的方式來微調預先訓練的語言模型。
Reward model training : 目標是訓練一個模型來適應人類的偏好。在這個階段,首先從提示庫中進行取樣,並使用大型語言模型產生多個回應。然後,人工對這些反應進行排名,根據這些排名訓練一個獎勵模型
Reinforce learning -- PPO(Proximal Policy Optimization):根據獎勵模型優化策略。從資料集中抽取一個新的prompt。
PPO模型從監督式策略(SFT)初始化。
策略生成一個輸出。