生成式AI時代下的機器學習(2025)】05 大型語言模型訓練方法

20251107筆記內容可能有錯誤，請參考原始影片 [李宏毅【生成式AI時代下的機器學習(2025)】](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi) [【生成式AI時代下的機器學習(2025)】第五講：大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限](https://www.youtube.com/watch?v=Ozos6M1JtIE&list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi&index=5) ### 【生成式AI時代下的機器學習(2025)】第五講：大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限大綱 ![image](https://hackmd.io/_uploads/SyXAC7iJbg.png) **I. 訓練範式概述：預訓練–對齊 (Pretrain-Alignment)** 1. 三階段流程：預訓練 (Pretrain) → 監督式微調 (SFT) → 人類回饋強化學習 (RLHF)。 2. Alignment 定義：泛指 SFT 和 RLHF 階段，目標是輸出與人類價值觀對齊。 3. 模型區分：Base Model (僅 Pretrain) vs. Chat/Instruct Model (含 Alignment)。 **II. 預訓練 (Pretrain) 的強大與資料要求** 1. Pretrain 的核心地位：是模型能力的「龍身主體」，Alignment 僅是「畫龍點睛」。 2. Base Model 的局限：缺乏 Alignment 時會「暴走」、重複內容，無法直接使用。 3. 資料需求與挑戰：需極大量且優質、多樣化、低重複性的資料。 **III. 對齊 (Alignment) 的極致效率與技術** 1. Alignment 資料量：所需資料量極少（甚至只需數千筆）。 2. 知識蒸餾 (Knowledge Distillation)：利用強大模型（如 GPT-4）作為教師，快速提升模型能力。 3. 行為調整：實驗顯示，僅透過 Response Tuning 或手動規則調整，即可模仿 Alignment 效果。 **IV. Alignment 的本質與極限** 1. 行為改變 vs. 知識學習：Alignment 主要改變輸出的風格（如連接詞、結束符號機率），對內在知識結構改變不大。 2. 學習限制：Alignment 難以教會模型「完全不會」的新知識。 3. 潛力激發：Alignment 最有效的作用是強化模型「已經知道，但表達不出來」的能力。 4. 預訓練後遺症：Alignment 難以抹除 Pretrain 階段的潛在記憶或不雅知識（僅是暫時壓抑）。 --- #### 1. 預訓練–對齊 (Pretrain-Alignment) 訓練範式大型語言模型的訓練流程基本上分為三個階段： * **第一階段：預訓練 (Pretrain)** * 此階段透過大量從網路爬取的資料，目的是讓機器具備基本的文字接龍能力。 * **第二階段：監督式微調 (Supervised Fine-Tuning, SFT)** * 也稱為 Instruction Fine-Tuning，此階段會引入人類提供正確的答案，指導模型看到特定輸入時，應當輸出某種樣子的內容。 * **第三階段：人類回饋強化學習 (Reinforcement Learning with Human Feedback, RLHF)** * 由人類使用者提供回饋，告訴機器哪種回答比較好、哪種比較不好。 **Alignment 的定義與模型類型** * 這堂課中，**Alignment** (對齊) 特指需要人類參與的階段，即第二階段的 SFT 與第三階段的 RLHF。 * Alignment 的目標是希望機器的輸出能與人類的價值觀和需求對齊 (align)。 * **Base Model (基礎模型)**：模型名稱中包含 `base` 字眼，通常代表只做過 Pretrain、沒有做 Alignment 的模型（如 Llama 2 7B base）。 * Base Model 即使知道知識（如 Llama 2 7B base 知道 Machine Learning 是什麼），但在回答時會不斷重複內容、難以停止，無法直接使用。 * **Chat/Instruct Model (對齊模型)**：模型名稱中包含 `chat` 或 `instruct` 字眼，則代表是做過 Alignment 的版本（如 Llama 2 7B chat）。 * Alignment 確實能大幅改變模型的行為，使其回答像模像樣，並能在基準測試（如 MT-bench）上獲得巨大提升，例如 Llama 3 70B 從 Base Model 的 2.74/3.0 分提升到 8.63 分。 #### 2. 預訓練 (Pretrain) 的強大與資料要求儘管 Alignment 帶來巨大的分數提升，但 Pretrain 才是模型能力的「龍身主體」，Alignment 只是「畫龍點睛」的步驟。 **Pretrain 資料的規模與潛在耗盡** * 現代優秀的 Pretrain Model 需要極大量的資料。例如，Llama 3 8B 使用了 15T tokens。 * 由於訓練資料量增長速度快於網路資料增長，有人擔心網路上所有可用 token 可能在 2028 年到 2030 年間用盡。 * 目前像 Hugging Face 釋出的 FineWeb 資料集，已提供經過清理後的 15T tokens 資料。 **Pretrain 資料的品質與清理** * **資料清理的重要性**：從網路爬取的資料通常太髒，需要經過多個步驟清理才能使用。例如，Refined Web 的清理過程最終只保留了 Common Crawl 資料的大約 1/5。 * **多樣性 (Diversity)**：在 Pretrain 資料中，如果同一實體 (entity) 有多種不同版本的介紹方式（例如詞彙順序不同），能強化模型的理解能力，學到更泛用的知識。實驗顯示，即使只有部分 entity 具有多樣化的介紹，也足以讓模型在 Pretrain 階段學到更泛用的知識。 ![image](https://hackmd.io/_uploads/HJhwRXo1-l.png) * **避免重複 (Deduplication)**：應盡量讓模型接觸各式各樣不同的資料，而不是反覆看一樣的內容。 * 當模型看重複的資料超過四次後，能力的增長就會開始有顯著差異；看超過 40 遍後，基本上不會再有能力增長。這表明，在固定算力下，應讓模型盡量看不同的資料，而不是強化複習相同的資料。 #### 3. 對齊 (Alignment) 的極致效率與技術 Alignment 的效率極高，只需極少量的資料就能達到巨大的效果： * **極少的 Alignment 資料量**： * Llama 2 在 SFT 階段只使用了 27,540 筆資料。 * 一篇名為 (Less is More for Alignment) 的論文，只用了 1,000 筆精挑細選的資料進行微調，就達到了與 GPretrain-4 不相上下的表現。 * 這說明 Alignment 雖然影響巨大，但所需的資料量非常少。 * **品質至上**：Alignment 資料雖然不用多，但品質極為重要。 * **知識蒸餾 (Knowledge Distillation)**： * 這是一種利用強大模型（像是GPT-4）作為「老師」來訓練自己模型的方法。許多聲稱以極低成本（例如 100 美金）訓練出的模型（如 Alpaca, Vicuna）通常都是透過知識蒸餾方式，讓能力瞬間暴增。 * **挑選資料的方法**： * 有研究發現，挑選 GPT-4 生成的「最長答案」的 1,000 筆資料進行訓練，效果能超越使用更多資料或經語言模型挑選的高品質資料。 * **輸入不重要，答案樣式才關鍵**： * 即使輸入的不是標準問答對（例如：隨意切斷的句子前半段），只要以 GPT-4 生成的內容作為「答案」來微調模型，也能顯著提升模型能力（如 Mistral 7B Base 從 3.73 升至 7.3）。 * **Response Tuning**： * 實驗發現，即使沒有給模型問題（只拿答案來 Fine-Tuning 輸出的樣式），也能達到不錯的 Alignment 效果。 * **無需微調的 Alignment (手動規則)**： * 有研究顯示，即使不進行 Fine-Tuning，僅透過手動設計規則（例如：增加結束符號的機率、懲罰重複的 tokens）即可讓未經 Alignment 的 Base Model 輸出表現類似 Instruction Model，甚至贏過 Instruction Model 24% 的機率。這支持了 Alignment 其實是在做一件相對容易的事情。 * **自我對齊 (Self-Alignment)**： * 模型能夠自我對齊，例如 Self-Rewarding Model。模型會產生多個答案，自己給予評分，然後根據評分對模型進行強化學習，使其行為看起來像已經做過 Alignment，這證明了 Alignment 步驟的變化其實沒有想像中那麼大。 #### 4. Alignment 的極限與本質 Alignment 雖然改變了模型的表面行為，但其對內部知識結構的影響是有限的。 **Alignment 改變的是行為風格** * **行為差異微小**：Alignment 前後的模型在實際行為（token 輸出的機率分佈）上的差異非常小。 * **風格與停止**：Alignment 主要改變的是模型輸出中的連接詞、打招呼詞彙（如 "Thank you for asking"）和**結束符號**（決定何時停止說話）的機率。 * **表面功夫的風險**：經過微調的模型雖然外觀上看起來像樣，但其內容可能是錯誤的（洋洋灑灑，但內容錯誤），這顯示出 Alignment 的極限。 **Alignment 難以學習新知識** * **知識分類**：Alignment 資料根據 Base Model 是否能回答可分為四類：Known (會)、May Known (要問對方法才會)、Weakly Known (需取樣才可能對)、Unknown (不會)。 * **Unknown 知識的破壞性**：實驗結果與直覺相反，當模型開始學習那些它「Unknown」（完全不會）的新知識時，反而會破壞它在測試集上的表現。 * **最有效的資料類型**：最有效的 Alignment 資料是那些模型已經知道（Known, May Known, Weekly Known），但需要「被引導」才能表達出來的知識。特別是 May Known（問對方法才會）的知識，對模型最有幫助。 * **RLHF 的啟發**：RLHF 過程中用於訓練的資料都是模型自己產生的答案。因此，RLHF 的目的不是要模型學會完全不會的東西，而是激發模型本來的潛力，對其做的好行為進行鼓勵。 **預訓練的後遺症與知識的壓抑** * **Pretrain 的痕跡**：Alignment 難以抹除 Pretrain 階段留下的記憶。例如，GPT-4 能夠直接執行 ROT13（字母平移 13 位）解碼，但對 ROT8 表現不佳，這被猜測是因 Pretrain 資料中 ROT13 相關內容特別多所致。 * **參數未動，行為被抑制**：Alignment 雖然能讓模型避免說出不雅或敏感詞彙（例如髒話），但與這些觀念相關的**參數（知識）仍然存在於模型內部**。Alignment 真正改變的是抑制了激發這些參數的「前置數值」（Activation），使其不被啟動，就像給怪物戴上了面具，使其看起來人模人樣。