20251107筆記 內容可能有錯誤,請參考原始影片 [李宏毅【生成式AI時代下的機器學習(2025)】](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi) [【生成式AI時代下的機器學習(2025)】第五講:大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限](https://www.youtube.com/watch?v=Ozos6M1JtIE&list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi&index=5) ### 【生成式AI時代下的機器學習(2025)】第五講:大型語言模型訓練方法「預訓練–對齊」(Pretrain-Alignment) 的強大與極限 大綱  **I. 訓練範式概述:預訓練–對齊 (Pretrain-Alignment)** 1. 三階段流程:預訓練 (Pretrain) → 監督式微調 (SFT) → 人類回饋強化學習 (RLHF)。 2. Alignment 定義:泛指 SFT 和 RLHF 階段,目標是輸出與人類價值觀對齊。 3. 模型區分:Base Model (僅 Pretrain) vs. Chat/Instruct Model (含 Alignment)。 **II. 預訓練 (Pretrain) 的強大與資料要求** 1. Pretrain 的核心地位:是模型能力的「龍身主體」,Alignment 僅是「畫龍點睛」。 2. Base Model 的局限:缺乏 Alignment 時會「暴走」、重複內容,無法直接使用。 3. 資料需求與挑戰:需極大量且優質、多樣化、低重複性的資料。 **III. 對齊 (Alignment) 的極致效率與技術** 1. Alignment 資料量:所需資料量極少(甚至只需數千筆)。 2. 知識蒸餾 (Knowledge Distillation):利用強大模型(如 GPT-4)作為教師,快速提升模型能力。 3. 行為調整:實驗顯示,僅透過 Response Tuning 或手動規則調整,即可模仿 Alignment 效果。 **IV. Alignment 的本質與極限** 1. 行為改變 vs. 知識學習:Alignment 主要改變輸出的風格(如連接詞、結束符號機率),對內在知識結構改變不大。 2. 學習限制:Alignment 難以教會模型「完全不會」的新知識。 3. 潛力激發:Alignment 最有效的作用是強化模型「已經知道,但表達不出來」的能力。 4. 預訓練後遺症:Alignment 難以抹除 Pretrain 階段的潛在記憶或不雅知識(僅是暫時壓抑)。 --- #### 1. 預訓練–對齊 (Pretrain-Alignment) 訓練範式 大型語言模型的訓練流程基本上分為三個階段: * **第一階段:預訓練 (Pretrain)** * 此階段透過大量從網路爬取的資料,目的是讓機器具備基本的文字接龍能力。 * **第二階段:監督式微調 (Supervised Fine-Tuning, SFT)** * 也稱為 Instruction Fine-Tuning,此階段會引入人類提供正確的答案,指導模型看到特定輸入時,應當輸出某種樣子的內容。 * **第三階段:人類回饋強化學習 (Reinforcement Learning with Human Feedback, RLHF)** * 由人類使用者提供回饋,告訴機器哪種回答比較好、哪種比較不好。 **Alignment 的定義與模型類型** * 這堂課中,**Alignment** (對齊) 特指需要人類參與的階段,即第二階段的 SFT 與第三階段的 RLHF。 * Alignment 的目標是希望機器的輸出能與人類的價值觀和需求對齊 (align)。 * **Base Model (基礎模型)**:模型名稱中包含 `base` 字眼,通常代表只做過 Pretrain、沒有做 Alignment 的模型(如 Llama 2 7B base)。 * Base Model 即使知道知識(如 Llama 2 7B base 知道 Machine Learning 是什麼),但在回答時會不斷重複內容、難以停止,無法直接使用。 * **Chat/Instruct Model (對齊模型)**:模型名稱中包含 `chat` 或 `instruct` 字眼,則代表是做過 Alignment 的版本(如 Llama 2 7B chat)。 * Alignment 確實能大幅改變模型的行為,使其回答像模像樣,並能在基準測試(如 MT-bench)上獲得巨大提升,例如 Llama 3 70B 從 Base Model 的 2.74/3.0 分提升到 8.63 分。 #### 2. 預訓練 (Pretrain) 的強大與資料要求 儘管 Alignment 帶來巨大的分數提升,但 Pretrain 才是模型能力的「龍身主體」,Alignment 只是「畫龍點睛」的步驟。 **Pretrain 資料的規模與潛在耗盡** * 現代優秀的 Pretrain Model 需要極大量的資料。例如,Llama 3 8B 使用了 15T tokens。 * 由於訓練資料量增長速度快於網路資料增長,有人擔心網路上所有可用 token 可能在 2028 年到 2030 年間用盡。 * 目前像 Hugging Face 釋出的 FineWeb 資料集,已提供經過清理後的 15T tokens 資料。 **Pretrain 資料的品質與清理** * **資料清理的重要性**:從網路爬取的資料通常太髒,需要經過多個步驟清理才能使用。例如,Refined Web 的清理過程最終只保留了 Common Crawl 資料的大約 1/5。 * **多樣性 (Diversity)**:在 Pretrain 資料中,如果同一實體 (entity) 有多種不同版本的介紹方式(例如詞彙順序不同),能強化模型的理解能力,學到更泛用的知識。實驗顯示,即使只有部分 entity 具有多樣化的介紹,也足以讓模型在 Pretrain 階段學到更泛用的知識。  * **避免重複 (Deduplication)**:應盡量讓模型接觸各式各樣不同的資料,而不是反覆看一樣的內容。 * 當模型看重複的資料超過四次後,能力的增長就會開始有顯著差異;看超過 40 遍後,基本上不會再有能力增長。這表明,在固定算力下,應讓模型盡量看不同的資料,而不是強化複習相同的資料。 #### 3. 對齊 (Alignment) 的極致效率與技術 Alignment 的效率極高,只需極少量的資料就能達到巨大的效果: * **極少的 Alignment 資料量**: * Llama 2 在 SFT 階段只使用了 27,540 筆資料。 * 一篇名為 (Less is More for Alignment) 的論文,只用了 1,000 筆精挑細選的資料進行微調,就達到了與 GPretrain-4 不相上下的表現。 * 這說明 Alignment 雖然影響巨大,但所需的資料量非常少。 * **品質至上**:Alignment 資料雖然不用多,但品質極為重要。 * **知識蒸餾 (Knowledge Distillation)**: * 這是一種利用強大模型(像是GPT-4)作為「老師」來訓練自己模型的方法。許多聲稱以極低成本(例如 100 美金)訓練出的模型(如 Alpaca, Vicuna)通常都是透過知識蒸餾方式,讓能力瞬間暴增。 * **挑選資料的方法**: * 有研究發現,挑選 GPT-4 生成的「最長答案」的 1,000 筆資料進行訓練,效果能超越使用更多資料或經語言模型挑選的高品質資料。 * **輸入不重要,答案樣式才關鍵**: * 即使輸入的不是標準問答對(例如:隨意切斷的句子前半段),只要以 GPT-4 生成的內容作為「答案」來微調模型,也能顯著提升模型能力(如 Mistral 7B Base 從 3.73 升至 7.3)。 * **Response Tuning**: * 實驗發現,即使沒有給模型問題(只拿答案來 Fine-Tuning 輸出的樣式),也能達到不錯的 Alignment 效果。 * **無需微調的 Alignment (手動規則)**: * 有研究顯示,即使不進行 Fine-Tuning,僅透過手動設計規則(例如:增加結束符號的機率、懲罰重複的 tokens)即可讓未經 Alignment 的 Base Model 輸出表現類似 Instruction Model,甚至贏過 Instruction Model 24% 的機率。這支持了 Alignment 其實是在做一件相對容易的事情。 * **自我對齊 (Self-Alignment)**: * 模型能夠自我對齊,例如 Self-Rewarding Model。模型會產生多個答案,自己給予評分,然後根據評分對模型進行強化學習,使其行為看起來像已經做過 Alignment,這證明了 Alignment 步驟的變化其實沒有想像中那麼大。 #### 4. Alignment 的極限與本質 Alignment 雖然改變了模型的表面行為,但其對內部知識結構的影響是有限的。 **Alignment 改變的是行為風格** * **行為差異微小**:Alignment 前後的模型在實際行為(token 輸出的機率分佈)上的差異非常小。 * **風格與停止**:Alignment 主要改變的是模型輸出中的連接詞、打招呼詞彙(如 "Thank you for asking")和**結束符號**(決定何時停止說話)的機率。 * **表面功夫的風險**:經過微調的模型雖然外觀上看起來像樣,但其內容可能是錯誤的(洋洋灑灑,但內容錯誤),這顯示出 Alignment 的極限。 **Alignment 難以學習新知識** * **知識分類**:Alignment 資料根據 Base Model 是否能回答可分為四類:Known (會)、May Known (要問對方法才會)、Weakly Known (需取樣才可能對)、Unknown (不會)。 * **Unknown 知識的破壞性**:實驗結果與直覺相反,當模型開始學習那些它「Unknown」(完全不會)的新知識時,反而會破壞它在測試集上的表現。 * **最有效的資料類型**:最有效的 Alignment 資料是那些模型已經知道(Known, May Known, Weekly Known),但需要「被引導」才能表達出來的知識。特別是 May Known(問對方法才會)的知識,對模型最有幫助。 * **RLHF 的啟發**:RLHF 過程中用於訓練的資料都是模型自己產生的答案。因此,RLHF 的目的不是要模型學會完全不會的東西,而是激發模型本來的潛力,對其做的好行為進行鼓勵。 **預訓練的後遺症與知識的壓抑** * **Pretrain 的痕跡**:Alignment 難以抹除 Pretrain 階段留下的記憶。例如,GPT-4 能夠直接執行 ROT13(字母平移 13 位)解碼,但對 ROT8 表現不佳,這被猜測是因 Pretrain 資料中 ROT13 相關內容特別多所致。 * **參數未動,行為被抑制**:Alignment 雖然能讓模型避免說出不雅或敏感詞彙(例如髒話),但與這些觀念相關的**參數(知識)仍然存在於模型內部**。Alignment 真正改變的是抑制了激發這些參數的「前置數值」(Activation),使其不被啟動,就像給怪物戴上了面具,使其看起來人模人樣。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up