[Youtube] [LLM] Stanford Online - Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

# LLMs 簡介 ![image](https://hackmd.io/_uploads/Sy72L_loee.png) * LLMs（Large Language Models）是近期常見的聊天機器人，如 ChatGPT、Claude、Gemini ![image](https://hackmd.io/_uploads/Sy7jIuxjll.png) * 訓練 LLMs 的關鍵組成：模型架構、訓練損失與演算法、資料、評估方式、系統效能 ![image](https://hackmd.io/_uploads/HyNyD_xoxg.png) ![image](https://hackmd.io/_uploads/HkSxwdxsxg.png) * 學術界多專注於架構與演算法，產業更重視資料、評估與系統 # 訓練流程概觀 ![image](https://hackmd.io/_uploads/BJcxOOlogg.png) * 前訓練（Pre-training）：以大量文本訓練模型，學習語言分佈 * 後訓練（Post-training）：將模型調整成對話型 AI 助手（如 ChatGPT） * 前訓練偏向 GPT-2、GPT-3；後訓練偏向 ChatGPT # 語言模型的定義 ![messageImage_1757608061140](https://hackmd.io/_uploads/rJC9uOgjex.jpg) * 語言模型為一種機率分佈模型，輸入序列後計算句子出現的可能性 * 能判斷語法正確性與語義合理性 ![image](https://hackmd.io/_uploads/r1BAuueiel.png) * 具生成能力，可透過取樣產生新句子 # 自回歸語言模型 ![image](https://hackmd.io/_uploads/HJbQtueigl.png) * 透過鏈式法則分解句子機率，依序預測下一個詞 * 缺點是生成長句需逐詞迭代，速度慢 ![image](https://hackmd.io/_uploads/BJfVYulsxe.png) * 訓練時使用交叉熵損失，等同最大化真實文本的似然 # Tokenization ![image](https://hackmd.io/_uploads/B15OKuesge.png) * Token 比單字更通用，能處理錯字與無空格語言 * 單純使用字元會導致序列過長，增加運算成本 * Byte Pair Encoding（BPE）為常見方法，將常見字元組合合併成新 Token * Tokenizer 訓練流程：從字元開始，找出常見字元對，合併成 Token * 保留原始字元 Token 以處理錯字與低頻詞 * 缺點是數字與數學表達不自然，程式碼縮排容易出錯 # 評估方法 ![image](https://hackmd.io/_uploads/rk8RKulsll.png) * 困惑度（Perplexity）等同驗證集損失的轉換，衡量模型對下一詞的不確定性 * 最佳值為 1，最差為詞彙表大小 ![image](https://hackmd.io/_uploads/rkKaYdxjxx.png) ![image](https://hackmd.io/_uploads/B14Jcdgjel.png) * 工業界仍常用，學術界較少使用因受 Tokenizer 與資料影響 * NLP 基準測試常用題庫與問答方式評估，如 MMLU ![image](https://hackmd.io/_uploads/HJdg5ulill.png) * 常見平台有 Stanford HELM 與 HuggingFace Open LLM Leaderboard # 評估案例 ![messageImage_1757608455255](https://hackmd.io/_uploads/rkYGcuxigx.jpg) * MMLU 測試由題目搭配四個選項組成 * 評估方式可比較模型對各選項生成的機率或限制輸出為 ABCD 檢查其選擇 # Academic Benchmark：MMLU 評估方式 ![image](https://hackmd.io/_uploads/Hk3dc_giee.png) * 第一種作法：不取樣，直接比較每個選項的整句對數似然，選最可能者 * 利用語言模型的序列機率 $P(x_1\ldots x_L)$ 評分選項 * 適合封閉式選擇題；開放式問題評估更困難、另議 # 困惑度與 Tokenizer 依賴 * 困惑度上下界與詞彙表大小相關，Tokenizer 設計會改變可達上限 * 不同模型使用不同 Tokenizer（例如 1 萬 vs 10 萬詞），跨模型比較困惑度不公平 * 學術界因此較少用困惑度作為跨模型主指標 # 評估不一致與結果落差 * 相同資料集可能因評分流程差異而得出大幅不同分數 * 例：LLaMA-65B 在不同實作管線上可見 63.7% vs 48.8% 的落差 * 差異來源包含：選項約束、機率計算細節、提示格式 # 訓練—測試汙染（Train–Test Contamination） * 開放網路爬取使測試題目可能出現在訓練資料中 * 偵測手法示例：比較按原順序與打亂順序生成的整體似然，順序敏感性暗示泄漏 * 對學術基準至關重要，對產業內部開發相對次要 # Data ![messageImage_1757609020520](https://hackmd.io/_uploads/SkAB2Oljxg.jpg) ## 原始網路資料取得 * 以 Common Crawl 等爬蟲蒐集全網頁面，規模約數百十億頁、PB 級資料 * 原始頁面多為 HTML 片段、模板殘留、內容破碎，需重度處理 ## 文字萃取與基礎清理 * 從 HTML 抽取正文，處理數學式與樣板（頁首/頁尾/導覽列） * 內容安全過濾：NSFW、仇恨言論、PII、黑名單網域 * 去重：跨網址相同內容、段落重複、模板重複 ## 規則與模型輔助過濾 * 規則式品質篩選：字元/詞長分布、文件長度、異常 Token 分布 * 模型式過濾：以維基百科引用頁面為正樣本訓練分類器，偏好高品質來源 * 領域分類與再加權：上調程式碼、書籍等；下調娛樂雜訊等 ## 訓練尾段微調分佈 * 學習率下降階段以高品質語料微調（如維基、人工標註語料） * 目標是在收斂前對關鍵分佈「過擬合」以提升實用表現 ## 規模與來源分布示例 ![image](https://hackmd.io/_uploads/rkLcnOxoeg.png) cc* 學術資料集從 \~150B Tokens 發展到 \~15T Tokens 級別 * 來源常見：arXiv、PubMed、Wikipedia、StackExchange、部分 GitHub、書籍等 * 商用模型規模參考：LLaMA-2 約 2T Tokens，LLaMA-3 約 15T Tokens；GPT-4 推測同量級 ## 未解決問題與挑戰 * 高效處理管線、跨領域配比、自動化資料選擇仍待突破 * 合成資料與多模態資料對純文字能力的增益與風險 * 版權與合規、資料來源透明度、可重現性 # Scaling Laws（擴展定律） ![image](https://hackmd.io/_uploads/rk4hhOloel.png) * 損失隨計算量、參數量、資料量呈可預測的縮減趨勢（對數尺度下近線性） * 更大模型與更多資料一貫帶來更好表現，允許預估投入與效益 * 團隊可依目標損失反推所需資料與算力配置 ## Compute、參數與資料的關係 * 訓練計算量取決於參數量與資料量，兩者同時影響總 compute * 增加參數應同時增加訓練資料量，避免多輪重複同一資料集（大型 LLM 幾乎不做多輪 epoch） * 維持「增加 compute → 減少損失」的整體趨勢 ## 趨勢是否持續與是否會飽和 * 近兩年經驗上仍持續符合縮放趨勢 * 尚無明確實證顯示即將飽和 * 曲線在對數座標下可持續下降，是否與何時趨緩未知 ## 新舊開發流程對比 ![image](https://hackmd.io/_uploads/BJ9ZTOgill.png) * 舊流程：在大模型上直接做超參數搜尋，實際完整訓練時間有限 * 新流程：先找縮放配方→在多個小規模模型與不同尺寸上調參→擬合縮放律→一次性長時間訓練最終大模型 * 好處：以小規模實驗外推大規模行為，提升最終模型的有效訓練天數 ## 用縮放律比較架構 ![image](https://hackmd.io/_uploads/ByoEaOeogg.png) * 以多個尺寸訓練 Transformer 與 LSTM，分別繪製「尺寸–測試損失」點 * 擬合各自縮放曲線，外推至更高 compute 比較前景表現 * 觀察斜率（縮放率）與截距（初始常數項），判定長期可擴展性 ## 架構微差異的影響 * 小幅度架構變動多影響截距而非斜率 * 隨 compute 增加，截距差異可被時間與算力填平 * 資料品質對縮放斜率影響更關鍵，優於小改架構與損失設計 # 最佳化訓練資源分配（Chinchilla 洞見） ![messageImage_1757609405097](https://hackmd.io/_uploads/SklRpdeoel.jpg) * 以等 FLOPs 曲線（isoflops）同時計算不同「參數×資料量」組合的最佳點 * 擬合「最佳點的參數量 vs FLOPs」與「最佳點的 tokens vs FLOPs」的關係 * 結論示例：訓練最優約為每參數 20 個 token（20:1） * 若考慮長期推論成本，實務可能選擇較小模型、較多資料，比例可上看約 150:1 # 推論成本與工程權衡 * 推論在大量用戶規模下成本可觀 * 訓練最優與部署最優不必相同，需平衡參數量、延遲、吞吐與花費 # 縮放律能回答的實務問題 ![image](https://hackmd.io/_uploads/Bk1eAuesee.png) * 資料配比與混合（哪類資料上調、哪類下調） * 模型寬深配置、學習率隨尺寸變化的縮放規則 * 投資更多 GPU 還是收集更好資料的邊際效益比較 # Bitter Lesson（Sutton） ![image](https://hackmd.io/_uploads/rJWNR_xolg.png) * 隨著硬體與資料擴張，可擴展的簡潔方法終將獲勝 * 系統與資料工程的重要性往往高於細微架構創新 # 背靠信封估算（範例） ![image](https://hackmd.io/_uploads/Bk9UROxsex.png) * 模型規模：15.6 兆 tokens、45B 參數 * 計算量估算：FLOPs ≈ 6×參數×tokens ≈ 3.8×10^25 * 硬體與時間：16,000 張 H100，約 70 天，約 26–30M GPU·hours * 成本粗估：以 \$2/GPU·hour 計算約 \$52M，另含人力約 \$25M，合計約 \$75M 級 * 碳排估算：約 4,000 噸 CO₂e，約等同 \~2,000 趟 JFK↔倫敦來回 * 代際演進：新一代目標 FLOPs 常以 10× 成長規劃 # 為何需要後訓練（Post-training） ![image](https://hackmd.io/_uploads/r1iO0Oxoll.png) * 純語言模型傾向延續網路文本分佈，非直接回答指令 * 將模型對齊為可遵循指令、具安全與禮貌邊界的助理 ![image](https://hackmd.io/_uploads/BkFcRulsge.png) * 包含：指令遵循、內容審慎（拒絕不當請求）、風格一致 # 監督式微調（SFT） ![messageImage_1757609669715](https://hackmd.io/_uploads/H1OR0_golx.jpg) * 以人類撰寫的「指令→理想回覆」對，對預訓練模型做下一詞預測微調 * 目標：在小量高品質人類數據上讓模型學會依指令產生期望行為 * 資料來源：人工標註蒐集，成本高但效果直觀 # 監督式微調（SFT）與人類資料 ![image](https://hackmd.io/_uploads/HJ61yYgoex.png) ![image](https://hackmd.io/_uploads/BJ0CC_gile.png) * 以人類撰寫的「指令→理想回覆」對，對預訓練模型做下一詞預測微調 * SFT 是 ChatGPT 從 GPT-3 跨越到大眾可用助手的關鍵 * 人工資料蒐集昂貴且慢，OpenAssistant 等計畫用群眾外包蒐集 * Alpaca：以 175 則人類 QA 為種子，用當代強模型擴增出 \~52K 合成 QA，再微調 LLaMA-7B ![image](https://hackmd.io/_uploads/HkSGkKxolg.png) * LIMA：SFT 數據量從 2K 擴到 32K 收益有限，SFT 主要學「回覆格式與風格」，知識多來自預訓練 # 合成資料與人類在迴圈 * 純合成資料多代自舉會劣化分佈，多輪後難持續提升 * 人機協作路線：模型先產生草稿，人類只做重點編修，以較少人力注入新訊息 * SFT 使用與預訓練相同的最大似然損失，但以較大的學習率等超參放大影響 # SFT 侷限與幻覺關聯 ![messageImage_1757609829050](https://hackmd.io/_uploads/rk8dkYlixe.jpg) * 行為模仿受限於人類「能寫出的內容」而非「能分辨的好壞」 * 少量 SFT 若包含模型未見過的引用與事實，會促使「看似合理但不保證真實」的生成，可能加劇幻覺 * 產生高品質完整答案的標註成本極高 # 從偏好出發：RLHF 概念 ![image](https://hackmd.io/_uploads/rk0UyFlilx.png) * 以人類偏好而非行為複製為目標，對同一指令產生兩個回覆，請標註者選較佳者 * 兩種回饋形式：二元勝負訊號資訊稀疏；或訓練「獎勵模型」輸出連續偏好分數（Bradley–Terry 形式） * 以 PPO 進行策略優化，並以 KL 正則抑制過度偏離基線模型，避免「獎勵駭入」 # PPO 流水線與問題 ![image](https://hackmd.io/_uploads/S1f9yFesxe.png) * 流程：SFT → 訓練獎勵模型 → 以 PPO 多輪強化微調並持續蒐集新偏好資料 * 強化學習工程繁複：回合展開、裁剪、穩定性議題、實作細節多且文獻化不足 ![image](https://hackmd.io/_uploads/BJ-sJKljge.png) * PPO 後模型的「機率」不再對應良好的語言分佈估計，似然用於評估時需謹慎 # DPO：偏好直接最適化 ![image](https://hackmd.io/_uploads/H10AJtgjee.png) * 用純最大似然實作偏好學習：最大化被偏好的回覆似然、最小化不被偏好的回覆似然 * 在適當設計下，可與 PPO 的最優解等價，但無需獎勵模型與強化學習迴圈，實作大幅簡化 ![image](https://hackmd.io/_uploads/SkY1xtxjle.png) * 侷限：DPO 只能利用有標註的偏好資料；PPO 的獎勵模型可標註未標資料擴展規模 # 效果與結論 ![messageImage_1757609966400](https://hackmd.io/_uploads/HJxWlteoel.jpg) * 相較預訓練與僅 SFT，加入人類偏好學習（PPO 或 DPO）在摘要等任務上可達或超越人類參考 * 開源與產業實務常採 DPO，因為穩定、簡單、表現與 PPO 近似 # 人工偏好標註的挑戰 ![image](https://hackmd.io/_uploads/rJzzeKejgg.png) ![image](https://hackmd.io/_uploads/r1AQgYejgl.png) * 速度慢、成本高，指引複雜且任務本質難判斷 * 標註者易受形式影響如篇幅，偏好長答案而非更正確答案 * RHF 越做越容易導致模型冗長輸出 ![image](https://hackmd.io/_uploads/SkeFHlYgile.png) * 標註者族群分佈影響結果，存在分佈移轉問題 * 群眾外包倫理議題與暴露於有害內容的風險 # 以 LLM 輔助或取代人類標註 ![image](https://hackmd.io/_uploads/ByoIgFgjex.png) * 以模型偏好替代人類偏好蒐集資料 * 人類在二元偏好任務的一致性僅約六成多 * LLM 因變異小可達更高與人類眾數的一致率 * 成本顯著下降，現況可比人類便宜數十倍 * 產業與開源多採人機混合標註流程 # 後訓練模型評估的困難 * PPO/DPO 後模型不再是良好校準的機率模型，驗證損失與困惑度不可比 * 使用情境多樣且開放式，難以自動化評分 * 需要貼近真實使用的成對偏好評估 # 人類評估：Chatbot Arena ![messageImage_1757610081875](https://hackmd.io/_uploads/BJmdeYxoel.jpg) * 盲測雙模型對話，由大量使用者投票產生勝率排名 * 參與者偏技術族群，題目分佈可能偏向技術領域 * 成本與時效不利於高頻迭代開發 # LLM 評估：自動評審 ![image](https://hackmd.io/_uploads/rkxqgYliex.png) * 對同題生成兩模型輸出，交由強模型判斷較佳者並彙總勝率 * 與 Chatbot Arena 相關性極高 * 低成本且快速完成整體排名 ![image](https://hackmd.io/_uploads/Bkzsgtxoxg.png) ![image](https://hackmd.io/_uploads/H1l6gtgoxl.png) * 存在冗長偏好，模型傾向票選篇幅更長的輸出 # 緩解評估偏差 * 僅改變「冗長/簡潔」提示會大幅影響勝率 * 以迴歸等方法控制輸出長度可降低冗長偏差的影響 # 後訓練資料與訓練設定 * SFT 規模小，多在數千到數萬範例 * RLHF 規模較大，可達百萬級偏好對 * 產業常微調全部權重，開源常用 LoRA 等方法 * 預訓練視為初始化，後訓練以較大學習率持續訓練即可強烈改變行為 # 系統與效能要點 ![image](https://hackmd.io/_uploads/S1GTxKxolx.png) ![image](https://hackmd.io/_uploads/SkgAxKxoxg.png) ![image](https://hackmd.io/_uploads/B1cReYxoeg.png) ![image](https://hackmd.io/_uploads/SkA1WKesex.png) ![image](https://hackmd.io/_uploads/Bk5xZFeoxe.png) ![image](https://hackmd.io/_uploads/H1YE-Ylsge.png) * GPU 偏重吞吐，記憶體與通訊為瓶頸，模型 FLOPs 利用率約五成已屬理想 * 混合精度訓練以 16-bit 計算、32-bit 主權重，降低記憶體與通訊開銷 * 運算子融合減少記憶體往返，可藉由編譯優化獲得約兩倍加速 * 單純擴增 GPU 受供應與互連限制，需優化整體管線 # Terminology * 大型語言模型（LLM）：指以巨量資料訓練的深度學習模型，能處理並生成自然語言文字。 * 自回歸模型（Autoregressive Model）：依序預測下一個詞或符號的機率，常用於文字生成。 * Transformer：一種神經網路架構，利用自注意力機制來建模長距離依賴關係。 * 損失函數（Loss Function）：衡量模型預測與真實標籤差異的數學函數。 * 交叉熵損失（Cross-Entropy Loss）：常用於分類任務的損失函數，用來最小化預測分佈與真實分佈之間的差異。 * 最大似然估計（Maximum Likelihood Estimation）：透過最大化觀測資料的機率來訓練模型的方法。 * 機率分佈（Probability Distribution）：描述各事件發生可能性的函數。 * 標記化（Tokenization）：將文字序列拆分成較小的單位（token）以便模型處理。 * 子詞單元（Subword Units）：介於字與字母之間的最小處理單位，提升模型處理新詞的能力。 * 詞彙表（Vocabulary）：模型訓練時所使用的全部 token 集合。 * 字節對編碼（Byte Pair Encoding, BPE）：一種子詞切分演算法，逐步合併常見字元組合形成新 token。 * 預標記器（Pre-Tokenizer）：在正式標記化之前，先處理空格或標點的步驟。 * 詞向量（Word Embedding）：將離散的詞映射為連續向量空間中的表示。 * 隱表示（Hidden Representation）：模型內部對輸入序列的向量化表示。 * 線性層（Linear Layer）：神經網路的一層，進行線性變換以輸出新特徵。 * Softmax 函數：將輸出轉換為機率分佈的數學函數。 * 推理（Inference）：使用訓練好的模型進行預測或生成的過程。 * 概率採樣（Sampling）：從機率分佈中隨機選擇一個結果的過程。 * 困惑度（Perplexity）：評估語言模型的指標，數值越低代表模型預測越準確。 * 驗證集（Validation Set）：用來評估模型泛化能力的資料集，不參與訓練。 * NLP 基準測試（NLP Benchmark）：用來統一比較模型性能的資料集與任務集合。 * MMLU（Massive Multitask Language Understanding）：一個測試多領域知識的基準。 * 問答任務（Question Answering）：根據輸入問題生成或選擇正確答案的任務。 * 語料庫（Corpus）：訓練語言模型所用的大規模文字資料集合。 * 條件機率（Conditional Probability）：在已知部分事件下，其他事件發生的機率。 * 鏈式法則（Chain Rule of Probability）：將整體機率分佈分解為條件機率的數學公式。 * 訓練演算法（Training Algorithm）：優化模型參數的計算程序，如隨機梯度下降。 * 優化器（Optimizer）：調整模型參數以最小化損失函數的工具。 * 梯度（Gradient）：損失函數相對於參數的偏導數，用於指導更新方向。 * 學習率（Learning Rate）：控制每次參數更新幅度的超參數。 * 批次大小（Batch Size）：一次訓練所使用的樣本數量。 * 超參數（Hyperparameter）：需在訓練前設定的模型或訓練配置，如學習率。 * 訓練資料（Training Data）：用來學習模型參數的資料集合。 * 後訓練（Post-Training）：在大規模預訓練後，針對特定應用或任務進一步調整模型。 * 指令微調（Instruction Tuning）：利用人類標註的指令範例，提升模型遵循指令的能力。 * 強化學習自人類回饋（RLHF）：結合人類偏好來優化模型行為的技術。 * 系統最佳化（Systems Optimization）：讓模型能高效運行於硬體上的工程方法。 * GPU 加速（GPU Acceleration）：利用圖形處理器加速矩陣運算以訓練模型。 * 記憶體佔用（Memory Footprint）：模型或運算過程中所需的記憶體量。 * 分布式訓練（Distributed Training）：將模型訓練分散在多個運算節點上。 * 條件生成（Conditional Generation）：根據上下文條件來生成文本的過程。 * 語意一致性（Semantic Consistency）：模型輸出的文字是否符合語意邏輯。 * 文法正確性（Grammaticality）：輸出文字是否符合語法規則。 * 長序列問題（Long Sequence Problem）：模型處理長文字序列時效能或效率降低的情況。 * 二次複雜度（Quadratic Complexity）：隨輸入長度平方增長的計算成本，常見於注意力機制。 * 注意力機制（Attention Mechanism）：計算序列中不同位置之間相關性的方式。 * 自注意力（Self-Attention）：序列內部各元素互相關聯的注意力計算。 * 生成模型（Generative Model）：能根據機率分佈產生新樣本的模型。 * 多選題評估（Multiple Choice Evaluation）：限制模型在數個候選答案中選擇正確答案的方法。 * 自然語言理解（Natural Language Understanding）：機器理解語言含義的能力。 * 自然語言生成（Natural Language Generation）：機器生成符合語法與語意的語言的能力。 * MMLU（Massive Multitask Language Understanding）：跨多領域的多選題基準，用於衡量模型知識廣度與推理能力。 * 多選題似然評估：對每個候選答案計算條件機率，選擇最高者作為預測，不需生成自由文本。 * 開放式問答評估：讓模型自由生成答案，再以規則或評審衡量正確性與一致性，較具挑戰。 * 不採樣評估（direct likelihood）：直接比較候選答案的對數似然，避免生成帶來的隨機性。 * 取樣生成評估（sampling-based）：從機率分佈中抽樣生成答案，多次取樣估計模型表現。 * 句子對數似然（log-likelihood）：度量模型為整個序列指派之機率的對數值，用於精細評估。 * P(x₁…x\_L) 全序列機率：序列所有 token 的聯合機率，用於非生成式的精確評測。 * 條件機率分解（鏈式法則）：將聯合機率分解為逐步的條件機率乘積，是自回歸評估基礎。 * 困惑度對標記器依賴：困惑度數值會受 token 化粒度影響，跨模型比較可能失真。 * 詞彙表大小上界效應：困惑度理論上界與詞彙表大小相關，導致不同 tokenizer 難以可比。 * 評估協議差異（evaluation protocol variance）：不同實作細節（如正則化、長度處理）會改變分數。 * 提示敏感性（prompt sensitivity）：同一模型在不同提示格式下表現差異顯著，影響基準公平性。 * 受限解碼（constrained decoding）：在評測中限制輸出於特定 token 集（如 A/B/C/D）以提高客觀性。 * 次標記限制（token-level restriction）：只允許特定下一 token 的機率質量，避免偏離題型。 * 校準（calibration）：模型機率輸出與實際正確率的一致程度，影響決策可信度。 * 準確率（accuracy）：正確預測比例，是多選題常用的主指標。 * 巨集平均準確率（macro-avg accuracy）：各子任務先算準確率再平均，避免大類別壓過小類別。 * 基準外洩（benchmark leakage）：測試資料滲入訓練集導致高估性能的現象。 * 訓練—測試汙染（train–test contamination）：訓練中看過測試樣本或其近似拷貝，破壞公允評估。 * 排序偏好檢驗（order effect test）：改變測試樣本順序觀察似然變化，用於偵測資料汙染跡象。 * 似然排序檢驗（likelihood ordering test）：比較原順序與打亂順序的總對數似然以判斷外洩風險。 * Common Crawl 網路爬取：大規模抓取公開網頁的資料源，是預訓練語料的重要基底。 * HTML 文字抽取（HTML text extraction）：自網頁去除標籤與噪音，還原可訓練文本內容。 * 樣板內容移除（boilerplate removal）：去除導覽列、頁尾等重複模板，提升語料有效密度。 * 重複資料去除（deduplication）：刪除重複段落或文件，避免模型過度記憶。 * 近重複偵測（near-duplicate detection/MinHash）：以哈希近似檢測相似內容，擴大去重範圍。 * 個資過濾（PII filtering）：移除姓名、地址、帳號等個資以降低隱私與法規風險。 * 網站黑名單（domain blacklist）：屏蔽特定來源（如低質、敏感站台）以淨化語料。 * 規則式濾除（rules-based filtering）：以長度、字元分佈、語言識別等規則排除低品質文本。 * 模型式濾除（model-based filtering）：訓練分類器評分文件品質，保留高分樣本。 * 維基參照訓練（Wikipedia-reference classifier）：以維基引用頁作正例學習「高品質風格」的過濾器。 * 網域分類與重加權（domain reweighting）：按主題類別調整抽樣比例，以達成目標能力配置。 * 程式碼語料上採樣（code upweighting）：增加程式碼比例以強化推理與結構化生成能力。 * 高品質尾端調適（high-quality tail finetune）：在訓練末期以優質小集微調，提升最終表現。 * 持續預訓練（continual pretraining）：在既有模型上以新資料延伸訓練，更新知識或能力。 * 上下文長度擴展（context window extension）：擴大可處理序列長度以涵蓋更長文本關聯。 * 合成資料生成（synthetic data generation）：用模型或管線自動產生訓練樣本以補足稀缺領域。 * 多模態對齊（multimodal alignment）：結合文字與影像/音訊等資料以增強語言理解。 * 版權與法遵風險（copyright/compliance risk）：資料來源可能觸及著作權與政策規範的法律問題。 * 資料配比（mixture balancing）：控制不同來源/領域比例以最佳化下游泛化。 * The Pile 基準語料：學術常用的多來源文本集合，用於預訓練研究比較。 * 代碼/Stack Exchange 資料源：問答與程式碼語料，常用來增強推理與工具使用能力。 * 代幣數尺度（token count scale，兆級）：以 token 數量衡量資料規模（如 15 兆 token）。 * 參數規模（parameter count）：模型權重數量，影響容量與表現上限。 * 計算量（compute budget）：可用算力與時長，決定訓練規模與策略。 * 可擴展律（scaling laws）：損失隨資料、參數、計算量呈規律縮減的經驗定律。 * 計算最適縮放（compute-optimal scaling）：在固定算力下最佳分配參數與資料以最小化損失。 * 驗證損失（validation loss）：於獨立資料集量測的訓練目標值，用於監控泛化。 * 雙對數線性關係（log–log linearity）：在對數座標下損失與資源呈近線性關係的現象。 * 跨模型可比性與重現性（cross-model comparability & reproducibility）：不同實作間結果可公平比較且可重現。 * 評測方差（evaluation variance）：由抽樣、隨機種子、資料切分等造成的分數波動。 * 評測污染檢測（contamination detection）：以統計或檢索方法鑑別測試集是否被模型見過。 * 排序似然檢驗（likelihood ordering test）：用序列生成總似然的順序差異來推斷外洩可能性。 * 計算量（Compute Budget）：可用的總訓練資源，通常以 FLOPs 或 GPU-小時衡量，用來規劃模型/資料規模。 * 浮點運算次數（FLOPs）：訓練或推理所需的理論計算量單位，常用於比較模型與訓練計畫。 * 等計算曲線（IsoFLOPs Curve）：在相同計算量下改變參數數與資料量所得到的性能等高線。 * 參數—資料共縮放（Parameter–Data Co-scaling）：隨模型參數增長同步增加訓練 token 數以維持效率。 * Chinchilla 規則：在固定算力下的近似最優分配，建議約 20 個 token 對 1 個參數。 * 推理成本最適化（Inference-optimal Scaling）：納入長期推理成本後，建議更高的 token:參數比（如 \~150:1）。 * 縮放率（Scaling Exponent/Slope）：損失相對資源變化的斜率，決定擴大規模帶來的邊際收益。 * 截距（Intercept）：在縮放關係上的起點差異，常反映架構或資料質量的常數優勢。 * 縮放外推（Scaling Extrapolation）：以小模型/短訓練的曲線擬合來預測大規模最終表現。 * 計算最適點（Compute-optimal Point）：給定算力下最小化驗證損失的參數與資料配置。 * 訓練週期（Epoch）：完整走訪一次訓練資料；大規模預訓練常採少甚至不到 1 個週期。 * 吞吐量（Throughput）：每秒可處理的 token 或樣本數，受模型大小、批次與硬體影響。 * 有效批次大小（Effective Batch Size）：實體批次乘以梯度累積步數，影響穩定性與收斂。 * 梯度累積（Gradient Accumulation）：多步累積梯度以模擬更大批次、受限於記憶體。 * 學習率縮放（LR Scaling）：隨模型或批次改變調整學習率的經驗法則（如線性/平方根縮放）。 * 熱身—退火日程（Warmup–Decay Schedule）：先逐步升高後緩降學習率以穩定訓練。 * 混合精度訓練（Mixed Precision）：用較低位元浮點數加速並節省記憶體（如 FP16/BF16）。 * 記憶體綁定（Memory Bandwidth Bound）：訓練受制於記憶體傳輸速率而非算力的瓶頸狀態。 * 通訊開銷（Communication Overhead）：分布式訓練中節點同步所耗時間，限制擴展效率。 * 參數伺服（Parameter Server）與全同步（All-Reduce）：常見分布式梯度聚合策略。 * 張量並行（Tensor Parallelism）：切分層內矩陣運算於多 GPU 以容納更大模型。 * 管線並行（Pipeline Parallelism）：跨層切分模型並流水化小批次以提高利用率。 * 雙向並行（Tensor+Pipeline Hybrid）：結合張量與管線並行以橫向與縱向擴展。 * 檢查點儲存（Checkpointing）：定期保存模型狀態以容錯與中斷續訓。 * 激活檢查點（Activation Checkpointing）：重算中間激活以換取較低記憶體佔用。 * 故障恢復（Fault Tolerance）：在節點失效時保持訓練連續性的系統能力。 * 資料—模型並行混合（Data–Model Parallel Hybrid）：同時在樣本與參數維度切分工作負載。 * 最佳化器狀態（Optimizer State）：如動量/二階矩等附加參數，對總記憶體需求影響巨大。 * A100/H100 GPU 族：主流資料中心訓練晶片，提供高矩陣運算密度與高速記憶體。 * GPU-小時（GPU-Hours）：以單張 GPU 運作一小時計量的成本與規模指標。 * 雲端即時租用成本（Spot/On-demand Pricing）：以時租計費的 GPU 成本模型，用於粗估訓練費用。 * 訓練碳足跡（Training Carbon Footprint）：以二氧化碳當量估算的能源與環境影響。 * 能效（Performance per Watt）：每瓦特可達成的運算量，關乎成本與永續。 * 效能基準漂移（Benchmark Drift）：隨協議或資料更新導致分數時間序列不可直接比較。 * 評測協議鎖定（Protocol Fixation）：統一提示、長度與解碼規則以確保可比性。 * 長度正則（Length Normalization）：在對數似然比較時調整序列長度帶來的偏差。 * 候選集合定義（Candidate Set Definition）：明確規定可選答案空間，避免分數失真。 * 開放式評測對齊（Open-ended Eval Alignment）：以規則、評審或自動評分器對自由生成打分。 * 近似上界（Bayes/Oracle Upper Bound）：理論或工具輔助的可達性能上限，用於評估剩餘空間。 * 邊際報酬遞減（Diminishing Returns）：擴大規模帶來的單位改善逐漸下降的現象。 * 資料質量梯度（Data Quality Gradient）：不同資料子集對最終縮放曲線造成的斜率變化。 * 資料混合設計（Mixture Design）：決定各來源比例與抽樣策略以優化縮放行為。 * 早期停訓外推風險（Early-stopping Extrapolation Risk）：以未收斂點擬合可能高估最終表現。 * 架構微改動效應（Architectural Tweaks Effect）：多半反映在截距微幅改善而非改變斜率。 * 系統—資料優先策略（Systems/Data-first Strategy）：將工程與資料品質置於架構小改前。 * SFT（監督式微調）：以人類標註的問答/指令資料微調預訓練模型，使其可遵循指令。 * 對齊（Alignment）：使模型輸出符合人類偏好與安全規範的整體方法論。 * 受限解碼評測（Constrained Decoding Eval）：在評測期間只允許特定 token 輸出以精確比對。 * 推理可擴展性（Inference Scalability）：在海量請求下維持低延遲與成本的能力。 * 現場效能監測（Production Monitoring）：上線後持續追蹤品質、延遲與異常以保障服務。 * 監督式微調（SFT）：以人類撰寫的問答/指令資料，用與預訓練相同的下一詞預測損失對基礎模型進行微調，使其更像助理。 * 行為複製（Behavioral Cloning）：直接模仿標註者的輸出分佈，學習「怎麼回覆」而非「哪個較好」。 * 人類偏好（Human Preference）：標註者對多個候選回答的偏好排序或勝出選擇，用於引導模型行為。 * 偏好資料（Preference Data）：對同一指令的兩個或多個模型回覆，附上人類「較佳」標記的資料集。 * 雙樣本偏好標註（Pairwise Preference）：在兩個候選答案間選出較優者，訊號密度高於絕對評分。 * 獎勵模型（Reward Model, RM）：以偏好資料訓練的分類器，輸入（指令，回覆）輸出一個連續「好壞分數」。 * Bradley–Terry 模型：以邏輯斯迴歸形式將兩回覆的 RM 分數轉為勝率，訓練 RM 的常用框架。 * 對數幾率（Logit）：在 softmax 前的未正規化分數；在 RM 中代表偏好的強度。 * 受限解碼（Constrained Decoding）：評測或訓練時限制可輸出 token 集（如多選 A/B/C/D），避免跑題。 * 近端策略最佳化（PPO）：以 KL 懲罰穩定更新策略的強化學習法，用 RM 分數做獎勵來微調 LM。 * 策略正則化（KL 懲罰）：約束新模型分佈不偏離參考模型，以防過度最佳化與崩潰。 * 展開（Rollout）：給定提示由當前策略生成完整回覆，取得用於 RL 或評分的樣本。 * 反饋迴路（Feedback Loop）：「生成→標註→更新→再生成」的迭代流程，逐步提升行為品質。 * 過度最佳化（Reward Hacking）：模型鑽 RM 的漏洞，分數高但人類體感差的現象。 * 幻覺（Hallucination）：模型產生看似合理但事實錯誤的內容，SFT 若含未知真實性的目標會加劇此風險。 * 合成資料（Synthetic Data）：用較強模型或管線仿造人類示例，擴充 SFT/偏好資料以節省成本。 * Alpaca 方法：以少量人類指令示例，請強模型擴寫成數萬對指令-回覆，再對小模型做 SFT。 * 開源助手（OpenAssistant）：群眾外包收集的人類對話/任務資料，用於 SFT 與偏好學習。 * 人類在迴圈（Human-in-the-Loop）：用人類做關鍵點的審核/編輯而非全量撰寫，提升資料效率。 * 主動學習（Active Learning）：挑選最具資訊增益的樣本給人標，減少標註成本。 * 編輯式標註（Edit-based Labeling）：先由模型產生草稿，由人只做修訂；比從零撰寫更省時。 * 指令微調（Instruction Tuning）：以多樣任務指令與示範，提升遵循自然語言指示的能力。 * 對齊（Alignment）：讓輸出符合人類價值與使用場景，包括有用性、誠實與無害。 * 安全對齊（Safety Alignment）：加入拒答、過濾與安全策略，使模型避免產生危害性內容。 * DPO（直接偏好最佳化）：不訓練 RM、不用 RL，直接最大化偏好答案的似然並最小化不偏好者。 * 最大似然偏好學習（Preference MLE）：用對比式的對數似然差來逼近偏好最優策略的學習方法。 * 參考模型（Reference Model）：作為 KL 約束的基準分佈，通常是 SFT 後的權重快照。 * KL 距離控制（KL Control）：在 DPO/PPO 中控制與參考分佈的差距，平衡探索與穩定。 * 基礎模型（Base/Pretrained Model）：僅經過網路語料預訓練、尚未對齊的人機助理之前身。 * 生成品質—多樣性權衡：提高偏好分數常壓縮熵；需靠 KL 或溫度維持多樣性。 * 長度正規化（Length Normalization）：比較對數似然時按 token 數調整，避免偏袒短答。 * 置信校準（Calibration）：機率輸出與實際正確率的一致性，影響人機決策信任。 * 非取樣似然評估：直接用對數似然比較候選，不靠抽樣生成，降低隨機性。 * 標註者一致性（Inter-annotator Agreement）：不同人對同題的偏好一致程度，反映資料可靠性。 * 標註噪音（Label Noise）：偏好標記受主觀或疏忽影響的誤差，需透過冗餘或模型魯棒性處理。 * 指標偷渡（Metric Gaming）：為迎合自動評分器而產生非本質改進的行為。 * 指示遵循度（Instruction Following）：模型理解並執行使用者要求的能力，是對齊核心目標。 * 拒答策略（Refusal Policy）：對危險/違規請求給出安全拒絕與替代建議的規則。 * 系統提示（System Prompt）：高優先級的角色與行為指令，約束回覆風格與界限。 * 評測協議（Evaluation Protocol）：固定提示、溫度、長度與候選集合的詳細規則以確保可比性。 * 汙染檢測（Contamination Detection）：判斷測試題是否出現在訓練中，維持評測公正。 * 標記偏差（Tokenizer Bias）：不同 token 粒度影響似然與困惑度，干擾跨模型比較。 * 訓練—推理分離（Train–Inference Shift）：訓練目標（偏好/似然）與上線需求（延遲/成本）之落差。 * 推理成本（Inference Cost）：上線每次生成的資源花費，長期遠高於一次性訓練時常需納入設計。 * 最佳化器穩定性（Optimizer Stability）：SFT/RLHF 中學習率與剪裁等對收斂與品質的敏感度。 * 參數高敏感性（Hyperparameter Sensitivity）：偏好學習對 β（KL 係數）、溫度等超參數的脆弱性。 * 模型蒸餾（Distillation）：將對齊後的大模型行為壓縮到小模型，降低推理成本。 * 品質過濾器（Quality Filter）：用規則或小模型篩選合成/人類資料，提升偏好訊號純度。 * 負面例強化（Negative Sampling/Downweight）：顯式降低不良回覆的似然，拉開好壞差距。 * 偏好資料覆蓋率（Preference Coverage）：偏好集對任務/領域/風格的涵蓋程度，決定泛化表現。