# LLMs 簡介 ![image](https://hackmd.io/_uploads/Sy72L_loee.png) * LLMs(Large Language Models)是近期常見的聊天機器人,如 ChatGPT、Claude、Gemini ![image](https://hackmd.io/_uploads/Sy7jIuxjll.png) * 訓練 LLMs 的關鍵組成:模型架構、訓練損失與演算法、資料、評估方式、系統效能 ![image](https://hackmd.io/_uploads/HyNyD_xoxg.png) ![image](https://hackmd.io/_uploads/HkSxwdxsxg.png) * 學術界多專注於架構與演算法,產業更重視資料、評估與系統 # 訓練流程概觀 ![image](https://hackmd.io/_uploads/BJcxOOlogg.png) * 前訓練(Pre-training):以大量文本訓練模型,學習語言分佈 * 後訓練(Post-training):將模型調整成對話型 AI 助手(如 ChatGPT) * 前訓練偏向 GPT-2、GPT-3;後訓練偏向 ChatGPT # 語言模型的定義 ![messageImage_1757608061140](https://hackmd.io/_uploads/rJC9uOgjex.jpg) * 語言模型為一種機率分佈模型,輸入序列後計算句子出現的可能性 * 能判斷語法正確性與語義合理性 ![image](https://hackmd.io/_uploads/r1BAuueiel.png) * 具生成能力,可透過取樣產生新句子 # 自回歸語言模型 ![image](https://hackmd.io/_uploads/HJbQtueigl.png) * 透過鏈式法則分解句子機率,依序預測下一個詞 * 缺點是生成長句需逐詞迭代,速度慢 ![image](https://hackmd.io/_uploads/BJfVYulsxe.png) * 訓練時使用交叉熵損失,等同最大化真實文本的似然 # Tokenization ![image](https://hackmd.io/_uploads/B15OKuesge.png) * Token 比單字更通用,能處理錯字與無空格語言 * 單純使用字元會導致序列過長,增加運算成本 * Byte Pair Encoding(BPE)為常見方法,將常見字元組合合併成新 Token * Tokenizer 訓練流程:從字元開始,找出常見字元對,合併成 Token * 保留原始字元 Token 以處理錯字與低頻詞 * 缺點是數字與數學表達不自然,程式碼縮排容易出錯 # 評估方法 ![image](https://hackmd.io/_uploads/rk8RKulsll.png) * 困惑度(Perplexity)等同驗證集損失的轉換,衡量模型對下一詞的不確定性 * 最佳值為 1,最差為詞彙表大小 ![image](https://hackmd.io/_uploads/rkKaYdxjxx.png) ![image](https://hackmd.io/_uploads/B14Jcdgjel.png) * 工業界仍常用,學術界較少使用因受 Tokenizer 與資料影響 * NLP 基準測試常用題庫與問答方式評估,如 MMLU ![image](https://hackmd.io/_uploads/HJdg5ulill.png) * 常見平台有 Stanford HELM 與 HuggingFace Open LLM Leaderboard # 評估案例 ![messageImage_1757608455255](https://hackmd.io/_uploads/rkYGcuxigx.jpg) * MMLU 測試由題目搭配四個選項組成 * 評估方式可比較模型對各選項生成的機率或限制輸出為 ABCD 檢查其選擇 # Academic Benchmark:MMLU 評估方式 ![image](https://hackmd.io/_uploads/Hk3dc_giee.png) * 第一種作法:不取樣,直接比較每個選項的整句對數似然,選最可能者 * 利用語言模型的序列機率 $P(x_1\ldots x_L)$ 評分選項 * 適合封閉式選擇題;開放式問題評估更困難、另議 # 困惑度與 Tokenizer 依賴 * 困惑度上下界與詞彙表大小相關,Tokenizer 設計會改變可達上限 * 不同模型使用不同 Tokenizer(例如 1 萬 vs 10 萬詞),跨模型比較困惑度不公平 * 學術界因此較少用困惑度作為跨模型主指標 # 評估不一致與結果落差 * 相同資料集可能因評分流程差異而得出大幅不同分數 * 例:LLaMA-65B 在不同實作管線上可見 63.7% vs 48.8% 的落差 * 差異來源包含:選項約束、機率計算細節、提示格式 # 訓練—測試汙染(Train–Test Contamination) * 開放網路爬取使測試題目可能出現在訓練資料中 * 偵測手法示例:比較按原順序與打亂順序生成的整體似然,順序敏感性暗示泄漏 * 對學術基準至關重要,對產業內部開發相對次要 # Data ![messageImage_1757609020520](https://hackmd.io/_uploads/SkAB2Oljxg.jpg) ## 原始網路資料取得 * 以 Common Crawl 等爬蟲蒐集全網頁面,規模約數百十億頁、PB 級資料 * 原始頁面多為 HTML 片段、模板殘留、內容破碎,需重度處理 ## 文字萃取與基礎清理 * 從 HTML 抽取正文,處理數學式與樣板(頁首/頁尾/導覽列) * 內容安全過濾:NSFW、仇恨言論、PII、黑名單網域 * 去重:跨網址相同內容、段落重複、模板重複 ## 規則與模型輔助過濾 * 規則式品質篩選:字元/詞長分布、文件長度、異常 Token 分布 * 模型式過濾:以維基百科引用頁面為正樣本訓練分類器,偏好高品質來源 * 領域分類與再加權:上調程式碼、書籍等;下調娛樂雜訊等 ## 訓練尾段微調分佈 * 學習率下降階段以高品質語料微調(如維基、人工標註語料) * 目標是在收斂前對關鍵分佈「過擬合」以提升實用表現 ## 規模與來源分布示例 ![image](https://hackmd.io/_uploads/rkLcnOxoeg.png) cc* 學術資料集從 \~150B Tokens 發展到 \~15T Tokens 級別 * 來源常見:arXiv、PubMed、Wikipedia、StackExchange、部分 GitHub、書籍等 * 商用模型規模參考:LLaMA-2 約 2T Tokens,LLaMA-3 約 15T Tokens;GPT-4 推測同量級 ## 未解決問題與挑戰 * 高效處理管線、跨領域配比、自動化資料選擇仍待突破 * 合成資料與多模態資料對純文字能力的增益與風險 * 版權與合規、資料來源透明度、可重現性 # Scaling Laws(擴展定律) ![image](https://hackmd.io/_uploads/rk4hhOloel.png) * 損失隨計算量、參數量、資料量呈可預測的縮減趨勢(對數尺度下近線性) * 更大模型與更多資料一貫帶來更好表現,允許預估投入與效益 * 團隊可依目標損失反推所需資料與算力配置 ## Compute、參數與資料的關係 * 訓練計算量取決於參數量與資料量,兩者同時影響總 compute * 增加參數應同時增加訓練資料量,避免多輪重複同一資料集(大型 LLM 幾乎不做多輪 epoch) * 維持「增加 compute → 減少損失」的整體趨勢 ## 趨勢是否持續與是否會飽和 * 近兩年經驗上仍持續符合縮放趨勢 * 尚無明確實證顯示即將飽和 * 曲線在對數座標下可持續下降,是否與何時趨緩未知 ## 新舊開發流程對比 ![image](https://hackmd.io/_uploads/BJ9ZTOgill.png) * 舊流程:在大模型上直接做超參數搜尋,實際完整訓練時間有限 * 新流程:先找縮放配方→在多個小規模模型與不同尺寸上調參→擬合縮放律→一次性長時間訓練最終大模型 * 好處:以小規模實驗外推大規模行為,提升最終模型的有效訓練天數 ## 用縮放律比較架構 ![image](https://hackmd.io/_uploads/ByoEaOeogg.png) * 以多個尺寸訓練 Transformer 與 LSTM,分別繪製「尺寸–測試損失」點 * 擬合各自縮放曲線,外推至更高 compute 比較前景表現 * 觀察斜率(縮放率)與截距(初始常數項),判定長期可擴展性 ## 架構微差異的影響 * 小幅度架構變動多影響截距而非斜率 * 隨 compute 增加,截距差異可被時間與算力填平 * 資料品質對縮放斜率影響更關鍵,優於小改架構與損失設計 # 最佳化訓練資源分配(Chinchilla 洞見) ![messageImage_1757609405097](https://hackmd.io/_uploads/SklRpdeoel.jpg) * 以等 FLOPs 曲線(isoflops)同時計算不同「參數×資料量」組合的最佳點 * 擬合「最佳點的參數量 vs FLOPs」與「最佳點的 tokens vs FLOPs」的關係 * 結論示例:訓練最優約為每參數 20 個 token(20:1) * 若考慮長期推論成本,實務可能選擇較小模型、較多資料,比例可上看約 150:1 # 推論成本與工程權衡 * 推論在大量用戶規模下成本可觀 * 訓練最優與部署最優不必相同,需平衡參數量、延遲、吞吐與花費 # 縮放律能回答的實務問題 ![image](https://hackmd.io/_uploads/Bk1eAuesee.png) * 資料配比與混合(哪類資料上調、哪類下調) * 模型寬深配置、學習率隨尺寸變化的縮放規則 * 投資更多 GPU 還是收集更好資料的邊際效益比較 # Bitter Lesson(Sutton) ![image](https://hackmd.io/_uploads/rJWNR_xolg.png) * 隨著硬體與資料擴張,可擴展的簡潔方法終將獲勝 * 系統與資料工程的重要性往往高於細微架構創新 # 背靠信封估算(範例) ![image](https://hackmd.io/_uploads/Bk9UROxsex.png) * 模型規模:15.6 兆 tokens、45B 參數 * 計算量估算:FLOPs ≈ 6×參數×tokens ≈ 3.8×10^25 * 硬體與時間:16,000 張 H100,約 70 天,約 26–30M GPU·hours * 成本粗估:以 \$2/GPU·hour 計算約 \$52M,另含人力約 \$25M,合計約 \$75M 級 * 碳排估算:約 4,000 噸 CO₂e,約等同 \~2,000 趟 JFK↔倫敦來回 * 代際演進:新一代目標 FLOPs 常以 10× 成長規劃 # 為何需要後訓練(Post-training) ![image](https://hackmd.io/_uploads/r1iO0Oxoll.png) * 純語言模型傾向延續網路文本分佈,非直接回答指令 * 將模型對齊為可遵循指令、具安全與禮貌邊界的助理 ![image](https://hackmd.io/_uploads/BkFcRulsge.png) * 包含:指令遵循、內容審慎(拒絕不當請求)、風格一致 # 監督式微調(SFT) ![messageImage_1757609669715](https://hackmd.io/_uploads/H1OR0_golx.jpg) * 以人類撰寫的「指令→理想回覆」對,對預訓練模型做下一詞預測微調 * 目標:在小量高品質人類數據上讓模型學會依指令產生期望行為 * 資料來源:人工標註蒐集,成本高但效果直觀 # 監督式微調(SFT)與人類資料 ![image](https://hackmd.io/_uploads/HJ61yYgoex.png) ![image](https://hackmd.io/_uploads/BJ0CC_gile.png) * 以人類撰寫的「指令→理想回覆」對,對預訓練模型做下一詞預測微調 * SFT 是 ChatGPT 從 GPT-3 跨越到大眾可用助手的關鍵 * 人工資料蒐集昂貴且慢,OpenAssistant 等計畫用群眾外包蒐集 * Alpaca:以 175 則人類 QA 為種子,用當代強模型擴增出 \~52K 合成 QA,再微調 LLaMA-7B ![image](https://hackmd.io/_uploads/HkSGkKxolg.png) * LIMA:SFT 數據量從 2K 擴到 32K 收益有限,SFT 主要學「回覆格式與風格」,知識多來自預訓練 # 合成資料與人類在迴圈 * 純合成資料多代自舉會劣化分佈,多輪後難持續提升 * 人機協作路線:模型先產生草稿,人類只做重點編修,以較少人力注入新訊息 * SFT 使用與預訓練相同的最大似然損失,但以較大的學習率等超參放大影響 # SFT 侷限與幻覺關聯 ![messageImage_1757609829050](https://hackmd.io/_uploads/rk8dkYlixe.jpg) * 行為模仿受限於人類「能寫出的內容」而非「能分辨的好壞」 * 少量 SFT 若包含模型未見過的引用與事實,會促使「看似合理但不保證真實」的生成,可能加劇幻覺 * 產生高品質完整答案的標註成本極高 # 從偏好出發:RLHF 概念 ![image](https://hackmd.io/_uploads/rk0UyFlilx.png) * 以人類偏好而非行為複製為目標,對同一指令產生兩個回覆,請標註者選較佳者 * 兩種回饋形式:二元勝負訊號資訊稀疏;或訓練「獎勵模型」輸出連續偏好分數(Bradley–Terry 形式) * 以 PPO 進行策略優化,並以 KL 正則抑制過度偏離基線模型,避免「獎勵駭入」 # PPO 流水線與問題 ![image](https://hackmd.io/_uploads/S1f9yFesxe.png) * 流程:SFT → 訓練獎勵模型 → 以 PPO 多輪強化微調並持續蒐集新偏好資料 * 強化學習工程繁複:回合展開、裁剪、穩定性議題、實作細節多且文獻化不足 ![image](https://hackmd.io/_uploads/BJ-sJKljge.png) * PPO 後模型的「機率」不再對應良好的語言分佈估計,似然用於評估時需謹慎 # DPO:偏好直接最適化 ![image](https://hackmd.io/_uploads/H10AJtgjee.png) * 用純最大似然實作偏好學習:最大化被偏好的回覆似然、最小化不被偏好的回覆似然 * 在適當設計下,可與 PPO 的最優解等價,但無需獎勵模型與強化學習迴圈,實作大幅簡化 ![image](https://hackmd.io/_uploads/SkY1xtxjle.png) * 侷限:DPO 只能利用有標註的偏好資料;PPO 的獎勵模型可標註未標資料擴展規模 # 效果與結論 ![messageImage_1757609966400](https://hackmd.io/_uploads/HJxWlteoel.jpg) * 相較預訓練與僅 SFT,加入人類偏好學習(PPO 或 DPO)在摘要等任務上可達或超越人類參考 * 開源與產業實務常採 DPO,因為穩定、簡單、表現與 PPO 近似 # 人工偏好標註的挑戰 ![image](https://hackmd.io/_uploads/rJzzeKejgg.png) ![image](https://hackmd.io/_uploads/r1AQgYejgl.png) * 速度慢、成本高,指引複雜且任務本質難判斷 * 標註者易受形式影響如篇幅,偏好長答案而非更正確答案 * RHF 越做越容易導致模型冗長輸出 ![image](https://hackmd.io/_uploads/SkeFHlYgile.png) * 標註者族群分佈影響結果,存在分佈移轉問題 * 群眾外包倫理議題與暴露於有害內容的風險 # 以 LLM 輔助或取代人類標註 ![image](https://hackmd.io/_uploads/ByoIgFgjex.png) * 以模型偏好替代人類偏好蒐集資料 * 人類在二元偏好任務的一致性僅約六成多 * LLM 因變異小可達更高與人類眾數的一致率 * 成本顯著下降,現況可比人類便宜數十倍 * 產業與開源多採人機混合標註流程 # 後訓練模型評估的困難 * PPO/DPO 後模型不再是良好校準的機率模型,驗證損失與困惑度不可比 * 使用情境多樣且開放式,難以自動化評分 * 需要貼近真實使用的成對偏好評估 # 人類評估:Chatbot Arena ![messageImage_1757610081875](https://hackmd.io/_uploads/BJmdeYxoel.jpg) * 盲測雙模型對話,由大量使用者投票產生勝率排名 * 參與者偏技術族群,題目分佈可能偏向技術領域 * 成本與時效不利於高頻迭代開發 # LLM 評估:自動評審 ![image](https://hackmd.io/_uploads/rkxqgYliex.png) * 對同題生成兩模型輸出,交由強模型判斷較佳者並彙總勝率 * 與 Chatbot Arena 相關性極高 * 低成本且快速完成整體排名 ![image](https://hackmd.io/_uploads/Bkzsgtxoxg.png) ![image](https://hackmd.io/_uploads/H1l6gtgoxl.png) * 存在冗長偏好,模型傾向票選篇幅更長的輸出 # 緩解評估偏差 * 僅改變「冗長/簡潔」提示會大幅影響勝率 * 以迴歸等方法控制輸出長度可降低冗長偏差的影響 # 後訓練資料與訓練設定 * SFT 規模小,多在數千到數萬範例 * RLHF 規模較大,可達百萬級偏好對 * 產業常微調全部權重,開源常用 LoRA 等方法 * 預訓練視為初始化,後訓練以較大學習率持續訓練即可強烈改變行為 # 系統與效能要點 ![image](https://hackmd.io/_uploads/S1GTxKxolx.png) ![image](https://hackmd.io/_uploads/SkgAxKxoxg.png) ![image](https://hackmd.io/_uploads/B1cReYxoeg.png) ![image](https://hackmd.io/_uploads/SkA1WKesex.png) ![image](https://hackmd.io/_uploads/Bk5xZFeoxe.png) ![image](https://hackmd.io/_uploads/H1YE-Ylsge.png) * GPU 偏重吞吐,記憶體與通訊為瓶頸,模型 FLOPs 利用率約五成已屬理想 * 混合精度訓練以 16-bit 計算、32-bit 主權重,降低記憶體與通訊開銷 * 運算子融合減少記憶體往返,可藉由編譯優化獲得約兩倍加速 * 單純擴增 GPU 受供應與互連限制,需優化整體管線 # Terminology * 大型語言模型(LLM):指以巨量資料訓練的深度學習模型,能處理並生成自然語言文字。 * 自回歸模型(Autoregressive Model):依序預測下一個詞或符號的機率,常用於文字生成。 * Transformer:一種神經網路架構,利用自注意力機制來建模長距離依賴關係。 * 損失函數(Loss Function):衡量模型預測與真實標籤差異的數學函數。 * 交叉熵損失(Cross-Entropy Loss):常用於分類任務的損失函數,用來最小化預測分佈與真實分佈之間的差異。 * 最大似然估計(Maximum Likelihood Estimation):透過最大化觀測資料的機率來訓練模型的方法。 * 機率分佈(Probability Distribution):描述各事件發生可能性的函數。 * 標記化(Tokenization):將文字序列拆分成較小的單位(token)以便模型處理。 * 子詞單元(Subword Units):介於字與字母之間的最小處理單位,提升模型處理新詞的能力。 * 詞彙表(Vocabulary):模型訓練時所使用的全部 token 集合。 * 字節對編碼(Byte Pair Encoding, BPE):一種子詞切分演算法,逐步合併常見字元組合形成新 token。 * 預標記器(Pre-Tokenizer):在正式標記化之前,先處理空格或標點的步驟。 * 詞向量(Word Embedding):將離散的詞映射為連續向量空間中的表示。 * 隱表示(Hidden Representation):模型內部對輸入序列的向量化表示。 * 線性層(Linear Layer):神經網路的一層,進行線性變換以輸出新特徵。 * Softmax 函數:將輸出轉換為機率分佈的數學函數。 * 推理(Inference):使用訓練好的模型進行預測或生成的過程。 * 概率採樣(Sampling):從機率分佈中隨機選擇一個結果的過程。 * 困惑度(Perplexity):評估語言模型的指標,數值越低代表模型預測越準確。 * 驗證集(Validation Set):用來評估模型泛化能力的資料集,不參與訓練。 * NLP 基準測試(NLP Benchmark):用來統一比較模型性能的資料集與任務集合。 * MMLU(Massive Multitask Language Understanding):一個測試多領域知識的基準。 * 問答任務(Question Answering):根據輸入問題生成或選擇正確答案的任務。 * 語料庫(Corpus):訓練語言模型所用的大規模文字資料集合。 * 條件機率(Conditional Probability):在已知部分事件下,其他事件發生的機率。 * 鏈式法則(Chain Rule of Probability):將整體機率分佈分解為條件機率的數學公式。 * 訓練演算法(Training Algorithm):優化模型參數的計算程序,如隨機梯度下降。 * 優化器(Optimizer):調整模型參數以最小化損失函數的工具。 * 梯度(Gradient):損失函數相對於參數的偏導數,用於指導更新方向。 * 學習率(Learning Rate):控制每次參數更新幅度的超參數。 * 批次大小(Batch Size):一次訓練所使用的樣本數量。 * 超參數(Hyperparameter):需在訓練前設定的模型或訓練配置,如學習率。 * 訓練資料(Training Data):用來學習模型參數的資料集合。 * 後訓練(Post-Training):在大規模預訓練後,針對特定應用或任務進一步調整模型。 * 指令微調(Instruction Tuning):利用人類標註的指令範例,提升模型遵循指令的能力。 * 強化學習自人類回饋(RLHF):結合人類偏好來優化模型行為的技術。 * 系統最佳化(Systems Optimization):讓模型能高效運行於硬體上的工程方法。 * GPU 加速(GPU Acceleration):利用圖形處理器加速矩陣運算以訓練模型。 * 記憶體佔用(Memory Footprint):模型或運算過程中所需的記憶體量。 * 分布式訓練(Distributed Training):將模型訓練分散在多個運算節點上。 * 條件生成(Conditional Generation):根據上下文條件來生成文本的過程。 * 語意一致性(Semantic Consistency):模型輸出的文字是否符合語意邏輯。 * 文法正確性(Grammaticality):輸出文字是否符合語法規則。 * 長序列問題(Long Sequence Problem):模型處理長文字序列時效能或效率降低的情況。 * 二次複雜度(Quadratic Complexity):隨輸入長度平方增長的計算成本,常見於注意力機制。 * 注意力機制(Attention Mechanism):計算序列中不同位置之間相關性的方式。 * 自注意力(Self-Attention):序列內部各元素互相關聯的注意力計算。 * 生成模型(Generative Model):能根據機率分佈產生新樣本的模型。 * 多選題評估(Multiple Choice Evaluation):限制模型在數個候選答案中選擇正確答案的方法。 * 自然語言理解(Natural Language Understanding):機器理解語言含義的能力。 * 自然語言生成(Natural Language Generation):機器生成符合語法與語意的語言的能力。 * MMLU(Massive Multitask Language Understanding):跨多領域的多選題基準,用於衡量模型知識廣度與推理能力。 * 多選題似然評估:對每個候選答案計算條件機率,選擇最高者作為預測,不需生成自由文本。 * 開放式問答評估:讓模型自由生成答案,再以規則或評審衡量正確性與一致性,較具挑戰。 * 不採樣評估(direct likelihood):直接比較候選答案的對數似然,避免生成帶來的隨機性。 * 取樣生成評估(sampling-based):從機率分佈中抽樣生成答案,多次取樣估計模型表現。 * 句子對數似然(log-likelihood):度量模型為整個序列指派之機率的對數值,用於精細評估。 * P(x₁…x\_L) 全序列機率:序列所有 token 的聯合機率,用於非生成式的精確評測。 * 條件機率分解(鏈式法則):將聯合機率分解為逐步的條件機率乘積,是自回歸評估基礎。 * 困惑度對標記器依賴:困惑度數值會受 token 化粒度影響,跨模型比較可能失真。 * 詞彙表大小上界效應:困惑度理論上界與詞彙表大小相關,導致不同 tokenizer 難以可比。 * 評估協議差異(evaluation protocol variance):不同實作細節(如正則化、長度處理)會改變分數。 * 提示敏感性(prompt sensitivity):同一模型在不同提示格式下表現差異顯著,影響基準公平性。 * 受限解碼(constrained decoding):在評測中限制輸出於特定 token 集(如 A/B/C/D)以提高客觀性。 * 次標記限制(token-level restriction):只允許特定下一 token 的機率質量,避免偏離題型。 * 校準(calibration):模型機率輸出與實際正確率的一致程度,影響決策可信度。 * 準確率(accuracy):正確預測比例,是多選題常用的主指標。 * 巨集平均準確率(macro-avg accuracy):各子任務先算準確率再平均,避免大類別壓過小類別。 * 基準外洩(benchmark leakage):測試資料滲入訓練集導致高估性能的現象。 * 訓練—測試汙染(train–test contamination):訓練中看過測試樣本或其近似拷貝,破壞公允評估。 * 排序偏好檢驗(order effect test):改變測試樣本順序觀察似然變化,用於偵測資料汙染跡象。 * 似然排序檢驗(likelihood ordering test):比較原順序與打亂順序的總對數似然以判斷外洩風險。 * Common Crawl 網路爬取:大規模抓取公開網頁的資料源,是預訓練語料的重要基底。 * HTML 文字抽取(HTML text extraction):自網頁去除標籤與噪音,還原可訓練文本內容。 * 樣板內容移除(boilerplate removal):去除導覽列、頁尾等重複模板,提升語料有效密度。 * 重複資料去除(deduplication):刪除重複段落或文件,避免模型過度記憶。 * 近重複偵測(near-duplicate detection/MinHash):以哈希近似檢測相似內容,擴大去重範圍。 * 個資過濾(PII filtering):移除姓名、地址、帳號等個資以降低隱私與法規風險。 * 網站黑名單(domain blacklist):屏蔽特定來源(如低質、敏感站台)以淨化語料。 * 規則式濾除(rules-based filtering):以長度、字元分佈、語言識別等規則排除低品質文本。 * 模型式濾除(model-based filtering):訓練分類器評分文件品質,保留高分樣本。 * 維基參照訓練(Wikipedia-reference classifier):以維基引用頁作正例學習「高品質風格」的過濾器。 * 網域分類與重加權(domain reweighting):按主題類別調整抽樣比例,以達成目標能力配置。 * 程式碼語料上採樣(code upweighting):增加程式碼比例以強化推理與結構化生成能力。 * 高品質尾端調適(high-quality tail finetune):在訓練末期以優質小集微調,提升最終表現。 * 持續預訓練(continual pretraining):在既有模型上以新資料延伸訓練,更新知識或能力。 * 上下文長度擴展(context window extension):擴大可處理序列長度以涵蓋更長文本關聯。 * 合成資料生成(synthetic data generation):用模型或管線自動產生訓練樣本以補足稀缺領域。 * 多模態對齊(multimodal alignment):結合文字與影像/音訊等資料以增強語言理解。 * 版權與法遵風險(copyright/compliance risk):資料來源可能觸及著作權與政策規範的法律問題。 * 資料配比(mixture balancing):控制不同來源/領域比例以最佳化下游泛化。 * The Pile 基準語料:學術常用的多來源文本集合,用於預訓練研究比較。 * 代碼/Stack Exchange 資料源:問答與程式碼語料,常用來增強推理與工具使用能力。 * 代幣數尺度(token count scale,兆級):以 token 數量衡量資料規模(如 15 兆 token)。 * 參數規模(parameter count):模型權重數量,影響容量與表現上限。 * 計算量(compute budget):可用算力與時長,決定訓練規模與策略。 * 可擴展律(scaling laws):損失隨資料、參數、計算量呈規律縮減的經驗定律。 * 計算最適縮放(compute-optimal scaling):在固定算力下最佳分配參數與資料以最小化損失。 * 驗證損失(validation loss):於獨立資料集量測的訓練目標值,用於監控泛化。 * 雙對數線性關係(log–log linearity):在對數座標下損失與資源呈近線性關係的現象。 * 跨模型可比性與重現性(cross-model comparability & reproducibility):不同實作間結果可公平比較且可重現。 * 評測方差(evaluation variance):由抽樣、隨機種子、資料切分等造成的分數波動。 * 評測污染檢測(contamination detection):以統計或檢索方法鑑別測試集是否被模型見過。 * 排序似然檢驗(likelihood ordering test):用序列生成總似然的順序差異來推斷外洩可能性。 * 計算量(Compute Budget):可用的總訓練資源,通常以 FLOPs 或 GPU-小時衡量,用來規劃模型/資料規模。 * 浮點運算次數(FLOPs):訓練或推理所需的理論計算量單位,常用於比較模型與訓練計畫。 * 等計算曲線(IsoFLOPs Curve):在相同計算量下改變參數數與資料量所得到的性能等高線。 * 參數—資料共縮放(Parameter–Data Co-scaling):隨模型參數增長同步增加訓練 token 數以維持效率。 * Chinchilla 規則:在固定算力下的近似最優分配,建議約 20 個 token 對 1 個參數。 * 推理成本最適化(Inference-optimal Scaling):納入長期推理成本後,建議更高的 token:參數比(如 \~150:1)。 * 縮放率(Scaling Exponent/Slope):損失相對資源變化的斜率,決定擴大規模帶來的邊際收益。 * 截距(Intercept):在縮放關係上的起點差異,常反映架構或資料質量的常數優勢。 * 縮放外推(Scaling Extrapolation):以小模型/短訓練的曲線擬合來預測大規模最終表現。 * 計算最適點(Compute-optimal Point):給定算力下最小化驗證損失的參數與資料配置。 * 訓練週期(Epoch):完整走訪一次訓練資料;大規模預訓練常採少甚至不到 1 個週期。 * 吞吐量(Throughput):每秒可處理的 token 或樣本數,受模型大小、批次與硬體影響。 * 有效批次大小(Effective Batch Size):實體批次乘以梯度累積步數,影響穩定性與收斂。 * 梯度累積(Gradient Accumulation):多步累積梯度以模擬更大批次、受限於記憶體。 * 學習率縮放(LR Scaling):隨模型或批次改變調整學習率的經驗法則(如線性/平方根縮放)。 * 熱身—退火日程(Warmup–Decay Schedule):先逐步升高後緩降學習率以穩定訓練。 * 混合精度訓練(Mixed Precision):用較低位元浮點數加速並節省記憶體(如 FP16/BF16)。 * 記憶體綁定(Memory Bandwidth Bound):訓練受制於記憶體傳輸速率而非算力的瓶頸狀態。 * 通訊開銷(Communication Overhead):分布式訓練中節點同步所耗時間,限制擴展效率。 * 參數伺服(Parameter Server)與全同步(All-Reduce):常見分布式梯度聚合策略。 * 張量並行(Tensor Parallelism):切分層內矩陣運算於多 GPU 以容納更大模型。 * 管線並行(Pipeline Parallelism):跨層切分模型並流水化小批次以提高利用率。 * 雙向並行(Tensor+Pipeline Hybrid):結合張量與管線並行以橫向與縱向擴展。 * 檢查點儲存(Checkpointing):定期保存模型狀態以容錯與中斷續訓。 * 激活檢查點(Activation Checkpointing):重算中間激活以換取較低記憶體佔用。 * 故障恢復(Fault Tolerance):在節點失效時保持訓練連續性的系統能力。 * 資料—模型並行混合(Data–Model Parallel Hybrid):同時在樣本與參數維度切分工作負載。 * 最佳化器狀態(Optimizer State):如動量/二階矩等附加參數,對總記憶體需求影響巨大。 * A100/H100 GPU 族:主流資料中心訓練晶片,提供高矩陣運算密度與高速記憶體。 * GPU-小時(GPU-Hours):以單張 GPU 運作一小時計量的成本與規模指標。 * 雲端即時租用成本(Spot/On-demand Pricing):以時租計費的 GPU 成本模型,用於粗估訓練費用。 * 訓練碳足跡(Training Carbon Footprint):以二氧化碳當量估算的能源與環境影響。 * 能效(Performance per Watt):每瓦特可達成的運算量,關乎成本與永續。 * 效能基準漂移(Benchmark Drift):隨協議或資料更新導致分數時間序列不可直接比較。 * 評測協議鎖定(Protocol Fixation):統一提示、長度與解碼規則以確保可比性。 * 長度正則(Length Normalization):在對數似然比較時調整序列長度帶來的偏差。 * 候選集合定義(Candidate Set Definition):明確規定可選答案空間,避免分數失真。 * 開放式評測對齊(Open-ended Eval Alignment):以規則、評審或自動評分器對自由生成打分。 * 近似上界(Bayes/Oracle Upper Bound):理論或工具輔助的可達性能上限,用於評估剩餘空間。 * 邊際報酬遞減(Diminishing Returns):擴大規模帶來的單位改善逐漸下降的現象。 * 資料質量梯度(Data Quality Gradient):不同資料子集對最終縮放曲線造成的斜率變化。 * 資料混合設計(Mixture Design):決定各來源比例與抽樣策略以優化縮放行為。 * 早期停訓外推風險(Early-stopping Extrapolation Risk):以未收斂點擬合可能高估最終表現。 * 架構微改動效應(Architectural Tweaks Effect):多半反映在截距微幅改善而非改變斜率。 * 系統—資料優先策略(Systems/Data-first Strategy):將工程與資料品質置於架構小改前。 * SFT(監督式微調):以人類標註的問答/指令資料微調預訓練模型,使其可遵循指令。 * 對齊(Alignment):使模型輸出符合人類偏好與安全規範的整體方法論。 * 受限解碼評測(Constrained Decoding Eval):在評測期間只允許特定 token 輸出以精確比對。 * 推理可擴展性(Inference Scalability):在海量請求下維持低延遲與成本的能力。 * 現場效能監測(Production Monitoring):上線後持續追蹤品質、延遲與異常以保障服務。 * 監督式微調(SFT):以人類撰寫的問答/指令資料,用與預訓練相同的下一詞預測損失對基礎模型進行微調,使其更像助理。 * 行為複製(Behavioral Cloning):直接模仿標註者的輸出分佈,學習「怎麼回覆」而非「哪個較好」。 * 人類偏好(Human Preference):標註者對多個候選回答的偏好排序或勝出選擇,用於引導模型行為。 * 偏好資料(Preference Data):對同一指令的兩個或多個模型回覆,附上人類「較佳」標記的資料集。 * 雙樣本偏好標註(Pairwise Preference):在兩個候選答案間選出較優者,訊號密度高於絕對評分。 * 獎勵模型(Reward Model, RM):以偏好資料訓練的分類器,輸入(指令,回覆)輸出一個連續「好壞分數」。 * Bradley–Terry 模型:以邏輯斯迴歸形式將兩回覆的 RM 分數轉為勝率,訓練 RM 的常用框架。 * 對數幾率(Logit):在 softmax 前的未正規化分數;在 RM 中代表偏好的強度。 * 受限解碼(Constrained Decoding):評測或訓練時限制可輸出 token 集(如多選 A/B/C/D),避免跑題。 * 近端策略最佳化(PPO):以 KL 懲罰穩定更新策略的強化學習法,用 RM 分數做獎勵來微調 LM。 * 策略正則化(KL 懲罰):約束新模型分佈不偏離參考模型,以防過度最佳化與崩潰。 * 展開(Rollout):給定提示由當前策略生成完整回覆,取得用於 RL 或評分的樣本。 * 反饋迴路(Feedback Loop):「生成→標註→更新→再生成」的迭代流程,逐步提升行為品質。 * 過度最佳化(Reward Hacking):模型鑽 RM 的漏洞,分數高但人類體感差的現象。 * 幻覺(Hallucination):模型產生看似合理但事實錯誤的內容,SFT 若含未知真實性的目標會加劇此風險。 * 合成資料(Synthetic Data):用較強模型或管線仿造人類示例,擴充 SFT/偏好資料以節省成本。 * Alpaca 方法:以少量人類指令示例,請強模型擴寫成數萬對指令-回覆,再對小模型做 SFT。 * 開源助手(OpenAssistant):群眾外包收集的人類對話/任務資料,用於 SFT 與偏好學習。 * 人類在迴圈(Human-in-the-Loop):用人類做關鍵點的審核/編輯而非全量撰寫,提升資料效率。 * 主動學習(Active Learning):挑選最具資訊增益的樣本給人標,減少標註成本。 * 編輯式標註(Edit-based Labeling):先由模型產生草稿,由人只做修訂;比從零撰寫更省時。 * 指令微調(Instruction Tuning):以多樣任務指令與示範,提升遵循自然語言指示的能力。 * 對齊(Alignment):讓輸出符合人類價值與使用場景,包括有用性、誠實與無害。 * 安全對齊(Safety Alignment):加入拒答、過濾與安全策略,使模型避免產生危害性內容。 * DPO(直接偏好最佳化):不訓練 RM、不用 RL,直接最大化偏好答案的似然並最小化不偏好者。 * 最大似然偏好學習(Preference MLE):用對比式的對數似然差來逼近偏好最優策略的學習方法。 * 參考模型(Reference Model):作為 KL 約束的基準分佈,通常是 SFT 後的權重快照。 * KL 距離控制(KL Control):在 DPO/PPO 中控制與參考分佈的差距,平衡探索與穩定。 * 基礎模型(Base/Pretrained Model):僅經過網路語料預訓練、尚未對齊的人機助理之前身。 * 生成品質—多樣性權衡:提高偏好分數常壓縮熵;需靠 KL 或溫度維持多樣性。 * 長度正規化(Length Normalization):比較對數似然時按 token 數調整,避免偏袒短答。 * 置信校準(Calibration):機率輸出與實際正確率的一致性,影響人機決策信任。 * 非取樣似然評估:直接用對數似然比較候選,不靠抽樣生成,降低隨機性。 * 標註者一致性(Inter-annotator Agreement):不同人對同題的偏好一致程度,反映資料可靠性。 * 標註噪音(Label Noise):偏好標記受主觀或疏忽影響的誤差,需透過冗餘或模型魯棒性處理。 * 指標偷渡(Metric Gaming):為迎合自動評分器而產生非本質改進的行為。 * 指示遵循度(Instruction Following):模型理解並執行使用者要求的能力,是對齊核心目標。 * 拒答策略(Refusal Policy):對危險/違規請求給出安全拒絕與替代建議的規則。 * 系統提示(System Prompt):高優先級的角色與行為指令,約束回覆風格與界限。 * 評測協議(Evaluation Protocol):固定提示、溫度、長度與候選集合的詳細規則以確保可比性。 * 汙染檢測(Contamination Detection):判斷測試題是否出現在訓練中,維持評測公正。 * 標記偏差(Tokenizer Bias):不同 token 粒度影響似然與困惑度,干擾跨模型比較。 * 訓練—推理分離(Train–Inference Shift):訓練目標(偏好/似然)與上線需求(延遲/成本)之落差。 * 推理成本(Inference Cost):上線每次生成的資源花費,長期遠高於一次性訓練時常需納入設計。 * 最佳化器穩定性(Optimizer Stability):SFT/RLHF 中學習率與剪裁等對收斂與品質的敏感度。 * 參數高敏感性(Hyperparameter Sensitivity):偏好學習對 β(KL 係數)、溫度等超參數的脆弱性。 * 模型蒸餾(Distillation):將對齊後的大模型行為壓縮到小模型,降低推理成本。 * 品質過濾器(Quality Filter):用規則或小模型篩選合成/人類資料,提升偏好訊號純度。 * 負面例強化(Negative Sampling/Downweight):顯式降低不良回覆的似然,拉開好壞差距。 * 偏好資料覆蓋率(Preference Coverage):偏好集對任務/領域/風格的涵蓋程度,決定泛化表現。