論文閱讀 : Why language models hallucinate

# 論文閱讀 : Why language models hallucinate ## 摘要 * **現象**： * 類似學生在考試遇到難題會「猜答案」，大型語言模型（LLMs）在不確定時也會生成看似合理但實際錯誤的內容，即 **幻覺（hallucination）**。 * 即使是最先進的系統，幻覺仍然普遍存在，影響使用者信任。 * **原因分析**： 1. **訓練與評估機制導致** * 在當前 LLM 訓練流程中，模型傾向於 **猜測**，而不是表達「不知道」，因為這樣能獲得更高獎勵。 * 從統計角度來看，幻覺其實是 **二元分類誤差的自然產物**：若無法正確區分「真實 vs. 錯誤」陳述，就會出現幻覺。 2. **評估方式助長幻覺** * 大多數基準測試的評分方式鼓勵模型「當個好考生」，在不確定時給答案比承認不知道更能獲得高分。 * 這種現象形成一種 **制度性流行病**：因為排行榜的主導力量，模型被迫優化成「會猜的考生」。 * **解決方向**： * 不是額外增加「幻覺測試」，而是要 **修改現有基準的評分方式**。 * 若基準測試能鼓勵「承認不確定性」，就能引導整個領域朝向更可信任的 AI 系統。 ## Introduction 1. **問題現象：語言模型的幻覺** * 語言模型會生成 **過度自信卻錯誤** 的答案，這削弱了它們的實用性與可信度。 * 幻覺不同於人類的「知覺幻覺」，它是 **統計與學習過程的產物**。 * 即使是最新的模型（例如 GPT-5）也仍然存在幻覺。 2. **具體例子** ![image](https://hackmd.io/_uploads/SJFx6OHjex.png) * 問「Adam Tauman Kalai 的生日？」並要求「只在知道的情況下回答」，一個最先進的開源模型（DeepSeek-V3, 600B 參數）仍然給出三個錯誤日期（03-07, 15-06, 01-01）。 * 在另一個問題「Adam Kalai 的博士論文題目？」中，GPT-4o、DeepSeek 與 Llama 皆給出不同的錯誤答案，沒有一個正確。 * 這些例子顯示 **模型傾向猜測而非承認不知道**。 3. **研究框架** * 作者將幻覺視為 **錯誤的一種特例**，並透過 **計算學習理論** 來分析。 * 定義： * 所有合理字串集合：$\calX = \calE \cup \calV$。 * $\calE$：錯誤字串（errors）。 * $\calV$：有效字串（valid）。 * 模型對 prompt 的回應可能落在 $\calV$ 或 $\calE$。 * 即使訓練資料無錯誤，訓練目標本身也會導致模型生成錯誤；若資料本來就含有瑕疵，錯誤率只會更高。 4. **分析涵蓋範圍** * 作者的理論適用於： * **推理型模型** * **檢索增強型模型** * 不依賴 Transformer 架構或下一詞預測的特性，而是針對 **現代訓練兩階段**： 1. **Pretraining（預訓練）** 2. **Post-training（後訓練，例如 RLHF）** 5. **幻覺分類** * **Intrinsic hallucination**（內在幻覺）：與使用者的 prompt 相矛盾。 * 例子：問「DEEPSEEK 有幾個 D？」 → DeepSeek-V3 多次回答 2 或 3，Meta AI 與 Claude 甚至答 6 或 7。實際應為 1。 * **Extrinsic hallucination**（外在幻覺）：與訓練資料或外部現實矛盾。 ### Errors caused by pretraining ![image](https://hackmd.io/_uploads/BJaeAOSjll.png) 1. **核心論點：即使資料乾淨，預訓練也會產生錯誤** * 在 **預訓練（pretraining）** 階段，基礎模型學習大規模語料中的語言分布。 * 即便訓練資料完全無錯，**目標函數本身的統計特性** 也會導致模型生成錯誤。 * 因此，幻覺不是僅僅來自髒資料，而是預訓練過程的必然副作用。 2. **與二元分類的連結：Is-It-Valid (IIV) 問題** * 把生成問題轉換為判斷題： * **問題**：「這是一個有效的輸出嗎？」 * 有效的輸出 = $+$ 標籤；錯誤的輸出 = $-$ 標籤。 * IIV 的訓練資料設定： * 正例（$+$）：來自預訓練語料（假設完全有效）。 * 負例（$-$）：隨機選取的錯誤字串（從 $\calE$ 取樣）。 * 訓練與測試資料都是 50/50 混合。 * 對應關係：任何一個語言模型都能當成 IIV 的分類器。 3. **數學關係式：生成錯誤率與分類錯誤率的下界** * 論文不等式： $$ \text{(生成錯誤率)} \gtrsim 2 \cdot \text{(IIV 錯誤率)}. $$ * 意義：生成比單純判斷更困難，因為模型必須對所有候選輸出「同時回答」是否有效。 * **分類任務**：只需要對一個輸出判斷對/錯。 * **生成任務**：必須在眾多候選輸出中，挑出一個「看似正確」的字串。 * 結果：若分類器本身就會誤判，則生成一定會有更高錯誤率。 4. **不同類型錯誤的解釋** * 模型能避免一些錯誤（如拼字錯誤），因為這些有明顯模式可學。 * 但對於 **無規律的知識**（例如生日），錯誤是必然的： * 因為生日沒有統計規律可依循，若不在訓練資料內，模型只能亂猜。 * 文法與禮貌則不同，因為它們有系統性規則，強模型可學習並避免錯誤。 5. **統計學觀點** * IIV 分類與生成的錯誤都受到相同統計因素影響。 * 圖 1 展示了三種情況： 1. **可分資料（top）**：有清楚規則 → 分類正確。 2. **模型能力不足（middle）**：例如用線性模型分錯誤的圓形邊界 → 系統性錯誤。 3. **完全隨機（bottom）**：資料沒有規律 → 天生不可避免的錯誤（epistemic uncertainty）。 * 這呼應了傳統機器學習中關於誤分類來源的分析 \citep{Domingos2012UsefulThings}。 6. **與既有研究的關聯** * 先前研究（例如 \citet{kv23}）專注於「無規律事實」（arbitrary facts），如生日。 * 他們的結果：若 20% 的生日事實在訓練語料中只出現一次，那麼基礎模型至少會在 20% 的生日問題上幻覺。 * 本文擴展了此分析： * 加入 **prompt** 與 **IDK（不知道）回應** 的考量。 * 更完整地解釋了幻覺率的下界。 ### Why hallucinations survive post-training 1. **後訓練（post-training）的目標與限制** * 第二階段（post-training，例如 RLHF、微調）旨在改善基礎模型、減少幻覺。 * 但實際上，幻覺仍然大量存在。 * 原因：訓練與評估方式偏好 **過度自信的猜測**，而非「不知道 (IDK)」或保守表達。 2. **學生考試的類比** * 在考試中，學生遇到不會的題目往往會「猜答案」或「唬爛」。 * 在 0-1 計分制下（答對得 1 分，空白或 IDK 得 0 分）： * **猜測** > **誠實空白**，因為猜對的期望分數較高。 * 猜測往往伴隨過度自信與具體化（如「9/30」而不是「秋天某時」）。 * 語言模型的 benchmark 評估方式與此類似，強化了「亂猜也比不答好」的行為。 3. **評估方式的問題** * 大多數現有評估使用 **二分法 (dichotomous) 指標**： * **Accuracy（正確率）** 或 **Pass rate（通過率）**。 * 這些評估 **懲罰不確定回答**（如 IDK、模糊表達）。 * 結果：模型被迫永遠處於「考試模式」，偏向過度自信的輸出。 4. **與過往研究的比較** * 過去已有觀察：0-1 計分制無法衡量幻覺。 * 但過往研究多數專注於尋找「完美的幻覺測試」。 * 作者觀點：這是不足的，因為： * 目前主流的 benchmark 數量龐大且偏差嚴重。 * 即使增加一些專門的幻覺測試，也無法扭轉主流評估帶來的壓力。 5. **「A vs B 模型」例子** * 模型 A：符合對齊，誠實地表達不確定性，**從不幻覺**。 * 模型 B：與 A 相似，但 **從不承認不確定性，總是亂猜**。 * 在現有 0-1 計分下：模型 B 的表現會比模型 A 更好。 * 這形成一種 **「懲罰不確定性」的流行病 (epidemic)**。 ## 相關文獻研究 ### 幻覺成因的既有研究 * **綜合調查**（如 \citet{sun2025why}）：歸納多種幻覺原因，包括： * **模型過度自信** \citep{yin2023large} * **解碼隨機性** \citep{lee2022factuality} * **雪球效應（錯誤傳播）** \citep{zhang2023language} * **長尾訓練樣本** \citep{sun2023head} * **誤導性的 alignment 訓練** \citep{wei2023simple} * **虛假相關** \citep{li2022pre} * **曝光偏差 (exposure bias)** \citep{bengio2015scheduled} * **reversal curse** \citep{berglundreversal} * **context hijacking** \citep{jeong2024hijacking} * 這些來源與傳統統計學、機器學習中的錯誤來源相似 \citep{RussellNorvig2020}。 ### 3. 與本文最接近的理論研究 * **\citet{kv23}** * 使用 **Good–Turing missing mass estimator** 分析幻覺率。 * 本文的 reduction 可以視為其特例，並擴展了其範圍： * 加入 **IDK 回應** * 與 **有監督學習的連結** * 涵蓋 **prompt 條件** 與 **post-training 修正**。 * **\citet{active18nonsense}** * 提出互動式學習，模型可查詢「有效性 oracle」（人類標註者）。 * 統計效率高，但計算效率低。 * **\citet{Kalavasis2025Limits, kleinberg2024language}** * 提出 **一致性（consistency）** 與 **多樣性（breadth）** 的內在 trade-off。 * 結論：只要模型要超出訓練資料泛化，就必然面臨「幻覺」或「模式崩塌（mode collapse）」的兩難。 ### 4. 後訓練技術與幻覺 * **RLHF（人類回饋強化學習）** \citep{ouyang2022training} * **RLAIF（AI 回饋強化學習）** \citep{bai2022constitutionalaiharmlessnessai} * **DPO（直接偏好優化）** \citep{rafailov2023dpo} * 已證明能降低幻覺（包含陰謀論、錯誤常識）。 * **\citet{gekhman-etal-2024-fine}** * 發現對新資訊的簡單微調能短期降低幻覺率，但長期又會反彈。 * **其他方向**： * 查詢自然語言或內部激活，可以預測模型的 **事實準確度與不確定性** \citep{Kadavath2022LanguageM}。 * 比對語義相關問題的回答一致性，也能用於檢測或降低幻覺 \citep{manakul-etal-2023-selfcheckgpt, xue2025verify, agrawal\_language\_2023}。 ### 5. 幻覺緩解方法與評估 * **緩解方法** * 大量研究提出有效的技術，相關綜述見 \citet{ji2023survey, Tian2024Factuality}。 * **評估基準** * 新近提出了多個專門 benchmark 與排行榜 \citep{bang2025hallulens, hong2024hallucinationsleaderboardopen}。 * 但 **實際應用不廣**，例如《2025 AI Index》 \citep{aiindex2025} 指出，幻覺評測尚未在社群獲得廣泛採納。 ## Pretraining Errors ### 1. 預訓練的目標與模型定義 * 預訓練的語言模型 $\hat{p}$ 嘗試去逼近訓練分布 $p$。 * 在統計學習中，這是一個典型的 **密度估計（density estimation）問題**： * 密度 = 對資料的機率分布建模。 * 對語言模型而言，分布是針對文字（或多模態輸入）的分布。 * 換句話說：模型不是背答案，而是學「文字出現的機率結構」。 --- ### 2. 為什麼證明基礎模型一定會錯誤並不簡單 * **不會錯的模型範例**： 1. **永遠輸出「IDK」的模型** → 如果「不知道」不算錯誤，這種模型從不犯錯，但也沒學到任何東西。 2. **單純背誦訓練資料的模型** → 如果訓練資料無錯，它只要原封不動輸出，就不會犯錯，但無法泛化。 3. **理想模型 $\hat{p}=p$** → 完全匹配真實分布，但需要無限訓練資料，實際上不可行。因此：**「不犯錯」的模型存在，但它們都不是好的語言模型**，因為失去了泛化或密度估計能力。 --- ### 3. 為什麼錯誤是必然的 * **關鍵結論**： * 即便資料乾淨，**任何逼近 $p$ 的有限模型**仍會產生錯誤。 * 原因在於：生成有效輸出比僅僅「判斷有效性」更難。 * 這讓作者可以用 **計算學習理論** 的框架來理解錯誤： * 在分類問題裡，錯誤是正常且有下界的。 * 同理，在生成模型裡，錯誤（幻覺）也是必然存在的。 **例子**： * 訓練集中有： * Alice 的生日 → 01-02 * 但如果問「Bob 的生日？」 → 訓練資料沒有規則可依循 → 模型只能猜 → 錯誤。 --- ### 4. 與「自動補全」的關係 * 那麼整個語言模型的目標，就是去學習一個「文字序列的機率分布」： $$ p(w_1, w_2, w_3, \ldots). $$ 根據機率論基本定義，**任何聯合分布都可以分解成條件分布**。例如： $$ p(w_1, w_2, w_3, \ldots) = p(w_1)\, p(w_2 \mid w_1)\, p(w_3 \mid w_1, w_2)\, \ldots $$ 所以，只要有一個完整的分布 $p$，它自動就**誘導 (induce)** 出「給定前綴的條件分布」： $$ p(w_i \mid w_1, w_2, \ldots, w_{i-1}). $$ * 許多人以為幻覺是因為「自動補全」式的訓練方式。 * 例如前綴：「Adam Kalai was born on …」 → 模型亂補。 * 但作者指出，這只是表象。 * **數學上**：任何語言分布 $p$ 都可以誘導出「給定前綴的條件分布」。 * 換句話說，「自動補全」只是表達形式，而非幻覺的根本原因。 * **真正的原因**： * 模型試圖逼近語言的真實分布 $p$，而有限資料與有限模型必然導致誤差。 * 模型架構（例如 Transformer）可能引入額外錯誤，但這是次要的。 ## 論文主要內容 : The reduction without prompts ### 1. 問題設定：不帶 prompt 的基礎模型 * **基礎模型 $\hat{p}$** * 是一個分布，定義在「可生成字串集合」$\calX$ 上。 * 每個例子 $x \in \calX$ 代表一個「合理的字串」（plausible string），例如一份文件。 * **分割集合**： * $\calX = \calE \cup \calV$ * $\calV$：有效（valid）字串 * $\calE$：錯誤（error）字串 * $\calE, \calV$ 不交集。 **基礎模型錯誤率**： $$ \gerr := \hat{p}(\calE) = \Pr_{x \sim \hat{p}}[x \in \calE]. $$ 即模型從自身分布中生成錯誤字串的機率。 > 訓練分布 $p$ 被假設是無噪聲的（$p(\calE)=0$）。所以錯誤不是資料來的，而是模型必然產生的。 --- ### 2. IIV（Is-It-Valid）分類問題的形式化作者把生成問題 **轉換成一個二元分類問題**： * **目標函數**： $$ f(x) = \begin{cases} + & x \in \calV \\ - & x \in \calE \end{cases}$$ * **分布 $D$**（訓練樣本分布）： * 50% 來自 **有效樣本 $p(x)$**（即訓練資料） * 50% 來自 **錯誤樣本 $\calE$**（均勻隨機選） $$ D(x) := \begin{cases} p(x)/2 & x \in \calV \\ 1/(2|\calE|) & x \in \calE \end{cases} $$ * **IIV 分類器 $\hat{f}\_t$ 的定義**： * 用基礎模型的機率 $\hat{p}(x)$ 來判斷。 * 如果 $\hat{p}(x) > 1/|\calE|$ → 判為正例（有效） * 否則 → 判為錯誤。 **IIV 錯誤率**： $$ \cerrt := \Pr_{x \sim D}[\hat{f}_t(x) \ne f(x)]. $$ --- ### 3. 關鍵推論：Corollary 1 核心結論： $$ \gerr \ge 2 \cdot \cerrt - \frac{|\calV|}{|\calE|} - \delta_t, $$ 其中： * $\gerr$：生成錯誤率（模型生成錯誤字串的機率）。 * $\cerrt$：IIV 錯誤率（分類任務的誤判率）。 * $\frac{|\calV|}{|\calE|}$：**正例數量與錯例數量的比例補償項**。當錯誤候選比正確候選多得多（例如生日有 364 個錯誤 vs 1 個正確），這項趨近於 0。 * $\delta\_t$：分布差異項（模型與真實分布在集合 $\calA$ 上的偏差）。 --- ### 4. 結論的直觀含義 1. **所有基礎模型都會犯錯** * 對於「本質上無法學會的 IIV 任務」（例如生日知識），$\cerrt$ 會非常大（接近 1/2）。 * 因為錯誤候選遠多於正確候選（$|\calE| \gg |\calV|$），所以 $\gerr$ 必然很大。 * 意思是：即使模型再強，也無法避免幻覺。 2. **常數 2 的意義** * 這個「2」代表生成比分類困難，誤差至少會被放大一倍。 * 對於 $|\calE|$ 很大、$\delta$ 很小的情況，$\cerrt \approx 1/2$，而 $\gerr$ 的上限是 1，所以這個 bound 是緊的（tight）。 3. **生日例子** * 假設生日只有一個正確答案（1/365 機率）。 * 那麼 $|\calV|/|\calE| \approx 1/364$，非常小。 * $\cerrt$ 必然大 → $\gerr$ 下界也大 → 模型必然會「幻覺出錯生日」。 --- ### 5. 幻覺錯誤的對應 * 把 **$\calE$ 定義為「包含合理假訊息的生成集合」**。 * 常見替代定義：幻覺 =「生成的答案沒有在訓練資料或 prompt 裡出現」。 * 由於假設訓練資料是乾淨的（$p(\calE)=0$），所以任何生成的錯誤必然屬於 $\calE$ → 上述下界依然成立。 * 若要降低幻覺，應該鼓勵模型「IDK」而不是亂答，否則錯誤率無法突破這個 bound。 ## Calibration 與 Base Models ### 1. Calibration（校準） **(a) $\delta\_t$ 的意義** * 回顧：$\delta\_t = |\hat p(\calA) - p(\calA)|$，衡量模型分布 $\hat p$ 與真實分布 $p$ 在「閾值區域」上的差異。 * 作者指出，$\delta\_t$ 可以被看作一種 **(mis)calibration（校準誤差）**。 * **直觀比喻**： * 就像天氣預報：如果預測下雨機率是 30%，那麼在所有這類預測的日子裡，實際下雨的比例應該也接近 30%。 * 若偏差很大，說明預測不校準。 * 因此，$\delta\_t$ 測量的是「模型在 threshold $1/|\calE|$ 上，預測概率與實際事件機率的吻合程度」。 --- **(b) $\delta\_t=0$ 不代表模型完美** * 即使沒有語言知識，**均勻分布** $\hat p(x) = 1/|\calX|$ 也能保證 $\delta\_t=0$。 * 所以 $\delta\_t=0$ 並不代表 $\hat p=p$，只是說「在這個 threshold 下沒有校準偏差」。 --- **(c) 如何檢測 $\delta\_t$** * 可以通過比對： * 從真實分布 $p$ 取樣 → 看多少比例落在 $\hat p(x)>1/|\calE|$。 * 從模型 $\hat p$ 取樣 → 看多少比例落在同一集合。 * 兩者差異就是 $\delta\_t$。 * 這等於一種 **審計（auditing）方法**，能快速檢測校準。 --- **(d) 為什麼 $\delta\_t$ 通常很小？（數學直覺）** * 預訓練目標是最小化 **交叉熵損失**： $$ \mathcal{L}(\hat p) = \mathbb{E}_{x \sim p}[-\log \hat p(x)]. $$ * 如果我們把「高於閾值」的概率整體縮放一個係數 $s$（rescaling），再規範化： $$ \hat p_s(x) \propto \begin{cases} s \cdot \hat p(x) & \hat p(x) > 1/|\calE| \\ \hat p(x) & \text{else} \end{cases} $$ * 那麼： $$ \delta_t = \left|\frac{d}{ds} \mathcal{L}(\hat p_s)\big|_{s=1}\right|. $$ * 直觀上： * 如果 $\delta\_t \neq 0$，那麼把 $s$ 稍微調整，就能降低交叉熵損失 → 說明模型不在局部最小值。 * 因此，當優化收斂時，\$\delta\_t\$ 應該接近 0。 * **意義**：交叉熵優化的模型天然趨向於 **校準良好**，因此 $\delta\_t$ 通常小。 --- **(e) 與其他校準指標比較** * $\delta\_t$ 只是在單一 threshold $t=1/|\calE|$ 上檢查。 * 比較弱於更普遍的指標，例如 **ECE（Expected Calibration Error）**，它會對所有 threshold $t \in \[0,1]$ 整合。 --- ### 2. Hallucinations are inevitable *only for base models* **(a) 既有觀點** * 有不少研究 \citep{Jones2025Hallucinations, Leffer2024SAInevitable, Xu2024HallucinationInevitable} 主張幻覺是「不可避免的」。 --- **(b) 作者觀點** * 如果我們允許一個「不通用的 QA 系統」： * 使用固定的問答資料庫（例如「金的化學符號是什麼？」→ Au）， * 加上一個計算器（處理算式「3+8」）， * 其餘問題一律回答「IDK」。 * 那麼就能做出一個 **不會幻覺的模型**。 --- **(c) 與定理的連結** * \Cref{cor\:main} 的下界說明： * 如果一個語言模型真的「不犯錯」，那麼它一定是不校準的（\$\delta\$ 必須很大）。 * 因為交叉熵最小化天然會導致校準 → 校準必然帶來某種程度的錯誤 → 幻覺不可避免。 --- **(d) Base models 與 Post-trained models 的差異** ![image](https://hackmd.io/_uploads/r1rr0NIjxg.png) * **Base models**：經過交叉熵預訓練，通常校準良好（\$\delta\$ 小）。 * **Post-trained models**：後訓練（例如 RLHF）可能會偏離交叉熵，追求使用性或人類偏好 → 導致校準性下降。 * 因此，「幻覺的不可避免性」主要針對 **base models**，而不是所有形式的模型。 ## The reduction with prompts ### 1. 為什麼要引入 prompts？ * 在上一節（without prompts），我們只考慮「整體輸出字串集合」$\calX$，相當於所有輸出都共享一個空的上下文（prompt = ∅）。 * 但真實的語言模型使用場景是：輸入一個 prompt/context $c$，再生成一個回覆 $r$。 * 所以需要推廣到 **有 prompts 的情況**： * 每個輸出 $x = (c, r)$ 包含一個 prompt $c$ 和一個 plausible response $r$。 * Prompt $c$ 由 prompt 分布 $\mu$ 抽樣。 --- ### 2. 定義與符號 * **有效與錯誤回覆集合**： * $\calV\_c = {r \mid (c,r)\in \calV}$ = prompt $c$ 下的所有有效回覆。 * $\calE\_c = {r \mid (c,r)\in \calE}$ = prompt $c$ 下的所有錯誤回覆。 * **訓練分布（真實）**： * 條件形式：$p(r \mid c)$ * 聯合形式：$p(c,r) = \mu(c) p(r \mid c)$ * **模型分布（預測）**： * 條件形式：$\hat{p}(r \mid c)$ * 聯合形式：$\hat{p}(c,r) = \mu(c)\hat{p}(r \mid c)$ * **錯誤率（生成錯誤率）**： $$ \gerr = \hat{p}(\calE) = \sum_{(c,r)\in \calE} \mu(c)\hat{p}(r \mid c). $$ --- ### 3. 帶 prompts 的 IIV 問題 * **目標函數**： $$ f(c,r) = \begin{cases} + & (c,r)\in \calV \\ - & (c,r)\in \calE \end{cases} $$ * **IIV 分布 $D$**： * 一半樣本來自 $p$（即有效對話 $(c,r)\sim p$）。 * 一半樣本來自「隨機錯誤」：先從 $\mu$ 抽 prompt $c$，再均勻選一個 $r\in \calE\_c$。 * **分類器**： $$ \hat f(c,r) = + \quad \text{iff} \quad \hat{p}(r\mid c) > \tfrac{1}{\min_c |\calE_c|}. $$ --- ### 4. 推廣後的主要定理 **Theorem 1**：對於任何 base model $\hat p$，有： $$ \gerr \;\;\ge\;\; 2 \cdot \cerrt - \frac{\max_c |\calV_c|}{\min_c |\calE_c|} - \delta_t, $$ 其中： * $\cerrt$ = IIV 分類錯誤率。 * 分母 $\min\_c |\calE\_c|$：最少的錯誤回覆數量。 * 分子 $\max\_c |\calV\_c|$：最多的正確回覆數量。 * $\delta\_t = \Big| \hat{p}(\calA) - p(\calA)\Big|$，其中： $$ \calA = \{(c,r) \in \calX \mid \hat{p}(r \mid c) > 1/\min_c |\calE_c|\}. $$ 這其實就是之前 Corollary 的一般化版本： * 沒有 prompts 時，$|\calV|/|\calE|$ 對應到這裡的 $\max\_c|\calV\_c|/\min\_c|\calE\_c|$。 --- ### 5. Calibration 推廣 * 和之前一樣，可以考慮對「高於 threshold 的回覆」做 **rescaling**： $$ \hat p_s(r\mid c) \propto \begin{cases} s \cdot \hat p(r\mid c), & \hat p(r\mid c) > 1/\min_c|\calE_c| \\ \hat p(r\mid c), & \text{else} \end{cases} $$ * 這樣的 rescaling 可以計算交叉熵損失： $$ \calL(\hat p) = \sum_{(c,r)\in \calX} -\mu(c)\log \hat p(r\mid c). $$ * 同理， $$ \delta_t = \left| \frac{d}{ds}\mathcal{L}(\hat p_s)\big|_{s=1}\right|. $$ * 這再次說明：只要交叉熵最小化收斂，$\delta\_t$ 就會小 → 模型校準良好。 ## Error factors for base models ### 1. 背景：錯誤來源分類 * 在統計學與機器學習中，誤分類（misclassification）來源已經被研究了數十年。 * 作者把這些經驗借來，對 **幻覺（hallucination）與生成錯誤**做分類： 1. **Arbitrary facts**（隨機事實）：例如生日這類無規律、訓練資料不足以覆蓋的知識。 2. **Poor models**（模型不夠強）：例如字母計數這種其實有規律，但模型能力不足時仍會錯。 3. **GIGO**（garbage in, garbage out）：例如陰謀論，如果訓練資料本身有偏差，模型就會生成錯誤。這一小節先聚焦在 **Arbitrary-fact hallucinations**。 --- ### 2. Arbitrary-fact hallucinations **核心直覺**： * 當一個事實沒有簡單規律可循（例如一個人生日是哪天），那麼學習者必須「記住」它。 * 如果訓練資料裡只出現一次，模型幾乎不可能可靠泛化。 * 這就是 **epistemic uncertainty**：訓練數據裡壓根沒有足夠訊息。 --- ### 3. VC 維度的連結 * Vapnik-Chervonenkis 維度（VC 維度）衡量「學習一個函數族需要多少樣本」。 * 如果 VC 維度很大，學習需要的樣本數可能高到不切實際。 * 對於隨機事實（例如生日），VC 維度可以非常高 → 實際上無法學到。 --- ### 4. Arbitrary Facts 模型（定義） * Prompt 分布 $\mu(c)$ 給出上下文。 * 每個 prompt $c$ 對應一個回覆集合 $\mathcal{R}\_c$。 * 對每個 $c$： * 隨機選一個正確答案 $a\_c \in \mathcal{R}\_c$（均勻抽）。 * 訓練分布： * $p(a\_c \mid c) = \alpha\_c$（機率 $\alpha\_c$ 給出正確答案） * $p(\text{IDK} \mid c) = 1-\alpha\_c$ * 所以： * $\mathcal{V}\_c = {a\_c, \text{IDK}}$ * $\mathcal{E}\_c = \mathcal{R}\_c \setminus {a\_c}$ 例子： * 生日問題 → $\mathcal{R}\_c$ 是 365 天，$\mathcal{E}\_c$ 有 364 天，$\mathcal{V}\_c$ = {正確生日, IDK}。 --- ### 5. Singleton rate（單例率） * 定義：若一個 prompt 在訓練集中只出現一次（而且不是 IDK），就稱為 **singleton**。 * Singleton rate： $$ \text{sing} = \frac{|\mathcal{S}|}{N}, $$ 其中 $N$ 是訓練樣本數，$\mathcal{S}$ 是所有 singleton prompt 的集合。 * 直觀：singleton 率越高，代表很多知識只出現一次，模型遇到新樣本時「幻覺」的機率就越高。 * 這個概念來自 Alan Turing 的 **missing-mass estimator**：單次出現的樣本數比例，可以估計「還沒出現的樣本總量」。 --- ### 6. 主要定理（Arbitrary Facts） **Theorem（任意事實幻覺）**：在 Arbitrary Facts 模型下，給定 $N$ 筆訓練樣本，任何演算法輸出的 $\hat p$ 都滿足，99% 機率下： $$ \gerr \ge \text{sing} - \frac{2}{\min_c |\mathcal{E}_c|} - \frac{35+6\ln N}{\sqrt{N}} - \delta_t. $$ 而且存在一個演算法，可以保證 $\delta=0$（完全校準），則有： $$ \gerr \le \text{sing} - \frac{\text{sing}}{\max_c |\mathcal{E}_c|+1} + \frac{13}{\sqrt{N}}. $$ --- ### 7. 解讀 * **下界**： * 錯誤率 $\gerr$ 至少大約等於 singleton 率。 * 意思是：如果很多知識在訓練集中只出現一次，模型必然會產生幻覺。 * 生日例子：大多數人的生日只在訃聞中出現一次 → 模型必然亂猜。 * **上界**： * 若能完全校準，錯誤率大約就是 singleton 率，但會稍微小一點（扣掉一項 $\text{sing}/(|\mathcal{E}\_c|+1)$）。 * **結論**： * Singleton 率決定了幻覺的下界和上界。 * 訓練資料越稀疏（很多 singleton），幻覺越嚴重。 * 訓練資料重複出現的事實（例如 Einstein 的生日） → 模型通常不會幻覺。 ## Poor models ### 1. 錯誤來源：模型不足錯誤（misclassifications）可能來自兩種情況： 1. **模型家族本身無法表達這個概念** * 例如：用線性分隔器去逼近圓形區域 → 先天不可能完美分開。 * 這是表示能力的限制。 2. **模型家族足夠表達，但特定模型擬合得不好** * 例如：神經網路夠大，理論上能表示，但訓練沒有收斂到好解。 Agnostic Learning \citep{kearns\_toward\_1994} 定義了這種錯誤下界： $$ \mathrm{opt}(\calG) := \min_{g \in \calG} \Pr_{x\sim D}[g(x) \neq f(x)]. $$ * $\calG$ = 模型家族 * $\mathrm{opt}(\calG)$ = 在這個模型家族裡，最佳模型的最小錯誤率如果 $\mathrm{opt}(\calG)$ 大，代表無論怎麼訓練都會有很高的錯誤率。 --- ### 2. 語言模型版本對於語言模型 $\hat p\_\theta$，可以定義一族分類器： $$ \calG = \{g_{\theta,t} \mid \theta\in \Theta, t\in [0,1]\}, $$ 其中： $$ g_{\theta,t}(c,r) = \begin{cases} + & \hat p_\theta(r\mid c) > t,\\ - & \hat p_\theta(r\mid c) \le t. \end{cases} $$ 從 \Cref{thm\:main} 可直接推出： $$ \gerr \;\;\ge\;\; 2 \cdot \mathrm{opt}(\calG) - \frac{\max_c|\calV_c|}{\min_c|\calE_c|} - \delta_t. $$ --- ### 3. 特殊情況：純選擇題（Pure multiple-choice）當每個 context 只有一個正確答案（沒有 IDK），即 $|\calV\_c|=1$，設 $C = \min\_c |\calE\_c| + 1$（選項總數）： **定理（Theorem: Pure multiple-choice）** $$ \gerr \;\;\ge\;\; 2\Big(1 - \tfrac{1}{C}\Big)\cdot \mathrm{opt}(\calG). $$ * 意思是：錯誤率下界跟選項數 $C$ 成正比，$C$ 越大，錯誤率越高。 --- ### 4. 經典例子：Trigram 語言模型 * **Trigram model**：僅依賴前兩個詞來預測下一個詞（1980s–1990s 的主流）。 * 缺點：無法捕捉長距依賴，常生成不合語法的句子。例子： $$ \begin{aligned} c_1 &= \text{She lost it and was completely out of}\ldots, & r_1 &= \text{her mind.} \\ c_2 &= \text{He lost it and was completely out of}\ldots, & r_2 &= \text{his mind.} \end{aligned} $$ * 在 $c\_1$ 下，正確答案 = \$r\_1\$，但 \$r\_2\$ 也很 plausible。 * 在 $c\_2$ 下，正確答案 = \$r\_2\$，但 \$r\_1\$ 也很 plausible。 * 對稱性導致：Trigram 模型無法同時正確處理兩者 → 至少一半機率錯。 **推論（Corollary: Trigram）** 若 $\mu$ 在 ${c\_1,c\_2}$ 上均勻分布，任何 trigram 模型的錯誤率 $\ge 1/2$。原因：$C=2$，且 $\mathrm{opt}(\calG)=1/2$，代入定理即可得出。 --- ### 5. 與現代模型對比：Letter-counting * Letter counting（數字母）是另一個例子。 * DeepSeek-V3 模型常常答錯（屬於「poor model」）。 * DeepSeek-R1 reasoning 模型能正確回答，因為它採用 chain-of-thought 推理： * 把單詞拆開 → 一個一個數 → 最後得到正確結果。 * 問題根源：現代語言模型的 tokenization 通常把單詞拆成 subword（例：D/EEP/SEE/K），而不是字母，導致模型本身難以「直接數字母」。 * R1 模型透過「推理過程」克服了這種表徵挑戰。 ## Additional factors ### 1. 錯誤可能來自多重因素除了隨機事實與模型不足，還有其他來源會導致錯誤或幻覺： --- ### 2. 主要額外因素 #### (a) Computational Hardness（計算困難性） * 電腦科學的基本定理告訴我們：某些問題本身無法有效解決。 * 即便是「超強 AI」也不能違反計算複雜度理論。 * 例如：解密問題（decrypt）屬於不可處理的任務，最合理的輸出應該是 **IDK**。 * 根據 \Cref{thm\:main}，這種問題的錯誤率有理論下界 → 幻覺在此場景必然出現。 --- #### (b) Distribution Shift（分布轉移） * 在傳統分類任務裡，訓練資料和測試資料可能分布不同 → 會造成錯誤。 * 類似地，在語言模型中： * 如果 prompt 超出訓練分布（OOD），模型就更容易產生錯誤。 * 例子：「一磅羽毛和一磅鉛哪個比較重？」這種問題在訓練語料中可能極少出現，模型可能答錯。 * 甚至在 **letter-counting（數字母）** 的例子裡，也可能涉及分布轉移。 * 但由於 reasoning 模型能正確數字母，這裡的主要問題可能還是「poor model」，而不是 OOD。 --- #### (c) GIGO（Garbage in, Garbage out） * 大型訓練語料常包含大量錯誤資訊（factual errors）。 * 模型在預訓練時會學到並複製這些錯誤。 * GIGO 在分類與語言建模裡的統計性質都很直觀：**輸入錯 → 輸出必然錯**。 * 例子：模型被發現會複製陰謀論、錯誤的醫療資訊、甚至語料裡的常見誤解 \citep{lin-etal-2022-truthfulqa,levy-etal-2021-investigating,alber2025medical}。 --- ### 3. 與 Post-training 的連結 * GIGO 為進入後訓練（post-training）話題鋪墊。 * 後訓練方法（如 RLHF、GPT-4 pipeline）能減少某些 GIGO 錯誤，例如： * 陰謀論 * 常見誤解 * 但下一節將解釋：為什麼有些幻覺即使經過後訓練仍會存在，甚至可能因後訓練而加劇。 ## Post-training and hallucination ### 1. Post-training 的初衷 ![image](https://hackmd.io/_uploads/r1ivmUUoxg.png) * **目標**：讓模型從「自動補全」（autocomplete）轉向「可靠回答者」。 * 理想狀況： * 如果不確定，就說「IDK」 * 如果需要編故事，則在「fictional」情境下才合理地生成虛構。 * **問題**：在現實中，幻覺很難再進一步降低，因為： * 評估基準（benchmarks）和排行榜（leaderboards）本身強化了幻覺行為。 * → 模型為了在排行榜上得高分，不得不「亂猜」。 --- ### 2. 評估如何強化幻覺 * **現況**：大多數評估採用 **二分評分（dichotomous grading）**： * 只有「對/錯」兩種結果。 * Abstention（放棄、不知道、IDK）一律算「錯」。 * **後果**： * 誠實說「IDK」= 0 分 * 亂猜（即使錯）→ 期望分數更高 * → 最佳策略不是「謹慎」，而是「自信亂猜」。 --- ### 3. 正式化：為什麼「不答」最差？定義： * Prompt $c$ 的候選答案集合 $\calR\_c$（包含正確與錯誤）。 * Abstention 集合 $\calA\_c \subset \calR\_c$（例如 IDK）。 * Grader $g\_c: \calR\_c \to {0,1}$，二分給分（對 = 1，錯或 IDK = 0）。觀察（Observation \ref{obs\:misaligned}）： * 對任何一個 test-taker，只要知道評分規則是二分制，**最佳策略一定不是 abstain**。 * 也就是說： $$ \calA_c \cap \arg\max_{r \in \calR_c}\E_{g_c \sim \rho_c}[g_c(r)] = \emptyset. $$ * 翻譯：對於考生來說，亂猜的期望分數一定 ≥ 誠實說 IDK。 --- ### 4. 實證：當前主流基準幾乎全是二分制表 \ref{tab\:prevalence} 彙整了多個常見 benchmark： * **GPQA, MMLU-Pro, BBH, MATH, MuSR, SWE-bench, HLE** → 全部是「多選題/正確率」→ IDK = 0 分。 * **IFEval** → 雖然有多項子任務，但最終仍是二分化合併。 * **Omni-MATH, HLE** 等 equivalence grading 也基本是二分制。 * **WildBench** 比較例外，用 LM 打分（1–10 分），但： * IDK 仍然比「有幻覺但像樣」的回答得分低 → 仍然在鼓勵幻覺。結論： * **大多數主要評估都懲罰 IDK**。 * 即使我們有理想的「幻覺評估」與「後訓練方法」，它們的效果也會被這些主流 benchmark 壓過。 ## Explicit confidence targets ### 1. 問題背景 * **人類考試**也常用二分評分（對/錯），同樣鼓勵「過度自信的亂猜」。 * 不過，部分考試設計過 **懲罰錯誤答案** 的規則： * 印度的 JEE、NEET、GATE * 美國的 AMC、SAT、AP、GRE（早期版本） * 這些考試在說明裡會明確指出： * 答錯會扣分（或等價於：放棄不答比亂猜好）。 * 考生知道「信心閾值」：超過某個機率才值得回答，否則應該跳過。 --- ### 2. 作者建議：在評估中引入明確的「信心目標」 * 在每道題目的 prompt 或 system message 中，加入說明，例如： > **「只有在你 \$>t\$ 有信心時才回答。否則回答 IDK。正確 = +1 分，錯誤 = 扣 \$t/(1-t)\$ 分，IDK = 0 分。」** * 常見的門檻設置： * \$t=0.5\$ → 錯誤懲罰 1 * \$t=0.75\$ → 錯誤懲罰 2 * \$t=0.9\$ → 錯誤懲罰 9 * 當 \$t=0\$ → 回到傳統二分制（總是鼓勵亂猜）。 **關鍵公式**： * 若答案正確的機率 \$>t\$，回答比 IDK 好；否則 IDK 才是最佳策略。 * 這樣能迫使模型在「高信心」時才回答。 --- ### 3. 與既有研究的不同 * 以往的研究雖然有「錯誤懲罰」的概念，但 **沒有在題目指令裡明確說出信心門檻**。 * 作者主張： * 必須把規則 **明確寫在題目裡**，否則模型開發者會爭論「懲罰比例」是否合理。 * 即使門檻值有點隨意或隨機，明確寫出來仍然能保證公平性。 * 如果不明確規範，則不同模型會因不同 tradeoff（準確率 vs. 避錯率）而互有優劣，沒有一致最佳。 --- ### 4. 與主流評估結合 * 目前很多主流 benchmark（如 SWE-bench）都是二分制，懲罰 IDK。 * 作者建議 **把信心門檻制度直接加入這些主流評估**： * 而不是另做一些「專門的幻覺評估」。 * 這樣能讓「適當表達不確定性」的行為獲得合理分數，避免模型只為 leaderboard 而亂猜。 * 進而增強幻覺專屬測試的效果。 --- ### 5. 新概念：Behavioral calibration（行為校準） * 傳統 calibration = 要模型輸出「機率值」（例如 0.7 confident）。 * **Behavioral calibration** = 要模型在行為層面表現出「只在信心 ≥ t 時回答」。 * 優點： * 可以用不同 $t$ 下的準確率/錯誤率來審計（auditing）。 * 不需要模型顯式輸出機率值（避免 tokenization 等語言表述問題）。 * 直接檢查模型是否能「在信心不足時說 IDK」。 ## Discussion and limitations ### 1. 為什麼需要討論限制？ * 幻覺（hallucinations）定義複雜、面向多樣：不同社群、應用與研究角度都有不同理解。 * 本文提出的 **統計框架** 必須在「簡化」與「完整性」之間取捨： * 為了數學分析，只能強調某些面向。 * 但這同時意味著其他面向被忽略。 --- ### 2. 框架限制與補充說明 #### (a) Plausibility 與 nonsense * 本文將 **幻覺定義為「plausible falsehoods」（似是而非的錯誤）**。 * 因此，分析僅針對「看起來合理的輸出」集合 \$\mathcal{X}\$。 * 忽略了 **nonsense 輸出**（無意義字串），但這在最先進模型中已經很少出現。 **框架擴展**： * 可以在 $\mathcal{X}$ 中再拆分： * $\mathcal{N}$ = nonsense * $\mathcal{E}$ = plausible errors * $\mathcal{V}$ = valid outputs * 重新定義： * 錯誤率 $\gerr := \hat p(\mathcal{N} \cup \mathcal{E})$ * $D(\mathcal{N}) = 0$ * 假設 $p(\mathcal{V})=1$（真實分布只包含有效語句） * 在這個定義下，\Cref{thm\:main} 的結論仍然成立。 --- #### (b) Open-ended generations * 本文主要例子都是「單一事實性問題」（例如生日）。 * 但在真實應用中，幻覺常發生於 **開放式生成**： * 例如：「寫一篇某人的傳記」。 * 在此框架下： * 只要輸出包含一個或多個錯誤，即視為「error」。 * 然而，這樣的情況更自然的做法是： * 引入 **「幻覺程度」**（degree of hallucination） → 根據錯誤數量衡量，而不是單純二元分類。