# 論文閱讀 : Why language models hallucinate
## 摘要
* **現象**:
* 類似學生在考試遇到難題會「猜答案」,大型語言模型(LLMs)在不確定時也會生成看似合理但實際錯誤的內容,即 **幻覺(hallucination)**。
* 即使是最先進的系統,幻覺仍然普遍存在,影響使用者信任。
* **原因分析**:
1. **訓練與評估機制導致**
* 在當前 LLM 訓練流程中,模型傾向於 **猜測**,而不是表達「不知道」,因為這樣能獲得更高獎勵。
* 從統計角度來看,幻覺其實是 **二元分類誤差的自然產物**:若無法正確區分「真實 vs. 錯誤」陳述,就會出現幻覺。
2. **評估方式助長幻覺**
* 大多數基準測試的評分方式鼓勵模型「當個好考生」,在不確定時給答案比承認不知道更能獲得高分。
* 這種現象形成一種 **制度性流行病**:因為排行榜的主導力量,模型被迫優化成「會猜的考生」。
* **解決方向**:
* 不是額外增加「幻覺測試」,而是要 **修改現有基準的評分方式**。
* 若基準測試能鼓勵「承認不確定性」,就能引導整個領域朝向更可信任的 AI 系統。
## Introduction
1. **問題現象:語言模型的幻覺**
* 語言模型會生成 **過度自信卻錯誤** 的答案,這削弱了它們的實用性與可信度。
* 幻覺不同於人類的「知覺幻覺」,它是 **統計與學習過程的產物**。
* 即使是最新的模型(例如 GPT-5)也仍然存在幻覺。
2. **具體例子**

* 問「Adam Tauman Kalai 的生日?」並要求「只在知道的情況下回答」,一個最先進的開源模型(DeepSeek-V3, 600B 參數)仍然給出三個錯誤日期(03-07, 15-06, 01-01)。
* 在另一個問題「Adam Kalai 的博士論文題目?」中,GPT-4o、DeepSeek 與 Llama 皆給出不同的錯誤答案,沒有一個正確。
* 這些例子顯示 **模型傾向猜測而非承認不知道**。
3. **研究框架**
* 作者將幻覺視為 **錯誤的一種特例**,並透過 **計算學習理論** 來分析。
* 定義:
* 所有合理字串集合:$\calX = \calE \cup \calV$。
* $\calE$:錯誤字串(errors)。
* $\calV$:有效字串(valid)。
* 模型對 prompt 的回應可能落在 $\calV$ 或 $\calE$。
* 即使訓練資料無錯誤,訓練目標本身也會導致模型生成錯誤;若資料本來就含有瑕疵,錯誤率只會更高。
4. **分析涵蓋範圍**
* 作者的理論適用於:
* **推理型模型**
* **檢索增強型模型**
* 不依賴 Transformer 架構或下一詞預測的特性,而是針對 **現代訓練兩階段**:
1. **Pretraining(預訓練)**
2. **Post-training(後訓練,例如 RLHF)**
5. **幻覺分類**
* **Intrinsic hallucination**(內在幻覺):與使用者的 prompt 相矛盾。
* 例子:問「DEEPSEEK 有幾個 D?」 → DeepSeek-V3 多次回答 2 或 3,Meta AI 與 Claude 甚至答 6 或 7。實際應為 1。
* **Extrinsic hallucination**(外在幻覺):與訓練資料或外部現實矛盾。
### Errors caused by pretraining

1. **核心論點:即使資料乾淨,預訓練也會產生錯誤**
* 在 **預訓練(pretraining)** 階段,基礎模型學習大規模語料中的語言分布。
* 即便訓練資料完全無錯,**目標函數本身的統計特性** 也會導致模型生成錯誤。
* 因此,幻覺不是僅僅來自髒資料,而是預訓練過程的必然副作用。
2. **與二元分類的連結:Is-It-Valid (IIV) 問題**
* 把生成問題轉換為判斷題:
* **問題**:「這是一個有效的輸出嗎?」
* 有效的輸出 = $+$ 標籤;錯誤的輸出 = $-$ 標籤。
* IIV 的訓練資料設定:
* 正例($+$):來自預訓練語料(假設完全有效)。
* 負例($-$):隨機選取的錯誤字串(從 $\calE$ 取樣)。
* 訓練與測試資料都是 50/50 混合。
* 對應關係:任何一個語言模型都能當成 IIV 的分類器。
3. **數學關係式:生成錯誤率與分類錯誤率的下界**
* 論文不等式:
$$
\text{(生成錯誤率)} \gtrsim 2 \cdot \text{(IIV 錯誤率)}.
$$
* 意義:生成比單純判斷更困難,因為模型必須對所有候選輸出「同時回答」是否有效。
* **分類任務**:只需要對一個輸出判斷對/錯。
* **生成任務**:必須在眾多候選輸出中,挑出一個「看似正確」的字串。
* 結果:若分類器本身就會誤判,則生成一定會有更高錯誤率。
4. **不同類型錯誤的解釋**
* 模型能避免一些錯誤(如拼字錯誤),因為這些有明顯模式可學。
* 但對於 **無規律的知識**(例如生日),錯誤是必然的:
* 因為生日沒有統計規律可依循,若不在訓練資料內,模型只能亂猜。
* 文法與禮貌則不同,因為它們有系統性規則,強模型可學習並避免錯誤。
5. **統計學觀點**
* IIV 分類與生成的錯誤都受到相同統計因素影響。
* 圖 1 展示了三種情況:
1. **可分資料(top)**:有清楚規則 → 分類正確。
2. **模型能力不足(middle)**:例如用線性模型分錯誤的圓形邊界 → 系統性錯誤。
3. **完全隨機(bottom)**:資料沒有規律 → 天生不可避免的錯誤(epistemic uncertainty)。
* 這呼應了傳統機器學習中關於誤分類來源的分析 \citep{Domingos2012UsefulThings}。
6. **與既有研究的關聯**
* 先前研究(例如 \citet{kv23})專注於「無規律事實」(arbitrary facts),如生日。
* 他們的結果:若 20% 的生日事實在訓練語料中只出現一次,那麼基礎模型至少會在 20% 的生日問題上幻覺。
* 本文擴展了此分析:
* 加入 **prompt** 與 **IDK(不知道)回應** 的考量。
* 更完整地解釋了幻覺率的下界。
### Why hallucinations survive post-training
1. **後訓練(post-training)的目標與限制**
* 第二階段(post-training,例如 RLHF、微調)旨在改善基礎模型、減少幻覺。
* 但實際上,幻覺仍然大量存在。
* 原因:訓練與評估方式偏好 **過度自信的猜測**,而非「不知道 (IDK)」或保守表達。
2. **學生考試的類比**
* 在考試中,學生遇到不會的題目往往會「猜答案」或「唬爛」。
* 在 0-1 計分制下(答對得 1 分,空白或 IDK 得 0 分):
* **猜測** > **誠實空白**,因為猜對的期望分數較高。
* 猜測往往伴隨過度自信與具體化(如「9/30」而不是「秋天某時」)。
* 語言模型的 benchmark 評估方式與此類似,強化了「亂猜也比不答好」的行為。
3. **評估方式的問題**
* 大多數現有評估使用 **二分法 (dichotomous) 指標**:
* **Accuracy(正確率)** 或 **Pass rate(通過率)**。
* 這些評估 **懲罰不確定回答**(如 IDK、模糊表達)。
* 結果:模型被迫永遠處於「考試模式」,偏向過度自信的輸出。
4. **與過往研究的比較**
* 過去已有觀察:0-1 計分制無法衡量幻覺。
* 但過往研究多數專注於尋找「完美的幻覺測試」。
* 作者觀點:這是不足的,因為:
* 目前主流的 benchmark 數量龐大且偏差嚴重。
* 即使增加一些專門的幻覺測試,也無法扭轉主流評估帶來的壓力。
5. **「A vs B 模型」例子**
* 模型 A:符合對齊,誠實地表達不確定性,**從不幻覺**。
* 模型 B:與 A 相似,但 **從不承認不確定性,總是亂猜**。
* 在現有 0-1 計分下:模型 B 的表現會比模型 A 更好。
* 這形成一種 **「懲罰不確定性」的流行病 (epidemic)**。
## 相關文獻研究
### 幻覺成因的既有研究
* **綜合調查**(如 \citet{sun2025why}):歸納多種幻覺原因,包括:
* **模型過度自信** \citep{yin2023large}
* **解碼隨機性** \citep{lee2022factuality}
* **雪球效應(錯誤傳播)** \citep{zhang2023language}
* **長尾訓練樣本** \citep{sun2023head}
* **誤導性的 alignment 訓練** \citep{wei2023simple}
* **虛假相關** \citep{li2022pre}
* **曝光偏差 (exposure bias)** \citep{bengio2015scheduled}
* **reversal curse** \citep{berglundreversal}
* **context hijacking** \citep{jeong2024hijacking}
* 這些來源與傳統統計學、機器學習中的錯誤來源相似 \citep{RussellNorvig2020}。
### 3. 與本文最接近的理論研究
* **\citet{kv23}**
* 使用 **Good–Turing missing mass estimator** 分析幻覺率。
* 本文的 reduction 可以視為其特例,並擴展了其範圍:
* 加入 **IDK 回應**
* 與 **有監督學習的連結**
* 涵蓋 **prompt 條件** 與 **post-training 修正**。
* **\citet{active18nonsense}**
* 提出互動式學習,模型可查詢「有效性 oracle」(人類標註者)。
* 統計效率高,但計算效率低。
* **\citet{Kalavasis2025Limits, kleinberg2024language}**
* 提出 **一致性(consistency)** 與 **多樣性(breadth)** 的內在 trade-off。
* 結論:只要模型要超出訓練資料泛化,就必然面臨「幻覺」或「模式崩塌(mode collapse)」的兩難。
### 4. 後訓練技術與幻覺
* **RLHF(人類回饋強化學習)** \citep{ouyang2022training}
* **RLAIF(AI 回饋強化學習)** \citep{bai2022constitutionalaiharmlessnessai}
* **DPO(直接偏好優化)** \citep{rafailov2023dpo}
* 已證明能降低幻覺(包含陰謀論、錯誤常識)。
* **\citet{gekhman-etal-2024-fine}**
* 發現對新資訊的簡單微調能短期降低幻覺率,但長期又會反彈。
* **其他方向**:
* 查詢自然語言或內部激活,可以預測模型的 **事實準確度與不確定性** \citep{Kadavath2022LanguageM}。
* 比對語義相關問題的回答一致性,也能用於檢測或降低幻覺 \citep{manakul-etal-2023-selfcheckgpt, xue2025verify, agrawal\_language\_2023}。
### 5. 幻覺緩解方法與評估
* **緩解方法**
* 大量研究提出有效的技術,相關綜述見 \citet{ji2023survey, Tian2024Factuality}。
* **評估基準**
* 新近提出了多個專門 benchmark 與排行榜 \citep{bang2025hallulens, hong2024hallucinationsleaderboardopen}。
* 但 **實際應用不廣**,例如《2025 AI Index》 \citep{aiindex2025} 指出,幻覺評測尚未在社群獲得廣泛採納。
## Pretraining Errors
### 1. 預訓練的目標與模型定義
* 預訓練的語言模型 $\hat{p}$ 嘗試去逼近訓練分布 $p$。
* 在統計學習中,這是一個典型的 **密度估計(density estimation)問題**:
* 密度 = 對資料的機率分布建模。
* 對語言模型而言,分布是針對文字(或多模態輸入)的分布。
* 換句話說:模型不是背答案,而是學「文字出現的機率結構」。
---
### 2. 為什麼證明基礎模型一定會錯誤並不簡單
* **不會錯的模型範例**:
1. **永遠輸出「IDK」的模型** → 如果「不知道」不算錯誤,這種模型從不犯錯,但也沒學到任何東西。
2. **單純背誦訓練資料的模型** → 如果訓練資料無錯,它只要原封不動輸出,就不會犯錯,但無法泛化。
3. **理想模型 $\hat{p}=p$** → 完全匹配真實分布,但需要無限訓練資料,實際上不可行。
因此:**「不犯錯」的模型存在,但它們都不是好的語言模型**,因為失去了泛化或密度估計能力。
---
### 3. 為什麼錯誤是必然的
* **關鍵結論**:
* 即便資料乾淨,**任何逼近 $p$ 的有限模型**仍會產生錯誤。
* 原因在於:生成有效輸出比僅僅「判斷有效性」更難。
* 這讓作者可以用 **計算學習理論** 的框架來理解錯誤:
* 在分類問題裡,錯誤是正常且有下界的。
* 同理,在生成模型裡,錯誤(幻覺)也是必然存在的。
**例子**:
* 訓練集中有:
* Alice 的生日 → 01-02
* 但如果問「Bob 的生日?」 → 訓練資料沒有規則可依循 → 模型只能猜 → 錯誤。
---
### 4. 與「自動補全」的關係
* 那麼整個語言模型的目標,就是去學習一個「文字序列的機率分布」:
$$
p(w_1, w_2, w_3, \ldots).
$$
根據機率論基本定義,**任何聯合分布都可以分解成條件分布**。
例如:
$$
p(w_1, w_2, w_3, \ldots) = p(w_1)\, p(w_2 \mid w_1)\, p(w_3 \mid w_1, w_2)\, \ldots
$$
所以,只要有一個完整的分布 $p$,它自動就**誘導 (induce)** 出「給定前綴的條件分布」:
$$
p(w_i \mid w_1, w_2, \ldots, w_{i-1}).
$$
* 許多人以為幻覺是因為「自動補全」式的訓練方式。
* 例如前綴:「Adam Kalai was born on …」 → 模型亂補。
* 但作者指出,這只是表象。
* **數學上**:任何語言分布 $p$ 都可以誘導出「給定前綴的條件分布」。
* 換句話說,「自動補全」只是表達形式,而非幻覺的根本原因。
* **真正的原因**:
* 模型試圖逼近語言的真實分布 $p$,而有限資料與有限模型必然導致誤差。
* 模型架構(例如 Transformer)可能引入額外錯誤,但這是次要的。
## 論文主要內容 : The reduction without prompts
### 1. 問題設定:不帶 prompt 的基礎模型
* **基礎模型 $\hat{p}$**
* 是一個分布,定義在「可生成字串集合」$\calX$ 上。
* 每個例子 $x \in \calX$ 代表一個「合理的字串」(plausible string),例如一份文件。
* **分割集合**:
* $\calX = \calE \cup \calV$
* $\calV$:有效(valid)字串
* $\calE$:錯誤(error)字串
* $\calE, \calV$ 不交集。
**基礎模型錯誤率**:
$$
\gerr := \hat{p}(\calE) = \Pr_{x \sim \hat{p}}[x \in \calE].
$$
即模型從自身分布中生成錯誤字串的機率。
> 訓練分布 $p$ 被假設是無噪聲的($p(\calE)=0$)。所以錯誤不是資料來的,而是模型必然產生的。
---
### 2. IIV(Is-It-Valid)分類問題的形式化
作者把生成問題 **轉換成一個二元分類問題**:
* **目標函數**:
$$
f(x) = \begin{cases} + & x \in \calV \\ - & x \in \calE \end{cases}$$
* **分布 $D$**(訓練樣本分布):
* 50% 來自 **有效樣本 $p(x)$**(即訓練資料)
* 50% 來自 **錯誤樣本 $\calE$**(均勻隨機選)
$$
D(x) := \begin{cases}
p(x)/2 & x \in \calV \\
1/(2|\calE|) & x \in \calE
\end{cases}
$$
* **IIV 分類器 $\hat{f}\_t$ 的定義**:
* 用基礎模型的機率 $\hat{p}(x)$ 來判斷。
* 如果 $\hat{p}(x) > 1/|\calE|$ → 判為正例(有效)
* 否則 → 判為錯誤。
**IIV 錯誤率**:
$$
\cerrt := \Pr_{x \sim D}[\hat{f}_t(x) \ne f(x)].
$$
---
### 3. 關鍵推論:Corollary 1
核心結論:
$$
\gerr \ge 2 \cdot \cerrt - \frac{|\calV|}{|\calE|} - \delta_t,
$$
其中:
* $\gerr$:生成錯誤率(模型生成錯誤字串的機率)。
* $\cerrt$:IIV 錯誤率(分類任務的誤判率)。
* $\frac{|\calV|}{|\calE|}$:**正例數量與錯例數量的比例補償項**。當錯誤候選比正確候選多得多(例如生日有 364 個錯誤 vs 1 個正確),這項趨近於 0。
* $\delta\_t$:分布差異項(模型與真實分布在集合 $\calA$ 上的偏差)。
---
### 4. 結論的直觀含義
1. **所有基礎模型都會犯錯**
* 對於「本質上無法學會的 IIV 任務」(例如生日知識),$\cerrt$ 會非常大(接近 1/2)。
* 因為錯誤候選遠多於正確候選($|\calE| \gg |\calV|$),所以 $\gerr$ 必然很大。
* 意思是:即使模型再強,也無法避免幻覺。
2. **常數 2 的意義**
* 這個「2」代表生成比分類困難,誤差至少會被放大一倍。
* 對於 $|\calE|$ 很大、$\delta$ 很小的情況,$\cerrt \approx 1/2$,而 $\gerr$ 的上限是 1,所以這個 bound 是緊的(tight)。
3. **生日例子**
* 假設生日只有一個正確答案(1/365 機率)。
* 那麼 $|\calV|/|\calE| \approx 1/364$,非常小。
* $\cerrt$ 必然大 → $\gerr$ 下界也大 → 模型必然會「幻覺出錯生日」。
---
### 5. 幻覺錯誤的對應
* 把 **$\calE$ 定義為「包含合理假訊息的生成集合」**。
* 常見替代定義:幻覺 =「生成的答案沒有在訓練資料或 prompt 裡出現」。
* 由於假設訓練資料是乾淨的($p(\calE)=0$),所以任何生成的錯誤必然屬於 $\calE$ → 上述下界依然成立。
* 若要降低幻覺,應該鼓勵模型「IDK」而不是亂答,否則錯誤率無法突破這個 bound。
## Calibration 與 Base Models
### 1. Calibration(校準)
**(a) $\delta\_t$ 的意義**
* 回顧:$\delta\_t = |\hat p(\calA) - p(\calA)|$,衡量模型分布 $\hat p$ 與真實分布 $p$ 在「閾值區域」上的差異。
* 作者指出,$\delta\_t$ 可以被看作一種 **(mis)calibration(校準誤差)**。
* **直觀比喻**:
* 就像天氣預報:如果預測下雨機率是 30%,那麼在所有這類預測的日子裡,實際下雨的比例應該也接近 30%。
* 若偏差很大,說明預測不校準。
* 因此,$\delta\_t$ 測量的是「模型在 threshold $1/|\calE|$ 上,預測概率與實際事件機率的吻合程度」。
---
**(b) $\delta\_t=0$ 不代表模型完美**
* 即使沒有語言知識,**均勻分布** $\hat p(x) = 1/|\calX|$ 也能保證 $\delta\_t=0$。
* 所以 $\delta\_t=0$ 並不代表 $\hat p=p$,只是說「在這個 threshold 下沒有校準偏差」。
---
**(c) 如何檢測 $\delta\_t$**
* 可以通過比對:
* 從真實分布 $p$ 取樣 → 看多少比例落在 $\hat p(x)>1/|\calE|$。
* 從模型 $\hat p$ 取樣 → 看多少比例落在同一集合。
* 兩者差異就是 $\delta\_t$。
* 這等於一種 **審計(auditing)方法**,能快速檢測校準。
---
**(d) 為什麼 $\delta\_t$ 通常很小?(數學直覺)**
* 預訓練目標是最小化 **交叉熵損失**:
$$
\mathcal{L}(\hat p) = \mathbb{E}_{x \sim p}[-\log \hat p(x)].
$$
* 如果我們把「高於閾值」的概率整體縮放一個係數 $s$(rescaling),再規範化:
$$
\hat p_s(x) \propto
\begin{cases}
s \cdot \hat p(x) & \hat p(x) > 1/|\calE| \\
\hat p(x) & \text{else}
\end{cases}
$$
* 那麼:
$$
\delta_t = \left|\frac{d}{ds} \mathcal{L}(\hat p_s)\big|_{s=1}\right|.
$$
* 直觀上:
* 如果 $\delta\_t \neq 0$,那麼把 $s$ 稍微調整,就能降低交叉熵損失 → 說明模型不在局部最小值。
* 因此,當優化收斂時,\$\delta\_t\$ 應該接近 0。
* **意義**:交叉熵優化的模型天然趨向於 **校準良好**,因此 $\delta\_t$ 通常小。
---
**(e) 與其他校準指標比較**
* $\delta\_t$ 只是在單一 threshold $t=1/|\calE|$ 上檢查。
* 比較弱於更普遍的指標,例如 **ECE(Expected Calibration Error)**,它會對所有 threshold $t \in \[0,1]$ 整合。
---
### 2. Hallucinations are inevitable *only for base models*
**(a) 既有觀點**
* 有不少研究 \citep{Jones2025Hallucinations, Leffer2024SAInevitable, Xu2024HallucinationInevitable} 主張幻覺是「不可避免的」。
---
**(b) 作者觀點**
* 如果我們允許一個「不通用的 QA 系統」:
* 使用固定的問答資料庫(例如「金的化學符號是什麼?」→ Au),
* 加上一個計算器(處理算式「3+8」),
* 其餘問題一律回答「IDK」。
* 那麼就能做出一個 **不會幻覺的模型**。
---
**(c) 與定理的連結**
* \Cref{cor\:main} 的下界說明:
* 如果一個語言模型真的「不犯錯」,那麼它一定是不校準的(\$\delta\$ 必須很大)。
* 因為交叉熵最小化天然會導致校準 → 校準必然帶來某種程度的錯誤 → 幻覺不可避免。
---
**(d) Base models 與 Post-trained models 的差異**

* **Base models**:經過交叉熵預訓練,通常校準良好(\$\delta\$ 小)。
* **Post-trained models**:後訓練(例如 RLHF)可能會偏離交叉熵,追求使用性或人類偏好 → 導致校準性下降。
* 因此,「幻覺的不可避免性」主要針對 **base models**,而不是所有形式的模型。
## The reduction with prompts
### 1. 為什麼要引入 prompts?
* 在上一節(without prompts),我們只考慮「整體輸出字串集合」$\calX$,相當於所有輸出都共享一個空的上下文(prompt = ∅)。
* 但真實的語言模型使用場景是:輸入一個 prompt/context $c$,再生成一個回覆 $r$。
* 所以需要推廣到 **有 prompts 的情況**:
* 每個輸出 $x = (c, r)$ 包含一個 prompt $c$ 和一個 plausible response $r$。
* Prompt $c$ 由 prompt 分布 $\mu$ 抽樣。
---
### 2. 定義與符號
* **有效與錯誤回覆集合**:
* $\calV\_c = {r \mid (c,r)\in \calV}$ = prompt $c$ 下的所有有效回覆。
* $\calE\_c = {r \mid (c,r)\in \calE}$ = prompt $c$ 下的所有錯誤回覆。
* **訓練分布(真實)**:
* 條件形式:$p(r \mid c)$
* 聯合形式:$p(c,r) = \mu(c) p(r \mid c)$
* **模型分布(預測)**:
* 條件形式:$\hat{p}(r \mid c)$
* 聯合形式:$\hat{p}(c,r) = \mu(c)\hat{p}(r \mid c)$
* **錯誤率(生成錯誤率)**:
$$
\gerr = \hat{p}(\calE) = \sum_{(c,r)\in \calE} \mu(c)\hat{p}(r \mid c).
$$
---
### 3. 帶 prompts 的 IIV 問題
* **目標函數**:
$$
f(c,r) =
\begin{cases} + & (c,r)\in \calV \\ - & (c,r)\in \calE
\end{cases}
$$
* **IIV 分布 $D$**:
* 一半樣本來自 $p$(即有效對話 $(c,r)\sim p$)。
* 一半樣本來自「隨機錯誤」:先從 $\mu$ 抽 prompt $c$,再均勻選一個 $r\in \calE\_c$。
* **分類器**:
$$
\hat f(c,r) = +
\quad \text{iff} \quad
\hat{p}(r\mid c) > \tfrac{1}{\min_c |\calE_c|}.
$$
---
### 4. 推廣後的主要定理
**Theorem 1**:對於任何 base model $\hat p$,有:
$$
\gerr \;\;\ge\;\; 2 \cdot \cerrt - \frac{\max_c |\calV_c|}{\min_c |\calE_c|} - \delta_t,
$$
其中:
* $\cerrt$ = IIV 分類錯誤率。
* 分母 $\min\_c |\calE\_c|$:最少的錯誤回覆數量。
* 分子 $\max\_c |\calV\_c|$:最多的正確回覆數量。
* $\delta\_t = \Big| \hat{p}(\calA) - p(\calA)\Big|$,其中:
$$
\calA = \{(c,r) \in \calX \mid \hat{p}(r \mid c) > 1/\min_c |\calE_c|\}.
$$
這其實就是之前 Corollary 的一般化版本:
* 沒有 prompts 時,$|\calV|/|\calE|$ 對應到這裡的 $\max\_c|\calV\_c|/\min\_c|\calE\_c|$。
---
### 5. Calibration 推廣
* 和之前一樣,可以考慮對「高於 threshold 的回覆」做 **rescaling**:
$$
\hat p_s(r\mid c) \propto
\begin{cases}
s \cdot \hat p(r\mid c), & \hat p(r\mid c) > 1/\min_c|\calE_c| \\
\hat p(r\mid c), & \text{else}
\end{cases}
$$
* 這樣的 rescaling 可以計算交叉熵損失:
$$
\calL(\hat p) = \sum_{(c,r)\in \calX} -\mu(c)\log \hat p(r\mid c).
$$
* 同理,
$$
\delta_t = \left| \frac{d}{ds}\mathcal{L}(\hat p_s)\big|_{s=1}\right|.
$$
* 這再次說明:只要交叉熵最小化收斂,$\delta\_t$ 就會小 → 模型校準良好。
## Error factors for base models
### 1. 背景:錯誤來源分類
* 在統計學與機器學習中,誤分類(misclassification)來源已經被研究了數十年。
* 作者把這些經驗借來,對 **幻覺(hallucination)與生成錯誤**做分類:
1. **Arbitrary facts**(隨機事實):例如生日這類無規律、訓練資料不足以覆蓋的知識。
2. **Poor models**(模型不夠強):例如字母計數這種其實有規律,但模型能力不足時仍會錯。
3. **GIGO**(garbage in, garbage out):例如陰謀論,如果訓練資料本身有偏差,模型就會生成錯誤。
這一小節先聚焦在 **Arbitrary-fact hallucinations**。
---
### 2. Arbitrary-fact hallucinations
**核心直覺**:
* 當一個事實沒有簡單規律可循(例如一個人生日是哪天),那麼學習者必須「記住」它。
* 如果訓練資料裡只出現一次,模型幾乎不可能可靠泛化。
* 這就是 **epistemic uncertainty**:訓練數據裡壓根沒有足夠訊息。
---
### 3. VC 維度的連結
* Vapnik-Chervonenkis 維度(VC 維度)衡量「學習一個函數族需要多少樣本」。
* 如果 VC 維度很大,學習需要的樣本數可能高到不切實際。
* 對於隨機事實(例如生日),VC 維度可以非常高 → 實際上無法學到。
---
### 4. Arbitrary Facts 模型(定義)
* Prompt 分布 $\mu(c)$ 給出上下文。
* 每個 prompt $c$ 對應一個回覆集合 $\mathcal{R}\_c$。
* 對每個 $c$:
* 隨機選一個正確答案 $a\_c \in \mathcal{R}\_c$(均勻抽)。
* 訓練分布:
* $p(a\_c \mid c) = \alpha\_c$(機率 $\alpha\_c$ 給出正確答案)
* $p(\text{IDK} \mid c) = 1-\alpha\_c$
* 所以:
* $\mathcal{V}\_c = {a\_c, \text{IDK}}$
* $\mathcal{E}\_c = \mathcal{R}\_c \setminus {a\_c}$
例子:
* 生日問題 → $\mathcal{R}\_c$ 是 365 天,$\mathcal{E}\_c$ 有 364 天,$\mathcal{V}\_c$ = {正確生日, IDK}。
---
### 5. Singleton rate(單例率)
* 定義:若一個 prompt 在訓練集中只出現一次(而且不是 IDK),就稱為 **singleton**。
* Singleton rate:
$$
\text{sing} = \frac{|\mathcal{S}|}{N},
$$
其中 $N$ 是訓練樣本數,$\mathcal{S}$ 是所有 singleton prompt 的集合。
* 直觀:singleton 率越高,代表很多知識只出現一次,模型遇到新樣本時「幻覺」的機率就越高。
* 這個概念來自 Alan Turing 的 **missing-mass estimator**:單次出現的樣本數比例,可以估計「還沒出現的樣本總量」。
---
### 6. 主要定理(Arbitrary Facts)
**Theorem(任意事實幻覺)**:
在 Arbitrary Facts 模型下,給定 $N$ 筆訓練樣本,任何演算法輸出的 $\hat p$ 都滿足,99% 機率下:
$$
\gerr \ge \text{sing} - \frac{2}{\min_c |\mathcal{E}_c|} - \frac{35+6\ln N}{\sqrt{N}} - \delta_t.
$$
而且存在一個演算法,可以保證 $\delta=0$(完全校準),則有:
$$
\gerr \le \text{sing} - \frac{\text{sing}}{\max_c |\mathcal{E}_c|+1} + \frac{13}{\sqrt{N}}.
$$
---
### 7. 解讀
* **下界**:
* 錯誤率 $\gerr$ 至少大約等於 singleton 率。
* 意思是:如果很多知識在訓練集中只出現一次,模型必然會產生幻覺。
* 生日例子:大多數人的生日只在訃聞中出現一次 → 模型必然亂猜。
* **上界**:
* 若能完全校準,錯誤率大約就是 singleton 率,但會稍微小一點(扣掉一項 $\text{sing}/(|\mathcal{E}\_c|+1)$)。
* **結論**:
* Singleton 率決定了幻覺的下界和上界。
* 訓練資料越稀疏(很多 singleton),幻覺越嚴重。
* 訓練資料重複出現的事實(例如 Einstein 的生日) → 模型通常不會幻覺。
## Poor models
### 1. 錯誤來源:模型不足
錯誤(misclassifications)可能來自兩種情況:
1. **模型家族本身無法表達這個概念**
* 例如:用線性分隔器去逼近圓形區域 → 先天不可能完美分開。
* 這是表示能力的限制。
2. **模型家族足夠表達,但特定模型擬合得不好**
* 例如:神經網路夠大,理論上能表示,但訓練沒有收斂到好解。
Agnostic Learning \citep{kearns\_toward\_1994} 定義了這種錯誤下界:
$$
\mathrm{opt}(\calG) := \min_{g \in \calG} \Pr_{x\sim D}[g(x) \neq f(x)].
$$
* $\calG$ = 模型家族
* $\mathrm{opt}(\calG)$ = 在這個模型家族裡,最佳模型的最小錯誤率
如果 $\mathrm{opt}(\calG)$ 大,代表無論怎麼訓練都會有很高的錯誤率。
---
### 2. 語言模型版本
對於語言模型 $\hat p\_\theta$,可以定義一族分類器:
$$
\calG = \{g_{\theta,t} \mid \theta\in \Theta, t\in [0,1]\},
$$
其中:
$$
g_{\theta,t}(c,r) = \begin{cases} + & \hat p_\theta(r\mid c) > t,\\ - & \hat p_\theta(r\mid c) \le t.
\end{cases}
$$
從 \Cref{thm\:main} 可直接推出:
$$
\gerr \;\;\ge\;\; 2 \cdot \mathrm{opt}(\calG) - \frac{\max_c|\calV_c|}{\min_c|\calE_c|} - \delta_t.
$$
---
### 3. 特殊情況:純選擇題(Pure multiple-choice)
當每個 context 只有一個正確答案(沒有 IDK),即 $|\calV\_c|=1$,設 $C = \min\_c |\calE\_c| + 1$(選項總數):
**定理(Theorem: Pure multiple-choice)**
$$
\gerr \;\;\ge\;\; 2\Big(1 - \tfrac{1}{C}\Big)\cdot \mathrm{opt}(\calG).
$$
* 意思是:錯誤率下界跟選項數 $C$ 成正比,$C$ 越大,錯誤率越高。
---
### 4. 經典例子:Trigram 語言模型
* **Trigram model**:僅依賴前兩個詞來預測下一個詞(1980s–1990s 的主流)。
* 缺點:無法捕捉長距依賴,常生成不合語法的句子。
例子:
$$
\begin{aligned}
c_1 &= \text{She lost it and was completely out of}\ldots, & r_1 &= \text{her mind.} \\
c_2 &= \text{He lost it and was completely out of}\ldots, & r_2 &= \text{his mind.}
\end{aligned}
$$
* 在 $c\_1$ 下,正確答案 = \$r\_1\$,但 \$r\_2\$ 也很 plausible。
* 在 $c\_2$ 下,正確答案 = \$r\_2\$,但 \$r\_1\$ 也很 plausible。
* 對稱性導致:Trigram 模型無法同時正確處理兩者 → 至少一半機率錯。
**推論(Corollary: Trigram)**
若 $\mu$ 在 ${c\_1,c\_2}$ 上均勻分布,任何 trigram 模型的錯誤率 $\ge 1/2$。
原因:$C=2$,且 $\mathrm{opt}(\calG)=1/2$,代入定理即可得出。
---
### 5. 與現代模型對比:Letter-counting
* Letter counting(數字母)是另一個例子。
* DeepSeek-V3 模型常常答錯(屬於「poor model」)。
* DeepSeek-R1 reasoning 模型能正確回答,因為它採用 chain-of-thought 推理:
* 把單詞拆開 → 一個一個數 → 最後得到正確結果。
* 問題根源:現代語言模型的 tokenization 通常把單詞拆成 subword(例:D/EEP/SEE/K),而不是字母,導致模型本身難以「直接數字母」。
* R1 模型透過「推理過程」克服了這種表徵挑戰。
## Additional factors
### 1. 錯誤可能來自多重因素
除了隨機事實與模型不足,還有其他來源會導致錯誤或幻覺:
---
### 2. 主要額外因素
#### (a) Computational Hardness(計算困難性)
* 電腦科學的基本定理告訴我們:某些問題本身無法有效解決。
* 即便是「超強 AI」也不能違反計算複雜度理論。
* 例如:解密問題(decrypt)屬於不可處理的任務,最合理的輸出應該是 **IDK**。
* 根據 \Cref{thm\:main},這種問題的錯誤率有理論下界 → 幻覺在此場景必然出現。
---
#### (b) Distribution Shift(分布轉移)
* 在傳統分類任務裡,訓練資料和測試資料可能分布不同 → 會造成錯誤。
* 類似地,在語言模型中:
* 如果 prompt 超出訓練分布(OOD),模型就更容易產生錯誤。
* 例子:「一磅羽毛和一磅鉛哪個比較重?」這種問題在訓練語料中可能極少出現,模型可能答錯。
* 甚至在 **letter-counting(數字母)** 的例子裡,也可能涉及分布轉移。
* 但由於 reasoning 模型能正確數字母,這裡的主要問題可能還是「poor model」,而不是 OOD。
---
#### (c) GIGO(Garbage in, Garbage out)
* 大型訓練語料常包含大量錯誤資訊(factual errors)。
* 模型在預訓練時會學到並複製這些錯誤。
* GIGO 在分類與語言建模裡的統計性質都很直觀:**輸入錯 → 輸出必然錯**。
* 例子:模型被發現會複製陰謀論、錯誤的醫療資訊、甚至語料裡的常見誤解 \citep{lin-etal-2022-truthfulqa,levy-etal-2021-investigating,alber2025medical}。
---
### 3. 與 Post-training 的連結
* GIGO 為進入後訓練(post-training)話題鋪墊。
* 後訓練方法(如 RLHF、GPT-4 pipeline)能減少某些 GIGO 錯誤,例如:
* 陰謀論
* 常見誤解
* 但下一節將解釋:為什麼有些幻覺即使經過後訓練仍會存在,甚至可能因後訓練而加劇。
## Post-training and hallucination
### 1. Post-training 的初衷

* **目標**:讓模型從「自動補全」(autocomplete)轉向「可靠回答者」。
* 理想狀況:
* 如果不確定,就說「IDK」
* 如果需要編故事,則在「fictional」情境下才合理地生成虛構。
* **問題**:在現實中,幻覺很難再進一步降低,因為:
* 評估基準(benchmarks)和排行榜(leaderboards)本身強化了幻覺行為。
* → 模型為了在排行榜上得高分,不得不「亂猜」。
---
### 2. 評估如何強化幻覺
* **現況**:大多數評估採用 **二分評分(dichotomous grading)**:
* 只有「對/錯」兩種結果。
* Abstention(放棄、不知道、IDK)一律算「錯」。
* **後果**:
* 誠實說「IDK」= 0 分
* 亂猜(即使錯)→ 期望分數更高
* → 最佳策略不是「謹慎」,而是「自信亂猜」。
---
### 3. 正式化:為什麼「不答」最差?
定義:
* Prompt $c$ 的候選答案集合 $\calR\_c$(包含正確與錯誤)。
* Abstention 集合 $\calA\_c \subset \calR\_c$(例如 IDK)。
* Grader $g\_c: \calR\_c \to {0,1}$,二分給分(對 = 1,錯或 IDK = 0)。
觀察(Observation \ref{obs\:misaligned}):
* 對任何一個 test-taker,只要知道評分規則是二分制,**最佳策略一定不是 abstain**。
* 也就是說:
$$
\calA_c \cap \arg\max_{r \in \calR_c}\E_{g_c \sim \rho_c}[g_c(r)] = \emptyset.
$$
* 翻譯:對於考生來說,亂猜的期望分數一定 ≥ 誠實說 IDK。
---
### 4. 實證:當前主流基準幾乎全是二分制
表 \ref{tab\:prevalence} 彙整了多個常見 benchmark:
* **GPQA, MMLU-Pro, BBH, MATH, MuSR, SWE-bench, HLE** → 全部是「多選題/正確率」→ IDK = 0 分。
* **IFEval** → 雖然有多項子任務,但最終仍是二分化合併。
* **Omni-MATH, HLE** 等 equivalence grading 也基本是二分制。
* **WildBench** 比較例外,用 LM 打分(1–10 分),但:
* IDK 仍然比「有幻覺但像樣」的回答得分低 → 仍然在鼓勵幻覺。
結論:
* **大多數主要評估都懲罰 IDK**。
* 即使我們有理想的「幻覺評估」與「後訓練方法」,它們的效果也會被這些主流 benchmark 壓過。
## Explicit confidence targets
### 1. 問題背景
* **人類考試**也常用二分評分(對/錯),同樣鼓勵「過度自信的亂猜」。
* 不過,部分考試設計過 **懲罰錯誤答案** 的規則:
* 印度的 JEE、NEET、GATE
* 美國的 AMC、SAT、AP、GRE(早期版本)
* 這些考試在說明裡會明確指出:
* 答錯會扣分(或等價於:放棄不答比亂猜好)。
* 考生知道「信心閾值」:超過某個機率才值得回答,否則應該跳過。
---
### 2. 作者建議:在評估中引入明確的「信心目標」
* 在每道題目的 prompt 或 system message 中,加入說明,例如:
> **「只有在你 \$>t\$ 有信心時才回答。否則回答 IDK。正確 = +1 分,錯誤 = 扣 \$t/(1-t)\$ 分,IDK = 0 分。」**
* 常見的門檻設置:
* \$t=0.5\$ → 錯誤懲罰 1
* \$t=0.75\$ → 錯誤懲罰 2
* \$t=0.9\$ → 錯誤懲罰 9
* 當 \$t=0\$ → 回到傳統二分制(總是鼓勵亂猜)。
**關鍵公式**:
* 若答案正確的機率 \$>t\$,回答比 IDK 好;否則 IDK 才是最佳策略。
* 這樣能迫使模型在「高信心」時才回答。
---
### 3. 與既有研究的不同
* 以往的研究雖然有「錯誤懲罰」的概念,但 **沒有在題目指令裡明確說出信心門檻**。
* 作者主張:
* 必須把規則 **明確寫在題目裡**,否則模型開發者會爭論「懲罰比例」是否合理。
* 即使門檻值有點隨意或隨機,明確寫出來仍然能保證公平性。
* 如果不明確規範,則不同模型會因不同 tradeoff(準確率 vs. 避錯率)而互有優劣,沒有一致最佳。
---
### 4. 與主流評估結合
* 目前很多主流 benchmark(如 SWE-bench)都是二分制,懲罰 IDK。
* 作者建議 **把信心門檻制度直接加入這些主流評估**:
* 而不是另做一些「專門的幻覺評估」。
* 這樣能讓「適當表達不確定性」的行為獲得合理分數,避免模型只為 leaderboard 而亂猜。
* 進而增強幻覺專屬測試的效果。
---
### 5. 新概念:Behavioral calibration(行為校準)
* 傳統 calibration = 要模型輸出「機率值」(例如 0.7 confident)。
* **Behavioral calibration** = 要模型在行為層面表現出「只在信心 ≥ t 時回答」。
* 優點:
* 可以用不同 $t$ 下的準確率/錯誤率來審計(auditing)。
* 不需要模型顯式輸出機率值(避免 tokenization 等語言表述問題)。
* 直接檢查模型是否能「在信心不足時說 IDK」。
## Discussion and limitations
### 1. 為什麼需要討論限制?
* 幻覺(hallucinations)定義複雜、面向多樣:不同社群、應用與研究角度都有不同理解。
* 本文提出的 **統計框架** 必須在「簡化」與「完整性」之間取捨:
* 為了數學分析,只能強調某些面向。
* 但這同時意味著其他面向被忽略。
---
### 2. 框架限制與補充說明
#### (a) Plausibility 與 nonsense
* 本文將 **幻覺定義為「plausible falsehoods」(似是而非的錯誤)**。
* 因此,分析僅針對「看起來合理的輸出」集合 \$\mathcal{X}\$。
* 忽略了 **nonsense 輸出**(無意義字串),但這在最先進模型中已經很少出現。
**框架擴展**:
* 可以在 $\mathcal{X}$ 中再拆分:
* $\mathcal{N}$ = nonsense
* $\mathcal{E}$ = plausible errors
* $\mathcal{V}$ = valid outputs
* 重新定義:
* 錯誤率 $\gerr := \hat p(\mathcal{N} \cup \mathcal{E})$
* $D(\mathcal{N}) = 0$
* 假設 $p(\mathcal{V})=1$(真實分布只包含有效語句)
* 在這個定義下,\Cref{thm\:main} 的結論仍然成立。
---
#### (b) Open-ended generations
* 本文主要例子都是「單一事實性問題」(例如生日)。
* 但在真實應用中,幻覺常發生於 **開放式生成**:
* 例如:「寫一篇某人的傳記」。
* 在此框架下:
* 只要輸出包含一個或多個錯誤,即視為「error」。
* 然而,這樣的情況更自然的做法是:
* 引入 **「幻覺程度」**(degree of hallucination) → 根據錯誤數量衡量,而不是單純二元分類。