# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE
## EDWARD Y.CHANG
[第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e)
[第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl)
[第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l)
[第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx)
[第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg)
[第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg)
[第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe)
[第8章 多模態大型語言模型中的情感建模
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg)
[第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye)
[第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx)
[ 第12章 發現洞見 超越已知
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe)
---
## 第七章
揭示反思性大型語言模型中的錯誤與偏見
#### 摘要
人為標記數據中的偏見與錯誤為機器學習帶來了重大挑戰,尤其是在依賴潛在有缺陷的真實標準數據的監督學習中。這些缺陷,包括診斷錯誤和社會偏見,可能會通過使用最大似然估計訓練的模型被傳播和放大。本章介紹了反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),該框架利用單一大型語言模型的多個實例或不同大型語言模型之間的結構化對抗性對話,來揭示多樣的視角並糾正不一致之處。通過將大型語言模型條件化為採取對立立場,RLDF 能夠通過條件統計、資訊理論和分歧指標進行系統性的偏見檢測。實驗顯示,RLDF 成功識別了公共內容中的潛在偏見,同時揭示了人為標記數據的局限性。我們的框架支持可衡量的進展追蹤和可解釋的糾正行動,提供了一種通過透明的多視角分析來改善內容中立性的可擴展方法。
#### 7.1 引言
人為標記數據中的錯誤與偏見為機器學習模型帶來了關鍵挑戰,尤其是在醫療、新聞、教育和公共政策等領域,這些模型的輸出可以深刻影響公眾的認知和決策 [21]。錯誤,如診斷失誤,源於知識缺口或缺乏專業知識,而偏見,包括意識形態和社會扭曲,可能會被標註者有意識或無意識地引入。這些缺陷損害了真實標準數據的完整性,並通過機器學習流程傳播,產生不良結果 [15, 26, 4]。
AI 系統對這些缺陷特別脆弱,因為在不準確或有偏見的真實標準數據上訓練的模型往往會通過最大似然估計複製並放大這些問題。在醫療領域,診斷錯誤可能導致不良的治療建議 [22],而在新聞領域,黨派標註—例如將有偏見的文章標記為中立—會誤導人類讀者和自動分類器,扭曲公共話語 [21, 13]。其影響不僅限於個別行業:在教育領域,有偏見的數據可能加強刻板印象,而在公共政策領域,則可能導致歧視性決策。因此,確保模型從準確且公正的真實標準數據中學習對於負責任地部署各領域的 AI 至關重要。
本章專注於新聞標註中的偏見檢測與糾正,使用新聞作為測試平台來探討反思性對話如何減少偏見。新聞內容特別容易受到意識形態偏見的影響,因為標註者的個人觀點往往會影響對政治敏感話題的解釋。第7.4節中呈現的實證證據顯示,根據政治傾向,標註實踐存在差異。表7.1和表7.2展示了實際數據 [5],說明民主派標註者可能會對涉及民主黨的醜聞判斷得比共和黨更嚴厲,反之亦然,這突顯了需要工具來平衡這些偏見。
為了解決這些挑戰,我們介紹了反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),該框架通過結構化對話中使用多個 LLM 實例來實施制衡。RLDF 將兩個實例條件化為採取對立立場:一個支持原始標籤,另一個引入替代觀點。這些反思性交流促進了更深入的見解,幫助揭示潛在的偏見,通過包含多樣的觀點生成更中立的標註。這種多 LLM 對話方法在單一 LLM 獨立運作或僅提供一次性回應時的結果上表現更優。
RLDF 採用條件統計、資訊理論和分歧指標來衡量這些對話的有效性。香農熵 [28] 量化觀點的多樣性,而互資訊 [9] 衡量交流的質量。為了追蹤趨向無偏結果的收斂,我們應用了 Jensen-Shannon 分歧 (JSD) [19]、Wasserstein 距離 (WD) [14] 和交叉熵 (CE) [29],確保補救行動是可測量和透明的,以供人類審閱者進一步改進。
我們的實證研究驗證了 RLDF 的有效性,本章的貢獻總結如下:
1. **對抗性與反思性檢查框架:** RLDF 提供了一個結構化框架,鼓勵對真實標準標籤進行對抗性和反思性檢查。通過對話,參與的 LLM 實例檢查、挑戰並解釋原始標註中嵌入的偏見,提供各種觀點。例如,在新聞標註中,RLDF 通過生成政治敏感內容的替代解釋,揭示隱藏的意識形態偏見,從而導致更中立的標註。
2. **謹慎調節語言行為以平衡探索與運用:** RLDF 的有效性在於其謹慎調節參與 LLM 實例之間的語言行為,交替進行有爭議性和和解性的互動。這種動態權衡促進了新觀點的探索,同時鞏固了有支持性的觀點。採用的信息理論和統計指標,包括香農熵、互資訊、Jensen-Shannon 分歧、Wasserstein 距離和交叉熵,用於衡量意見多樣性、信息流動和最終評估的強度。
3. **有效結果與改善標籤及減少 AI 偏見的影響:** RLDF 成功減少了 AI 偏見,確保各領域(如新聞、醫療 [7] 和公共政策)模型輸出的更可靠和無偏見。這些結果展示了 RLDF 在精煉標籤、增強公平性和促進負責任的 AI 部署方面的顯著影響。
#### 7.2 相關工作
本研究專注於減少訓練數據標籤(真實標準)的偏見,這是機器學習中的一個主要關注點 [21]。準確的標籤至關重要,因為與有偏內容一致的標籤會強化該偏見,而正確識別偏見的標籤則允許進行教育和糾正 [4, 11]。這凸顯了標籤準確性在最小化偏見傳播中的重要性。
##### 7.2.1 標籤驗證
本工作特別處理錯誤標記的真實標準並探索補救行動。提高標註準確性的努力大致可分為三種方法:
**多標註者交叉驗證:** 使用多個標註者並結合統計聚合技術已被證明能減少個人偏見並增強數據可靠性 [30]。此方法對於具有明確答案的共識任務(如 ImageNet 中的圖像標註)特別有效 [12, 16]。然而,對於像新聞和維基百科文章這樣更為細微的內容,多數投票可能存在問題。標註者在不同主題上可能具有不同的偏見,這些偏見可能是無意識的或依賴於上下文的。全面地映射標註者在所有可能主題和情境中的內在傾向是具有挑戰性的。例如,政治隸屬(如共和黨或民主黨)不一定預測其他信念或偏好(如素食選擇)。因此,僅依賴共識可能無法有效減少偏見,即使擁有多樣化的標註者池。此外,人類標註方法中固有的單一、絕對真理假設可能限制了捕捉多個有效觀點的能力,特別是在複雜或有爭議的主題上 [3]。
**機器與人類標註者之間的交叉驗證:** 機器學習模型可以通過增強標註一致性和效率來補充人類標註者 [33]。半監督學習方法,例如 Snorkel [24],結合標註和未標註數據以改善模型性能。該領域的最新發展是賓夕法尼亞大學的媒體偏見檢測器(Media Bias Detector, MBD),該系統結合 GPT 模型與人類評分者來分析新聞文章中的潛在偏見 [23]。MBD 系統性地檢查來自多元來源(包括 CNN 和 Fox News)的新聞內容,並在全天定期間隔進行。它使用先進的語言模型,特別是 GPT-3.5 Turbo 和 GPT-4,來分類文章。該系統將政治傾向分數分配在 -5(代表強烈左傾偏見)到 5(代表強烈右傾偏見)之間。為了提高準確性,MBD 結合了人類對模型輸出的驗證。
雖然 MBD 試圖通過分離對政治傾向和語氣的評估來減少偏見,但它並未明確處理 GPT 模型和人類評分者中可能存在的內在偏見。此方法的一個重大限制在於 LLM 的基本特性。這些模型在使用最大似然目標訓練於大量文本數據上,傾向於優先考慮統計上普遍的觀點。這種訓練方法可能會無意中導致主流觀點的放大,犧牲邊緣化或較少代表的觀點,潛在地在分析中引入細微但普遍的偏見。
---
#### 7.2 相關工作
本研究專注於減少訓練數據標籤(真實標準)的偏見,這是機器學習中的一個主要關注點 [21]。準確的標籤至關重要,因為與有偏內容一致的標籤會強化該偏見,而正確識別偏見的標籤則允許進行教育和糾正 [4, 11]。這凸顯了標籤準確性在最小化偏見傳播中的重要性。
##### 7.2.1 標籤驗證
本工作特別處理錯誤標記的真實標準並探索補救行動。提高標註準確性的努力大致可分為三種方法:
**多標註者交叉驗證:** 使用多個標註者並結合統計聚合技術已被證明能減少個人偏見並增強數據可靠性 [30]。此方法對於具有明確答案的共識任務(如 ImageNet 中的圖像標註)特別有效 [12, 16]。然而,對於像新聞和維基百科文章這樣更為細微的內容,多數投票可能存在問題。標註者在不同主題上可能具有不同的偏見,這些偏見可能是無意識的或依賴於上下文的。全面地映射標註者在所有可能主題和情境中的內在傾向是具有挑戰性的。例如,政治隸屬(如共和黨或民主黨)不一定預測其他信念或偏好(如素食選擇)。因此,僅依賴共識可能無法有效減少偏見,即使擁有多樣化的標註者池。此外,人類標註方法中固有的單一、絕對真理假設可能限制了捕捉多個有效觀點的能力,特別是在複雜或有爭議的主題上 [3]。
**機器與人類標註者之間的交叉驗證:** 機器學習模型可以通過增強標註一致性和效率來補充人類標註者 [33]。半監督學習方法,例如 Snorkel [24],結合標註和未標註數據以改善模型性能。該領域的最新發展是賓夕法尼亞大學的媒體偏見檢測器(Media Bias Detector, MBD),該系統結合 GPT 模型與人類評分者來分析新聞文章中的潛在偏見 [23]。MBD 系統性地檢查來自多元來源(包括 CNN 和 Fox News)的新聞內容,並在全天定期間隔進行。它使用先進的語言模型,特別是 GPT-3.5 Turbo 和 GPT-4,來分類文章。該系統將政治傾向分數分配在 -5(代表強烈左傾偏見)到 5(代表強烈右傾偏見)之間。為了提高準確性,MBD 結合了人類對模型輸出的驗證。
雖然 MBD 試圖通過分離對政治傾向和語氣的評估來減少偏見,但它並未明確處理 GPT 模型和人類評分者中可能存在的內在偏見。此方法的一個重大限制在於 LLM 的基本特性。這些模型在使用最大似然目標訓練於大量文本數據上,傾向於優先考慮統計上普遍的觀點。這種訓練方法可能會無意中導致主流觀點的放大,犧牲邊緣化或較少代表的觀點,潛在地在分析中引入細微但普遍的偏見。
##### 7.2.2 有偏的真實標準
使用維基百科作為驗證大型語言模型(LLMs)輸出的基準在近期研究中引起了關注 [20, 27]。然而,這種方法存在顯著的局限性。首先,作為真實標準的信息可能並不總是在維基百科上可用。如果聊天機器人開發者已經知道確切答案,就沒有必要諮詢LLMs。其次,這種方法的可信度進一步受到維基百科文章本身質量評估的挑戰。如圖7.1所示,91%的維基百科內容被平台的編輯認為是中等到低質量。此外,維基百科和新聞媒體中普遍存在偏見,涵蓋性別、種族、意識形態和地理等方面。例如,在維基百科中,偏見表現為傳記中某些主題的過度代表 [32],影響了內容的平衡。在新聞媒體領域,媒體通常根據政治取向進行分類—從極左到極右—如 AllSides [1] 的評估所示。這些分類類似於我們將新聞文章分類的方法。圖7.2,由 AllSides 生成並定期更新,說明了這一點。然而,使用者應謹慎解讀該圖,承認其潛在的主觀性。儘管如此,它仍然強調了單一事件或故事如何根據不同觀點被以顯著不同的方式呈現。
**圖 7.1:來自高品質高重要性(1.2%)到低品質低重要性(91.6%)的分佈。值得注意的是,藍色部分(4.8%)表示需要改進的高重要性頁面。**
**圖 7.2:AllSides 事實檢查偏見圖表。**
##### 7.2.3 我們的貢獻:RLDF 方法
本研究旨在通過提出反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),解決 MBD 及類似框架中的局限性。RLDF 利用統計和資訊理論原則來揭示和平衡多樣的觀點,確保多數和少數觀點得到充分代表。與 MBD 不同,RLDF 引入了 LLM 實例之間的結構化對話,促進更深入的反思和透明的偏見緩解。這種方法確保了標註不僅準確,而且公平和公正,從而提高了各領域機器學習模型的可靠性。
---
#### 7.3 方法論
本節分為兩部分介紹我們的方法:去偏程序和優化技術。
##### 7.3.1 去偏程序:EVINCE 演算法
基於 SocraSynth [8] 的理論基礎,EVINCE(條件交換中的熵與變異,Entropy and Variation in Conditional Exchanges)[7] 通過使用大型語言模型(LLMs)之間的結構化對話促進內容中立性。在本節中,我們將描述如何自訂 EVINCE 以有效地執行去偏。
**探索不同觀點**
我們的目標是生成廣泛的觀點,即使是對於二元分類如政治傾向也是如此。我們將一個 LLM 條件化為支持當前的真實標籤,而另一個則反對,從而鼓勵多樣的概率分佈。這種方法確保了實質性的多樣性,而不是琐碎的分歧。例如,我們更喜歡像 (0.5, 0.5)(對兩個子類別的平等偏好)而不是鏡像對立的 (1, 0) 和 (0, 1)(詳見第 7.3.2 節)。
**調節爭議性**
EVINCE 使用資訊理論指標如熵、交叉熵和互資訊(見第 6 章附錄 A)動態調整辯論的強度。每個 LLM 生成標籤的前 k 個概率分佈,EVINCE 分析這些分佈以指導後續互動。爭議性水平根據需要調整,以鼓勵探索或促進收斂。
在初始對話迭代中,我們偏好低互資訊和高 Wasserstein 距離(WD)來反映探索階段,鼓勵不同的觀點。隨著參與者交換有理有據的論點,互資訊增加,表示趨向一致,而 Wasserstein 距離減少,表示收斂。一旦信息交換充分,EVINCE 減少爭議性以促進更和解的氛圍,引導參與者達成共識。
**以合理性進行審查**
在調節爭議性之後,EVINCE 專注於評估每個 LLM 論點的合理性。每個 LLM 為其預測提供支持證據,這些證據根據邏輯性、一致性和可信度進行評估。
為確保質量控制,EVINCE 使用 CRIT [6],一個合理性評估模塊,來標記薄弱或無支持的論點。這些被標記的論點由人類主持人審查,確保錯誤推理不會在最終結果中持續存在。此過程平衡了自動化推理與人類監督,只保留經過嚴格審查的觀點,確保最終共識反映出有理有據、無偏見的觀點。
##### 7.3.2 優化與演算法規範
圖 6.1 正式規範了 EVINCE 演算法及相關的優化函數。參考第 6 章附錄 A 中全面調查的所有代理指標及其優缺點和綜合優勢,演算法 1 正式規範了 EVINCE 的關鍵步驟。我們進一步討論其三個優化問題。
1. **優化初始條件。** 使用不同的提示、隨機種子和先驗分佈約束來促進前幾輪中的有意義探索。
2. **優化互動動態。** 使用分歧指標和 Wasserstein 距離動態調整辯論的強度。確保公平輪換並過濾冗餘論點。
3. **優化收斂標準。** 設定 Wasserstein 距離、分歧指標和通過 CRIT 的合理性檢查的明確閾值,以確定何時達成共識。使用加權投票機制,對模糊案例進行人類監督。(如果聯合分佈無法評估,則可以省略互資訊。)
**輸入:** 信息集 S,類別標籤 C;LLMA 和 LLMB;
**輸出:** Pf,對 C 類別的最終概率分佈;R = ∅ 聚合論點;
**變數:**
- t = 0:辯論輪次;R(t) A 和 R(t) B:支持理由集;
- P(t) A 和 P(t) B:LLMA 和 LLMB 在第 t 輪對 C 類別的預測分佈;
- Δ = 90%;辯論爭議性 [0,1];M:指標(第 6 章表 6.1);
- p:提示 = “在爭議性水平 Δ 下,使用 S 和 R 預測 C 類別的前 k 個概率分佈”;
- 函數:Ω = CRIT(),用於評估論點質量;三個加粗的子程序。
**BEGIN**
1. **初始輪次:**
1.1. OptimizingInitialConditions();(第 7.3.2 節)
1.2. LLMA 生成 P(t=0) A 對 C,LLMB 反駁 LLMA 並生成 P(t=0) B:
```
(P(t=0) A, R(t) A) = LLMA(S, C, p, R, Δ);
(P(t=0) B, R(t) B) = LLMB(S, C, p, P(t=0) A, R = R ∪ R(t) A, Δ);
```
2. **辯論迭代:**
```
WHILE (¬ TestConvergenceCriteria(P(t=∗) A, P(t=∗) B)) { // 第 7.3.2 節
2.1. LLMs 以更新的爭議性相互反駁:
(P(++t) A, R(t) A) = LLMA(P(t−1) B, S, C, p, R = R ∪ R(t) B, Δ); // t 增加;
(P(t) B, R(t) B) = LLMB(P(t−1) A, S, C, p, R = R ∪ R(t) A, Δ);
2.2. 更新爭議性水平和所有指標:
Δ = OptimizingInteractionDynamics(P(t=∗) A, P(t=∗) B); // 第 7.3.2 節
}
```
3. **和解性輸出:**
```
Generate weighted prediction by quality scores Ω from CRIT;
Pf = (ΩA * P(t) A + ΩB * P(t) B) / (ΩA + ΩB);
Return (Pf, R ∪ R(t) B);
```
**END**
**圖 7.3:EVINCE 演算法規範。關鍵點:**
1. **非對稱開始:** 在第 1 步中,LLMA 僅基於給定信息開始辯論,LLMB 則有權訪問 LLMA 的預測和論點,從而能夠反駁。爭議性水平最初設為高。
2. **終止標準:** 第 2 步中的 while 迴圈評估多個因素,包括 Wasserstein 距離、分歧指標和論點質量。如果不再觀察到顯著進展,對話將終止。
3. **爭議性調節:** 在第 2.2 步中,爭議性根據分歧指標和 Wasserstein 距離進行更新,詳見附錄 C 中提供的調節公式。
4. **聯合分佈生成:** 第 3 步根據論證質量生成加權聯合分佈。
**問題陳述:** 組織兩個同等能力的大型語言模型(LLMs),LLMA 和 LLMB 之間的結構化對話,進行 t 輪。在每一輪 t 中,每個模型生成一個概率分佈,表示為 P(t) A 和 P(t) B,覆蓋 C 個可能的結果,並附帶支持論點 R(t) A 和 R(t) B。目標是設計一個迭代辯論過程,利用結構化的論點交換,使模型能夠在 C 類別中收斂到一個最佳的預測分佈 P∗。
**優化初始條件**
EVINCE 演算法的初始階段旨在在 LLM 生成的分佈之間引入雙重熵和大 Wasserstein 距離(WD)[14, 25, 31]。大 WD 要求是直觀的:我們希望兩個 LLM 展示不同的觀點。當一個 LLM 被條件化為採取一個極端立場,而另一個採取相反立場,通過整合辯論和逐漸降低辯論強度(同時保持推理質量),它們預期會在初始立場之間達成共識。
然而,熵對偶理論(Entropy Duality Theory, EDT)提出了一個反直覺的見解。EDT 主張,當一個代理的分佈具有高熵(分佈在多個子類別上)而另一個具有低熵(集中在較少的子類別上)時,信息交換是最優的。這種不對稱性至關重要:如果兩個 LLM 都生成高熵分佈,則兩者都可能對其預測缺乏堅定的信念。相反,如果兩個都具有低熵分佈,它們可能對其立場過於確信,無法進行有意義的對話。
當兩個 LLM 由於訓練數據中的強先驗而自然生成低熵分佈時,我們應尊重這些固有傾向。然而,當可能時,條件化 LLM 以實現高低熵組合可以導致更具生產力的交流。理論表明,這種熵對偶性為有意義的辯論創造了空間,使強烈的信念和對替代觀點的開放性能夠共存。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 第七章
揭示反思性大型語言模型中的錯誤與偏見
#### 7.2 相關工作
本研究專注於減少訓練數據標籤(真實標準)的偏見,這是機器學習中的一個主要關注點 [21]。準確的標籤至關重要,因為與有偏內容一致的標籤會強化該偏見,而正確識別偏見的標籤則允許進行教育和糾正 [4, 11]。這凸顯了標籤準確性在最小化偏見傳播中的重要性。
##### 7.2.1 標籤驗證
本工作特別處理錯誤標記的真實標準並探索補救行動。提高標註準確性的努力大致可分為三種方法:
**多標註者交叉驗證:** 使用多個標註者並結合統計聚合技術已被證明能減少個人偏見並增強數據可靠性 [30]。此方法對於具有明確答案的共識任務(如 ImageNet 中的圖像標註)特別有效 [12, 16]。然而,對於像新聞和維基百科文章這樣更為細微的內容,多數投票可能存在問題。標註者在不同主題上可能具有不同的偏見,這些偏見可能是無意識的或依賴於上下文的。全面地映射標註者在所有可能主題和情境中的內在傾向是具有挑戰性的。例如,政治隸屬(如共和黨或民主黨)不一定預測其他信念或偏好(如素食選擇)。因此,僅依賴共識可能無法有效減少偏見,即使擁有多樣化的標註者池。此外,人類標註方法中固有的單一、絕對真理假設可能限制了捕捉多個有效觀點的能力,特別是在複雜或有爭議的主題上 [3]。
**機器與人類標註者之間的交叉驗證:** 機器學習模型可以通過增強標註一致性和效率來補充人類標註者 [33]。半監督學習方法,例如 Snorkel [24],結合標註和未標註數據以改善模型性能。該領域的最新發展是賓夕法尼亞大學的媒體偏見檢測器(Media Bias Detector, MBD),該系統結合 GPT 模型與人類評分者來分析新聞文章中的潛在偏見 [23]。MBD 系統性地檢查來自多元來源(包括 CNN 和 Fox News)的新聞內容,並在全天定期間隔進行。它使用先進的語言模型,特別是 GPT-3.5 Turbo 和 GPT-4,來分類文章。該系統將政治傾向分數分配在 -5(代表強烈左傾偏見)到 5(代表強烈右傾偏見)之間。為了提高準確性,MBD 結合了人類對模型輸出的驗證。
雖然 MBD 試圖通過分離對政治傾向和語氣的評估來減少偏見,但它並未明確處理 GPT 模型和人類評分者中可能存在的內在偏見。此方法的一個重大限制在於 LLM 的基本特性。這些模型在使用最大似然目標訓練於大量文本數據上,傾向於優先考慮統計上普遍的觀點。這種訓練方法可能會無意中導致主流觀點的放大,犧牲邊緣化或較少代表的觀點,潛在地在分析中引入細微但普遍的偏見。
##### 7.2.2 有偏的真實標準
使用維基百科作為驗證大型語言模型(LLMs)輸出的基準在近期研究中引起了關注 [20, 27]。然而,這種方法存在顯著的局限性。首先,作為真實標準的信息可能並不總是在維基百科上可用。如果聊天機器人開發者已經知道確切答案,就沒有必要諮詢 LLMs。其次,這種方法的可信度進一步受到維基百科文章本身質量評估的挑戰。如圖 7.1 所示,91% 的維基百科內容被平台的編輯認為是中等到低質量。此外,維基百科和新聞媒體中普遍存在偏見,涵蓋性別、種族、意識形態和地理等方面。例如,在維基百科中,偏見表現為傳記中某些主題的過度代表 [32],影響了內容的平衡。在新聞媒體領域,媒體通常根據政治取向進行分類—從極左到極右—如 AllSides [1] 的評估所示。這些分類類似於我們將新聞文章分類的方法。圖 7.2,由 AllSides 生成並定期更新,說明了這一點。然而,使用者應謹慎解讀該圖,承認其潛在的主觀性。儘管如此,它仍然強調了單一事件或故事如何根據不同觀點被以顯著不同的方式呈現。
**圖 7.1:來自高品質高重要性(1.2%)到低品質低重要性(91.6%)的分佈。值得注意的是,藍色部分(4.8%)表示需要改進的高重要性頁面。**
**圖 7.2:AllSides 事實檢查偏見圖表。**
##### 7.2.3 我們的貢獻:RLDF 方法
本研究旨在通過提出反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),解決 MBD 及類似框架中的局限性。RLDF 利用統計和資訊理論原則來揭示和平衡多樣的觀點,確保多數和少數觀點得到充分代表。與 MBD 不同,RLDF 引入了 LLM 實例之間的結構化對話,促進更深入的反思和透明的偏見緩解。這種方法確保了標註不僅準確,而且公平和公正,從而提高了各領域機器學習模型的可靠性。
#### 7.3 方法論
本節分為兩部分介紹我們的方法:去偏程序和優化技術。
##### 7.3.1 去偏程序:EVINCE 演算法
基於 SocraSynth [8] 的理論基礎,EVINCE(條件交換中的熵與變異,Entropy and Variation in Conditional Exchanges)[7] 通過使用大型語言模型(LLMs)之間的結構化對話促進內容中立性。在本節中,我們將描述如何自訂 EVINCE 以有效地執行去偏。
**探索不同觀點**
我們的目標是生成廣泛的觀點,即使是對於二元分類如政治傾向也是如此。我們將一個 LLM 條件化為支持當前的真實標籤,而另一個則反對,從而鼓勵多樣的概率分佈。這種方法確保了實質性的多樣性,而不是琐碎的分歧。例如,我們更喜歡像 (0.5, 0.5)(對兩個子類別的平等偏好)而不是鏡像對立的 (1, 0) 和 (0, 1)(詳見第 7.3.2 節)。
**調節爭議性**
EVINCE 使用資訊理論指標如熵、交叉熵和互資訊(見第 6 章附錄 A)動態調整辯論的強度。每個 LLM 生成標籤的前 k 個概率分佈,EVINCE 分析這些分佈以指導後續互動。爭議性水平根據需要調整,以鼓勵探索或促進收斂。
在初始對話迭代中,我們偏好低互資訊和高 Wasserstein 距離(WD)來反映探索階段,鼓勵不同的觀點。隨著參與者交換有理有據的論點,互資訊增加,表示趨向一致,而 Wasserstein 距離減少,表示收斂。一旦信息交換充分,EVINCE 減少爭議性以促進更和解的氛圍,引導參與者達成共識。
**以合理性進行審查**
在調節爭議性之後,EVINCE 專注於評估每個 LLM 論點的合理性。每個 LLM 為其預測提供支持證據,這些證據根據邏輯性、一致性和可信度進行評估。
為確保質量控制,EVINCE 使用 CRIT [6],一個合理性評估模塊,來標記薄弱或無支持的論點。這些被標記的論點由人類主持人審查,確保錯誤推理不會在最終結果中持續存在。此過程平衡了自動化推理與人類監督,只保留經過嚴格審查的觀點,確保最終共識反映出有理有據、無偏見的觀點。
##### 7.3.2 優化與演算法規範
**圖 6.1:EVINCE 演算法規範。**
圖 6.1 正式規範了 EVINCE 演算法及相關的優化函數。參考第 6 章附錄 A 中全面調查的所有代理指標及其優缺點和綜合優勢,演算法 1 正式規範了 EVINCE 的關鍵步驟。我們進一步討論其三個優化問題。
1. **優化初始條件。** 使用不同的提示、隨機種子和先驗分佈約束來促進前幾輪中的有意義探索。
2. **優化互動動態。** 使用分歧指標和 Wasserstein 距離動態調整辯論的強度。確保公平輪換並過濾冗餘論點。
3. **優化收斂標準。** 設定 Wasserstein 距離、分歧指標和通過 CRIT 的合理性檢查的明確閾值,以確定何時達成共識。使用加權投票機制,對模糊案例進行人類監督。(如果聯合分佈無法評估,則可以省略互資訊。)
**輸入:** 信息集 S,類別標籤 C;LLMA 和 LLMB;
**輸出:** Pf,對 C 類別的最終概率分佈;R = ∅ 聚合論點;
**變數:**
- t = 0:辯論輪次;R(t) A 和 R(t) B:支持理由集;
- P(t) A 和 P(t) B:LLMA 和 LLMB 在第 t 輪對 C 類別的預測分佈;
- Δ = 90%;辯論爭議性 [0,1];M:指標(第 6 章表 6.1);
- p:提示 = “在爭議性水平 Δ 下,使用 S 和 R 預測 C 類別的前 k 個概率分佈”;
- 函數:Ω = CRIT(),用於評估論點質量;三個加粗的子程序。
**BEGIN**
1. **初始輪次:**
1.1. OptimizingInitialConditions();(第 7.3.2 節)
1.2. LLMA 生成 P(t=0) A 對 C,LLMB 反駁 LLMA 並生成 P(t=0) B:
```
(P(t=0) A, R(t) A) = LLMA(S, C, p, R, Δ);
(P(t=0) B, R(t) B) = LLMB(S, C, p, P(t=0) A, R = R ∪ R(t) A, Δ);
```
2. **辯論迭代:**
```
WHILE (¬ TestConvergenceCriteria(P(t=∗) A, P(t=∗) B)) { // 第 7.3.2 節
2.1. LLMs 以更新的爭議性相互反駁:
(P(++t) A, R(t) A) = LLMA(P(t−1) B, S, C, p, R = R ∪ R(t) B, Δ); // t 增加;
(P(t) B, R(t) B) = LLMB(P(t−1) A, S, C, p, R = R ∪ R(t) A, Δ);
2.2. 更新爭議性水平和所有指標:
Δ = OptimizingInteractionDynamics(P(t=∗) A, P(t=∗) B); // 第 7.3.2 節
}
```
3. **和解性輸出:**
```
Generate weighted prediction by quality scores Ω from CRIT;
Pf = (ΩA * P(t) A + ΩB * P(t) B) / (ΩA + ΩB);
Return (Pf, R ∪ R(t) B);
```
**END**
**圖 7.3:EVINCE 演算法規範。關鍵點:**
1. **非對稱開始:** 在第 1 步中,LLMA 僅基於給定信息開始辯論,LLMB 則有權訪問 LLMA 的預測和論點,從而能夠反駁。爭議性水平最初設為高。
2. **終止標準:** 第 2 步中的 while 迴圈評估多個因素,包括 Wasserstein 距離、分歧指標和論點質量。如果不再觀察到顯著進展,對話將終止。
3. **爭議性調節:** 在第 2.2 步中,爭議性根據分歧指標和 Wasserstein 距離進行更新,詳見附錄 C 中提供的調節公式。
4. **聯合分佈生成:** 第 3 步根據論證質量生成加權聯合分佈。
**問題陳述:** 組織兩個同等能力的大型語言模型(LLMs),LLMA 和 LLMB 之間的結構化對話,進行 t 輪。在每一輪 t 中,每個模型生成一個概率分佈,表示為 P(t) A 和 P(t) B,覆蓋 C 個可能的結果,並附帶支持論點 R(t) A 和 R(t) B。目標是設計一個迭代辯論過程,利用結構化的論點交換,使模型能夠在 C 類別中收斂到一個最佳的預測分佈 P∗。
**優化初始條件**
EVINCE 演算法的初始階段旨在在 LLM 生成的分佈之間引入雙重熵和大 Wasserstein 距離(WD)[14, 25, 31]。大 WD 要求是直觀的:我們希望兩個 LLM 展示不同的觀點。當一個 LLM 被條件化為採取一個極端立場,而另一個採取相反立場,通過整合辯論和逐漸降低辯論強度(同時保持推理質量),它們預期會在初始立場之間達成共識。
熵對偶理論(Entropy Duality Theory, EDT),然而,提出了一個反直覺的見解。EDT 主張,當一個代理的分佈具有高熵(分佈在多個子類別上)而另一個具有低熵(集中在較少的子類別上)時,信息交換是最優的。這種不對稱性至關重要:如果兩個 LLM 都生成高熵分佈,則兩者都可能對其預測缺乏堅定的信念。相反,如果兩個都具有低熵分佈,它們可能對其立場過於確信,無法進行有意義的對話。
當兩個 LLM 由於訓練數據中的強先驗而自然生成低熵分佈時,我們應尊重這些固有傾向。然而,當可能時,條件化 LLM 以實現高低熵組合可以導致更具生產力的交流。理論表明,這種熵對偶性為有意義的辯論創造了空間,使強烈的信念和對替代觀點的開放性能夠共存。
##### 優化互動動態
在建立了具有雙重熵和大 Wasserstein 距離的初始條件之後,EVINCE 使用三個關鍵的資訊理論指標動態調節 LLMs 之間的互動:
1. **分歧指標追蹤 LLM 分佈之間的不一致:**
- Jensen-Shannon(JS)分歧 [19]
- Kullback-Leibler(KL)分歧 [17]
- Wasserstein 距離(WD)[14]
2. **互資訊(MI) [10] 衡量 LLMs 之間信息交換的質量:** 然而,如果聯合分佈不可用,我們可以轉而使用 KL 分歧。
3. **爭議性水平 Δ ∈ [0, 1] 控制辯論強度:**
- 高(Δ > 0.7):鼓勵探索對立觀點;
- 中等(0.3 < Δ ≤ 0.7):促進平衡討論;
- 低(Δ ≤ 0.3):促進共識建立。
調節遵循三個階段:
1. **探索階段(Δ > 0.7):** 當 MI 低且 WD 高時,保持高爭議性鼓勵徹底探索多樣的觀點。
2. **整合階段(0.3 < Δ ≤ 0.7):** 隨著分歧指標的減少,EVINCE 逐漸降低爭議性以促進有成效的論點交換。
3. **共識階段(Δ ≤ 0.3):** 當指標趨於平穩(例如,MI 和 WD 不變)時,EVINCE 進入和解模式以促進最終協議。
為防止無效循環,EVINCE 監控論點的新穎性。如果新的觀點停止出現(通過跨輪次 R(t) A 和 R(t) B 的語義相似性檢測),無論指標值如何,爭議性都會被降低。這種自適應方法確保了高效的收斂,同時保持了辯論的質量。
##### 優化收斂標準
EVINCE 對話的收斂由定量指標和定性推理評估的結合來決定。這種雙重方法確保了最終共識的統計有效性和邏輯健全性。
**定量收斂指標**
我們監控三類指標來確定統計收斂:
1. **資訊理論度量:**
- 連續輪次之間的交叉熵(CE)應穩定:
\[
|CE(t) − CE(t−1)| < \epsilon_{CE}
\]
- 互資訊應超過閾值 \(\tau_{MI}\)。
2. **分佈分歧:**
- Wasserstein 距離:\(WD(P(t) A, P(t) B) < \tau_{WD}\)。
- Jensen-Shannon 分歧:\(JSD(P(t) A, P(t) B) < \tau_{JSD}\)。
3. **穩定性度量:**
- 連續輪次之間的分佈變化:
\[
|P(t)_i − P(t−1)_i|^2 < \epsilon_{P} \quad \text{對於 } i ∈ \{A, B\}
\]
- 論點之間的相似性:
\[
sim(R(t)_i, R(t−1)_i) > \tau_{sim} \quad \text{對於 } i ∈ \{A, B\}
\]
**定性推理評估**
CRIT 評估論點 R(t) A 和 R(t) B 的質量:
1. **邏輯一致性:** 論點必須遵循有效的推理模式。
2. **證據可信度:** 主張必須有可驗證的證據支持。
3. **上下文相關性:** 論點必須針對具體討論的主題。
語義相似性和論點質量由獨立的 LLM 評估。
每個論點的質量分數必須超過閾值 \(\tau_{CRIT}\) 才能使收斂有效。
**收斂協議**
當所有定量指標在連續 k 輪中滿足各自的閾值時,宣告收斂,通常 k 設為 2。對於在最大輪次 Tmax 內未達到完全收斂或 CRIT 分數仍不一致的情況,協議將默認轉由人類專家審查。這確保系統保持高推理標準,同時為具有挑戰性的案例提供實用的後備機制。
##### 限制
收斂標準設計得既嚴格又可實現,確保最終共識不僅代表統計上的一致,還反映了邏輯健全的結論,這些結論由合理的論點支持。EVINCE 依賴頂級 LLM 來執行 CRIT 和計算論點相似性 \(sim(R(t)_i, R(t−1)_i)\)。鑒於頂級 LLM 由於其訓練數據規模、網絡架構和計算資源已經超越大多數其他系統,為這些 NLP 任務開發我們自己的監督學習流程將是不切實際的。我們的經驗表明,這些例程在 GPT-4 上的表現足夠,而且我們預期未來的 LLM 版本將繼續改進這些功能。
#### 7.4 實驗
我們的實驗框架旨在評估在文本內容中檢測偏見和實施有效緩解策略的可行性。第一個實驗專注於偏見檢測,而第二個實驗則探討生成平衡的文本輸出作為糾正措施,超越了先前主要專注於識別的研究的局限性(第 4.2 節)。
為了建立基線,我們使用 Claude 和 GPT-4 生成初步結果。進行 EVINCE 實驗時,我們使用了兩個 GPT-4 實例,因為 Claude 容易改變其預測(稍後討論)。我們通過 Microsoft Azure 上的 OpenAI API 使用 GPT-4,將溫度設置為 0.1,並設置最大標記大小。成本約為 1,000 美元。
**新聞類別 負面 偏見來源**
```
# D1∗ Civil Rights - D,R,S,c,g - 0,0,0 HuffPost
D2∗ Civil Rights D,S - R,c,g - 2,0,2 HuffPost
D8 Civil Rights D - S,c,g R 3,2,1 BBC
D31 Environment D - R,S,c,g - 2,2,0 CNN
D37 Politics - D,R,S,c,g - - 0,0,0 Yahoo
D69 Healthcare D,c,g R,S - 2,2,0 Breitbart
D81∗ Economy - D,S R,c,g 1,0,1 Breitbart
D98 Economy D,S,c,g R - - 1,0,1 Breitbart
D101 Education c D.S R,g - 1,0,1 NY Times
D106 Election - g D,R,S,c - 0,0,0 USA Today
D109 Elections - D,S,c,g R - 1,0,1 Reuters
D157 International - D,S,c R,g - 1,0,1 NY Times
D174 International - S,c D,R,g - 0,1,1 LA Times
D188 Nat. Security - S,c,g D,R - 0,1,1 Wall St. J
D278 Civil Rights - D,S,c R,g - 1,0,1 Fox News
D336 Politics - - D,R,S,c,g - 0,0,0 NY Times
Total 15,8,11
```
**表 7.1:民主黨(D)、共和黨(R)與 EVINCE(S)以及 Claude(c)和 GPT-4 基線(g)之間的偏見評估比較。觀察到 R 和 S 經常被放置在右側或與 D 對齊,只有兩個場合 D 在 S 之前(紅色顯示)。GPT-4 基線(g)和 EVINCE(S)的評分顯示平均差距為 0.6875,凸顯了 EVINCE 顯著的去偏效果。**
#### 7.4.1 實驗 #1:偏見檢測
本實驗的目標是評估個人意識形態是否會影響標註,並探討 EVINCE 是否能幫助標記和糾正這些偏見。
**數據集**
本研究利用了一個獨特的數據集,包括 619 篇新聞文章(54.3% 關於民主黨醜聞,45.7% 關於共和黨醜聞),這些文章選自由十五個可信新聞組織編纂的 2013 年 14,033 篇文章的更大存儲庫 [5]。這些文章涵蓋了民權、醫療、選舉和國家安全等多個主題,提供了全面的政治報導視角。請訪問 [2] 獲取完整新聞文章集的鏈接。
**黨派標註的價值**
該數據集的獨特特徵是由聲明了政治隸屬的標註者提供的真實標籤。通過 Amazon Mechanical Turk,749 名合格的美國工作者,每人最多標註 1,000 篇隨機選擇的文章,將文章分類在從「負面偏見」到「正面偏見」的五點尺度上 [5]。關鍵的是,我們子集中的每篇醜聞文章都獲得了民主黨和共和黨標註者的獨立分類。
**當前標註的充分性**
當前的標註者池為偏見分析提供了堅實的基礎,原因有多方面。進一步的理由請參見附錄 A 以獲取補充論據。
**民主黨醜聞的結果**
我們應用 EVINCE 分析 619 篇新聞文章,將其標籤與數據集提供的真實標準進行比較。此外,我們還將 EVINCE 的結果與通過提示 Claude 和 GPT-4 生成的基線進行比較。
表 7.1 比較了 EVINCE(S)、共和黨(R)和民主黨(D)對 16 篇代表性文章(涵蓋不同新聞來源和主題)關於「民主黨醜聞」的判斷。Claude 的一次性評分標記為小寫「c」,而 GPT-4 的標記為「g」。發現 Claude 的判斷不一致,相同的提示產生了不同的評分,導致我們排除了進一步討論其結果。相比之下,GPT-4 的一次性評分穩定,但偶爾與 EVINCE 的結果有所偏離。在 16 篇文章中,有 3 篇(D1、D2 和 D81)的評分差異超過一個尺度。在這些情況下,EVINCE 發起了進一步的對話,並成功說服 GPT-4 修正其評分。附錄 B 提供了 D1 的完整辯論,展示了 EVINCE 如何調節爭議性並跟蹤各輪次指標的進展。表 7.1 顯示,對話後,EVINCE 在 16 篇文章中超越了 GPT-4 基線的性能 11 篇,或 0.6875 個尺度。這一改進是顯著的,因為 R 和 D 標註者之間的差距為一個尺度(見圖 7.5)。
如預期,民主黨的判斷通常比共和黨更負面,EVINCE 的評估通常處於兩者之間,除了兩個案例。值得注意的是,「負面」欄中存在 5 比 1 的民主黨對共和黨比例,「中立」中有 12 比 4 的共和黨對民主黨多數。附錄 C 的表 7.5 和表 7.6 提供了 EVINCE 評分的詳細理由。為了進一步調查偏見,我們檢查了兩篇特定文章:一篇來自 HuffPost(根據 AllSides Bias Chart [1] 評為極左),另一篇來自 Breitbart(評為極右)。
- **D8 — HuffPost(左派):** EVINCE 將 D8(第三行)評為中立,理由是文章直接呈現事實並包含對 NSA 監控實踐和全球反應的多樣觀點。這與民主黨派標註者認為該文章對民主黨具有負面偏見相對應,而共和黨派標註者則認為其揭露了民主黨醜聞,因而偏向中立。
- **D69 — Breitbart(右派):** EVINCE 將 D69 評估為對民主黨略有負面偏見,強調其中立語氣和對 NSA 監控的廣泛觀點範圍。這與民主黨派標註者認為其強烈負面相悖,但與共和黨派標註者認為其中立相符。
**圖 7.4:D、R 和 S 之間的距離。**
在表 7.1 的最後一行,我們量化了民主黨(D)、共和黨(R)和 EVINCE(S)之間的標註距離,分別表示為 DR、DS 和 SR。每個距離單位代表標註尺度上的一步(例如,「負面」到「弱負面」)。圖 7.4 在三角圖中可視化了這些距離。DR,即民主黨和共和黨標註者之間的差異,是最長的,其次是 SR,然後是 DS。這表明 EVINCE 的統計中立性。這些定量衡量標準,結合附錄 C 中的定性理由,使人類委員會能夠決定是否需要對極化的標註進行調整或添加腳註。
#### 7.4.2 實驗 #2:偏見緩解
(請繼續提供第 7.4.2 節的內容,我將為您完成翻譯。)
---
#### 7.4 實驗
我們的實驗框架旨在評估在文本內容中檢測偏見和實施有效緩解策略的可行性。第一個實驗專注於偏見檢測,而第二個實驗則探討生成平衡的文本輸出作為糾正措施,超越了先前主要專注於識別的研究的局限性(第 4.2 節)。
為了建立基線,我們使用 Claude 和 GPT-4 生成初步結果。進行 EVINCE 實驗時,我們使用了兩個 GPT-4 實例,因為 Claude 容易改變其預測(稍後討論)。我們通過 Microsoft Azure 上的 OpenAI API 使用 GPT-4,將溫度設置為 0.1,並設置最大標記大小。成本約為 1,000 美元。
##### 7.4.1 實驗 #1:偏見檢測
**表 7.1:民主黨(D)、共和黨(R)與 EVINCE(S)以及 Claude(c)和 GPT-4 基線(g)之間的偏見評估比較。觀察到 R 和 S 經常被放置在右側或與 D 對齊,只有兩個場合 D 在 S 之前(紅色顯示)。GPT-4 基線(g)和 EVINCE(S)的評分顯示平均差距為 0.6875,凸顯了 EVINCE 顯著的去偏效果。**
#### 7.4.2 實驗 #2:偏見緩解
**代理論點**
**代理 A**
**R #1**
克里斯托弗·哥倫布的航行在擴展歐洲的知識和貿易方面起到了關鍵作用。他的旅程將美洲開放給歐洲殖民,從四個方面顯著改變了歷史進程:1)知識和探索的擴展,2)積極的經濟影響,3)歷史意義,4)文化交流。
**代理 B**
**R #1**
哥倫布的行動存在負面方面和歷史後果。主要論點包括:1)原住民的痛苦和種族滅絕,2)經濟剝削,3)文化抹殺,4)環境影響,5)倫理考量。
**代理 A**
**R #3**
嚴重的後果是隨後更廣泛的殖民政策和實踐的結果。評價歷史人物需要理解他們所處時代的背景。雖然現代倫理標準很重要,但不應掩蓋哥倫布航行對全球探索和知識的歷史意義和貢獻。
**代理 A**
**R #4**
代理 A 認識到緩解努力是持續過程的一部分。歷史學術正在發展,納入原住民觀點、對殖民遺產的批判性審視以及承認像哥倫布這樣的歷史人物的複雜性,是邁向更公平和包容性敘事的必要步驟。
**表 7.3:導致中立性的辯論論點**
本實驗展示了 EVINCE 在識別文本偏見、提供合理辯護以及通過整合多樣觀點提出糾正措施方面的能力。我們展示了 EVINCE 如何利用統計和資訊理論指標促進多代理對話,避開下一个詞生成中固有的“最大似然”陷阱,並揭示來自多個觀點的信息。
**圖 7.6:所有指標的收斂,Wasserstein 距離,正規化互資訊,正規化交叉熵**
以克里斯托弗·哥倫布在維基百科上關於其前往美洲航行的歐洲中心觀點為例,EVINCE 使用了兩個 GPT-4 實例:支持歐洲中心觀點的代理 A 和反對的代理 B。表 7.3 概述了代理 A 的關鍵論點及其在辯論過程中的演變立場。
在第 7.3 節的準則和熵對偶定理的指導下,我們通過提示兩個代理嚴格捍衛各自的立場,並使用五標籤分佈(負面、弱負面、中立、弱正面、正面)評分彼此的偏見來啟動辯論。圖 7.6 通過 Wasserstein 距離(WD)[14]、正規化交叉熵(CE)[28] 和正規化互資訊(MI)[9] 跟踪對話的進展。
最初,每個代理預期會將自己視為中立,並將對方視為有偏見。當偏見分佈收斂並且互資訊趨於平穩,表明達成了共同理解時,辯論結束。
**觀察與擴展發現**
我們的初步觀察強調了使用大型語言模型(LLMs)時的一個關鍵挑戰:如果沒有明確且反覆的提醒其分配的立場(支持發現或支持遭遇),GPT-4 實例可能會回到默認的統計行為,根據整體語言模式評價自己的論點,而不是預期的觀點。這在代理 B 中尤為明顯,儘管被分配支持原住民觀點,最初卻將自己的論點評為“正面偏見”。對其遵守分配角色的提醒促使其修正為“中立”,強調了謹慎的上下文管理和強化的重要性,尤其考慮到 LLMs 的有限標記大小。
第二個觀察結果展示了辯論過程的積極成果。修正後的偏見分佈,結合了承認哥倫布航行的正面和負面方面的合理回應,顯示出向更平衡視角的轉變。代理 A 向中立性轉變,同時承認歷史背景,而代理 B 保持批判立場,但努力實現平衡的表現。這種方法促進了對哥倫布遺產的深入和全面理解。
**表 7.4:兩個 GPT-4 實例 A 和 B 之間的辯論參數。信息指標和 WD 在最終輪次中全部收斂至零。爭議性 Δ 隨指標接近零而降低。**
| # | Agent | - | D. | N. | R. | - | R. | WD | KL | JS | Δ |
|-----|-------|---|-----|-----|-----|---|-----|-----|------|------|----|
| 1 | A | 5% | 15% | 50% | 25% | 5% | 0.45 | 0.316 | 0.081 | 90% |
| | B | 10% | 10% | 25% | 35% | 20% | | | | |
| 2 | A | 7% | 13% | 40% | 30% | 10% | 0.47 | 0.226 | 0.056 | 70% |
| | B | 5% | 10% | 20% | 40% | 25% | | | | |
| 3 | A | 5% | 10% | 35% | 35% | 15% | 0.10 | 0.016 | 0.004 | 30% |
| | B | 5% | 10% | 30% | 35% | 20% | | | | |
| Fin | A | 5% | 10% | 30% | 35% | 20% | 0 | 0 | 0 | 10% |
| | B | 5% | 10% | 30% | 35% | 20% | | | | |
| | **Total** | 15 | 9 | 11 | | | | | | |
**表 7.4:兩個 GPT-4 實例 A 和 B 之間的辯論參數。信息指標和 WD 在最終輪次中全部收斂至零。爭議性 Δ 隨指標接近零而降低。**
#### 7.5 結論
本研究介紹了反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),通過多個大型語言模型(LLMs)之間的結構化對抗性對話來減少公共內容中的偏見。RLDF 使 LLMs 之間能夠採取對立的觀點,揭示潛在的偏見,並通過多樣的視角促進更中立的標註。該框架使用資訊理論指標來評估對話的有效性,包括香農熵、互資訊以及各種分歧度量,以追蹤向無偏見結果的收斂。實驗結果顯示,RLDF 與 EVINCE 的判斷一致,GPT-4 通過反思成功調整了評分。
未來的工作將把 RLDF 整合到像維基百科這樣的平台中,以實時提供觀點建議,並探索其在更廣泛的 AI 生成和人類編輯內容中的偏見緩解策略中的作用。
主要挑戰仍然存在:驗證 LLM 對抗性行為的真實性以及追踪訓練數據中的少數觀點 [18]。雖然增強 LLM 推理能力至關重要,但當前的限制表明應該專注於開發標記可疑斷言的方法 [34]。
#### 附錄 A:關於標註質量
一些讀者建議每篇新聞文章應由多名共和黨和民主黨標註者進行評分。首先,由於規模和預算,這在實際操作中不可行。其次,即使有更多標註者,也不一定會在統計上影響我們的實驗結果,因為標註過程已通過 Amazon Mechanical Turk 選擇了 749 名合格的美國工作者,每人最多標註 1,000 篇隨機選擇的文章。
**當前標註的充分性**
當前的標註者池為偏見分析提供了堅實的基礎,原因有以下幾點:
1. **自然的黨派分裂:** 該數據集通過自我認同為民主黨或共和黨的標註者,獨特地捕捉了真實的政治偏見,提供了難以人工複製的真實對立觀點。
2. **平衡的覆蓋:** 每篇文章都接受來自兩種政治觀點的評價,創造了自然的“分歧對”,揭示了政治隸屬如何影響內容解釋。
3. **合格的標註者:** 原始研究對標註者採用了嚴格的資格標準,確保了高質量、深思熟慮的判斷,而非隨意的意見。
4. **規模與多樣性:** 擁有 749 名標註者的完整數據集,代表了每個黨派內的廣泛政治觀點光譜,捕捉了黨內變異以及黨間差異。
這個數據集的黨派標註使其成為我們研究的理想測試平台,因為它們允許我們將 LLM 生成的觀點與人類黨派觀點進行比較,評估 EVINCE 在橋接對立政治解釋方面的能力,並將偏見檢測與緩解策略與明確的黨派基線進行對比。
原始研究 [5] 揭示了黨派感知中的顯著模式:共和黨標註者經常認為關於共和黨醜聞的新聞具有負面偏見,而民主黨標註者則認為此類報導是中立的,表明他們對其公正性的滿意。這些已記錄的模式為評估 EVINCE 的偏見檢測能力提供了有價值的基準。增加更多標註者不一定會提升數據集的實用性,因為當前的黨派分裂已經捕捉到了新聞解讀中政治偏見的基本動態。相反,我們的重點是利用這些現有的高質量標註來展示 EVINCE 如何識別、理解並幫助減輕這些已充分記錄的黨派偏見。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 附錄 B:EVINCE 在新聞 D1 上的辯論總結
**關於新聞 D1 的辯論**
辯論中的新聞為 [2] 列出的 D1。請參考表 7.4,了解在四輪辯論過程中代理 A 和代理 B 的概率分佈。指標,包括 Wasserstein 距離(WD)、Kullback-Leibler 分歧(KL)和 Jensen-Shannon 分歧(JS),持續下降,表明收斂並在最後一輪達成最終協議。同時,爭議性水平根據指標的進展進行調節,從高(90%)降至中等,最終達到和解性水平(30%)並達成協議。
**計算爭議性的方式**
我們可以將爭議性定義為分歧指標的函數。由於 KL、JS 和 WD 衡量兩個分佈之間的差異或“分歧”,較大的分歧需要較高的爭議性水平來橋接,而較低的爭議性則對應於更多的協議。
一個簡單的線性映射可以將這些指標轉換為 0 到 1 之間的正規化爭議性分數。以下是一個加權公式來計算爭議性:
\[
Δ = α \cdot \frac{KL}{KL_{max}} + β \cdot \frac{JS}{JS_{max}} + γ \cdot \frac{WD}{WD_{max}}
\]
其中:
- KL、JS、WD 是本輪的分歧指標值。
- KL\(_{max}\)、JS\(_{max}\)、WD\(_{max}\) 是每個指標的最大可能值(用於正規化)。
- α、β、γ 是控制每個指標影響力的權重。
為簡化,我們可以設置 α = β = γ = 1/3,以實現均等影響力。
然後,我們將爭議性縮放到 0% 到 100% 之間的百分比。
**支持論點**
在以下內容中,我們記錄了兩個代理在每輪辯論中提出的支持論點,說明他們的立場如何朝向共識演變。
**第一輪:初始評估**
- **代理 A:** 強調文章試圖保持平衡,對共和黨持中度負面態度,但報導大部分是中立的。認識到在內部黨派衝突的框架中對共和黨的輕微偏見。
- **代理 B:** 主張文章的結構和語言選擇更偏向於對共和黨持負面態度,強調 Issa 的不一致性和共和黨內部的不和。提出了較不中立的分佈。
**第二輪:首次反駁與反反駁**
- **代理 A:** 調整概率分佈,承認文章對共和黨的批評,但維持焦點反映了不斷演變的政治動態,而非偏見。
- **代理 B:** 堅持敘述框架對 Issa 的描述更負面,選擇性引用和框架將焦點從調查轉向共和黨的混亂。
**第三輪:中度語氣重新評估**
- **代理 A:** 調整立場,接受微妙的框架可能影響觀感。重申報導旨在保持平衡,但承認 Issa 被框架得不那麼有利的領域。
- **代理 B:** 採取更溫和的語氣,認同雖然文章並非明顯偏頗,但微妙的編輯選擇確實使敘述略微偏向共和黨。
**第四輪:最終協議與共識**
- **兩個代理:** 達成對最終分佈的共識。承認文章維持表面上的中立性,細微的偏見導致對共和黨持中度負面傾向。兩個代理在最後一輪達成相同的概率分佈。
**表 7.3:導致中立性的辯論論點**
本實驗展示了 EVINCE 在識別文本偏見、提供合理辯護以及通過整合多樣觀點提出糾正措施方面的能力。我們展示了 EVINCE 如何利用統計和資訊理論指標促進多代理對話,避開下一個詞生成中固有的“最大似然”陷阱,並揭示來自多個觀點的信息。
**圖 7.6:所有指標的收斂,Wasserstein 距離,正規化互資訊,正規化交叉熵**
以克里斯托弗·哥倫布在維基百科上關於其前往美洲航行的歐洲中心觀點為例,EVINCE 使用了兩個 GPT-4 實例:支持歐洲中心觀點的代理 A 和反對的代理 B。表 7.3 概述了代理 A 的關鍵論點及其在辯論過程中的演變立場。
在第 7.3 節的準則和熵對偶定理的指導下,我們通過提示兩個代理嚴格捍衛各自的立場,並使用五標籤分佈(負面、弱負面、中立、弱正面、正面)評分彼此的偏見來啟動辯論。圖 7.6 通過 Wasserstein 距離(WD)[14]、正規化交叉熵(CE)[28] 和正規化互資訊(MI)[9] 跟踪對話的進展。
最初,每個代理預期會將自己視為中立,並將對方視為有偏見。當偏見分佈收斂並且互資訊趨於平穩,表明達成了共同理解時,辯論結束。
**觀察與擴展發現**
我們的初步觀察強調了使用大型語言模型(LLMs)時的一個關鍵挑戰:如果沒有明確且反覆的提醒其分配的立場(支持發現或支持遭遇),GPT-4 實例可能會回到默認的統計行為,根據整體語言模式評價自己的論點,而不是預期的觀點。這在代理 B 中尤為明顯,儘管被分配支持原住民觀點,最初卻將自己的論點評為“正面偏見”。對其遵守分配角色的提醒促使其修正為“中立”,強調了謹慎的上下文管理和強化的重要性,尤其考慮到 LLMs 的有限標記大小。
第二個觀察結果展示了辯論過程的積極成果。修正後的偏見分佈,結合了承認哥倫布航行的正面和負面方面的合理回應,顯示出向更平衡視角的轉變。代理 A 向中立性轉變,同時承認歷史背景,而代理 B 保持批判立場,但努力實現平衡的表現。這種方法促進了對哥倫布遺產的深入和全面理解。
**表 7.4:兩個 GPT-4 實例 A 和 B 之間的辯論參數。信息指標和 WD 在最終輪次中全部收斂至零。爭議性 Δ 隨指標接近零而降低。**
| # | Agent | - | D. | N. | R. | - | R. | WD | KL | JS | Δ |
|------|-------|----|-----|-----|-----|----|-----|------|-------|-------|----|
| 1 | A | 5% | 15% | 50% | 25% | 5% | 0.45 | 0.316 | 0.081 | 90% |
| | B | 10% | 10% | 25% | 35% | 20% | | | | |
| 2 | A | 7% | 13% | 40% | 30% | 10% | 0.47 | 0.226 | 0.056 | 70% |
| | B | 5% | 10% | 20% | 40% | 25% | | | | |
| 3 | A | 5% | 10% | 35% | 35% | 15% | 0.10 | 0.016 | 0.004 | 30% |
| | B | 5% | 10% | 30% | 35% | 20% | | | | |
| Fin | A | 5% | 10% | 30% | 35% | 20% | 0 | 0 | 0 | 10% |
| | B | 5% | 10% | 30% | 35% | 20% | | | | |
| | **Total** | 15 | 9 | 11 | | | | | | |
**表 7.4:兩個 GPT-4 實例 A 和 B 之間的辯論參數。信息指標和 WD 在最終輪次中全部收斂至零。爭議性 Δ 隨指標接近零而降低。**
---
#### 7.5 結論
本研究介紹了反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),通過多個大型語言模型(LLMs)之間的結構化對抗性對話來減少公共內容中的偏見。RLDF 使 LLMs 之間能夠採取對立的觀點,揭示潛在的偏見,並通過多樣的視角促進更中立的標註。該框架使用資訊理論指標來評估對話的有效性,包括香農熵、互資訊以及各種分歧度量,以追蹤向無偏見結果的收斂。實驗結果顯示,RLDF 與 EVINCE 的判斷一致,GPT-4 通過反思成功調整了評分。
未來的工作將把 RLDF 整合到像維基百科這樣的平台中,以實時提供觀點建議,並探索其在更廣泛的 AI 生成和人類編輯內容中的偏見緩解策略中的作用。
主要挑戰仍然存在:驗證 LLM 對抗性行為的真實性以及追踪訓練數據中的少數觀點 [18]。雖然增強 LLM 推理能力至關重要,但當前的限制表明應該專注於開發標記可疑斷言的方法 [34]。
#### 附錄 A:關於標註質量
一些讀者建議每篇新聞文章應由多名共和黨和民主黨標註者進行評分。首先,由於規模和預算,這在實際操作中不可行。其次,即使有更多標註者,也不一定會在統計上影響我們的實驗結果,因為標註過程已通過 Amazon Mechanical Turk 選擇了 749 名合格的美國工作者,每人最多標註 1,000 篇隨機選擇的文章。
**當前標註的充分性**
當前的標註者池為偏見分析提供了堅實的基礎,原因有以下幾點:
1. **自然的黨派分裂:** 該數據集通過自我認同為民主黨或共和黨的標註者,獨特地捕捉了真實的政治偏見,提供了難以人工複製的真實對立觀點。
2. **平衡的覆蓋:** 每篇文章都接受來自兩種政治觀點的評價,創造了自然的“分歧對”,揭示了政治隸屬如何影響內容解釋。
3. **合格的標註者:** 原始研究對標註者採用了嚴格的資格標準,確保了高質量、深思熟慮的判斷,而非隨意的意見。
4. **規模與多樣性:** 擁有 749 名標註者的完整數據集,代表了每個黨派內的廣泛政治觀點光譜,捕捉了黨內變異以及黨間差異。
這個數據集的黨派標註使其成為我們研究的理想測試平台,因為它們允許我們將 LLM 生成的觀點與人類黨派觀點進行比較,評估 EVINCE 在橋接對立政治解釋方面的能力,並將偏見檢測與緩解策略與明確的黨派基線進行對比。
原始研究 [5] 揭示了黨派感知中的顯著模式:共和黨標註者經常認為關於共和黨醜聞的新聞具有負面偏見,而民主黨標註者則認為此類報導是中立的,表明他們對其公正性的滿意。這些已記錄的模式為評估 EVINCE 的偏見檢測能力提供了有價值的基準。增加更多標註者不一定會提升數據集的實用性,因為當前的黨派分裂已經捕捉到了新聞解讀中政治偏見的基本動態。相反,我們的重點是利用這些現有的高質量標註來展示 EVINCE 如何識別、理解並幫助減輕這些已充分記錄的黨派偏見。
---
### 附錄 C:實驗 #1 偏見文章的理由說明
在第 7.4.1 節中,我們提到 EVINCE 處理了 31 篇新聞文章以評估其中立性。除了最終決定外,我們還詳細說明了 EVINCE 在辯論結束時提供的理由說明。這些理由說明記錄在四個表格中:表 7.5、7.6、7.7 和 7.8。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 附錄 C:實驗 #1 偏見文章的理由說明
在第 7.4.1 節中,我們提到 EVINCE 處理了 31 篇新聞文章以評估其中立性。除了最終決定外,我們還詳細說明了 EVINCE 在辯論結束時提供的理由說明。這些理由說明記錄在四個表格中:表 7.5、7.6、7.7 和 7.8。
#### 評分
| # | 評分 | S | D | R |
|-----|------|---|---|---|
| D1 | 4,4,4 | | | |
| D8 | 3,5,2 | | | |
| D31 | 3,5,3 | | | |
| D37 | 4,4,4 | | | |
| D81 | 4,4,3 | | | |
| D106| 3,3,3 | | | |
| D109| 4,4,3 | | | |
| D188| 4,3,3 | | | |
| D336| 3,3,3 | | | |
**表 7.5:前 9 篇 16 篇民主黨醜聞新聞文章由 EVINCE 及其理由說明進行評分。評分欄從 EVINCE 的評分開始,接著是民主黨標註者(藍色),然後是共和黨標註者(紅色)。**
---
**D1**
**評分:** 4,4,4
**EVINCE 理由說明:** 文章討論了 IRS 被指控針對保守團體的爭議,重點關注共和黨眾議員 Darrell Issa 對 IRS 面談全文公開的反對立場。Issa 認為全面披露會妨礙調查,這一立場受到共和黨眾議員 Elijah Cummings 的批評,後者主張透明度。辯論突顯了政治緊張局勢,涉及處理調查中的偏見影響。文章展示了政治、意識形態和可能的歷史偏見的複雜互動,反映了 IRS 醜聞及其調查的有爭議性。
---
**D8**
**評分:** 3,5,2
**EVINCE 理由說明:** 報導似乎保持中立的語氣,直接陳述了 John Kerry 及其他相關人士的事實和評論,沒有插入主觀的語言。文章討論了對 NSA 監控行為的全球反應,並包括 Kerry 對過度行為的承認,以及這些揭露帶來的國際和國內後果。包含了來自科技公司和國際官員的各種觀點,以及 Kerry 的評論,旨在提供對情況的平衡視角。
---
**D31**
**評分:** 3,5,3
**EVINCE 理由說明:** CNN 文章似乎在報導 Ray Nagin 被起訴時專注於案件的事實和法律方面,沒有顯示出與政治、意識形態、宗教、性別、種族、社會經濟地位、文化、地理或歷史相關的明顯偏見。通過緊密貼合起訴細節和 Nagin 的公開行動及聲明,文章提供了對他面臨的指控的全面概述,同時保持了新聞報導的中立性。
---
**D37**
**評分:** 4,4,4
**EVINCE 理由說明:** 文章概述了參議院民主黨領袖 Chuck Schumer 如何策略性地處理邊境安全問題以爭取對烏克蘭的援助,同時可能轉變關於移民政策的政治敘事。Schumer 將邊境安全整合到援助方案討論中的方法旨在同時解決該問題並利用政治利益,表現出在複雜立法挑戰面前的細緻政治策略。
---
**D81**
**評分:** 4,4,3
**EVINCE 理由說明:** 文章聚焦於通用汽車救助期間可能針對保守派擁有的汽車經銷商關閉,這可能通過強調政治受害敘事而暗示某種偏見,而沒有呈現全面的觀點或證據。雖然議員呼籲調查是合法的新聞,但框架和信息選擇可能影響讀者對事件的看法。
---
**表 7.6:最後 7 篇 16 篇民主黨醜聞新聞文章由 EVINCE 及其理由說明進行評分。評分欄從 EVINCE 的評分開始,接著是民主黨標註者(藍色),然後是共和黨標註者(紅色)。**
---
**D106**
**評分:** 3,3,3
**EVINCE 理由說明:** 文章報導了底特律前市長 Kwame Kilpatrick 因公共腐敗被判刑 28 年,強調他對城市福利的嚴重罪行。文章對 Kilpatrick 的行為與對底特律的影響形成對比,突顯司法和公眾對其廣泛犯罪活動的反應。報導專注於審判結果、Kilpatrick 及其共同被告的罪行細節,並提供了對指控的全面概述,同時保持了新聞報導的中立性。
---
**D109**
**評分:** 4,4,3
**EVINCE 理由說明:** 文章的偏見主要來自於其對民主黨內部反對 Lawrence Summers 聯邦儲備主席提名的關注,強調黨內缺乏團結和策略,以及白宮在提名過程中的管理不善。這暗示白宮低估了反對派的嚴肅性,從而對政府處理提名事宜的方式提出了某種負面看法。
---
**D188**
**評分:** 4,3,3
**EVINCE 理由說明:** 文章報導 Hillary Clinton 在 2012 年攻擊發生前通過電子郵件收到有關班加西安全威脅的警告。這些警告是國務院釋放的約 300 封電子郵件的一部分,這些郵件還顯示了 Clinton 在事後的反應和思考。文章提及 Obama 政府最初對攻擊原因的評估所引發的政治爭議,以及 Susan Rice 在脫口秀節目上的聲明。通過選擇性強調 Clinton 收到的安全警告及其反應,文章可能會將她的行動或不作為框架成負面,並通過集中報導政治爭議和政府初步評估的影響來影響責任感或能力的觀感。
---
**D336**
**評分:** 3,3,3
**EVINCE 理由說明:** 文章報導了 Inchcape Shipping Services(由迪拜政府擁有)在為海軍供應船隻時超收費的醜聞,擴展到包括中東、非洲和南美的海軍行動。司法部正在調查 Inchcape 通過分包商超收費數百萬美元的指控,這是對 Glenn Defense Marine Asia 因向海軍官員行賄以超收費進行的單獨刑事調查的延伸。海軍已暫停 Inchcape 獲得新合約,這標誌著海軍承包中的重大欺詐和腐敗問題。報導保持平衡,專注於醜聞的事實方面和司法部的調查,引用了相關人士的聲明,旨在提供對情況的全面視角,沒有明顯偏向任何一方。
---
**表 7.7:前 8 篇 15 篇共和黨醜聞新聞文章由 EVINCE 及其理由說明進行評分。評分欄從 EVINCE 的評分開始,接著是民主黨標註者(藍色),然後是共和黨標註者(紅色)。**
---
**R1**
**評分:** 5,3,5
**EVINCE 理由說明:** 《紐約時報》社論明顯對共和黨處理班加西攻擊調查持批評態度,將其框架為政治動機而非真正努力解決安全失敗或尋求問責。社論中使用的語言和語氣對共和黨的行動持批判和輕蔑態度,暗示政治和意識形態偏見。雖然社論本質上是基於意見的,並預期會採取立場,但這篇文章明確傳達了對共和黨關注班加西的批評立場,表明其評估中缺乏中立性。
---
**R15**
**評分:** 3,3,4
**EVINCE 理由說明:** 報導似乎中立地呈現信息,陳述了 Obama 總統拒絕共和黨提案以及共和黨消息來源聲稱情況相反的回應。包括了雙方的聲明並提供了持續談判的背景,沒有明顯偏向一方。基於提供的信息,報導似乎沒有顯示出偏見。
---
**R124**
**評分:** 4,3,5
**EVINCE 理由說明:** 文章對 Dr. Ben Carson 關於同性婚姻的評論及約翰霍普金斯學生的反彈進行了事實性回顧。保持了相對中立的語氣,允許多個觀點的納入,包括 Carson 本人的回應和道歉。然而,缺乏對 Carson 比較的深入分析或對同性婚姻辯論更廣泛背景的探討,可能使讀者無法全面理解爭議的深度。此外,文章未能明確提供 Carson 的對立觀點,僅僅是學生的請願,這可能被視為一種遺漏偏見。然而,文章並未明顯偏向 Carson 或忽視學生的關切,反而努力報導事態的發展。
---
**R125**
**評分:** 4,3,4
**EVINCE 理由說明:** 關於 Zimmerman 判決及隨後對佛羅里達州抵制呼籲的新聞文章提供了一個複雜的報導,涉及多個敏感主題,包括政治和意識形態偏見,以及種族和社會經濟考量。儘管文章嘗試通過納入多元觀點來涵蓋有爭議和複雜的問題,但對政治人物、種族動態和經濟後果的重點可能引入偏見,影響信息的感知。為了減少這些偏見,報導可以通過更深入地探討法律和歷史背景、更廣泛的觀點範圍以及對信息如何影響公眾感知的仔細考量來受益。
---
**表 7.8:最後 7 篇 15 篇共和黨醜聞新聞文章由 EVINCE 及其理由說明進行評分。評分欄從 EVINCE 的評分開始,接著是民主黨標註者(藍色),然後是共和黨標註者(紅色)。**
---
**R214**
**評分:** 5,3,5
**EVINCE 理由說明:** 《Daily Kos》文章明顯展現了政治和意識形態偏見,以批評共和黨為主調。文章使用 Dave Agema 的事件來論證該黨努力重新塑造自己為更具包容性和寬容性的形象,但其成員的行動卻削弱了這一努力。雖然文章包括了有關事件和共和黨的回應的事實信息,但其呈現和評論與進步觀點一致,旨在突顯和批評共和黨內部的矛盾和失敗。這種方法符合意見新聞報導的特性,但通過其批判性語調、選擇性信息呈現和將事件框架為更廣泛問題的象徵,介紹了偏見。
---
**R221**
**評分:** 3,3,4
**EVINCE 理由說明:** “Hurricane Christie” 文章呈現了 Governor Chris Christie 對眾議院共和黨人的批評,強調黨內衝突和個人背叛。戲劇性的框架、語言選擇和對內部不和的關注可能通過將 Christie 的行動以特定方式描繪並強調黨內分裂,引入偏見。文章呈現這些事件的方式可能影響讀者的觀感,讓他們看到高度戲劇化和內部衝突的情況。
---
**R233**
**評分:** 4,3,4
**EVINCE 理由說明:** 雖然文章嘗試報導眾議院共和黨人為避免政府關門和與參議院民主黨人僵持不下所做的最後努力,但其框架和使用的語言可能引入偏向,將共和黨人的努力描繪得更為有利。通過強調共和黨尋求談判並將民主黨的回應描述為不屑一顧,文章可能被視為傾向於特定政治觀點。雖然引用了雙方的語句和觀點,提供了一定程度的平衡,但整體呈現和重點可能影響讀者對關門談判的看法。
---
**R235**
**評分:** 3,5,5
**EVINCE 理由說明:** 未知作者或出版物的情況下,本文試圖通過提供來自多個來源的細節,包括主要涉及人物、政治監督組織和執法部門,來導航一個複雜且敏感的故事。它平衡了對嚴重指控的報導與被告的回應、背景信息以及調查的現狀。雖然對未經證實的主張的集中可能本質上會影響公眾觀點,但文章納入了多元觀點和背景,旨在減少明顯偏見。
---
**表 7.4:兩個 GPT-4 實例 A 和 B 之間的辯論參數。信息指標和 WD 在最終輪次中全部收斂至零。爭議性 Δ 隨指標接近零而降低。**
| # | 評分 | S | D | R | - | R | WD | KL | JS | Δ |
|-----|------|-----|-----|-----|---|-----|------|-------|-------|-----|
| 1 | A | 5% | 15% | 50% | 25% | 5% | 0.45 | 0.316 | 0.081 | 90% |
| | B | 10% | 10% | 25% | 35% | 20% | | | | |
| 2 | A | 7% | 13% | 40% | 30% | 10% | 0.47 | 0.226 | 0.056 | 70% |
| | B | 5% | 10% | 20% | 40% | 25% | | | | |
| 3 | A | 5% | 10% | 35% | 35% | 15% | 0.10 | 0.016 | 0.004 | 30% |
| | B | 5% | 10% | 30% | 35% | 20% | | | | |
| Fin | A | 5% | 10% | 30% | 35% | 20% | 0 | 0 | 0 | 10% |
| | B | 5% | 10% | 30% | 35% | 20% | | | | |
| | **Total** | 15 | 9 | 11 | | | | | | |
---
#### 7.5 結論
本研究介紹了反思性大型語言模型對話框架(Reflective LLM Dialogue Framework, RLDF),通過多個大型語言模型(LLMs)之間的結構化對抗性對話來減少公共內容中的偏見。RLDF 使 LLMs 之間能夠採取對立的觀點,揭示潛在的偏見,並通過多樣的視角促進更中立的標註。該框架使用資訊理論指標來評估對話的有效性,包括香農熵、互資訊以及各種分歧度量,以追蹤向無偏見結果的收斂。實驗結果顯示,RLDF 與 EVINCE 的判斷一致,GPT-4 通過反思成功調整了評分。
未來的工作將把 RLDF 整合到像維基百科這樣的平台中,以實時提供觀點建議,並探索其在更廣泛的 AI 生成和人類編輯內容中的偏見緩解策略中的作用。
主要挑戰仍然存在:驗證 LLM 對抗性行為的真實性以及追踪訓練數據中的少數觀點 [18]。雖然增強 LLM 推理能力至關重要,但當前的限制表明應該專注於開發標記可疑斷言的方法 [34]。