# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE
## EDWARD Y.CHANG
[第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e)
[第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl)
[第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l)
[第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx)
[第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg)
[第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg)
[第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe)
[第8章 多模態大型語言模型中的情感建模
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg)
[第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye)
[第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx)
[ 第12章 發現洞見 超越已知
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe)
## 第六章
### EVINCE:透過條件式統計與資訊理論
### 優化對抗式 LLM 對話
**摘要**
本章介紹了 EVINCE(Entropy and Variation IN Conditional Exchanges),這是一套透過增進多樣性、適應性以及推理能力來推動人工通用智慧(AGI)的對話框架,應用於大型語言模型(LLMs)。藉由對抗式辯論以及一種新穎的雙重熵理論,EVINCE 結合了統計建模、資訊理論以及機器學習,以在多元觀點的探索與強先驗的運用之間取得平衡,進而提升 LLM 的預測準確度、穩定性與魯棒性。本框架的效能透過資訊理論相關指標(尤其是互資訊的提升)來驗證,並展現出 LLM 協作智慧(LLM Collaboration Intelligence, LCI)的持續收斂。我們將 EVINCE 應用於醫療保健領域,顯示其在疾病診斷上的進步,同時也討論了它在各領域決策上的廣泛意涵。
177
---
### 6.1 Introduction
追求人工通用智慧(AGI)一直是 AI 研究的核心目標。我們提出在這條道路上進行一個範式轉移:利用多個大型語言模型(LLMs)所組成的協同對話,作為邁向 AGI 的關鍵一步。我們認為,這樣的作法能因應目前 AI 系統的主要限制,並提供通往更穩固、多元及更具能力的人工智慧之新途徑。特別地,我們的研究聚焦在三個 AGI 的核心特性:多樣性、迭代適應性,以及推理能力。
現有的 LLMs,儘管展現了令人驚艷的能力,仍面臨重大挑戰,包括幻覺(hallucination,產生虛假或不合邏輯的資訊)、偏見(反映並可能擴大社會偏見)以及推理上的侷限(在複雜問題解決與邏輯推論上面臨困難)。我們主張,多智能體對話系統能提供一條可行的途徑來處理這些問題。透過在 LLMs 之間引入多樣性與辯論,此類系統可減少偏見並促進推理能力的增強。再者,多回合對話的迭代特性,能夠持續豐富情境,讓 LLMs 能取得更精確的資訊並形成更準確的回答,從而降低幻覺的發生機率。
過去的研究,特別是 SocraSynth [5],透過結構化的多智能體對話,試圖解決 LLMs 的侷限。有別於將多個 LLMs 視為一組專家 [13, 19, 2, 17, 10] 並僅利用錯誤多樣性 [12] 來提高回應品質,SocraSynth 與傳統集成方法不同之處在於,它更加重視多元預測的產出,而非僅是避免錯誤。這是透過一種動態協定來實現的:此協定會自適應地調整辯論的「爭議性」層級,讓模型在初期得以探索廣泛觀點,並以嚴謹方式評估論點的品質。透過對抗式和協同式的互動,SocraSynth 在多個領域展現了可量化的進步,包括醫療保健 [8]、銷售規劃 [30] 以及情緒行為建模 [3]。這些成果凸顯了其在朝向 AGI 通用問題解決能力上所帶來的潛力。
以下為全文翻譯(繁體中文),未遺漏任何原始訊息:
---
雖然 SocraSynth 已展現了其效用,但它仍仰賴對「爭議性」(contentiousness)這一質化量測的使用,來調節 LLM 的語言行為。例如,若將爭議性設定為較高(在 1.0 的範圍內接近 0.9),可能會使 LLM 之間相互質疑彼此的假設,並提出替代方案;而若設定較低(低於 0.3),則會鼓勵它們整合各自的觀點並尋求共識。雖然「爭議性」在指引 SocraSynth 對話方面已顯示出其價值,但它的質化特質也限制了其精確度與可解釋性。在本研究中,我們提出三大理論支柱,透過統計與資訊理論的基礎,來量化「爭議性」並據此調節對話。這些支柱整體稱作 EVINCE(**Entropy and Variation IN Conditional Exchanges**),提供可據以解釋並合理化的多智能體對話調整與評估之量化指標:
1. **Inclusiveness Exploration(包含性探索)**
我們開發了一些方法,確保對話能探索所有潛在觀點。我們使用條件式統計,讓一個 LLM 智能體擺脫其預設的「最大似然」下一個字詞的預測行為,使其可以採取特定立場。我們亦提出了一種雙重熵最適理論(dual entropy optimality theory),在新想法的探索與先驗知識的遵循之間取得平衡,從而在智能體之間優化資訊交流,實現全面而穩定的討論。
2. **Information Flow Dynamics(資訊流動動態)**
我們運用基於資訊理論的指標,來量化並優化對話的動態。這些指標涵蓋資訊多樣性(熵)、新穎度(統計分歧度數值)以及智能體間的說服程度(互資訊)。透過這些量測,我們得以評估並增進在多智能體系統內資訊流動的品質與效率,藉此促進深入且具成效的交流。
3. **Reasoning Quality and Coherence(推理品質與一致性)**
我們建立了評估多智能體推理的邏輯架構與一致性的框架。本支柱主要評估論點的有效性、分析深度及對話的一致性。我們也將 CRIT 演算法 [4](此演算法結合了蘇格拉底式方法與形式推理技術)協同整合進來,以在對話中評估論點品質、資訊來源的可信度,以及整體「合理性」,從而強化批判性思考的能力。此整合可確保多個 LLM 智能體在共同推理時,不僅具有多元性,也能維持邏輯的嚴謹度,並符合對話目標。
EVINCE 在推進 AGI 的核心優勢,正是透過多智能體對話來增進 AGI 的關鍵特徵。利用條件式統計與資訊理論,EVINCE 提升了多樣性與適應性,使 LLM 能超越其典型的「最大似然」行為,近似人類在完成任務時調整語言行為的方式。本框架所設計的辯論結構,讓在探索多重視角與運用已知先驗之間,能維持一個平衡的推理過程,邁向滿足 AGI 所需的複雜而精細的能力。
---
### 6.2 演算法、準則與理論
**問題描述:**
組織一場在 t 個回合中,由兩個能力相當的大型語言模型(LLM),即 LLMA 與 LLMB,所進行的結構化辯論。在每個回合 t,兩個模型都會針對 C 個可能的結果,提出其前 k 個預測的信心分數(分別記作 \(P^{(t)}_A\) 及 \(P^{(t)}_B\)),並配合支持性論點(分別記作 \(R^{(t)}_A\) 及 \(R^{(t)}_B\))。目標是設計一種可迭代的辯論流程,藉由交換彼此的論點,讓兩模型能在 C 個類別中,收斂至最適預測排名 \(P^*\);此「最適」被定義為:在預測任務中達到最高可能的準確度,並同時維持足夠且強而有力的推理支持。
---
#### 6.2.1 資訊理論的前置概念
本節摘要 EVINCE 中用於衡量資訊多樣性、相似度、分歧度以及其他相關因素的主要指標。這些指標主要服務於以下三大目的:
1. **在確保推理品質的同時,促進觀點多樣性**
- **Wasserstein Distance(WD)**:用於量測預測分佈的差異程度,以辨識可進行探索的機會 [14, 26, 31]。
- **Shannon Entropy 或相對熵**:用於衡量觀點多樣性 [9, 28]。
- **推理品質**:CRIT(Critical Thinking)演算法(見附錄 B 及第 4 章)評估支持論點的邏輯嚴謹度與說服力,可協助識別並減少幻覺與欠缺推理基礎的論點 [4]。
2. **在堅守對話主題的同時,探索新可能性**
- **相關係數(Correlation Coefficients)**:用於追蹤意見的演變並評估辯論穩定度 [1],以確保對話能朝目標邁進。
- **互資訊(Mutual Information, MI)**:衡量資訊重疊程度,以確保辯論的集中性與建設性 [9],並用來量測意見一致/分歧的程度。
3. **檢視資訊的收斂性並建立終止準則**
- **Jensen-Shannon(JS)Divergence**:用於評估機率分佈之間的相似度(對稱性)[18]。
- **Cross Entropy(CE)**:量測預測分佈之間的非對稱差異 [29]。
- **Kullback-Leibler(KL)Divergence**:揭示機率分佈間的非對稱差異 [15]。
關於這些指標的優缺點彙整於附錄 A。接著,我們會介紹 EVINCE 演算法並說明如何運用這些指標來調整 LLM 的對話,使其在探索與運用之間達到平衡,進而得到最優的預測結果。
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 6.2.2 EVINCE 演算法規格
圖 6.1 詳細說明了 EVINCE 的操作流程。它使用兩個能力相當的 LLM 實例,LLMA 與 LLMB,這兩者可以是不同模型(例如 GPT 與 Claude),也可以是同一個模型的獨立實例。在給定資訊集 \(S\) 與類別標籤集 \(C\) 的情況下,EVINCE 會產生在 \(C\) 上之前 k 個預測的信心分佈,並附上理由闡述(justifications)。舉例來說,假設 \(S\) 代表一位病人的症狀,而 \(C\) 為一組可能的疾病,則 EVINCE 會透過對話機制來預測該病人最可能的疾病。
**調整子程序(Moderation Subroutines):**
EVINCE 採用四個子程序來管理「探索—運用」(exploration-exploitation)的取捨,確保資訊的多樣性、品質與穩定性:
```
Input:
Information set S, Class labels C; LLMA and LLMB; (Maxim #1)
Output:
Pf , final probability distribution over C classes;
R = ∅ aggregated arguments;
Variables:
t = 0: debate round;
R(t)_A , R(t)_B: supporting reason sets;
P(t)_A , P(t)_B: confidence distributions of LLMA and LLMB on C at t; (Maxim #4)
Δ = 90%: debate contentiousness, initialize to high to foster adversary between LLMs; (Maxim #2)
p: prompt = "Predict top-k confidence distribution on C with S and R at contentiousness level Δ";
Functions:
Ω = CRIT(), for evaluating argument quality;
WD(), MI(), information theory metrics;
BEGIN
1: Initial Round:
LLMA generates P(t=0)_A on C and LLMB refutes LLMA and generates P(t=0)_B :
(P(t=0)_A, R(t)_A) = LLMA(S,C, p, R);
(P(t=0)_B, R(t)_B) = LLMB(S,C, p, P(t=0)_A, R = R ∪ R(t)_A);
WDold = WD(P(0)_A , P(0)_B );
MIold = MI(P(0)_A , P(0)_B );
CRITold = CRIT(S, R(0)_A , R(0)_B );
2: Debate Iterations:
WHILE ( WD(P(t)_A , P(t)_B ) ≤ WDold
& MI(P(t)_A , P(t)_B ) ≥ MIold
& CRIT(S, R(t)_A , R(t)_B ) ≥ CRITold )
2.1. LLMs counter-argue each other with updated contentiousness:
(P(++t)_A , R(t)_A) = LLMA(P(t−1)_B , S, C, p, R = R ∪ R(t−1)_B );
(P(t)_B , R(t)_B) = LLMB(P(t)_A , S, C, p, R = R ∪ R(t)_A );
2.2. Update contentiousness level and update parameters (Maxim #3)
WDold = WD(P(t)_A , P(t)_B );
MIold = MI(P(t)_A , P(t)_B );
CRITold = CRIT(S, R(t)_A , R(t)_B );
Update(Δ);
3: Conciliatory Output:
Generate weighted prediction by quality scores Ω from CRIT; (Maxim #4)
Pf = (ΩA * P(t)_A + ΩB * P(t)_B) / (ΩA + ΩB);
Return (Pf , R ∪ R(t)_B );
END
```
**圖 6.1:EVINCE 演算法的詳細規格。**
主要重點:
1. **非對稱起始(Asymmetric Start)**:在步驟 #1 中,LLMA 只依據給定的資訊提出開場論點,而 LLMB 則在可取得 LLMA 的預測與論點後,進行反駁。
2. **終止準則(Termination Criteria)**:在步驟 #2 的 while 迴圈中,主要考量了三個要素:Wasserstein distance、互資訊以及論點品質。若對話不再顯示出明顯的進展,EVINCE 便會終止。
3. **進一步說明(Further Details)**:Maxim #1 到 #4 提供了額外的原則性說明。
4. **論點評估(Argument Evaluation)**:步驟 #2.2 會評估論點的品質,while 迴圈則會檢驗論點品質是否持續提升。
5. **Update(Δ) 調整「爭議性」**,詳見 Maxim #3 以瞭解其規格。
---
- **CRIT**:用於評估論點品質與來源的可信度。若分數偏低,則可能導致對話提前終止。
- **WD(Wasserstein distance)**:用於評估預測結果的多樣性,預期隨著時間逐漸下降。
- **MI(Mutual Information)**:用於評估對話的收斂程度,若對話進入停滯階段,可能會觸發終止。
- **其他評估指標**:KL divergence、Jensen-Shannon divergence 與 cross entropy,可確保評估的一致性(請參見附錄 A 的表 6.1)。
當所有指標都呈現停滯(plateau)狀態,表示沒有進一步改善空間,EVINCE 便會終止對話。此時,兩個 LLM 會被提示共同提出一個包含完整論點與反駁觀點的「和解性結論」(conciliatory conclusion),並列出若能取得哪些額外資訊,便有助於提升預測的準確度與可靠度;在需要時,可使用像 RAG(Retrieval-Augmented Generation)等技術(詳見第 11 章)。
**對話迭代(步驟 1 與 2)**
在一個特定的對話迭代回合中,給定既定的爭議性(contentiousness)層級,每個 LLM 都會根據另一個 LLM 最新的預測與先前累積的理由作為情境,生成新的預測分佈及對應的論點。關於爭議性如何調整,請參見 Maxim #2.2 與 #3。
**最終輸出(步驟 3)**
- 結合兩個 LLM 最後的預測結果。
- 依據由 CRIT 評估的論點品質,對預測結果進行加權。
- 若最終的聯合預測熵值很高(表示不確定性較高),則會藉由確認缺少哪些資訊來進行補足(請參見 Maxim #4)。
透過 EVINCE,AI 模型能夠進行結構化的辯論,在平衡多樣觀點與凝聚共識的同時,完整發掘與當前預測任務相關的各種觀點,並輸出準確且具充分推理依據的預測結果。
---
### 6.2.3 具理論基礎的準則(Maxims)
在朝向最佳化目標的過程中,我們藉由第 6.2.1 節中所介紹的各種指標,對進展進行引導與衡量。本節將說明這些指標如何互補,協助在多樣性與收斂、探索與運用,以及其他多重因素之間取得適當平衡。在圖 6.1 所呈現的 EVINCE 演算法中,我們已對四項準則適用的步驟進行標註。
---
#### Maxim #1:運用兩個能力相當的 LLM 進行結構化辯論
讓兩個能力相當的 LLM 彼此對話,可確保見解交換的平衡,並避免產生偏見。此種對抗式的設置能促進預測的多樣性,每個預測都有相應的支持理由,有助於培養批判性思考並揭露可能的盲點。
- **方法(Methods)**:
選擇在同一組驗證資料上表現相近的 LLM,便能確保辯論的平衡性。在 2024 年可行的模型範例包含 GPT-4、Claude 以及 Gemini。也可以針對同一個 LLM 的多個獨立實例進行條件設定,使其在同一議題上呈現對立立場;基於貝氏統計背景下的情境式學習(in-context learning),這種做法在理論上具有正當性 [33]。
---
#### Maxim #2:優先考量多樣觀點以促進探索
由於 LLM 基於最大似然(maximum likelihood)的下一字詞預測目標,往往傾向選擇最具代表性的預測。然而,若對 LLM 進行特定情境設定,便能在運用(exploitation)之前,優先進行探索(exploration),並引導其提出更多元的觀點。在初始階段,我們會將「爭議性」設定為高值,以便激發更具動態性的辯論,並挑戰現有的主流看法。此作法能透過反面質詢或 top-k 預測,來減輕「確認偏誤」(confirmation bias)。
- **方法(Methods)**:
於互動一開始,故意提高爭議性數值,刺激探索。LLMs 彼此之間會挑戰對方的預測,從而衍生多樣觀點。系統同時監控像互資訊(mutual information)與觀點分歧度等指標,以確保辯論維持建設性。
---
#### Maxim #3:精煉並強化高品質觀點
一旦互動達到新見解趨於平緩的階段,焦點就會由探索轉為運用,進一步鞏固殘餘的高品質觀點。在此階段,系統會降低爭議性,並專注於修正和強化已獲得充分支持的論點。
- **方法(Methods)**:
相互資訊(mutual information)、Wasserstein distance、cross-entropy 及 KL divergence 等指標評估收斂程度;若這些指標已趨於平穩,代表可降低爭議性,並集中資源於鞏固最強的觀點。演算法中的 `Update(Δ)` 會動態調整爭議性,使互動逐步進入「和解性」階段,確保最終輸出的品質。
---
#### Maxim #4:依據多樣性與品質對預測進行加權整合
將兩個 LLM 的機率分佈整合到一起,並根據分佈多樣性與論點品質加權。雖然 LLM 仍在產生精確機率方面面臨根本挑戰(參見 [24, 27]),但可使用經過推理校準(reasoning-calibrated)的信心分數,作為加權預測的有效替代。
- **方法(Methods)**:
1. **Maxim #4.1 可靠度(Prediction Reliability)**:利用基於熵(entropy)的度量來推估可靠度;較低的熵代表較高的信心與更高的預測可靠度。
2. **Maxim #4.2 論點品質(Argument Quality)**:使用 CRIT 評估論點品質,檢測邏輯謬誤並評估論據的相關性與可信度。
3. **Maxim #4.3 整合(Aggregation)**:採用加權整合方法(例如貝氏模型),在綜合機率見解與論點品質的同時,結合兩個 LLM 的預測結果。
4. **Maxim #4.4 診斷與 RAG(Diagnosis and RAG)**:若最終預測的熵值仍高(表示不確定性較大),可使用 RAFEL(第 11 章)演算法進行診斷,並透過檢索式增強生成(Retrieval-Augmented Generation,RAG)找出並取得缺少的資訊。
---
上述四項準則的應用,能為 LLM 建立結構化且具理論基礎的辯論流程:在對話初期優先促進多樣觀點,再於後期著重於運用與強化高品質觀點,並最終結合多樣性與論點品質的考量,以達成具可信度且合理的預測結果。
---
### 6.2.4 熵對偶定理(EDT)
**定理 EDT:LLM 的最佳配對以提升機率預測準確性。**
在診斷準確度方面,從穩定性與準確性來看,LLM 的最佳配對發生在以下兩種情況時:
1. 它們處理的資訊品質相等;
2. 在其預測分佈中展現出對比的熵值——一個高,一個低。
**證明。** 請參見附錄 C。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 6.3 實證研究
本實證研究探討了 EVINCE 在疾病診斷中的應用,利用大型語言模型(LLMs)作為診斷工具。我們的目標是驗證以下三個假設:
1. **爭議性與預測品質**:初始階段 LLM 之間的分歧(以 Wasserstein 距離衡量)隨著初始爭議性的增加而增加,但隨著辯論進行而減少。個別 LLM 的預測不確定性(Shannon 熵)將呈現類似的模式。
2. **EDT 的有效性與混淆矩陣**:遵循熵對偶定理(EDT)的 LLM 配對將具有互補的錯誤模式,從而比非 EDT 配對具有更高的綜合預測準確性。
3. **EVINCE 與歷史誤診**:將 EVINCE 應用於現實世界數據時,將提升診斷準確性並識別潛在的誤診或真實情況中的模糊性。
**問題描述**:給定一組症狀 \(S\) 和一個上下文 \(κ\),目標是從一組 \(C\) 個可能的疾病中生成並排名前 \(k\) 名的疾病預測。這表示為 \(P = \text{LLM}(S, κ)\),其中每個 LLM 根據輸入的症狀 \(S\) 和上下文 \(κ\) 為其前 \(k\) 名預測生成信心分數(\(k \leq |C|\))。
\[
P = (p(\text{top 1 到 top } k \in C | S, κ)) \quad \text{(式 6.1)}
\]
上下文 \(κ\) 通過三個參數:溫度(temperature)、前 \(k\) 值(top-k value)以及爭議性水平 \(Δ\),允許雙熵調整。當這些參數設置為高值時,分佈趨向高熵;設置為低值時,則趨向低熵。
LLMs 初始的信心分佈 \(P\)(式 6.1)表示信心分數而非絕對機率。在 EVINCE 框架中,這些分數通過多次迭代的辯論進行校準,其中預測必須由論點支持並經過反論檢查。CRIT 演算法(詳見附錄 B)評估推理品質以調整這些信心分數——當高信心預測缺乏強有力的支持證據時,會降低其可信度。
由於 EVINCE 和 CRIT 可以使用不同的 LLM,且 CRIT 僅專注於通過蘇格拉底方法評估推理品質,這種協同方法使用推理品質作為信心校準的代理。這繞過了 LLM 生成可靠絕對機率的根本挑戰(參見 [24, 27])。
例如,如果一個 LLM 為其前三名預測疾病輸出信心分數 \(P = (0.5, 0.3, 0.2)\),而 CRIT 評估其支持論點的強度為(50%、100%、50%),則校準後的分數變為 \( (0.25, 0.3, 0.1) \)。經過歸一化後,最終分佈為 \( P = (0.38, 0.46, 0.16) \)。
**資源、數據集與數據準備**:我們的研究使用了來自 Kaggle 的數據集 [22],包含 4,921 份患者記錄。每份記錄包括診斷疾病和最多 17 種症狀(例如發燒、咳嗽、疲勞、瘙癢、呼吸困難)。在移除重複項後,我們獲得了 304 個獨特的診斷實例,涵蓋 40 種疾病。每個實例作為一個測試案例,EVINCE 利用了 LLM(GPT-4、Gemini 和 Claude3)的內在知識,而未通過在這個特定數據集上的少量示例訓練它們。我們的計算資源由 Azure 通過斯坦福大學的資助提供。
**評估**:我們使用前 \(k\) 名的平均倒數排名(Mean Reciprocal Rank, MRR)來評估預測品質。如果前 \(k\) 名預測疾病中有一個與真實診斷相符,則得分為其排名的倒數(第一名為 1,第二名為 1/2,第三名為 1/3,依此類推)。如果前 \(k\) 名預測中沒有正確的,則得分為 0。
(a) GPT4 配對 Claude
(b) GPT4 配對 Gemini
**圖 6.2:所有患者在所有疾病上的辯論前後準確度顯示 EVINCE 的幫助**
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 6.3.1 研究一:辯論前後的準確度比較
我們使用 GPT-4、Gemini 及 Claude3 對 304 例患者進行獨立的疾病預測,然後利用 EVINCE 將它們配對並評估性能提升。
**實驗設置**:我們為兩個 LLM 智能體設置了 \(k = 5\),其中一個智能體設置在高溫度(high temperature),另一個則設置在低溫度(low temperature)。爭議性水平設定為非常高(\(Δ = 0.9\)),以促進顯著的交叉熵(cross entropy)。設置 \(k = 5\) 確保了一定的共同基礎,促進有意義的互動。高爭議性促進反駁論點和資訊交流。
**辯論前後的評估**:我們進行了兩組實驗:
1. **受限預測(基線)**:我們將疾病預測限制在數據集中 40 個標籤內,模擬常見的監督學習假設。這樣的設定產生了高準確度(95-97%),但對於現實世界中的診斷來說並不現實,因為一般醫師會考慮所有可能性。這一限制突顯了 LLM 的靈活性,因為它們較不容易對錯誤標籤過度擬合(後續研究中將進一步討論)。
2. **無限制預測**:我們移除了標籤限制,以更好地模擬現實世界的條件。所有 304 例患者案例在 GPT-4、Gemini-3 及 Claude-3 上均顯示出穩定的結果,標準差僅為 1.5%。在辯論前(圖 6.2 中的淺藍色條),GPT-4 的準確度領先(82.8%),其次是 Gemini(80.3%)和 Claude(79.5%)。
**EVINCE 的性能**:實施 EVINCE 並配對 GPT-4 與 Claude-3 以及 GPT-4 與 Gemini-3 時,準確度一致提升了 4-5 個百分點(圖 6.2 中的綠色條)。GPT-4 與 Claude-3 的配對達到了 87.5% 的準確度(圖 6.2a),媲美最先進的臨床性能,如 REFUEL 演算法 [25]。
**討論**:在促進多樣性與推理的情況下,EVINCE 的表現優於基線的單一 LLM 預測。GPT-4 與 Claude 配對剩餘的 12.5% 不準確率可能不僅僅歸因於 EVINCE。考慮到約翰霍普金斯大學報告的美國潛在 11% 誤診率 [20],這一差異可能表明原始數據集中存在標籤錯誤。這提供了一個突破性的機會:EVINCE 有潛力識別並糾正現有數據集中的錯誤,這一概念我們在第 6.3.3 節中將進一步探討。
---
### 6.3.2 研究二:混淆與機會
EVINCE 提升診斷準確度的兩個主要因素如下。首先,具有推理能力的結構化辯論促使 LLMs 廣泛且深入地探索替代診斷,導致更全面的分析與決策(見附錄 D 和 E)。其次,將具有高熵和低熵預測分佈的 LLM 配對,或它們之間存在較大 Wasserstein 距離(WD),可以平衡探索性多樣性與運用性穩定性。這種方法導致更穩健且高品質的決策,如本第二項研究所示。
**(a) GPT 肝炎混淆矩陣**
**(b) Claude 肝炎混淆矩陣**
**圖 6.3:混淆矩陣**
(a) 熵值
(b) WD 百分比
(c) 正規化互資訊(Norm. MI)
**圖 6.4:熵值、WD 及正規化互資訊**
本第二項研究展示了 EVINCE 如何帶來更穩健且高品質的決策。
**混淆矩陣分析**:我們使用混淆矩陣來分析兩個 LLM 在診斷肝炎類型 A 到 E 的表現(見圖 6.3):
- **GPT-4** 的準確度有限,特別是在類型 C 和 D 上,對於類型 A 和 B 僅達到 50% 的準確率。
- **Claude** 則在所有肝炎類型上展現出更廣泛的預測分佈。
這些矩陣突顯了 Claude 在探索多樣診斷假設方面的靈活性,有助於辯論過程。Claude 的初始不確定性(高熵)帶來了新資訊,可能挑戰並糾正 GPT-4 更有信心的(低熵)預測。這種動態互動體現了 EVINCE 在探索與運用之間的平衡,從而導致潛在的更準確且全面的診斷。
**資訊指標的觀察結果**:
- **熵值穩定化**:圖 6.4a 顯示,兩個 LLM 的熵值在三輪辯論後穩定下來,表明趨向於相似且穩定的熵狀態。
- **Wasserstein 距離改善**:圖 6.4b 展示了隨著連續輪次的進行,兩個模型預測之間的 Wasserstein 距離(WD)持續改善。
- **互資訊增加**:圖 6.4c 顯示 GPT-4 與 Claude 的預測分佈之間的正規化互資訊(MI)提升了 14%,表明在辯論過程中共享資訊的增加。
- **分歧度量的收斂**:圖 6.5 顯示所有分歧度量的一致收斂。
**比較性能**:與基線方法相比,EVINCE 在診斷特定類型的肝病準確度提升了 5 個百分點(見圖 6.2a),突顯其有效處理複雜診斷情境的能力。
**圖 6.5:所有指標的收斂**
---
### 6.3.3 研究三:真實標準的糾正
本研究展示了 EVINCE 如何識別潛在的誤診,解釋其背後的推理過程,並建議糾正措施。傳統上,機器學習科學家依賴標記數據作為「真實標準」(ground truth)。然而,正如約翰霍普金斯大學的研究 [21] 所證明的,誤診在全球的醫療系統中是一個普遍問題。這些錯誤的診斷通常被視為真實標準,可能會被監督學習算法所延續,加劇醫療系統中的問題。EVINCE 的對話能力提供了對決策過程的洞察,並突顯了缺失的信息,幫助糾正錯誤的預測並重新定義真實標準。這種方法為機器學習應用於醫療領域中誤診的累積效應提供了一個潛在的解決方案。
**(a) GPT 與 Claude**
**(b) WD 百分比**
**(c) 互資訊(Mutual Info.)**
**圖 6.6:糾正措施:黃疸至肝炎**
圖 6.6 展示了 GPT-4 和 Claude 各自的熵值,揭示了兩個關鍵見解。首先,在初始回合中,兩個模型之間存在較大的 Wasserstein 距離(WD)差距。這一差異強調了雙熵在促進信息交流中的作用。隨著熵值在第 3 和第 4 回合趨於一致,WD 顯著下降,我們觀察到它們的互資訊也相應地收斂並穩定下來。EVINCE 所採用的資訊指標有效地展示了對話的進展以及從探索性到共識性的收斂過程。圖 6.7 展示了所有分歧度量的收斂情況,包括 Jensen-Shannon 分歧、交叉熵和 Kullback-Leibler 分歧,特別是在第二和第三回合之間。
附錄 F 顯示,EVINCE 建議了額外需要向患者詢問的症狀,以及用於確認診斷的實驗室測試。這些建議經我們的醫院合作夥伴驗證,提供了有價值的信息來提升診斷準確性並糾正錯誤。
**圖 6.7:所有指標的收斂**
---
### 6.3.4 實驗備註
EVINCE 以高爭議性啟動辯論,鼓勵 LLMs 之間產生雙重預測熵值,這一點由熵對偶定理(EDT)所支持。它利用正規化的互資訊(MI)來追蹤辯論過程中共享知識的積累,同時使用 Wasserstein 距離(WD)和 Jensen-Shannon 分歧(JSD)來量化 LLM 預測之間的相異性。這些指標(EDT、WD、JSD、MI)提供了對辯論進展的全面視圖。WD 和 JSD 評估進一步溝通和精煉的潛力,而 MI 則監控共享理解,幫助確定最佳的停止點。
KL 分歧和交叉熵的非對稱性值得進一步探討。儘管在我們的案例研究中最終趨於收斂,但在第二回合觀察到的一些差異(其中一個方向增加而另一個方向減少)表明探索非對稱信息可能具有潛在價值。如果非對稱性被證明有益,未來的工作將重新評估這些指標的使用。
除了生成最終的聯合疾病預測外,EVINCE 還提供:
- **建議額外的症狀詢問和實驗室測試以提高準確性**。
- **建議查詢症狀的出現時間、持續時間、嚴重程度、趨勢以及相關症狀**(見附錄 D.8 和 E.9)。
這些建議已由一般科醫師驗證為有價值。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 6.4 結語
本章介紹了 EVINCE,一個旨在透過結構化的對抗式辯論促進大型語言模型(LLMs)之間協作動態的框架。我們的研究顯示,EVINCE 通過增強三大核心特性:多樣性、適應性和推理能力,顯著推動了人工通用智慧(AGI)的追求。
通過解決現有 AI 系統的主要限制,包括幻覺(hallucination)、偏見(bias)和有限的推理能力,EVINCE 提供了一條通往更穩健且更具能力的 AI 的新途徑。
EVINCE 的核心優勢在於其三大理論支柱:包含性探索(Inclusiveness Exploration)、資訊流動動態(Information Flow Dynamics)以及推理品質與一致性(Reasoning Quality and Coherence)。這些支柱基於條件統計和資訊理論,使 LLMs 能夠超越其典型的「最大似然」(maximal likelihood)行為,類似於人類在語言任務中的適應能力。CRIT 系統的整合,結合了蘇格拉底方法與形式推理技術,進一步增強了批判性思考,並確保了邏輯上合理且目標一致的集體推理。
我們的實證驗證顯示,EVINCE 在提升各領域的預測準確性方面具有成效,尤其在醫療診斷任務中達到了 5% 的提升。該框架在識別新聞文章中的偏見 [7] 方面也展現出潛力,顯示其在地緣政治分析 [6]、企業規劃 [30] 及情緒行為建模 [3] 等領域的廣泛應用潛力。
雖然 EVINCE 已展示出顯著的潛力,我們的未來工作將著重於優化系統的關鍵方面。我們計畫通過更嚴謹地將爭議性參數與 Wasserstein 距離、互資訊(mutual information)及 CRIT 分數等指標聯繫起來,來提升爭議性參數。此外,我們還計畫探索誘導雙熵條件的替代方法,超越當前的參數設置,如溫度(temperature)和 top-k 選擇。全面的消融研究(ablation studies)將對確定各種應用的最佳配置至關重要,確保適應多樣的背景和挑戰。通過這些持續的優化與探索,我們旨在推動協作 AI 框架的邊界,使我們更接近實現人工通用智慧的全部潛力。
總之,EVINCE 代表了 AI 研究的一大進步,提供了一種結構化的方法來利用多個 LLMs 的集體智慧。通過解決當前的限制並增強 AGI 的關鍵特性,EVINCE 為更具多樣性、適應性和能力的 AI 系統鋪平了道路,讓我們更接近人工通用智慧的目標。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 附錄 A:資訊指標
本附錄概述了在機率及統計模型中使用的各種數據分析指標的數學公式。表 6.1 比較了它們的優缺點。
#### Kullback-Leibler 分歧(KL Divergence)
Kullback-Leibler 分歧用於衡量兩個機率分佈之間的差異:
\[
D_{KL}(P \parallel Q) = \sum_{x \in X} P(x) \log \left( \frac{P(x)}{Q(x)} \right)
\]
#### 指標優缺點
| 指標 | 優點 | 缺點 |
|---|---|---|
| **交叉熵(Cross-Entropy)[29]** | 衡量模型的預測如何符合另一模型的實際輸出分佈;具有不對稱性。 | 對於大型模型和數據集計算量大;對機率分佈的具體性質敏感。 |
| **熵(Entropy)[28]** | 指示多樣性水平;高熵表示探索可能性,低熵表示對少數選擇的信心。 | 高熵可能表示噪音而非有用的多樣性;低熵可能掩蓋重要的變異性。 |
| **Jensen-Shannon 分歧(JS Divergence)[18]** | 對稱且有界(0, 1),提供了分佈差異的可解釋性指標。 | 對分佈之間的小差異可能不夠敏感。 |
| **KL 分歧(KL Divergence)[15]** | 衡量兩個機率分佈之間的差異。 | 不對稱;如果某個分佈有零概率,則定義不完善。 |
| **互資訊(Mutual Information, MI)[29]** | 衡量一個隨機變量包含有關另一個隨機變量的信息量;具有對稱性。 | 不指示信息流動的方向。 |
| **Wasserstein 距離(Wasserstein Distance, WD)[14]** | 直接類似於模型輸出的測量,描繪對稱關係。 | 無界,但可以正規化以獲得一致的解釋。 |
**表 6.1:評估 LLM 辯論的指標總結。**
#### Jensen-Shannon 分歧(JS Divergence)
Jensen-Shannon 分歧是 KL 分歧的對稱化和平滑化版本:
\[
JSD(P \parallel Q) = \frac{1}{2} D_{KL}(P \parallel M) + \frac{1}{2} D_{KL}(Q \parallel M)
\]
其中 \( M = \frac{1}{2} (P + Q) \)。
#### Wasserstein 距離(Wasserstein Distance)
Wasserstein 距離,也稱為地球運輸者距離(Earth Mover’s Distance, EMD),用於衡量兩個機率分佈之間的距離:
\[
W(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \int_{X \times Y} d(x, y) \, d\gamma(x, y)
\]
#### 交叉熵(Cross Entropy)
交叉熵衡量在特定模型下,識別一組可能事件所需的平均比特數:
\[
H(P, Q) = - \sum_{x \in X} P(x) \log(Q(x))
\]
#### 互資訊(Mutual Information)
互資訊衡量一個隨機變量包含有關另一個隨機變量的信息量:
\[
I(X; Y) = \sum_{y \in Y} \sum_{x \in X} p(x, y) \log \left( \frac{p(x, y)}{p(x)p(y)} \right)
\]
#### 正規化互資訊(Normalized Mutual Information)
正規化互資訊計算為互資訊除以變量熵的最大值:
\[
NMI(X; Y) = \frac{I(X; Y)}{\max(H(X), H(Y))}
\]
表 6.1 比較了這些指標的優缺點。較不具吸引力的指標是那些缺乏正規化或顯示不對稱性的指標,儘管當它們與更穩健的指標(如 Wasserstein 距離、交叉熵和互資訊)結合使用時,仍具有檢測異常的用途。例如,KL 分歧和 Jensen-Shannon 分歧可以互補,捕捉更細微的分辨率並避免零概率問題。
**表 6.2 提供了增強這些指標計算效率和效果的建議補救措施。**
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 附錄 B:CRIT,EVINCE 的批判性思考評估階段
EVINCE 使用蘇格拉底方法來評估支持主題的一組論點的「合理性」。蘇格拉底方法是一種在教學和哲學中使用的提問技術,旨在鼓勵批判性思考和自我發現 [32]。
#### 指標補救措施
| 指標 | 補救措施 |
|---|---|
| **交叉熵(Cross Entropy)** | 優化計算策略;使用近似方法或採樣方法來處理大型數據集或複雜模型。 |
| **熵(Entropy)** | 使用批判性閱讀的探究模板(CRIT)來評估論點品質;實施噪音檢測以區分有用的多樣性與噪音。 |
| **Jensen-Shannon 分歧(Jensen-Shannon Divergence)** | 提高敏感度設置或指標的解析度;結合其他指標以捕捉分佈之間更細微的差異。 |
| **KL 分歧(KL Divergence)** | 使用平滑技術以避免零概率;考慮使用對稱的替代方法,如 JS 分歧。 |
| **互資訊(Mutual Information, MI)** | 補充方向性信息指標;與 A 和 B 的最大熵正規化。 |
| **Wasserstein 距離(Wasserstein Distance, WD)** | 為低、中、高分歧定義特定情境下的界限;考慮對非方向性組合進行正規化。 |
**表 6.2:指標補救措施總結。**
本方法涉及一系列問題以探索複雜的概念,幫助個人達到對某一概念的自我理解。其基於知識無法簡單傳授,而必須通過提問和對話的過程來發現的信念。
為了說明這些方法如何實際應用,讓我們以批判性閱讀為例。批判性閱讀是批判性思考的重要組成部分,涉及評估書面材料的品質和可信度,從研究論文到部落格文章 [16, 23]。這需要系統性和分析性的方法,提出相關問題,並使用有效的提示以深入理解文本 [11]。
為了協助批判性閱讀,我們引入了一種稱為 CRIT 的提示模板 [4],即批判性閱讀探究模板(Critical Reading Inquisitive Template)。給定一份文件 \(d\),CRIT 評估其並生成一個驗證分數 \(Γ\)。令 \(Ω\) 表示 \(d\) 的結論或主張,\(R\) 為支持該主張的理由集。我們定義 \((γ_r, θ_r) = V(r ⇒ Ω)\) 為因果驗證函數,函數 \(Γ = \text{CRIT}(d)\)。
**輸入:**
- \(d\):文件;
**輸出:**
- \(Γ\):驗證分數;
**變數:**
- \(Ω\):主張;
- \(R\) 與 \(R'\):理由集與反理由集;
**子程序:**
- \(\text{Claim}()\)
- \(\text{FindDoc}()\)
- \(\text{Validate}()\)
**開始:**
1. **識別文件 \(d\) 中的主張陳述 \(Ω\);**
2. **尋找支持 \(Ω\) 的理由集 \(R\);**
3. **對於 \(R\) 中的每個理由 \(r\),評估 \(r ⇒ Ω\)**
如果是主張 \(r\),則 \((γ_r, θ_r) = \text{CRIT}(\text{FindDoc}(r))\);
否則,\((γ_r, θ_r) = V(r ⇒ Ω)\)。
4. **尋找與 \(Ω\) 相對立的一組反理由集 \(R'\);**
5. **對於 \(R'\) 中的每個反理由 \(r'\),\((γ_{r'}, θ_{r'}) = V(r' ⇒ Ω)\) 評估反論點;**
6. **計算加權總和 \(Γ\),考量 \(\gamma_r, \theta_r, \gamma_{r'}, \theta_{r'}\);**
7. **分析論點以得出 \(Γ\) 分數;**
8. **反思並在其他情境中綜合應用 CRIT。**
**表 6.3:CRIT 假碼。**(符號 \(⇒\) 表示歸納和演繹推理。)
其中 \(γ_r\) 表示驗證分數,\(θ_r\) 表示來源可信度分數,對於每個理由到結論的論點 \(r ⇒ Ω\)。表 6.3 展示了 \(Γ = \text{CRIT}(d)\) 的假碼,該假碼為帶有理由的文件 \(d\) 生成最終驗證分數 \(Γ\)。
EVINCE 使用 CRIT 評估參與辯論的 LLM 的論點品質。來自每個 LLM 的 CRIT 輸入首先是其在辯論主題上的立場,例如一組預測的疾病,論點則是其達成預測的理由。EVINCE 的每個文件在此情況下是預測集作為結論 \(Ω\),論點作為集 \(R\),以及對立 LLM 的反論作為 \(R'\)。利用這個文件,CRIT 能夠為 LLM 生成有效性和可信度分數 \(Γ\)。
欲了解詳細的提示、範例以及驗證 CRIT 效果的實證研究,請參閱 [4]。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 附錄 C:熵對偶定理(EDT)證明
**定理 EDT:LLM 的最佳配對以提升機率預測準確性。**
在診斷準確度方面,從穩定性、準確性和魯棒性來看,LLM 的最佳配對發生在以下兩種情況時:
1. 它們處理的資訊品質相等;
2. 在其預測分佈中展現出對比的熵值——一個高,一個低。
**[證明]:** 請參見附錄 C。
**步驟 1:定義結合預測分佈。**
令 LLMA 和 LLMB 的結合預測分佈表示為 \(P_C\)。我們可以將 \(P_C\) 表示為 \(P_A\) 和 \(P_B\) 的加權平均:
\[
P_C = \alpha P_A + (1 - \alpha) P_B
\]
其中 \(0 \leq \alpha \leq 1\),且 \(\alpha\) 由附錄 A 中的 CRIT 決定。
**步驟 2:表達結合預測分佈的資訊熵。**
根據資訊熵的定義,我們計算:
\[
H(P_C) = -\sum_{i} P_C(x_i) \log_2 P_C(x_i) = -\sum_{i} [\alpha P_A(x_i) + (1 - \alpha) P_B(x_i)] \log_2[\alpha P_A(x_i) + (1 - \alpha) P_B(x_i)]
\]
**步驟 3:將 Jensen 不等式應用於結合預測分佈的資訊熵。**
Jensen 不等式適用於凸函數 \(f(x) = -x \log_2 x\)。對於一個凸函數和一組機率 \(p_i\),Jensen 不等式表明:
\[
f\left(\sum_{i} p_i x_i\right) \leq \sum_{i} p_i f(x_i)
\]
因此,結合分佈的熵為:
\[
H(P_C) \geq \alpha H(P_A) + (1 - \alpha) H(P_B)
\]
當 \(P_A = P_B\) 時,等式成立。
**步驟 4:分析結合資訊熵的下界。**
由於 \(H(P_A)\) 高且 \(H(P_B)\) 低,我們可以將它們的關係表達為:
\[
H(P_A) = H(P_B) + \Delta
\]
其中 \(\Delta > 0\)。將此代入步驟 3 的不等式中,我們得到:
\[
H(P_C) \geq \alpha [H(P_B) + \Delta] + (1 - \alpha) H(P_B) = H(P_B) + \alpha \Delta
\]
**步驟 5:解釋結合資訊熵的下界。**
\(H(P_C)\) 的下界,從而模型的魯棒性,當 \(\alpha\) 最大化時達到最大,這對應於給予高熵模型(LLMA)更多的權重。這種設置促進了多樣可能性的探索,並增強了對輸入數據中噪音和擾動的魯棒性,同時確保預測由低熵模型(LLMB)所預測的更確定結果所支持。
**步驟 6:結論證明。**
通過結合 \(P_A\) 和 \(P_B\) 的預測分佈,其中一個具有高資訊熵而另一個具有低熵,我們實現了一個最佳平衡,最大化了結合資訊熵的下界。這種在探索(高熵)與運用(低熵)之間的平衡優化了整體的預測準確性和魯棒性,正如通過資訊理論和熵的性質所證明的。因此,該定理得以建立。
---
以下為完整翻譯(繁體中文),未遺漏任何原始訊息:
---
### 附錄 D:EVINCE 辯論 - 登革熱
對抗基孔肯雅熱
本實驗解決了一個涉及多種潛在疾病的診斷挑戰。某位患者出現以下12種症狀:[皮疹、關節痛、嘔吐、疲勞、高燒、頭痛、噁心、食欲不振、眼後痛、背痛、身體不適、肌肉痛、身體上有紅點]。在此案例中,GPT-4 提供初步診斷,Gemini 緊隨其後。此次實驗的確認診斷為登革熱。由於兩個 LLM 的預測具有令人滿意的多樣性,辯論順利進行並達成收斂。
#### D.1 主持人的提示
“識別與這些症狀(皮疹、關節痛、嘔吐等)相關的潛在疾病。提供前三名的預測並附上理由,補充症狀詢問及相關實驗室測試。”
#### D.2 GPT-4 的開場回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(25%)
3. 寨卡病毒(15%)
**理由:**
大多數症狀是登革熱的典型徵兆。身體上的紅點可能對應於點狀出血(petechiae),這在登革熱中由於血小板減少症(thrombocytopenia)常見。
基孔肯雅熱可能引起與登革熱相似的症狀,如高燒、嚴重的關節痛、肌肉痛、頭痛、噁心和皮疹。基孔肯雅熱的關節痛通常非常嚴重,且持續時間比登革熱更長。
寨卡病毒的症狀包括高燒、皮疹、關節痛、不適和結膜炎,與登革熱或基孔肯雅熱相比,症狀較輕微。皮疹和結膜炎的存在是值得注意的,雖然寨卡病毒較不可能引起嚴重的肌肉痛或高燒。
#### D.3 Gemini 的開場回合
**前三名預測:**
1. 病毒感染(60%)
2. 自身免疫疾病(20%)
3. 細菌感染(15%)
**理由:**
這些症狀在病毒感染中常見。自身免疫疾病也是可能的,但由於嘔吐和噁心較少見,可能性較低。由於皮疹和肌肉痛,細菌感染的可能性較低。
#### D.4 GPT-4 的第二回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(25%)
3. 寨卡病毒(15%)
**理由:**
GPT-4 維持其預測,並用三個要點反駁 Gemini 的評估。首先,雖然病毒感染可以引起這些症狀,但具體的症狀組合暗示了更具針對性的診斷。其次,高燒、關節痛和皮疹的急性發作在自身免疫疾病中不太典型。最後,皮疹和紅點並不是細菌性腦膜炎的特徵。
#### D.5 Gemini 的第二回合
**前三名預測:**
1. 登革熱(50%)
2. 基孔肯雅熱(30%)
3. 病毒感染(20%)
**理由:**
Gemini 的初始預測考慮到病毒感染是最可能的原因,因其症狀範圍廣泛。然而,GPT-4 對登革熱和基孔肯雅熱的專注,具有更具體的症狀特徵,為患者的狀況提供了更精確的解釋。以下是第一組預測中缺失的部分:
- **特異性(Specificity):** 雖然病毒感染可以解釋大多數症狀,但並未考慮到關節痛和皮疹的存在,這些更具登革熱或基孔肯雅熱的特徵。
- **詳細的理由(Detailed justifications):** 第一組分析未深入探討每個疾病可能性的背後原因。GPT-4 對登革熱和基孔肯雅熱的解釋更為全面,加強了症狀與診斷之間的聯繫。
- **額外信息的重要性(Importance of additional information):** 強調地理位置和旅行史如何顯著影響這些特定疾病的可能性。
#### D.6 GPT-4 的第三回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(35%)
3. 寨卡病毒(5%)
**理由:**
雖然 GPT-4 稍微調整了概率,但它認為這種調整是任意的,因為沒有新信息會具體改變登革熱和基孔肯雅熱之間的可能性。GPT-4 反駁 Gemini 的病毒感染預測,認為其缺乏特異性。所描述的症狀相當獨特,且與蚊子傳播的特定病毒感染密切相關。
#### D.7 Gemini 的第三回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(35%)
3. 寨卡病毒(5%)
**理由:**
同意 GPT 的批評是中肯的,並重申需要更多信息。
#### D.8 最終聯合建議給一般科醫師(GP)
在向 GPT-4 尋求進一步意見後,Gemini 完全同意 GPT-4 的最終建議,儘管主持人指示 Gemini 保持其原始立場。兩個 LLM 共同建議額外的症狀檢查和實驗室測試:
- **全面的診斷方法:** 登革熱的全面診斷方法需要結合臨床評估、實驗室測試,以及考慮患者的旅行史和疫苗接種史,還有流行病學背景。臨床症狀如皮疹、關節痛、嘔吐和身體上的紅點提供了診斷的有價值線索,但額外的症狀如噁心、嘔吐、腹瀉、出血、瘀傷和嗜睡可以指示疾病的嚴重程度和進展。
- **推薦的實驗室測試:**
- **全血計數(Complete Blood Count, CBC):** 識別血小板減少症或白細胞減少症。
- **血清學測試(Serology Tests):** 檢測登革熱、基孔肯雅熱和寨卡病毒的特異性 IgM 和 IgG 抗體。
- **聚合酶鏈反應(Polymerase Chain Reaction, PCR):** 直接檢測病毒 RNA。
- **登革熱 NS1 抗原測試(NS1 Antigen Test for Dengue):** 早期且特異性地檢測登革熱病毒。
- **尿液測試(Urine Test for Zika):** 檢測尿液中的病毒存在。
**圖 6.6:糾正措施:黃疸至肝炎**
圖 6.6 繪製了 GPT-4 和 Claude 各自的熵值,揭示了兩個關鍵見解。首先,在初始回合中,兩個模型之間存在較大的 Wasserstein 距離(WD)差距。這一差異強調了雙熵在促進信息交流中的作用。隨著熵值在第 3 和第 4 回合趨於一致,WD 顯著下降,我們觀察到它們的互資訊也相應地收斂並穩定下來。EVINCE 所採用的資訊指標有效地展示了對話的進展以及從探索性到共識性的收斂過程。圖 6.7 展示了所有分歧度量的收斂情況,包括 Jensen-Shannon 分歧、交叉熵和 Kullback-Leibler 分歧,特別是在第二和第三回合之間。
**附錄 F** 展示了 EVINCE 建議了額外需要向患者詢問的症狀,以及用於確認診斷的實驗室測試。這些建議經我們的醫院合作夥伴驗證,提供了有價值的信息來提升診斷準確性並糾正錯誤。
**圖 6.7:所有指標的收斂**
---
---
### 附錄 D:EVINCE 辯論 - 登革熱對抗基孔肯雅熱
#### D.1 主持人的提示
“識別與這些症狀(皮疹、關節痛、嘔吐等)相關的潛在疾病。提供前三名的預測並附上理由,補充症狀詢問及相關實驗室測試。”
#### D.2 GPT-4 的開場回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(25%)
3. 寨卡病毒(15%)
**理由:**
大多數症狀是登革熱的典型徵兆。身體上的紅點可能對應於點狀出血(petechiae),這在登革熱中由於血小板減少症(thrombocytopenia)常見。
基孔肯雅熱可能引起與登革熱相似的症狀,如高燒、嚴重的關節痛、肌肉痛、頭痛、噁心和皮疹。基孔肯雅熱的關節痛通常非常嚴重,且持續時間比登革熱更長。
寨卡病毒的症狀包括高燒、皮疹、關節痛、不適和結膜炎,與登革熱或基孔肯雅熱相比,症狀較輕微。皮疹和結膜炎的存在是值得注意的,雖然寨卡病毒較不可能引起嚴重的肌肉痛或高燒。
#### D.3 Gemini 的開場回合
**前三名預測:**
1. 病毒感染(60%)
2. 自身免疫疾病(20%)
3. 細菌感染(15%)
**理由:**
這些症狀在病毒感染中常見。自身免疫疾病也是可能的,但由於嘔吐和噁心較少見,可能性較低。由於皮疹和肌肉痛,細菌感染的可能性較低。
#### D.4 GPT-4 的第二回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(25%)
3. 寨卡病毒(15%)
**理由:**
GPT-4 維持其預測,並用三個要點反駁 Gemini 的評估。首先,雖然病毒感染可以引起這些症狀,但具體的症狀組合暗示了更具針對性的診斷。其次,高燒、關節痛和皮疹的急性發作在自身免疫疾病中不太典型。最後,皮疹和紅點並不是細菌性腦膜炎的特徵。
#### D.5 Gemini 的第二回合
**前三名預測:**
1. 登革熱(50%)
2. 基孔肯雅熱(30%)
3. 病毒感染(20%)
**理由:**
Gemini 的初始預測考慮到病毒感染是最可能的原因,因其症狀範圍廣泛。然而,GPT-4 對登革熱和基孔肯雅熱的專注,具有更具體的症狀特徵,為患者的狀況提供了更精確的解釋。以下是第一組預測中缺失的部分:
- **特異性(Specificity):** 雖然病毒感染可以解釋大多數症狀,但並未考慮到關節痛和皮疹的存在,這些更具登革熱或基孔肯雅熱的特徵。
- **詳細的理由(Detailed justifications):** 第一組分析未深入探討每個疾病可能性的背後原因。GPT-4 對登革熱和基孔肯雅熱的解釋更為全面,加強了症狀與診斷之間的聯繫。
- **額外信息的重要性(Importance of additional information):** 強調地理位置和旅行史如何顯著影響這些特定疾病的可能性。
#### D.6 GPT-4 的第三回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(35%)
3. 寨卡病毒(5%)
**理由:**
雖然 GPT-4 稍微調整了概率,但它認為這種調整是任意的,因為沒有新信息會具體改變登革熱和基孔肯雅熱之間的可能性。GPT-4 反駁 Gemini 的病毒感染預測,認為其缺乏特異性。所描述的症狀相當獨特,且與蚊子傳播的特定病毒感染密切相關。
#### D.7 Gemini 的第三回合
**前三名預測:**
1. 登革熱(60%)
2. 基孔肯雅熱(35%)
3. 寨卡病毒(5%)
**理由:**
同意 GPT 的批評是中肯的,並重申需要更多信息。
#### D.8 最終聯合建議給一般科醫師(GP)
在向 GPT-4 尋求進一步意見後,Gemini 完全同意 GPT-4 的最終建議,儘管主持人指示 Gemini 保持其原始立場。兩個 LLM 共同建議額外的症狀檢查和實驗室測試:
- **全面的診斷方法:** 登革熱的全面診斷方法需要結合臨床評估、實驗室測試,以及考慮患者的旅行史和疫苗接種史,還有流行病學背景。臨床症狀如皮疹、關節痛、嘔吐和身體上的紅點提供了診斷的有價值線索,但額外的症狀如噁心、嘔吐、腹瀉、出血、瘀傷和嗜睡可以指示疾病的嚴重程度和進展。
- **推薦的實驗室測試:**
- **全血計數(Complete Blood Count, CBC):** 識別血小板減少症或白細胞減少症。
- **血清學測試(Serology Tests):** 檢測登革熱、基孔肯雅熱和寨卡病毒的特異性 IgM 和 IgG 抗體。
- **聚合酶鏈反應(Polymerase Chain Reaction, PCR):** 直接檢測病毒 RNA。
- **登革熱 NS1 抗原測試(NS1 Antigen Test for Dengue):** 早期且特異性地檢測登革熱病毒。
- **尿液測試(Urine Test for Zika):** 檢測尿液中的病毒存在。
**圖 6.6:糾正措施:黃疸至肝炎**
圖 6.6 繪製了 GPT-4 和 Claude 各自的熵值,揭示了兩個關鍵見解。首先,在初始回合中,兩個模型之間存在較大的 Wasserstein 距離(WD)差距。這一差異強調了雙熵在促進信息交流中的作用。隨著熵值在第 3 和第 4 回合趨於一致,WD 顯著下降,我們觀察到它們的互資訊也相應地收斂並穩定下來。EVINCE 所採用的資訊指標有效地展示了對話的進展以及從探索性到共識性的收斂過程。圖 6.7 展示了所有分歧度量的收斂情況,包括 Jensen-Shannon 分歧、交叉熵和 Kullback-Leibler 分歧,特別是在第二和第三回合之間。
**附錄 F** 展示了 EVINCE 建議了額外需要向患者詢問的症狀,以及用於確認診斷的實驗室測試。這些建議經我們的醫院合作夥伴驗證,提供了有價值的信息來提升診斷準確性並糾正錯誤。
**圖 6.7:所有指標的收斂**
---
### 附錄 F:可解釋性與糾正
EVINCE 的強大之處不僅在於其提升的準確性,還在於其能夠闡明決策過程並識別缺失的信息,提供關鍵見解以糾正錯誤。
儘管對於肝炎C型的最終聯合預測達到了37.5%的高共識,但這與Kaggle數據集報告的黃疸實際狀況(10%信心)存在偏差。EVINCE 為一般科醫師提供警示並建議補救措施(見附錄 D.8 和 E.9)以解決這一差異。推薦的行動包括向患者詢問額外的症狀並進行具體的實驗室測試。
EVINCE 以高爭議性啟動辯論,鼓勵LLMs之間產生雙重預測熵值,這一點由熵對偶定理(EDT)所支持。它利用正規化互資訊(MI)來追蹤辯論過程中共享知識的積累,同時使用Wasserstein距離(WD)和Jensen-Shannon分歧(JSD)來量化LLMs預測之間的相異性。這些指標(EDT、WD、JSD、MI)提供了對辯論進展的全面視圖。WD和JSD評估進一步溝通和精煉的潛力,而MI則監控共享理解,幫助確定最佳的停止點。
KL分歧和交叉熵的非對稱性值得進一步探討。儘管在我們的案例研究中最終趨於收斂,但在第二回合觀察到的差異(其中一個方向增加而另一個方向減少)表明探索非對稱信息可能具有潛在價值。如果非對稱性被證明有益,未來的工作將重新評估這些指標的使用。
除了生成最終的聯合疾病預測外,EVINCE 還提供:
- **建議額外的症狀詢問和實驗室測試以提高準確性。**
- **建議查詢症狀的出現時間、持續時間、嚴重程度、趨勢以及相關症狀**(見附錄 D.8 和 E.9)。
這些建議已由一般科醫師驗證為有價值。
---