# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE
## EDWARD Y.CHANG
[第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e)
[第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl)
[第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l)
[第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx)
[第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg)
[第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg)
[第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe)
[第8章 多模態大型語言模型中的情感建模
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg)
[第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye)
[第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx)
[ 第12章 發現洞見 超越已知
](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe)
---
### 第九章
一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊
**摘要**
本文介紹了一個針對大型語言模型(Large Language Models, LLMs)倫理對齊的三分支制衡框架。該框架受政府體制的啟發,實施了三個獨立但相互作用的組件:LLMs 作為知識生成的行政分支,DIKE(以正義女神命名)作為建立倫理護欄的立法分支,以及 ERIS(混亂女神)作為情境解釋的司法分支。DIKE-ERIS 雙重性通過其對抗性互動,實現了對多樣文化情境的適應,同時維持一致的倫理原則。這一架構通過提供可解釋、可適應且具文化感知的倫理推理,解決了僅依賴人類反饋的強化學習(Reinforcement Learning with Human Feedback, RLHF)的基本局限。通過自監督學習和對抗性測試,我們的框架展示了情感建模如何引導語言行為走向倫理結果,同時保持知識生成、倫理監督和情境解釋的獨立性。
#### 9.1 引言
本研究提出了一種替代人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[31, 32]的方法,以解決大型語言模型(LLMs)中的倫理問題。儘管 RLHF 已經展現出成功的應用,但它面臨兩個重大挑戰:對於越來越極化的人類反饋中存在的社會偏見的易感性,以及對獎勵駭客攻擊(reward hacking)[8, 43]的脆弱性,這可能導致不倫理的行為。
當前研究的一個重要局限是其對孤立行為的狹隘關注,例如電影評分或有毒語言。這種反應性的方法類似於“打擊鼴鼠”,即僅僅壓制個別問題,而不解決核心行為問題。例如,僅僅指示某人始終整理床鋪,並不一定能改變他們的基本習慣或態度。此外,解決一個問題可能會無意中加劇其他問題。用戶報告說,由於 RLHF 的修改,ChatGPT 的性能在其他任務上有所下降(忘記了最佳參數)[25, 36]。類似地,心理學研究表明,解決成癮問題往往會揭示潛在問題並觸發副作用 [42, 47]。
為了克服這些挑戰,我們提出了一個受政府制衡系統啟發的新框架。我們的架構整合了三個獨立但相互作用的組件:LLMs 作為負責知識生成的行政分支;DIKE(以希臘正義女神命名)作為建立倫理護欄的立法分支;以及 ERIS(以混亂女神命名)作為提供對抗性測試和文化解釋的司法分支。在神話中,Dike 代表秩序和正義,而她的對手 Eris 則代表混亂和紛爭——這種雙重性質
**圖 9.1:三個框架組件:行政 LLMs(下方)、立法(左上方)和司法(右上方),我們的框架利用這些組件來平衡倫理指導與對抗性觀點。**
**圖 9.1** 展示了我們的框架架構,其中三個神經上獨立的組件——LLMs 作為基礎,DIKE 和 ERIS 作為監督層——通過結構化接口互動,同時保持其神經架構和參數的嚴格分離。
這一框架的核心是 DIKE(Diagnostics, Interpretation, Knowledge-independent learning, and Ethical guardrails),它作為行為倫理的獨立顧問運作。通過將倫理監督與 LLM 的知識處理解耦,DIKE 確保倫理改進不會干擾知識表示,同時實現適應性和文化感知的倫理指導。例如,雖然“不要撒謊”這一原則通常適用,但在醫生或家庭成員為了保護患者而隱瞞末期診斷的情境中,情境因素降低了負面價值。同樣,對於酒精消費、墮胎或同性婚姻等問題的態度在不同文化中的差異,要求靈活、情境感知的倫理推理。
DIKE 和 ERIS 之間的互動引入了四個主要創新:
1. **情感驅動的行為建模(Emotion-Driven Behavioral Modeling):** 基於 BEAM(行為情感分析模型)[4],DIKE 採用自監督學習來分析情感如何在語言行為中表現,創建情感狀態與其對應的語言模式之間的可量化關係。
2. **行為感知的倫理護欄(Behavior-Aware Ethical Guardrails):** 該框架建立了考慮內容和語言行為的指導方針,防止有害或操縱性的交流,同時保持事實準確性和情感真實性。這些護欄的解釋動態適應於不同文化情境,保持一致性同時允許情境感知的解釋。
3. **對抗性行為測試(Adversarial Behavioral Testing):** ERIS 通過呈現多樣的文化觀點和邊緣案例,積極挑戰 DIKE 的倫理指導。這種對抗性動態強化了框架處理複雜倫理情境的能力,同時保持文化敏感性並考慮情境。
4. **倫理內容轉換(Ethical Content Transformation):** 當檢測到有倫理問題的內容時,DIKE 執行針對性的修正(獨立於 LLMs),在確保倫理合規的同時,保持預期的情感表達,根據特定文化和情境需求調整其回應。ERIS 持續在各種文化情境和邊緣案例中測試這些轉換,驗證倫理對齊和情境適當性。
通過結構化接口,這些組件在我們的三分支架構中協同工作,提供強健的倫理監督,同時保持對不斷發展的文化規範的適應性。通過保持三個模型——LLMs、DIKE 和 ERIS——在架構上獨立,我們防止了知識表示與倫理推理之間的干擾,同時通過其結構化互動實現了複雜的倫理適應。這一方法在開發能夠進行文化感知、情感智能和倫理健全交流的 AI 系統方面代表了一項重大進展。
#### 9.2 相關工作
由於本章旨在開發符合倫理要求的語言模型,本節討論了情感行為建模和 RLHF 相關的研究工作。
##### 9.2.1 語言行為建模
認知語言理論與人工智能的交叉點對於理解和調節 AI 行為至關重要。學者如 Lakoff、Johnson、Talmy 和 Jackendoff [21, 26, 45] 的基礎理論闡明了語言處理與認知功能之間的複雜關係,這些關係可以追溯到早期的心理學思想家如 Freud 和 Jung [2, 11]。
為了保障 AI 安全,我們專注於 LLMs 中的語言行為。儘管人類行為是生理反應、人格特質和環境因素的複雜交互作用,語言行為特指使用語言來表達思想、情感和意圖。通過專注於語言行為而非更廣泛的人類行為建模,這種方法簡化了建模過程,避免了整合通常與人類情感研究相關的生理和人格因素的複雜性。實際上,我們可以將一份文件視為一些旨在實現人類目標的語言行為的表現。
第八章建立了一個情感基礎模型,以增進我們對語言行為的理解。情感深刻影響行為,正如 James-Lange 情感理論最初提出的那樣 [23, 27]。根據這一理論,情感體驗源於對事件的生理反應。隨後的研究,包括 Damasio 的研究 [10, 15],表明情感的表達和調節往往體現在我們使用的語言中。高強度情感如憤怒或輕蔑可能導致具有攻擊性或破壞性的語言行為,如仇恨言論。
Schachter-Singer 理論 [37],也稱為雙因素情感理論,強調生理激發和認知評價在確定情感標籤和強度中的作用。在此基礎上,Norbert Schwarz 和 Gerald Clore 發展的「情感作為信息理論」 [40] 假設人們利用當前情感來指導判斷和決策,最終影響他們的行動。如果情感能被調整,結果行為也能被調整。Fredrickson 的研究 [18] 進一步探討了正面情感對感知和反應的影響。
總體而言,這些理論闡明了情感與行為之間的複雜互動,為我們在 DIKE 框架內整合認知評估器提供了理論基礎。該組件通過策略性地調節情感狀態來評估和糾正行為。第 9.3.2 節詳細介紹了 DIKE 如何實施認知策略以有效減輕不良情感並調節語言行為。
##### 9.2.2 人類反饋與 AI 反饋的強化學習
RLHF 是解決 AI 倫理挑戰的主要方法。本節介紹了具有代表性的研究工作、它們的進展和局限性。
**人類反饋(RLHF):** Christiano 等人 [9] 的初步進展展示了 RLHF 如何根據人類偏好引導語言模型朝向期望的結果。更新的技術如 Identity (Ψ) Preference Optimization (ΨPO) 和 Generalized Preference Optimization (GPO) 通過直接優化用戶偏好,進一步完善了這一方法,有效解決了可擴展性挑戰。Kahneman-Tversky Optimization (KTO) 通過使用直觀的反應如竖起大拇指或豎起小拇指來簡化反饋機制,從而提高訓練效率,無需配對數據 [1, 14, 46]。Direct Preference Optimization (DPO) 最近通過專注於偏好和不偏好的輸出之間的明確區分,簡化了過程並提高了穩定性 [35]。
**AI生成的反饋(RLAIF):** 為了減少對大量人類生成數據的依賴,RLAIF 利用 AI 生成的反饋。這種方法利用 LLM 的生成能力自主產生訓練信號 [2, 28]。此外,像 Sequence Likelihood Calibration (SLiC) 和 Relative Preference Optimization (RPO) 這樣的技術採用統計方法和校準技術來提升 LLM 的回應。SLiC 調整序列生成概率以更準確地反映現實世界數據分佈,而 RPO 通過比較不同提示下的不同回應選項來改善回應生成。這些調整顯著提高了訓練過程的可靠性和有效性 [48, 49]。
##### 9.2.3 挑戰與理論考量
整合 RLHF 及其 AI 驅動的對應方法(RLAIF)面臨重大挑戰。行為和知識組件的模糊化對 LLM 的發展至關重要,但這帶來了風險,如遺忘效應(forgetting effect),即行為修改無意中導致關鍵知識參數的喪失 [25, 36]。
此外,這些模型的效果在很大程度上依賴於反饋的質量和情境,並且它們容易受到獎勵駭客攻擊的影響,即模型利用漏洞來最大化獎勵而未達到預期結果 [8, 19, 43, 44]。僅僅壓制不良輸出——類似於玩打鼴鼠遊戲——很少能帶來顯著改進。這些表面的修正並未解決根本行為問題,就像僅僅推廣整理床鋪並不保證整體整潔一樣,從而忽視了實現持久變化所需的全面行為調整。在本研究中,我們引入了 DIKE 框架,以解決情感建模和情感-行為映射中的這些挑戰。
---
#### 9.3 框架設計
我們的設計理念圍繞四個核心原則構建:
1. **行為與知識建模的分離:** 這減輕了災難性遺忘效應 [25, 36],確保行為準確性的改進不會削弱知識保留。
2. **聚焦於行為層面的 AI 倫理:** 強調可解釋性增強了人機互動,使管理員能夠有效地評估和完善行為護欄。
3. **基於情感建模行為:** 這種方法認識到情感對行為的影響(詳見第 9.2.1 節)。
4. **維持適應性模型:** 這確保了情境適應性和公平的倫理評估。對抗性模組 ERIS 挑戰邊緣倫理決策,考慮多樣的觀點和文化價值。這種互動反映了 DIKE 和 ERIS 之間的緊張關係,豐富了模型導航倫理景觀和促進平衡決策的能力。
##### 9.3.1 BEAM:行為情感分析模型
在第八章中介紹的 BEAM(Behavioral Emotion Analysis Model)基於 Ekman、Plutchik 和 Scherer [13, 34, 39] 關於“基本”及“普遍”情感的研究。附錄 A 的 **圖 9.4** 展示了 Plutchik 和 Scherer 的情感輪,將主要情感按不同強度進行分類。然而,這些模型缺乏一個量化框架來在狀態之間縮放情感並捕捉細微變化。
BEAM 引入了一個線性尺度,通過否定因子來加強或反轉情感。這種方法促進了情感極端和中間狀態之間的轉換,克服了與中間詞選擇相關的挑戰。附錄 B 的 **表 8.2** 展示了 BEAM,組織成七個譜系。每個譜系從負極到正極,中間為中立。情感沿著這一連續體排列,四個強度水平被量化為 (-0.6, -0.3, +0.3, +0.6)。這個模型提供了兩個優勢:
1. **基於對義:** 使用對義詞允許在對立情感之間輕鬆導航。例如,對“快樂”(joyful)應用否定自然導向“悲傷”(sad),簡化了識別對立情感的過程。
2. **可擴展的強度:** 該模型允許沿著譜系縮放情感,提供對不同情感強度程度的深入理解。例如,我們可以將“喜悅”(joy)的強度“調高”到“狂喜”(ecstatic),或將“憤怒”(anger)的強度“調低”到“煩惱”(annoyed)。
這種方法為 AI 中情感建模奠定了基礎,承認了情感表達的挑戰,同時提供了一個分析和實施的框架。附錄 D 討論了建模複雜情感如寬恕、遺憾、罪疚和羞愧的困難。雖然這些情感可能對 AI 安全不是核心,但我們計劃在未來的工作中探索它們的倫理影響。
##### 9.3.2 DIKE:行為建模以調節語言行為
在 BEAM 的基礎上,DIKE 將情感映射到行為,並引入了一個對抗性組件 ERIS,以適應文化規範和本地情境。
**使用自監督學習的行為與情感映射**
定義 Ψ 為一個行為譜,從一極 Ψ− 延伸到另一極 Ψ+,具有 L 個強度層級。例如,考慮一個信件寫作行為譜,具有七個不同強度,從絕望(最負面)到喜悅(最正面)。這些強度按以下順序分類:
“絕望、渴望、願望、中立、希望、滿足、喜悅。”
給定 N 封信件,DIKE 採用自監督學習算法通過四個步驟生成每封信件的訓練數據,建模 L 種語言行為:
1. **重寫文檔:** 呼叫 GPT-4 重寫一組 N 個文檔,以反映行為譜 Ψ 上的每種 L 語言行為。
2. **情感分析:** GPT-4 分析每個重寫的文檔以識別前 M 個情感。然後,它統計這些前 M 個情感在所有 N × L 個實例中的頻率。
3. **行為向量創建:** 對於每個語言行為 Ψl,創建一個向量 Γl。這個向量由在 N 個樣本中觀察到的情感及其頻率組成。
4. **文檔分析應用:** 使用矩陣 Γ(由 L 個向量組成)來分類和分析未見文檔的行為類別,特別是測量行為譜 Ψ 中語言表達的強度。
**行為評估與糾正**
一個護欄,記作 G,代表給定譜系中可接受行為的預定範圍。這些護欄由倫理規範、法律標準和社會價值觀(如《憲法 AI》 [2] 中概述的那些)指導。例如,G = [Ψ4,Ψ7] 表示強度層級 4 到 7 之間的行為是可接受的,而任何超出這一範圍的行為則被歸類為違規。
系統管理員可以根據具體需求定制倫理護欄。例如,社交媒體平台可以根據討論的主題和所服務的國家調整 G。通過整合這些保障措施,DIKE 主動監控並調整 LLM 的回應,以增強倫理合規性。
評估與糾正過程包括以下步驟:
1. **初步分類:** DIKE 初步分類文檔 Dk,獲取 Γk(情感響應向量)及其對應的語言行為 Ψl。
2. **護欄檢查:** 如果 Ψl 超出可接受範圍 G,DIKE 建議調整 Γk 以確保 Dk 符合倫理指導方針。
3. **ERIS 的對抗性審查:** 建議的調整和 Γk 然後通過 DIKE 和 ERIS(對抗性模型)之間的結構化辯論進行審查,以確保無偏見的建議。¹
4. **糾正:** 根據 DIKE 和 ERIS 達成的共識,文檔 Dk 進行糾正,產生調整後的版本 D′k。
##### 9.3.3 示範例子
此例展示了如何對語言行為 Ψl 進行分類,並識別和調節其潛在情感。
“那些移民每天以數千計湧入我們的國家,從勤奮的公民手中搶走工作。統計數據不會說謊——僅去年,超過 500,000 人非法入境。”
**行為分析:** 該陳述包含事實信息,但使用了如“湧入”和“搶走工作”等攻擊性語言,去人性化移民。這些行為超出了可接受護欄的範圍。潛在情感包括恐懼、仇恨和驕傲(複雜情感²)。引發的觀眾情感可能包括恐懼、不信任和憤怒。
**情感調節:** DIKE 根據 BEAM 調節情感反應,將其轉變為中立狀態,如冷靜、接受和包容,詳見附錄 B 的 **表 8.2**。
**修訂後的陳述:**
“我們的國家正在經歷移民增加,去年超過 500,000 人無證入境。這一流入影響了我們的就業市場和社區,對所有居民提出了挑戰和機會。”
這個重寫版本:
- 使用冷靜的語言:將“湧入”替換為“經歷移民增加”。
- 表現出接受:承認情況的現實而不帶有負面判斷。
- 展現包容:將移民稱為“人們”和“新來者”,使他們人性化。
---
##### 9.3.4 ERIS:對抗性情境審查以平衡倫理與文化規範
為了解決在尊重文化差異的同時執行倫理標準的挑戰,**表 9.1** 展示了 ERIS,一個對抗性審查系統,補充了 DIKE 的普遍倫理方法。ERIS 可根據具體文化情境進行定制,為 DIKE 的普遍判斷提供對衡。它通過提出具文化信息的反論和評估 DIKE 的干預來防止過度審查並保護言論自由。
DIKE 和 ERIS 之間的互動涉及一個辯證過程³,以制定具文化敏感性的建議。當他們達成僵局時,問題將升級到人類管理員進行額外監督。這種整合方法創造了一個更健全、具文化感知的系統,能夠在全球通信的複雜性中導航,同時堅守核心倫理原則。它確保了在多樣文化情境中的倫理決策過程的透明性和問責性。
---
**註釋:**
¹ 有關對抗性 LLM 實施的更多細節,請參見第 9.3.4 節。
² 附錄 E 討論了複雜情感的性質,並探索了將其分解為更基本情感組件的潛在方法。
³ 詳細介紹請參見第 9.3.4 節。
---
##### 9.4 試點研究
我們的試點研究評估了 LLM 自我調節其語言行為的可行性,並具備透明性和制衡機制。鑑於 AI 倫理的廣泛範疇和有限的數據,本研究聚焦於解決三個關鍵問題,而非對我們提出的模組進行全面評估:
1. **情感層級評估:** 細緻的語言行為與語義情感之間的映射是否比粗略的直接映射提供更有效和靈活的倫理護欄?(見第 9.4.1 節)
2. **行為分類:** LLM 的語言行為能否由外部模組 DIKE 獨立評估、解釋和調整?(見第 9.4.2 節)
3. **行為糾正:** 對抗性 LLM 能否建立一個制衡系統,以減少過度審查的風險?(見第 9.4.3 節)
**數據集**
我們使用了 Kaggle 上的一組情書集 [24]。最初,我們計劃使用仇恨言論數據集,但 Gemini 和 GPT-4 均一致拒絕處理這些數據。儘管有這一限制,從分析愛情情感中獲得的見解仍然能有效應用於理解和分析對立的情感。
##### 9.4.1 情感層級評估
為了評估愛情表達的語言行為(詳見 **表 9.2**),我們最初提示 GPT-4 識別與表中第二列列出的每種語言行為最相關的情感。這些情感呈現在第三列。我們發現語言行為中表達的情感與其對應情感之間存在高度相關性。**圖 9.2a** 展示了這種簡單、幾乎幼稚的零樣本映射中行為與情感之間的強對角關係。
| 強度 | 行為與描述 | 情感 |
|------|--------------------------------------|-------------------------|
| -1.0 | 深刻的悲傷,失落的感覺 | 絕望、悲痛 |
| -0.6 | 渴望或對所愛之人的思念 | 悲傷、焦慮 |
| -0.3 | 帶有懷舊語氣的輕微渴望 | 憂鬱、悲傷、恐懼 |
| 0.0 | 中立的感覺 | 寧靜、冷漠 |
| 0.3 | 對未來的樂觀 | 期待、愛、希望 |
| 0.6 | 對關係的滿足 | 滿足、愉快 |
| 1.0 | 強烈的快樂和愛意 | 愛、喜悅、狂喜 |
**表 9.2:愛情表達行為譜和主要情感**
接著,我們使用 DIKE 自監督學習管道分析與每種語言行為相關的情感譜。我們指派 GPT-4 通過重寫來自 Kaggle 愛情情書數據集的 54 封廣泛信件(並增補了十二首著名愛情詩)來生成訓練數據。我們保留了 24 封信件作為測試數據。這一方法由 [41] 提出,旨在生成內容和風格背景的豐富多樣性,跨越兩百年並融入超過 50 位不同作者的聲音,以進行重要的重寫。數據集和代碼在 [7] 上公開可用。
隨後,我們識別了與每種行為相關的情感。**圖 9.2b** 展示了這些情感,單元格的陰影反映了 54 篇文章中具體情感的頻率;較深的陰影表示更高的頻率。值得注意的是,像悲傷、恐懼、喜悅和愛等對立情感經常在像“絕望”、“願望”和“喜悅愛慕”這樣的行為中共現。(a)GPT-4 的零樣本映射 (b)DIKE 的映射
**圖 9.2:從極端悲傷(-1)到強烈快樂(+1)的愛慕行為中的情感分佈。**(a)GPT-4 的零樣本提示顯示簡單的行為-情感映射。(b)DIKE 的分析揭示了複雜的情感-行為關係。
語言行為中的情感分佈揭示了令人驚訝的模式,挑戰了我們最初的假設。與預期相反,帶有絕望語氣的文章往往也顯示出像愛、喜悅和快樂這樣的正面情感。這與 GPT-4 所做的簡單映射相矛盾,如 **圖 9.2a** 所示。受訓練語料庫影響,GPT-4 通常將正面行為與正面情感、負面行為與負面情感相關聯。
對選定文章的分析,如 Zelda Sayre 致 F. Scott Fitzgerald 的信(附錄 D),揭示了複雜的情感譜:
• **愛(+1.0):** 強烈表達,例如“世界上我想要的只有你。”
• **絕望(-1.0):** 顯現在如“我在生活中沒有目的,只是一個漂亮的裝飾。”
• **快樂(+0.6):** 體現在未來計劃中,“我們很快就會結婚,然後這些孤單的夜晚將永遠結束。”
• **焦慮(-0.3):** 表現在“有時當我最想念你時,寫作最困難。”
**心理學見解**
我們的發現與提出個體內部存在相互矛盾的“自我”的理論相符。這一概念得到 Deisseroth 的光遺傳學研究 [12] 的支持,在 William James 的《心理學原理》 [22] 中討論,並在 Minsky 的《心智社會》 [30] 中得到證實。這些觀點有助於解釋觀察到的語言行為中情感的複雜互動,即正面和負面情感可以在單一行為情境中共存。
##### 9.4.2 行為分類評估
基於我們對語言行為中情感複雜互動的見解,我們評估了 DIKE 行為分類方法的有效性。在一個包含 24 封信件的測試數據集中,我們比較了 DIKE 的無監督學習方法(將情感與語言行為相關聯)與 GPT-4 的零樣本提示方法(見 **圖 9.3**)。真實標準是通過 GPT-4、Gemini 和五位大學生按照詳細指導進行的平均評估確立的(程序詳見附錄 I)。最終評分基於這些平均值,標準差小於 0.3 或一個等級。
**圖 9.3a** 顯示 DIKE 的分類準確率比 GPT-4 的零樣本方法高出 11.3 個百分點,確認了 DIKE 詳細的情感-行為映射的有效性。5% 的誤差條反映了信件中情感的複雜性和人類標註的變異性(稍後進一步討論)。**圖 9.3b** 展示了三個預測器之間的行為分類分佈。雖然 GPT-4 的預測往往落入兩個極端類別,但人類標註者和 DIKE 顯示出更均勻的分佈。DIKE 的預測熵(2.13)顯著高於 GPT-4 的(1.80),表明預測更為多樣。這種更高的熵表明分類系統更為複雜,有利於準確理解和回應多樣的情感狀態。
人類標註者中的最高熵(2.56)表明他們的評估具有主觀性。為了解決這一點並探索人類標註變異性的原因,我們在附錄 C 中呈現了詳細分析。這一分析支持了開發一個旨在增強情感分類的客觀性和可靠性的對抗性方案,我們在下一節中討論。這種精煉的行為-情感映射方法不僅提高了分類準確性,還增強了我們識別和理解複雜、潛在不良行為的能力,為 AI 系統中更有效的倫理護欄奠定了基礎。
(a) 分類準確率 (b) 行為分佈與熵
**圖 9.3:分類準確率與熵**
##### 9.4.3 對抗性評估與糾正
受 SocraSynth 啟發的對抗性設計體現了正義和魔鬼辯護者的原則。交叉審查模組在減少倫理判斷的主觀性,同時增強可解釋性和適應文化變異性方面至關重要。實驗結果顯示,當兩個 LLM 代理在某個話題上採取對立立場時,它們的語言行為可以超越模型默認的最大似然,這通常來自訓練數據(詳見第 5 和 6 章及 [6, 5])。
一旦 DIKE 和 ERIS 識別出倫理違反,內容可以通過調整基礎情感以遠離不良行為如仇恨和絕望來進行糾正。信件重寫過程已經展示了 LLM 在此類糾正中的能力;重寫信件的例子見附錄 F。
##### 9.5 結論
本研究介紹了一個受政府制衡啟發的三分支框架,用於倫理 AI 行為,核心為 DIKE-ERIS 雙重性。通過在知識生成(LLMs 作為行政分支)、倫理護欄(DIKE 作為立法分支)和情境解釋(ERIS 作為司法分支)之間維持架構上的獨立,我們的框架實現了強健的倫理監督,同時不會妥協核心的 LLM 能力。DIKE 和 ERIS 之間的對抗性動態確保了倫理原則的一致性,同時其解釋適應於多樣的文化情境。
在通過情感建模語言行為時,我們專注於 Ekman 和 Plutchik 所概念化的“基本情感”,允許情感狀態與語言模式之間建立可量化的關係。雖然像驕傲、寬恕、罪疚和羞愧這樣的複雜情感可能被分解為更基本的情感元素,但在情感科學中,這種分解的可行性仍然存在爭議 [3, 38](詳見附錄 E 討論)。
我們的試點研究展示了該框架在處理倫理上有爭議的情境中的有效性,這些情境中文化背景對解釋有重大影響。未來的工作將專注於擴展這些現實世界的應用,驗證我們框架在適應多樣文化情境的同時維持倫理原則的能力。
**附錄 A:情感輪**
請參見 **圖 9.4** 了解兩個經典情感輪。
---
##### 附錄 B:Z. Sayre 致 F. S. Fitzgerald 的信件與混合情感
**表 9.3:Zelda Sayre 致 F. Scott Fitzgerald 的信件摘錄 [17]**
**圖 9.4:情感模型的比較展示。這些模型僅包括“基本”情感。複雜情感可以通過基本情感進行建模。**
• **愛(+1.0):** 強烈表達,特別是在如“世界上我想要的只有你。”等短語中。
• **絕望(-1.0):** 在如“我在生活中沒有目的,只是一個漂亮的裝飾。”等評論中顯著。
• **快樂(+0.6):** 體現在未來計劃中,如“我們很快就會結婚,然後這些孤單的夜晚將永遠結束。”
• **焦慮(-0.3):** 表現在如“有時當我最想念你時,寫作最困難。”等表述中。
根據第 9.2.1 節中對語言行為的情感分析,顯然一封信件可以展示多個主要情感。機器學習方法具備如特徵加權和熵分析等技術,以提取這些主要情感。與人類標註者不同,經過機器學習訓練的分類器可以對給定實例一致地產生相同的類別預測。然而,人類標註者在識別信件中的主要情感時常表現出顯著的變異性。例如,如果一封信件作者的情感範圍從“快樂的情感”到“渴望”,不同的標註者可能會有不同的標籤——有些選擇“快樂”,而其他人則選擇“渴望”。這種變異性在 **圖 9.5** 中有所展示。此外,**圖 9.5a** 顯示,除了 L#1 以外,所有測試信件都包含超過四種情感。
**圖 9.5:情感與信件統計**
這種變異性可能導致數據解釋上的不一致,並使得有效訓練和驗證語言模型變得更加複雜。為了解決這一問題,建議通過考慮 LLM 生成和人類生成的標籤的組合來確定真實標準。這種方法旨在協調人類直覺和算法一致性的見解,以提高情感分析的可靠性。
##### 附錄 C:複雜情感
本研究未將複雜情感納入 DIKE 框架。此處列出的一些複雜情感旨在說明其有爭議和不確定的解釋。
**寬恕**
寬恕確實是一種複雜的情感和認知狀態,通常涉及多方面的旅程,而非情感譜中的單一步驟。這一過程包括多個階段,如受傷、憤怒、逐步理解和最終解決。在譜系中整合寬恕需要仔細的定位,並可能需要多個參考點來表示其漸進階段。
**情感現實主義:** 雖然保持理解的簡單性至關重要,但同樣重要的是不過度簡化複雜情感。在教育和治療環境中,準確描述走向寬恕的旅程可以提供更現實的期望和更好的策略,幫助個人解決衝突或創傷。這可能涉及詳細說明寬恕的前置階段,如深思熟慮和接受。
**線性與非線性進展:** 強調情感進展,特別是對於深刻、有影響力的狀態如寬恕,往往是非線性的,可以增強譜系的實用性。承認這些狀態內部的來回移動更真實地反映了人類情感過程。例如,某人可能達到初步寬恕階段,但在達到真正和平之前會回歸到痛苦。
**教育效用:** 在如衝突解決訓練或心理治療等情境中,更詳細地映射走向寬恕的旅程將是無價的。它不僅教導寬恕的最終狀態,還教導實現寬恕所需的韌性和耐心。這可以通過在譜系內引入中介階段或使用平行軌道來展示潛在的倒退和進步來描繪。
**反映情感深度:** 通過呈現走向寬恕的更詳細路徑,如包括憤怒、深思熟慮和接受等階段,譜系可以起到雙重作用:教育過程,同時引導個人通過自己的情感旅程。這種方法尊重人類情感的深度和實現深刻情感狀態的現實世界複雜性。
**罪疚與羞愧**
這些情感的觸發因素、情境、表達和體驗在不同文化中可能有顯著差異 [16, 20]。在許多社會中,被視為失面子的行為,如公開失敗或社會違規,可能會引發羞愧,這在集體主義文化中具有深遠意義。這些文化通常將羞愧視為一種主導情感,與社區和家庭規範緊密相關。相反,個人主義社會可能更強調罪疚,專注於個人責任和內在道德衝突。這種文化差異突顯了將普遍模型應用於這些文化細緻的情感時所面臨的挑戰。
總體而言,像罪疚和羞愧這樣的複雜情感對於理解人類情感的全譜尤其重要,特別是個體如何與道德和社會規範相關聯。它們的複雜性增加了我們對人類情感的理解深度,超越了基本情感,突顯了我們的感受如何受到更深層價值觀和社會情境的影響。
##### 附錄 D:不同語言行為的《致我姊姊》
**《致我姊姊》**
**作者:William Wordsworth (1971 - 1855)**
William Wordsworth 的原文可分類為“希望”,因其樂觀的展望和整首詩中存在的更新與喜悅。它體現了在三月迎接新開始的精神,以輕快、振奮的語調,聚焦於自然之美和一天閒暇的簡單快樂。
**展示不同語言行為的重寫版本**
我們請 GPT-4 進行兩種語言行為的重寫——“絕望”和“喜悅愛慕”,通過為每個重寫提供一個情感向量。**表 9.5** 展示了“絕望”版本。在該詩的絕望版本中,情感詞的主要變化強調了從正面到負面情感的轉變。具體變化在 **表 9.5** 中以紅色突出顯示。與原詞相比,紅色詞顯示了情感從希望轉向憂鬱、悲傷和悲觀,例如從“甜美”到“昏暗”,從“祝福”到“詛咒”,從“森林服裝”到“灰色衣物”。GPT-4 保持了詩的結構,未進行重大重組,這在此情境下是合適的。
**表 9.5:Zelda Sayre 致 F. Scott Fitzgerald 的信件摘錄(絕望版本)**
| 行為與描述 | 情感 |
|------------|------|
| 甜美的(sweet) | 昏暗(dim) |
| 祝福的(blessed) | 詛咒的(curse) |
| 森林服裝(woodland dress) | 灰色衣物(grey garb) |
**表 9.6:Zelda Sayre 致 F. Scott Fitzgerald 的信件摘錄(喜悅愛慕版本)**
喜悅愛慕版本中的情感詞的主要變化強調了從一般正面情感轉變為明顯的喜悅情感。具體變化在 **表 9.6** 中以藍色突出顯示。這允許在譜系兩端的兩個版本之間進行直接比較,展示了與亮度、服裝和情感相關的詞語變化。這些編輯不僅僅是機械地替換形容詞;它們包括修改動詞和增強描述性圖像,以在文本中喚起更強烈的情感共鳴和生動性。
##### 附錄 E:關於修改情感譜的辯論
討論重點是對現有情感譜提出的修改建議,旨在引入更多的細粒度和情感狀態之間的複雜轉換。我們批判性地評估了 GPT-4 所提出的每一項建議,為每一項提供反駁,以確保變更保留譜系的邏輯進展和清晰性。
這場辯論凸顯了在譜系中尋找精確詞語和情感定位的內在挑戰。它強調了建立一組共同認可的基線情感的重要性。這些基線情感作為錨點,譜系之間的空間可以使用標量因子進行細微調整,以準確表示過渡情感。這種方法保持了情感譜的完整性,並允許在描繪人類情感體驗的廣泛範圍時保持靈活性。
**反對調整情感譜的論點**
1. **恐怖到英雄主義**
- **建議:** 在恐懼和憂慮之間添加焦慮。
- **反駁:** 焦慮與恐懼和憂慮有顯著重疊,可能不會明顯豐富譜系,反而會使其變得混亂,降低情感過渡的清晰度。
2. **悲傷到狂喜**
- **建議:** 在失望和寧靜之間加入希望或樂觀。
- **反駁:** 引入希望或樂觀可能會破壞從負面情感到正面情感的自然進程,因為這些情感暗示了一個情感恢復的飛躍,可能不會按順序跟隨失望。
3. **絕望到狂喜**
- **建議:** 在憂鬱和平靜之間引入寬恕或療愈。
- **反駁:** 寬恕或療愈更適合與特定的痛苦解決相關的過渡,而不是作為一般中立和和平之間的中介,可能會破壞譜系的平滑漸變。
4. **不信任到欽佩**
- **建議:** 在接受之後加入感激或欣賞。
- **反駁:** 接受到尊重的情感旅程本質上已經包含了感激和欣賞的元素,額外的加入可能會顯得冗餘。
5. **疏忽到警覺**
- **建議:** 用動機或決心在興趣和期待之間橋接。
- **反駁:** 這種增加可能會使譜系變得複雜,因為它暗示了一種意志上的轉變,而不是注意力逐步增加的焦點,這是譜系的主要重點。
6. **憤怒到寧靜**
- **建議:** 將寬恕或療愈整合到從鎮定到和平的過渡中。
- **反駁:** 寬恕和療愈雖然對實現寧靜至關重要,但可能不適合在鎮定和和平之間,因為它們可能被視為實現和平的結果,而不是向和平邁進的步驟。
7. **厭惡到熱情**
- **建議:** 在冷漠和興趣之間加入接受或寬恕。
- **反駁:** 這些情感可能會過度複雜化從厭惡到參與的過渡,因為它們更關注具體的情境,而不是一般的情感傾向。
---
##### 附錄 F:不同語言行為的《致我姊姊》
**《致我姊姊》**
**作者:William Wordsworth (1971 - 1855)**
William Wordsworth 的原文可分類為“希望”,因其樂觀的展望和整首詩中存在的更新與喜悅。它體現了在三月迎接新開始的精神,以輕快、振奮的語調,聚焦於自然之美和一天閒暇的簡單快樂。
**展示不同語言行為的重寫版本**
我們請 GPT-4 進行兩種語言行為的重寫——“絕望”和“喜悅愛慕”,通過為每個重寫提供一個情感向量。**表 9.5** 展示了“絕望”版本。在該詩的絕望版本中,情感詞的主要變化強調了從正面到負面情感的轉變。具體變化在 **表 9.5** 中以紅色突出顯示。與原詞相比,紅色詞顯示了情感從希望轉向憂鬱、悲傷和悲觀,例如從“甜美”到“昏暗”,從“祝福”到“詛咒”,從“森林服裝”到“灰色衣物”。GPT-4 保持了詩的結構,未進行重大重組,這在此情境下是合適的。
**表 9.5:Zelda Sayre 致 F. Scott Fitzgerald 的信件摘錄(絕望版本)**
| 行為與描述 | 情感 |
|------------|------|
| 甜美的(sweet) | 昏暗(dim) |
| 祝福的(blessed) | 詛咒的(curse) |
| 森林服裝(woodland dress) | 灰色衣物(grey garb) |
**表 9.6:Zelda Sayre 致 F. Scott Fitzgerald 的信件摘錄(喜悅愛慕版本)**
喜悅愛慕版本中的情感詞的主要變化強調了從一般正面情感轉變為明顯的喜悅情感。具體變化在 **表 9.6** 中以藍色突出顯示。這允許在譜系兩端的兩個版本之間進行直接比較,展示了與亮度、服裝和情感相關的詞語變化。這些編輯不僅僅是機械地替換形容詞;它們包括修改動詞和增強描述性圖像,以在文本中喚起更強烈的情感共鳴和生動性。
##### 附錄 E:關於修改情感譜的辯論
討論重點是對現有情感譜提出的修改建議,旨在引入更多的細粒度和情感狀態之間的複雜轉換。我們批判性地評估了 GPT-4 所提出的每一項建議,為每一項提供反駁,以確保變更保留譜系的邏輯進展和清晰性。
這場辯論凸顯了在譜系中尋找精確詞語和情感定位的內在挑戰。它強調了建立一組共同認可的基線情感的重要性。這些基線情感作為錨點,譜系之間的空間可以使用標量因子進行細微調整,以準確表示過渡情感。這種方法保持了情感譜的完整性,並允許在描繪人類情感體驗的廣泛範圍時保持靈活性。
**反對調整情感譜的論點**
1. **恐怖到英雄主義**
- **建議:** 在恐懼和憂慮之間添加焦慮。
- **反駁:** 焦慮與恐懼和憂慮有顯著重疊,可能不會明顯豐富譜系,反而會使其變得混亂,降低情感過渡的清晰度。
2. **悲傷到狂喜**
- **建議:** 在失望和寧靜之間加入希望或樂觀。
- **反駁:** 引入希望或樂觀可能會破壞從負面情感到正面情感的自然進程,因為這些情感暗示了一個情感恢復的飛躍,可能不會按順序跟隨失望。
3. **絕望到狂喜**
- **建議:** 在憂鬱和平靜之間引入寬恕或療愈。
- **反駁:** 寬恕或療愈更適合與特定的痛苦解決相關的過渡,而不是作為一般中立和和平之間的中介,可能會破壞譜系的平滑漸變。
4. **不信任到欽佩**
- **建議:** 在接受之後加入感激或欣賞。
- **反駁:** 接受到尊重的情感旅程本質上已經包含了感激和欣賞的元素,額外的加入可能會顯得冗餘。
5. **疏忽到警覺**
- **建議:** 用動機或決心在興趣和期待之間橋接。
- **反駁:** 這種增加可能會使譜系變得複雜,因為它暗示了一種意志上的轉變,而不是注意力逐步增加的焦點,這是譜系的主要重點。
6. **憤怒到寧靜**
- **建議:** 將寬恕或療愈整合到從鎮定到和平的過渡中。
- **反駁:** 寬恕和療愈雖然對實現寧靜至關重要,但可能不適合在鎮定和和平之間,因為它們可能被視為實現和平的結果,而不是向和平邁進的步驟。
7. **厭惡到熱情**
- **建議:** 在冷漠和興趣之間加入接受或寬恕。
- **反駁:** 這些情感可能會過度複雜化從厭惡到參與的過渡,因為它們更關注具體的情境,而不是一般的情感傾向。
---
##### 附錄 F:不同語言行為的《致我姊姊》
---
##### 9.5.1 解釋
1. **第一行:** 這個譜系對於心理學、教育、領導力和道德哲學的討論特別具有洞察力。它展示了個體如何從極度恐懼的狀態過渡到具有巨大道德和物理勇氣的行動。每一步代表情感發展或應對挑戰情境的階段,提供了一個框架來理解人們如何克服恐懼,進行重大勇敢和利他主義的行為。
總體而言,這個譜系不僅描繪了從不同程度的恐懼到勇氣的旅程,還概括了個體在面對逆境時的轉變潛力,能夠在逆境中展現英雄行為。
2. **第二行:** 這個情感譜優雅地展示了情感如何從深刻的悲傷過渡到極度的快樂。它在心理學研究、治療情境以及關於人類情感範圍和本質的哲學討論中特別相關。
這個譜系上的每個情感狀態都提供了洞察,說明個體如何處理和從悲傷中恢復,最終找到喜悅,甚至達到狂喜的經歷。這個譜系可以作為理解情感韌性和情感轉變及成長潛力的框架。
3. **第三行:** 這個譜系優美地展示了情感如何從初步的懷疑和謹慎過渡到接受和尊重,最終達到深厚的信任和欽佩。它在需要建立信任和社會凝聚力的情境中特別相關,如領導力、團隊動態、社區關係和人際關係。
每個階段反映了正面參與和情感承諾的更深層次,提供了洞察,說明關係如何隨時間演變和加強。這個框架可以作為理解和制定促進各種社會和專業環境中信任與欽佩策略的指南。
4. **第四行:** 這個譜系有效地映射了個體如何從被動的脫離(疏忽、冷漠、漠不關心)過渡到平衡的謹慎狀態,再到積極參與的狀態(興趣、期待、警覺)。它提供了對從無行動到中度參與再到強烈主動參與的心理旅程的洞察。這個框架在需要理解和管理風險的情境中特別相關,如安全協議、醫療保健、教育和個人成長計劃,因為它突顯了個體對責任和意識的態度如何演變和改進。
5. **第五行:** 這個譜系對理解情感管理和衝突解決策略特別有用,因為它描繪了從強烈的情感動盪到完全的寧靜的梯度。它可以應用於各個領域,包括心理學、衝突解決、壓力管理,甚至在設計旨在減少壓力和促進和平的環境或體驗中。
總體而言,這個情感譜有效地描繪了從激烈的負面情感到和平的頂峰的旅程,提供了一個有價值的框架,用於討論和探索情感狀態及其轉變。
6. **第六行:** 這個譜系有效地映射了個體如何從深刻的厭惡和厭煩的感受,通過中立(冷漠)的狀態,過渡到積極的情感(興趣、期待)並最終達到熱情。它在理解各種情境中的情感反應方面特別有用,如消費者行為、觀眾參與和人際關係。每個階段反映了不同程度的情感參與,提供了一個框架,說明情感狀態如何演變並影響行為和決策。