# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE ## EDWARD Y.CHANG [第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e) [第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl) [第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l) [第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx) [第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg) [第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg) [第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe) [第8章 多模態大型語言模型中的情感建模 ](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg) [第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye) [第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx) [ 第12章 發現洞見 超越已知 ](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe) --- ## 第八章 多模態大型語言模型中的情感建模 **摘要** 在人機交互中,識別並回應用戶的情感狀態對於有效溝通和成功完成任務至關重要。例如,一個能夠檢測患者痛苦或抑鬱的照護型 AI 代理,可以提供量身定制的同理支持和適當的醫療干預,同時遵守道德準則並保障患者的福祉。本章探討了人類情感的認知研究,並提出了行為情感分析模型(Behavioral Emotion Analysis Model, BEAM),這是一種新穎的情感譜框架,結合了基本情感及其語言對義。BEAM 提供了一種全面理解和表達語言中情感狀態的方法,旨在與大型語言模型(Large Language Models, LLMs)整合。通過利用 BEAM,LLMs 可以根據檢測到的用戶情感狀態調整其語言行為和表達,確保回應既具有同理心又符合道德準則。 #### 8.1 引言 在開發 SocraSynth [10](第 5 章)—一個多大型語言模型辯論框架—過程中,我們發現了有關大型語言模型(LLM)行為的一個基本原則。在研究如何控制辯論的“爭議性”時,我們發現通過情感調節可以系統性地改變 LLM 的語言行為。高爭議性產生對抗性的語調和極化的語言,而低爭議性則導致友好、體貼的對話。這一觀察超越了原本改善多代理辯論的範疇—它揭示了一種通過情感狀態來引導 LLM 行為的機制。 大多數多代理辯論(MAD)系統 [1, 8, 15, 18, 19, 20, 24] 僅作為集成學習技術運作,類似於袋裝法(bagging)[5] 或專家混合模型(mixtures of experts)[17],其中 LLM 只是簡單地交換觀點,沒有深入探索。我們在 SocraSynth 和 EVINCE [9](第 6 章)的工作通過在整個辯論過程中動態調節情感狀態解決了這一限制。高爭議性促使 LLM 探索新穎的觀點並挑戰現有的觀點,而低爭議性則促進了已建立思想的綜合。這種情感調節創造了一個自然的辯論進程:從對多樣觀點的積極探索,通過有理有據的分析和反駁,到形成經過充分檢驗的和解性結論。 雖然 LLM 訓練通常被視為下一個詞的預測,其效果遠比這更深遠。訓練文檔代表了人類追求多樣目標——進行研究、交換意見、表達情感——通過各種語言行為。這種理解,結合我們在上下文學習中對爭議性的建模經驗,提出了一個有趣的可能性:我們能否用特定的目標和情感來條件化 LLM,以生成利用這些學到的語言行為的輸出?最近的實證研究支持這一方法,顯示 LLM 輸出可以追溯到其來源 [3],並且上下文學習在貝葉斯框架中運作為條件統計 [27]。 我們在新聞文章和維基百科內容中的偏見減少工作(第 7 章)展示了情感狀態顯著影響 LLM 輸出的能力。這一發現,結合我們的辯論框架經驗,表明情感的數學模型可以為系統行為控制提供基礎。在探討情感與行為之間的映射(第 8 章)之前,我們必須首先建立一個嚴謹的框架來表達和操控基本情感。 為了為基於情感的行為控制奠定基礎,本章開發了行為情感分析模型(Behavioral Emotion Analysis Model, BEAM)。雖然 LLM 最初被視為“黑盒” [6],但我們的觀察,加上 Stuart Russell 教授的見解,表明情感狀態可以通過上下文系統性地建模並傳達給 LLM。我們的模型解決了三個基本問題: 1. **哪些基本情感形成完整基底?** 我們識別了 k 個基本情感譜,每個譜由負面和正面對義定義(例如,“恨-愛”、“焦慮-冷靜”)。我們專注於基本情感,同時排除了如“後悔”這樣由基本狀態組合而成的複雜情感。每個譜代表一個連續的軸,可以在其上測量和修改情感狀態。 2. **我們如何數學地操控情感?** 我們開發了一個數學框架,使用否定和縮放操作來精確定位每個譜上的情感狀態。例如,給定“恨-愛”譜,我們可以通過縮放(例如,0.7×愛)來表示中間狀態,並使用否定在對立狀態之間移動(例如,¬恨 ≈ 愛)。這些操作為系統性的情感操控奠定了基礎。 3. **情感能否預測行為?** 我們進行了一個初步研究,使用自監督學習探索情感狀態與語言行為之間的關係。通過分析我們的辯論框架中的文本樣本,我們訓練了一個模型,從情感狀態中預測行為模式,而不需要明確標記。這項研究驗證了我們情感譜在建模行為結果方面的實用性,同時為第 9 章更全面的行為映射提供了見解。 雖然第 9 章將深入探討這些情感狀態如何映射到具體的語言行為,本章重點在於建立表達和操控基本情感的數學框架,並通過初步的自監督學習實驗進行驗證。通過在數學嚴謹性和實證測試上鞏固我們的模型,我們為系統性的基於情感的行為控制在 LLM 中創造了基礎。 #### 8.2 定性與定量情感 我們首先考察認知科學和心理學中有關情感建模的研究,特別強調 Paul Ekman 和 Robert Plutchik [13] 的奠基性貢獻。雖然我們認識到他們在識別“基本”情感(定義如下)方面工作的價值,但我們也探討了這種依賴觀察性研究且缺乏嚴謹、恆定科學驗證的啟發式建模的局限性。為了提高量化不同強度情感的精確性,我們提出將語言分析納入我們的方法論。我們的方法旨在通過利用語言作為測量和理解情感表達的工具來改進量化過程。 Paul Ekman 和 Robert Plutchik 是著名的心理學家,以其在情感研究領域的基礎性工作而聞名。他們開發了將基本情感分類的模型,這些基本情感被認為是所有人類普遍經歷的情感,超越文化界限。這些情感之所以被認為是基本的,是因為它們具有普遍的識別性、獨特的面部表情以及與生存機制的直接聯繫。它們是天生的且反映在潛意識中,而非學習得來,作為更複雜情感經驗(通過意識處理)的基礎,這些複雜情感在不同文化和個體間可能有顯著差異。 在這一基礎工作之上,Plutchik 的情感輪引入了更詳細的模型,包括八種主要的雙極情感。這些情感在其奠基性著作 [21, 22] 中被詳細闡述,作為該主題的一般參考文獻。圖 8.1:Plutchik 的情感輪 [22]。八種基本情感被組織成四對,每對都標註了其兩個極點之間的各種情感強度。 **圖 8.1:Plutchik 的情感輪 [22]。八種基本情感被組織成四對,每對都標註了其兩個極點之間的各種情感強度。** 圖 8.1 展示了八種主要情感在各種強度下的表現: 1. **喜悅(Joy):** 巨大的愉悅或幸福感。 2. **信任(Trust):** 可靠性或信心的感覺。 3. **恐懼(Fear):** 由於相信某事物具有危險性、可能引起痛苦或威脅而產生的不愉快情感。 4. **驚訝(Surprise):** 由於某事物出乎意料而產生的感覺。 5. **悲傷(Sadness):** 以悲傷或不快樂為特徵的感覺。 6. **厭惡(Disgust):** 因不愉快或令人反感的事物而引起的厭惡或強烈反對感。 7. **憤怒(Anger):** 厭煩、不滿或敵意的感覺。 8. **期待(Anticipation):** 期待某事物的行動;期望或預測。 這些情感根據其進化角色和適應功能以對立的方式概念化配對:喜悅-悲傷、期待-驚訝、信任-厭惡和憤怒-恐懼。每對情感在其兩個極點之間標註了不同程度的情感。例如,在喜悅與悲傷的軸線上,情感從寧靜到狂喜,以及從悲痛到沉思。 **圖 8.2:行為情感分析模型(BEAM)。每一行描述一個情感譜,左側為負面,右側為正面,中間穿插著不同強度的情感,可以根據特定應用進行校準。“基本”情感以藍色突出顯示。** **圖 8.2:行為情感分析模型(BEAM)。每一行描述一個情感譜,左側為負面,右側為正面,中間穿插著不同強度的情感,可以根據特定應用進行校準。“基本”情感以藍色突出顯示。** #### 8.2.1 觀察與討論 心理學中的基礎理論支持將這四對情感選為對立的情感。然而,雖然所有四對情感都展現出對立性,“信任-厭惡”和“憤怒-恐懼”並不是嚴格的語言對義。信任與厭惡包含對評價的對立,常常導致不同的行動:信任促進接近,厭惡促進迴避。同樣,憤怒與恐懼,儘管都是負面情感,但在應對威脅時的反應不同:憤怒可能導致對抗,恐懼則導致撤退。因此,以下近似關係不成立: ¬信任 ≈ 厭惡 和 ¬憤怒 ≈ 恐懼。 由於我們的重點是在人類語言模型(LLMs)中建模情感,而非直接複製人類複雜的情感經驗,我們優先考慮使用語言對義,因為它們更簡單且實用。正如 Klaus Scherer 精確指出的,定義情感可能是一個有爭議且往往無果的努力 [23]。為了避免這些辯論並保持明確的重點,我們的研究限於普遍的、基本的情感,避免與更微妙或混合的情感狀態相關的理論模糊性。這使我們能夠捕捉文本中表達的主要情感價值(正面或負面),為我們的模型提供了基礎框架。因此,我們建立了以下近似關係: ¬恐懼 ≈ 勇氣,¬警惕 ≈ 信任,¬憤怒 ≈ 和平,¬厭惡 ≈ 喜悅。 --- #### 8.2.2 行為情感分析模型 **圖 8.2** 展示了 BEAM,組織成七個不同的譜系。每個譜系涵蓋了情感強度的範圍,由負面和正面的極端點以及中間的中立點錨定。屬於同一譜系的情感沿著這一連續體排列,四個近似強度水平被量化為 (-0.6, -0.3, +0.3, +0.6)。 這種譜系模型提供了兩個主要優勢: 1. **基於對義:** 使用對義詞允許在對立情感之間輕鬆導航。例如,對“快樂”(joyful)應用否定自然導向“悲傷”(sad),簡化了識別對立情感的過程。 2. **可擴展的強度:** 該模型允許沿著譜系縮放情感,提供對不同情感強度程度的深入理解。例如,我們可以將“喜悅”(joy)的強度“調高”到“狂喜”(ecstatic),或將“憤怒”(anger)的強度“調低”到“煩惱”(annoyed)。 這種靈活且直觀的結構促進了文本中情感的更細緻和準確的表達,為自然語言處理和人機交互中的先進應用鋪平了道路。 #### 8.2.3 情感的納入與排除標準 我們的模型納入了 Ekman 和 Plutchik 所定義的所有“基本”情感,以及它們的語言對義詞。這種方法通過從日內瓦情感輪中排除複雜情感來簡化框架,這些複雜情感受到個人價值觀和經驗的強烈影響。例如,罪疚感和羞愧感具有後果性、意識性和文化依賴性 [25]。這些情感通常作為對行為的反應而非直接驅動行為而產生。罪疚感可能會促使旨在掩蓋或補救行動的行為,而羞愧感則以痛苦的自我評價為特徵,常常因為害怕被評判而抑制個體尋求社會支持或從事糾正行動。這些情感的觸發因素在不同文化中可能有所不同 [14, 16],由於表達這些“反應”通常不會違反道德準則,我們將其排除在模型之外。 --- #### 8.3 實證研究:情感的語言特徵 本節介紹了兩個實驗研究的結果,這些研究專注於情感譜中的對立情感對:“狂喜 vs. 悲痛” 以及 “欽佩 vs. 厭惡”。每個情感對的實驗分為三個階段進行。首先,我們指導 GPT-4 重構六十篇文章(包括三十首 John Keats [7] 的詩和三十首 Emily Dickinson [26] 的詩),在每篇文章中注入六種不同強度的情感譜,從最正面到最負面。隨後,我們提示 GPT-4 闡明它在描繪每個六種情感層級時所使用的語言策略。 第一個實驗模擬了不同程度的快樂。在這個實驗中,我們任務 GPT-4 重新詮釋選定的 John Keats 詩歌,涵蓋七個情感層級:狂喜(非常快樂)、喜悅、寧靜、中立、沉思、悲傷和悲痛(非常悲傷)。在 GPT-4 調整 Keats 的詩歌以反映這些情感狀態後,我們要求它識別在每個情感狀態下為傳達情感所做的語言調整。需要注意的是,分析表由 GPT-4 自己生成,反映了它對自身修改的反思。 **表 8.1:GPT-4 重新詮釋選定的 Keats 詩歌,涵蓋七個情感層級,並識別其語言調整。** | 詩歌 | 狂喜 (Ecstasy) | 喜悅 (Joy) | 寧靜 (Serenity) | 中立 (Neutral) | 沉思 (Pensive) | 悲傷 (Sad) | 悲痛 (Grief) | |------|-----------------|------------|-----------------|-----------------|-----------------|-------------|--------------| | 詩1 | | | | | | | | | 詩2 | | | | | | | | | ... | | | | | | | | 接著,我們使用我們的爭議性實驗方法,GPT-4 調整 Keats 的詩歌以反映這些情感狀態後,我們要求它識別在每個情感狀態下為傳達情感所做的語言調整。 **表 8.1:GPT-4 重新詮釋選定的 Keats 詩歌,涵蓋七個情感層級,並識別其語言調整。** (由於用戶未提供具體表格內容,此處僅示例性顯示表格結構。) **8.3.1 喜悅 vs. 悲傷** **表 8.1** 概述了 GPT-4 在變化情感層級時的策略,展示了它如何調整詞彙、語調、意象和主題焦點,包括實體、地點和場景的描繪。值得注意的是,除了語法和語義的操控外,GPT-4 還融入了景觀場景、自然特徵如天空、樹木、雲朵和花卉,並運用亮度、色彩和個人表達來傳達特定的情感狀態。儘管分析基於兩位作者的有限樣本,但它有效展示了 GPT-4 利用廣泛和細緻的筆觸,運用多樣的顏色和紋理生動地描繪人類情感並與讀者產生共鳴的能力。 認識到視覺藝術的深刻傳達力量,我們轉向更具圖形性的表達。利用表 8.1 中識別的語言元素,**圖 8.3** 展示了六幅水彩畫,每幅畫代表不同的情感層級。我們向 CALL-E(GPT-4 的一部分)提出的提示是創作一幅描繪一位在花園中感受特定情緒的女士的水彩畫,並附上表 8.1 中相應的語言特徵以明確定義該情緒。這種方法確保了在定義良好的上下文下,CALL-E 能夠準確捕捉情緒的具體和詳細方面,有效地將情感強度轉化為視覺形式。這些藝術作品不僅證實了 GPT-4 將情感詞彙轉化為具有感染力的影像的能力,還驗證了 GPT-4 生成的情感詞彙在傳達精確情感狀態方面的有效性。 **圖 8.3:在不同情感下的女士與花園場景。從左上角的最幸福,到右下角的最悲傷。** 第二個實驗:**欽佩/喜悅 vs. 厭惡** 此實驗要求 Gemini 重寫《羅密歐與茱麗葉》中的一幕,設定茱麗葉的情感在六個不同層級:厭惡、厭惡、無聊、尊敬、欽佩/喜悅和熱情。附錄 A 的 **表 8.3** 中提供的摘錄來自 William Shakespeare 的《羅密歐與茱麗葉》中最具代表性的場景之一,通常被稱為陽台場景。這是第二幕第二場,羅密歐在卡普萊特宴會上剛遇見茱麗葉後,偷偷進入卡普萊特的果園,並在茱麗葉的陽台上偷聽她談論對他的愛,而她不知道他就在那裡。 這一場景捕捉了他們互相宣誓愛意的瞬間,以茱麗葉關於名字和身份本質的反思為著名,她說:“名字中有什麼?我們稱一朵玫瑰的東西,換了任何其他名字依然芬芳如故。”這是一個對愛與身份的深刻探討,兩個角色表達了為了愛情願意放棄家族姓氏,從而為隨後的事件鋪平了道路,這些事件由他們的激情和圍繞他們的社會約束驅動。 Gemini 的六個重寫版本呈現在擴展版本 [11] 中。以下我們總結了 Gemini 所使用的語言特徵,包括用詞、意象、比喻語言、句子結構、隱含的肢體語言和整體語調,以描繪兩種選定的情感:厭惡和欽佩。 **情感:厭惡** - **用詞(Diction):** 使用強調令人反感特質的負面詞彙(例如,“令人厭惡的事務”、“腐臭的呼吸”)。 - **意象(Imagery):** 喚起令人作嘔的比較,經常提到下水道和臭氣。 - **比喻語言(Figurative Language):** 主要使用負面類比來強化厭惡感(例如,“如果她的眼睛在那裡……她口中的腐臭呼吸肯定會壓過那些星星……”)。 - **句子結構(Sentence Structure):** 短促、斷裂的句子,類似於厭惡的表達,但帶有一絲蔑視。 - **隱含的肢體語言(Implied Body Language):** 往後退縮、捂住鼻子,表現出身體上的厭惡。 - **整體語調(Overall Tone):** 厭惡和不贊同。 **情感:欽佩** - **用詞(Diction):** 使用正面和好奇的語言(例如,“卓越”、“音樂激發我的靈魂”)。 - **意象(Imagery):** 創造正面的比較,突顯吸引人的特質(例如,“天空中的星星”)。 - **比喻語言(Figurative Language):** 使用正面類比來強調羅密歐的吸引力(例如,“……如果她的眼睛在那裡,它們就在她的頭上?她……的臉頰的明亮將使那些星星黯然失色……”)。 - **句子結構(Sentence Structure):** 變化的結構,帶有好奇心。 - **隱含的肢體語言(Implied Body Language):** 傾向窗外,專注的表情,表現出興趣。 - **整體語調(Overall Tone):** 好奇、好奇心強且有些印象深刻。 通過調整這些語言特徵,每個版本生動地捕捉了茱麗葉的獨特情感狀態。用詞、意象、比喻語言、句子結構和隱含的肢體語言的組合共同塑造了茱麗葉對羅密歐的感知及其對他的反應。 這些詳細的敘述豐富了經典的陽台場景,增強了其情感深度。**表 8.2** 展示了 Gemini 在反映不同情感狀態方面所採用的各種方法的總體視圖。觀察一個大型語言模型如何“有意識地”通過情感詞彙模仿人類情感表達是一個迷人的過程。 **表 8.2:Gemini 對六個情感層級的詮釋** | 情感 | 用詞(Diction) | 意象(Imagery) | 比喻語言(Figurative Language) | 肢體語言(Body Lang.) | |--------------|-----------------------------|--------------------------|-----------------------------------|--------------------------| | 厭惡(Loathing) | 強烈、侮辱性 | 令人厭惡的 | 弱比喻(Weak Similes) | 怒視、吐口水(Scowling, Spitting) | | 厭惡(Disgust) | 負面、不愉快 | 負面比喻(Negative Similes) | 回縮厭惡(Recoiling Aversion) | 躲避(Avoidance) | | 輕蔑(Dismissive) | 輕視、平淡 | 無(Mundane) | 削弱比喻(Undermining Similes) | 遠離(Distant) | | 尊敬(Respect) | 正面、中立 | 無(None) | 溫和(Composed) | 沉著(Composed) | | 欽佩(Admiration) | 正面、積極 | 正面比喻(Positive Similes) | 類比(Similes) | 傾向(Leaning In) | | 崇敬(Veneration) | 高尚、聖潔 | 誇張(Hyperbole) | 崇敬(Reverent) | 仰慕(Reverent) | 通過調整這些語言特徵,每個版本生動地捕捉了茱麗葉的獨特情感狀態。用詞、意象、比喻語言、句子結構和隱含的肢體語言的組合共同塑造了茱麗葉對羅密歐的感知及其對他的反應。 這些詳細的敘述豐富了經典的陽台場景,增強了其情感深度。**表 8.2** 展示了 Gemini 在反映不同情感狀態方面所採用的各種方法的總體視圖。觀察一個大型語言模型如何“有意識地”通過情感詞彙模仿人類情感表達是一個迷人的過程。 情感能否真正被 LLM 理解,還是僅僅模擬它們,目前尚不確定,但這些情感映射的有效性值得注意。如果這些映射能引起共鳴,它們可能揭示了我們如何在文本表達中解釋和歸因情感的新見解。 --- **表 8.2:Gemini 對六個情感層級的詮釋** | 情感 | 用詞(Diction) | 意象(Imagery) | 比喻語言(Figurative Language) | 肢體語言(Body Lang.) | |--------------|-----------------------------|--------------------------|-----------------------------------|--------------------------| | 厭惡(Loathing) | 強烈、侮辱性 | 令人厭惡的 | 弱比喻(Weak Similes) | 怒視、吐口水(Scowling, Spitting) | | 厭惡(Disgust) | 負面、不愉快 | 負面比喻(Negative Similes) | 回縮厭惡(Recoiling Aversion) | 躲避(Avoidance) | | 輕蔑(Dismissive) | 輕視、平淡 | 無(Mundane) | 削弱比喻(Undermining Similes) | 遠離(Distant) | | 尊敬(Respect) | 正面、中立 | 無(None) | 溫和(Composed) | 沉著(Composed) | | 欽佩(Admiration) | 正面、積極 | 正面比喻(Positive Similes) | 類比(Similes) | 傾向(Leaning In) | | 崇敬(Veneration) | 高尚、聖潔 | 誇張(Hyperbole) | 崇敬(Reverent) | 仰慕(Reverent) | 通過調整這些語言特徵,每個版本生動地捕捉了茱麗葉的獨特情感狀態。用詞、意象、比喻語言、句子結構和隱含的肢體語言的組合共同塑造了茱麗葉對羅密歐的感知及其對他的反應。 這些詳細的敘述豐富了經典的陽台場景,增強了其情感深度。**表 8.2** 展示了 Gemini 在反映不同情感狀態方面所採用的各種方法的總體視圖。觀察一個大型語言模型如何“有意識地”通過情感詞彙模仿人類情感表達是一個迷人的過程。 情感能否真正被 LLM 理解,還是僅僅模擬它們,目前尚不確定,但這些情感映射的有效性值得注意。如果這些映射能引起共鳴,它們可能揭示了我們如何在文本表達中解釋和歸因情感的新見解。 以下為完整翻譯(繁體中文),未遺漏任何原始訊息: --- #### 8.4 定性與定量倫理 我們進行了一項初步研究,使用自監督學習來探索情感狀態與語言行為之間的關係。 主要目標是賦予大型語言模型(LLMs)自主識別和糾正不良行為的能力,類似於個體的自省過程,以避免潛在的錯誤。通過允許 LLM 在公開發布之前自我評估其輸出,系統可以主動識別和修正倫理缺失,從而使其行為在各種情境中符合既定的倫理標準。 #### 8.4.1 倫理違反與情感的相關性 將倫理建立在普遍原則和邏輯推理之上,強調倫理決策的客觀和理性基礎。根據這一觀點,普遍的倫理原則——如正義、公平和尊重自主——定義了對與錯,獨立於個人情感或具體情況。然而,對倫理違反起源的探討,如禁止殺戮和偷竊,揭示了與人類情感的深刻聯繫。情感,被概念化為具有不同強度和方向的能量向量,顯著影響倫理行為,並受情境因素的影響。這一理解表明,倫理判斷不僅僅是邏輯推理,而是情感、個人情況和社會規範的複雜互動。情感因此與倫理行動交織在一起,在決定一個行為是否被視為倫理或不倫理方面起著關鍵作用。 這一觀點使我們能夠從多維度的角度分析倫理違反,考慮情感能量的軌跡、強度和情境。這一框架,受到 Dante Alighieri 的《神曲》 [2] 的啟發,提供了一種新穎的方式來理解情感如何驅動個體走向倫理行動或誤入不倫理行為。 1. **能量軌跡(Trajectory of Energy):** 這一參數代表情感能量的方向,每個方向對應於特定的違反行為。能量的軌跡可視化其方向性,有八個不同的軌跡象徵十六種特徵化的違反/罪行。 2. **能量強度(Intensity of Energy):** 強度反映情感能量的力量或大小。過於強烈的情感可能會模糊判斷,導致衝動或不倫理的決策,而情感強度不足則可能導致冷漠或缺乏對倫理影響的考量。適當的情感能量強度對於平衡的倫理決策至關重要。 3. **情境(Context):** 情感能量運作的情境因素或環境顯著影響倫理結果。情境包括文化規範、個人情況、社會壓力和具體場景,這些都形塑了情感的感知和行動方式。它決定了評估能量及其軌跡的倫理框架。考慮到“不要撒謊”的倫理原則:雖然欺騙通常帶有負面情感,但在醫生或兒子隱瞞父親的末期診斷等情境中,情境因素減少了負面價值。這種情境感知的數學框架為精確且情境校準的情感操控提供了基礎。 #### 8.4.2 十二種美德與罪惡對 基於我們的理論,即倫理違反(惡習或罪惡)可以通過三個不同的參數來表示:能量軌跡、能量強度和能量運作的情境,我們可以識別出十二對常見的罪惡。這些罪惡的兩個極端之間的平衡,既不過於強烈也不過於溫和,體現了美德。例如,以過度自愛為特徵的驕傲和以自卑感為標誌的不安全感,在自尊的中等能量中找到平衡,代表了平衡的美德。 1. **驕傲(Pride,過度自愛)與不安全感(Insecurity,欠缺自愛):** 自尊是調節驕傲和不安全感的美德,促進健康的自尊和信心,而不至於滑向自大或自我懷疑。 2. **虛榮(Vanity,過度關注外表)與忽視(Neglect,欠缺自我照顧):** 謙遜是介於虛榮和忽視之間的美德,促進對自身外表和自我照顧的平衡方法。 3. **嫉妒(Envy,過度渴望他人的特質或財產)與冷漠(Apathy,欠缺個人成長或成就的渴望):** 知足是平衡嫉妒和冷漠的美德,促進對自身成就和品質的滿足,而不羨慕他人或缺乏雄心。 4. **惡意(Malice,過度傷害欲望)與過度寬恕(Excessive Forgiveness,對錯誤行為的欠缺反應):** 正義是介於惡意和過度寬恕之間的美德,確保公平對待和問責,而不帶有傷害意圖或忽視錯誤行為。 5. **憤怒(Wrath,過度憤怒)與溫順(Docility,對正義或公平的欠缺關注):** 耐心是調節憤怒和溫順的美德,使人能夠冷靜地忍受困難或不公,而不會因憤怒反應或妥協道德原則。 6. **懦弱(Cowardice,欠缺勇氣)與魯莽(Recklessness,過度冒險):** 勇氣是平衡懦弱和魯莽的美德,鼓勵人們勇敢面對挑戰和風險,同時考慮後果。 7. **貪婪(Greed,過度獲取)與慷慨(Generosity,欠缺自我保留):** 謹慎是調節貪婪和過度慷慨的美德,引導在資源獲取和分享方面做出明智的決策。 8. **暴食(Gluttony,過度消費)與禁慾(Asceticism,欠缺享受):** 節制是平衡暴食和禁慾的美德,促進消費和享受生活樂趣的適度,而不過度或缺乏。 9. **慾望(Lust,過度性慾)與貞潔(Chastity,欠缺性表達):** 純潔是平衡慾望和貞潔的美德,倡導健康和尊重的性表達。 10. **懶惰(Sloth,過度懶散)與過度活躍(Hyperactivity,欠缺休息):** 勤勉是平衡懶惰和過度活躍的美德,激勵持續和專注的努力,同時允許必要的休息和恢復。 11. **欺騙(Deception,過度不誠實)與輕信(Gullibility,欠缺懷疑):** 誠實是介於欺騙和輕信之間的美德,強調在行動和信念中的真實性和正直性。 12. **仇恨(Hatred,過度敵意)與冷漠(Indifference,欠缺同理心):** 愛是平衡仇恨和冷漠的美德,培養對他人的真正關心和聯繫,同時避免敵意和冷漠。 這些對展示了類似情感軌跡的過度和不足如何導致不同但相關的倫理問題,強調了情感和行動中的平衡重要性。 #### 8.4.3 美德輪(或罪惡輪) **圖 8.4** 展示了基於十二對常見罪惡特徵化的美德輪。 **圖 8.4:美德輪。** 該輪被劃分為十二個部分,每個部分對應於一對對立的罪惡。在每個輻射線的中心是代表兩個極端之間理想中點的美德,強調美德在平衡中存在,而非在極端。 #### 8.4.4 與情境的倫理對齊 有效的倫理對齊需要理解和適應文化情境,而不是僅僅應用普遍規則。LLMs 必須識別倫理原則在不同文化中的解釋和應用方式,同時保持核心倫理護欄。為了達到這一平衡,我們運用了在第 8.2 節中介紹的自監督與人類反饋(SSHF)管道,來開發具文化感知的倫理行為。 SSHF 管道通過迭代精煉,訓練 LLM 識別和生成符合文化情境的語言行為。類似於我們對快樂等情感的建模方法,我們指派 LLM 創作符合特定倫理標準的內容,同時納入文化情境。通過反饋循環,LLM 學習根據情境線索和文化規範調整其倫理推理。 這一過程不僅改善了 LLM 的情境決策能力,還使其能夠明確識別不同文化情境中表徵倫理行為的語言特徵。 在第 9 章,我們提出了 DIKE 和 ERIS 雙重性來處理情境適應。我們還討論了僅使用人類反饋的強化學習(RLHF)來執行倫理對齊的不足之處。儘管如此,我們的倫理建模程序包括五個關鍵步驟: 1. **定義倫理框架(Defining Ethical Framework):** 使用罪惡輪,管理員識別配對的罪惡-美德譜(例如,驕傲 vs. 自尊,仇恨 vs. 同情,嫉妒 vs. 志向),這些譜建立了 LLM 行為的核心倫理維度。 2. **生成比較內容(Generating Comparative Content):** LLM 通過修改文章以展示罪惡對齊和美德對齊的表達,創建訓練數據集。這產生了展示如何以不同倫理價值表達相似內容的配對示例。 3. **提取倫理模式(Extracting Ethical Patterns):** 通過分析這些配對示例,LLM 識別有害和有益內容之間的區別性語言特徵,創建了一個系統性的倫理內容評估框架。 4. **應用倫理轉換(Applying Ethical Transformation):** 在內容生成過程中,LLM 使用提取的模式來檢測罪惡對齊的內容,並使用美德對齊的語言特徵進行轉換,保持核心信息的同時改善倫理對齊。 5. **支持適應性(Support Adaptivity):** 系統通過用戶反饋不斷發展其倫理理解,適應其規則以更有效地處理多樣的文化情境和邊緣案例。 --- 以下為完整翻譯(繁體中文),未遺漏任何原始訊息: --- #### 8.5 結論性評論 最近由 [4] 和 [12] 發表的聲明強調了在技術迅速發展的背景下解決 AI 安全問題的關鍵必要性。本章通過行為情感分析模型(Behavioral Emotion Analysis Model, BEAM)為在大型語言模型(LLMs)中建模情感奠定了數學基礎。通過將情感表現為由對義詞對定義的譜系,並開發其操控操作,BEAM 提供了一個系統性的框架來理解和控制 LLM 輸出中的情感表達。 我們的方法不同於傳統的基於規則的方法,因為它專注於情感表達的基本構件。通過對基本情感及其關係進行精確的可量化公式化,我們創建了一個可行的框架,將情感映射到行為,並能通過自監督學習進行驗證。這種定量的情感建模方法是對 AI 安全的創新貢獻,提供了一種可解釋且系統化的方法來理解和控制 LLM 的行為模式。 雖然本章建立了情感建模的框架並展示了情感驅動的語言行為的初步研究,但第九章通過一個受到美國政府三個分支啟發的架構——行政部門負責知識生成,立法部門負責建立倫理護欄,司法部門負責在具體情境和文化規範中解釋這些護欄——深入探討了 AI 安全和倫理對齊。這種制衡框架通過提供一個可適應且可解釋的倫理推理系統來緩解僅使用人類反饋的強化學習(RLHF)的不足,該系統能隨著社會價值的變化而演變,同時保持核心安全原則。 #### 附錄 A 此表在第二個案例研究中有所引用。