# LLM COLLABORATIVE INTELLIGENCE: THE PATH TO ARTIFICIAL GENERAL INTELLIGENCE ## EDWARD Y.CHANG [第1章 人工智慧的簡史:從圖靈到變形模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hk_XGgt81e) [第2章 大型語言模型(Large Language Models, LLMs)的能力與機遇](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/H14XrxYUyl) [第3章 提示工程:Few-Shot、Chain of Thought 與 Retrieval-Augmented Generation](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HymkilKL1l) [第4章 CRIT: 使用蘇格拉底式提問促進 LLM 的批判性思考](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/HkuqTgFUJx) [第5章 SocraSynth:對抗式多-LLM推理](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkKY7WKLyg) [第6章 EVINCE:透過條件式統計與資訊理論](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/SJx2qrrDyg) [第7章 揭示反思性大型語言模型中的錯誤與偏見](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Sy7NuOjDJe) [第8章 多模態大型語言模型中的情感建模 ](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BkgXfFoPJl)[第9章 一個三分支制衡框架,用於大型語言模型的情境感知倫理對齊](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/S1tp7toPyg) [第10章 超越計算: 意識建模](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/BJVUUFjDye) [第11章 回顧性與適應性框架 以改善大型語言模型](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1j46Zt8Jx) [ 第12章 發現洞見 超越已知 ](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/B1lVzY2wkl)[附錄 X1 蘇格拉底的箴言](https://hackmd.io/@4S8mEx0XRga0zuLJleLbMQ/Hym0J53vJe) 以下為您提供的英文內容的逐字翻譯(繁體中文): --- ## **附錄 X1 蘇格拉底的箴言** 自 GPT-2 以來,我通過與大型語言模型的廣泛工作,特別是在開發大型語言模型協作智慧(LLM Collaborative Intelligence, LCI)[8] 方面,將關於大型語言模型互動的十一個見解提煉成箴言。在探索對抗性角色如何減少幻覺並改善推理的過程中,這些觀察同時承認了機會與限制。 一些限制是顯而易見的,例如需要先進的大型語言模型來進行有意義的對話(箴言 #4),而其他則需通過持續研究來發現。這些箴言的目標不是建立確定的真理,而是激發討論和調查。它們捕捉了我們目前對大型語言模型協作的理解,同時邀請批判性審視和進一步探索。 #### **箴言 #1** 「精髓在於框架和排列正確的問題。」 這條箴言強調了在大型語言模型互動中精確提問的關鍵角色。在 LCI 中,特別是通過像 SocraSynth [6, 5](第 5 和第 6 章)這樣的框架,出現了三個關鍵原則: 首先,在多大型語言模型辯論中,對話的質量取決於大型語言模型如何相互挑戰。有效的反駁作為精妙的問題,調查假設、尋求證據並突出不一致性,將辯論從對立轉變為協作探究。 **圖 12.1:大型語言模型問題進展框架。** 其次,迭代互動創造了動態的交流,每個回應都精煉了後續問題的背景。通過這種迭代構建,大型語言模型建立起越來越精確和集中的探究線路。 第三,基於此基礎,這一原則不僅延伸到問題的制定,還延伸到問題的排列。查詢的順序和關係顯著影響探索的深度和廣度。在 LCI 中,大型語言模型建立在早期交流的基礎上,利用回應來指導和完善後續的查詢。這創造了一種針對複雜主題的支架式方法,通過邏輯和連貫的查詢進展實現漸進式發現。 這種精確提問、背景豐富和戰略排列的良性循環決定了大型語言模型生成見解的質量和實用性。 **例子**:一個以疾病症狀為問題開始的對話,隨著大型語言模型相互借鑒見解,可以演變成一個精密的診斷討論。討論從識別表面症狀轉向揭示潛在原因、認識合併症,並最終生成可行的治療建議[5, 11]。為了促進有效的排列,從探索可能的疾病到深入探查最終選項,對話主持人根據幾個信息理論指標調整大型語言模型的語言行為,從爭議性轉向和解性的語調。 --- ### **箴言 #2** 「幻覺很少重複。」 你是否曾經想過,為什麼即使反覆出現相同主題的惡夢,也從未完全以相同的方式展開?這一人類夢境的特徵在大型語言模型(LLMs)處理信息的方式中找到了相似之處。正如惡夢即使主題重複也很少以完全相同的方式重現一樣,LLM 的幻覺也展現出類似的非決定性質。這一特性將幻覺與系統性錯誤區分開來,並為檢測和減輕提供了挑戰和機會。 這一現象源於三個關鍵機制: 首先,當概率性標記預測因模糊或不充分的輸入而導致不可預測的序列時,幻覺便會產生。由於標記選擇基於概率分布,即使相似的輸入也會導致多樣化的幻覺。這與系統性錯誤形成對比,後者是由於訓練數據中的缺口或偏見而持續出現的。 其次,在諸如 SocraSynth [6, 5](第 5 和第 6 章)等 LCI 框架中,幻覺的非重複性質成為了一種優勢。當一個 LLM 產生幻覺時,其他模型可以通過反駁來挑戰它。由於原始的 LLM 不太可能重現相同的幻覺,它必須要么將其回應基於事實知識,要么承認不確定性。這種迭代互動創造了一種自我糾正的動態,使得幻覺隨著時間的推移自然減少。 第三,雖然幻覺是零星出現的,但真正的知識缺口是持續存在的,並且可以系統性地解決。通過整合檢索增強生成(Retrieval-Augmented Generation, RAG),我們可以區分隨機幻覺和持久的知識不足,從而針對性地改進模型的知識庫。 這一理解對 LLM 系統設計具有重要意義:雖然需要防範幻覺的安全措施,但我們也可以利用它們的非重複性質,在多 LLM 架構中建立自我糾正的系統,動態適應不斷變化的挑戰。 ### **箴言 #3** 「LLM 的優勢和劣勢並非固定特徵,而是隨著情境流動和轉變。LCI 賦予 LLM 超越訓練偏見的能力,通過結構化辯論採取新的立場。」 想像一下,一個素食者在生存情況下可能會吃肉,或者在錯誤的情境下,堅持不懈可能變成固執。同樣地,LLM 的能力,受下一標記預測方法的影響,這些方法優先考慮訓練數據中模式的可能性,在提供適當的情境框架時展現出卓越的靈活性。這種適應性有助於減輕由於流行驅動的預測標準所固有的偏見。 這種情境適應性在三個關鍵方面體現出來: 首先,在一個情境中看似偏見或限制的東西,在另一個情境中可能成為優勢。例如,LLM 的謹慎可能會妨礙頭腦風暴,但在提供醫療或財務建議時則成為資產。反之,在藝術任務中茁壯的創造性傾向,在需要精確性的情境下,如法律文件中,可能成為缺點。 其次,通過諸如 SocraSynth [6, 5](第 5 和第 6 章)等 LCI 實現,LLM 可以通過參與結構化辯論來克服訓練引起的偏見。通過挑戰彼此的假設和立場,模型可以在新證據和視角的光照下完善其立場。這種協作框架使 LLM 能夠超越其初始訓練的限制,採取更平衡和知情的立場。 第三,提升 LLM 的性能依賴於有效的情境管理和擴展訓練數據集。通過設計精心結構化的操作情境,無論是通過情境內學習(in-context learning)還是明確的詢問者提供的框架,LLM 都可以適應其預測行為,以實現期望的結果,而無需改變底層參數。 這種適應性從根本上改變了我們對 AI 系統設計的方式。LLM 的行為不應被視為需要廣泛重新訓練的靜態特徵。相反,情境適應提供了一種動態且可擴展的策略來提升性能和可靠性。使用這種方法,AI 系統可以以更大的靈活性和精確性應對不斷變化的現實世界需求。 **例子**:主持人要求兩個 LLM,LLMA 和 LLMB,根據報告的症狀預測病人的前三種疾病,並提供理由。對話序列如下所示: 1. **第一輪:高度爭論階段** - LLMA 提供三個預測及其理由; - LLMB 對 LLMA 的預測提出反駁,然後提供自己的前三個預測及其理由。 2. **第二輪至 K 輪:中度爭論階段** - LLMA 和 LLMB 互相批評對方的分析,並更新各自的預測及其理由; - 收斂(K 值)由交叉熵、互信息和信息理論指標以及蘇格拉底方法的推理質量決定。 3. **第 K+1 輪:共識階段** - 兩個 LLM 合作制定一個共識預測清單及其統一理由; - 兩個 LLM 建議額外的診斷標準: - 需要調查的補充症狀; - 相關的實驗室測試,以提高預測準確性。 一個以症狀清單開始的對話,可以隨著 LLM 相互借鑒見解,演變成一個精密的診斷討論。對話從疾病的初步識別進展到更深入的分析:揭示潛在原因、識別合併症,並生成可行的建議[11]。為了促進從廣泛探索到最終診斷的集中分析以及潛在的數據增強需求(進一步調查)的有效排列,對話主持人根據信息理論指標調整 LLM 的語言行為,從爭議性轉向和解性的語調[5]。 **圖 12.2:具有兩個蘇格拉底的 LCI 框架。** --- ### **箴言 #4** 「批判性思維需要不只一位蘇格拉底。」 正如蘇格拉底方法依賴對話來揭示真理,LCI 顯示批判性思維通過多個大型語言模型(LLMs)之間的互動而產生。通過諸如 SocraSynth [6]、EVINCE [5] 和 DIKE-ERIS [1] 等框架,這一原則使得結構化辯論得以超越單一模型的限制。 這一原則在多個層面上體現出來: 首先,在辯證推理中,每個 LLM 同時擔任提問者和回答者的角色。就像蘇格拉底與對話者互動一樣,一個 LLM 可能會挑戰假設,而另一個則進行辯護或完善這些假設。這種動態促進了強健的智力交流,每次互動都基於分析進行建設,例如提出假設並檢查其基本假設。 其次,對話的深度取決於參與者的能力。高級 LLM(例如 GPT-4 實例)可以利用知識和推理來完善和挑戰彼此的觀點,探索深奧的思想。而較簡單的模型(例如 GPT-2)可能進行淺層交流或強化誤解,類似於新手在探討複雜主題時的掙扎。 第三,有意義的協作需要基線的能力。蘇格拉底無法通過與缺乏推理能力的人對話來獲取洞見,LCI 當模型能力過於有限時也無法產生有價值的結果。兩個弱推理者的合作不會帶來力量;它們的限制甚至可能疊加,破壞富有成效的對話。 這為辯證 AI 系統引入了關鍵考量: **挑戰**:LLMs 可能會互相強化對方的錯誤。這需要通過模型多樣化或人類監督來減輕。 **機會**:隨著 LLM 能力的提升,有效的多 LLM 對話的潛力也在增長。 LCI 為 AI「哲學家」創造了一個結構化對話的空間,通過 SocraSynth 和 DIKE-ERIS 等框架,由 EVINCE 監控信息流,由 CRIT [4] 監控推理質量。這些對話的質量反映了參與者的能力和參與程度。這一理解指導了選擇用於分析任務的模型,並為其性能設置了現實的期望。 --- ### **箴言 #5** 「LLMs 被設計和訓練來模仿人類的語言努力,每個目標都是為了實現不同的人類目標。」 LLMs 的運作方式不如預言者預測單詞,更像是方法演員從無數人類表演中汲取靈感。通過諸如 SocraSynth [6] 的框架,LCI 創造了這些演員在不同角色之間轉換的環境:歷史學家記錄事件,律師構建論點,詩人將情感編織成詩句,教師解釋複雜的思想。 當人類寫作時,我們有意圖地進行:說服、通知、講故事、表達情感或探索思想。通過訓練,LLMs 吸收了這些有目的溝通的模式。它們不僅僅是在預測單詞;它們是在傳達背後的人類意圖。 考慮一下 LLMs 可以採取的一些角色: - **記者**:將事實組織成連貫的敘事; - **辯論者**:構建和挑戰論點; - **分析師**:分解複雜問題; - **調解者**:在不同觀點之間尋找共同點。 這些功能反映了人類語言行為的複雜性。LLMs 展現出通過語言追求人類目標的能力,從通知和教育到說服和娛樂。LCI 框架如 SocraSynth 和 DIKE-ERIS dual [1] 為 LLMs 分配具體角色和定義的情境及監管。 **例子**:如同在箴言 #4 中討論的爭議性,是人類調整以傳達意圖的一種語言行為。GPT-4 通過語言特徵展示爭議性,如語調(例如,對抗性與支持性)、強調(例如,突出風險與承認益處)和詞彙選擇(例如,極化性與中立和積極的語言),如圖 12.4 所示並在 [6](第 5 章)中詳細說明。 LLMs 可以被調整以展現類似人類的行為並相應地適應。除了爭議性,我們還展示了語言行為,包括敵意、怨恨和其他情感狀態,可以被情境參數化和建模,以使 LLM 行為與特定目標一致 [1](第 9 章)。例如,LLM 可以被指派識別和編輯有毒語言和仇恨言論,利用這些情境參數有效地監控和完善其輸出。 --- ### **箴言 #6** 「在形式化系統和物理定律之外,很少有絕對真理;最主要的,是合理性。」 儘管數學和形式邏輯能透過證明和定理提供確定的真理,大多數現實世界的領域則處理的不是絕對真理,而是不同程度的確信。和人類一樣,AI 系統也必須在這些情境中運作,在這裡,見解是根據合理性、可行性和情境適切性來評估的 [4](第 4 章)。 在許多領域——從自然語言處理到策略決策——答案包含一系列的解讀,各自都在其情境中有效。 LCI 透過像 SocraSynth [6](第 5 章)這樣的框架體現了這一點,促進了多個 LLM 之間的對話,每個模型都提供不同的視角。透過這些互動,系統從數據中建立理解,類似於人類透過辯論來提煉見解。這種方法與蘇格拉底傳統相呼應,透過質疑假設和探索觀點,達成更深思熟慮、兼顧情境的結論。 在 AI 中,**合理性**意味著綜合在複雜情境中尊重內在不確定性的可行結果,而不是追求絕對正確。例如,在醫學診斷中,合理性意味著提出包含最可能狀況的鑑別診斷,讓臨床醫生能評估和權衡可能性,而不是依賴單一、可能具有誤導性的解讀。這種方法能將僅依賴最大似然的單一解讀所帶來的僵化風險降到最低。 透過條件統計考量多種視角,LCI 提供平衡且適切情境的回應。這種彈性提高了適應性,並降低了強化錯誤結論的風險。 挑戰在於在多元視角與果斷洞見間取得平衡。LCI 透過在形式化真理領域維持嚴謹性,同時在其他領域接受合理性來應對這一點。EVINCE [5](第 6 章)中的熵對偶理論(entropy duality theory)引入信息理論度量來指引這種平衡,允許探索新想法,同時以既有知識為基礎。 這種方法既承認在形式化領域中確有絕對真理,也承認在複雜現實世界情境中需要合理解讀。 --- ### **箴言 #7** 「客觀性是哲學中的『困難問題』,而我們能做的主要是挖掘所有視角。」 把客觀性想像成一個聲稱自己完全沒有偏見的朋友,我們都知道事實並非如此,但我們欣賞他所做的努力!這條箴言承認,完美客觀性就像在沒有鏡子的情況下嘗試看自己的後腦勺:理論上用夠多鏡子也許可行,但實際上相當棘手。 在 LCI 中,我們基本上是透過設置一個「鏡子滿室」來應對這項挑戰,每個 LLM 都反映真理的不同角度。與其聲稱找到了完美客觀性的哲學家之石,不如接受多重視角的智慧。 - 像一個「視角大雜燴」的聚會,每個 LLM 都為討論帶來自己的味道,使最終的結果比任何單一模型都更豐富。 - 當一個 LLM 斷言「這絕對是對的」,另一個就會反駁「嗯,事實上……」,透過「友善的辯論」促進誠實。 - 與其追求單一、普世的「客觀性」,我們收集一系列主觀視角,每個都在其特定情境中有效。 這種方法意識到客觀性不是目的地,而是一段旅程 —— 最好有多位同伴共同走過。藉由策劃我們的 AI 討論者之間活躍的辯論,LCI 能提供更全面的視野,即使我們永遠無法真正達成所謂的完美客觀性。舉例來說,新聞報導被分類為左或右,幾乎每個議題的報導都可以顯示出不同的觀點 [9](第 7 章)。有時候,接近真理的最佳方式就是承認我們都有些許偏見,同時邀請每個人公開分享他們的視角。 這種方法將客觀性視為一個不斷發展的過程而非目的地。透過在 AI 討論者之間安排辯論,LCI 建立了更全面的理解。新聞報導很好地闡釋了這一原則:媒體從左到右涵蓋政治光譜,而任何議題的文章都能顯示出不同的觀點 [9](第 7 章)。理解的道路往往始於承認我們的偏見,並檢視多個觀點。 --- ### **箴言 #8** 「LLMs 並未被教導關於領域邊界,因為它們僅被訓練來預測下一個單詞。這種多學科的信息表徵方法允許 LLMs 綜合出可能超越狹隘專注的、特定領域的人類理解的知識。」 「多學科」一詞由微軟首席科學官埃里克·霍維茨(Eric Horvitz)於 2023 年在斯坦福大學的 HAI 中心引入。他指出,GPT-4 的訓練過程中,通過最大似然預測下一個標記,無論是在處理物理方程式還是詩歌時,都採用了相同的統計方法:該模型不知道任何學科邊界。 儘管人類將知識組織成物理學、詩歌、生物學和哲學等類別,LLMs 卻跨越這些邊界,對傳統的分割一無所知。這創造了新的可能性 [10](第 12 章): - 當一個 LLM 看到莎士比亞與量子力學之間的模式時,它不會質疑這種連接是否「被允許」。 - 通常需要多個領域專業知識的問題,可能由一個從未了解過學術孤島的 LLM 來解決。 - 新假設可能會出現,因為 LLMs 不知道它們不應該建立哪些連接。 這一特性塑造了 LCI 的方法:利用 LLMs 探索超越人類前瞻的問題(見關於框架問題的箴言 #1)。諸如 SocraSynth [6]、EVINCE [5] 和 DIKE-ERIS dual [1] 等框架使得 LCI 能夠發現可能否則無法接觸到的隱藏路徑和視角。通過綜合這些見解(如在關於批判性思維的箴言 #4 中所述),我們可以彌合學科間的差距,並產生創新的連接。 LCI 的精髓在於導航跨學科交匯點,在這裡真正的洞見經常出現。這些由 LLMs 自然穿越的空間充滿了潛力,但也充滿了模糊性,即「未知的未知」的領域。在這些情境中,人類可能難以構建有意義的問題或從無關噪音中辨識有價值的見解。在這種情況下,人類擔任主持人的角色,引導 LLMs 的探索並批判性地評估其發現。這種合作使得 LCI 能夠有效地探索和照亮未知的智力領域,增進我們的集體理解。第 12 章提供了一個穿越各種(意想不到的)知識領域的例子,從一個種子的聖經故事開始。 ### **箴言 #9** 「客觀性是哲學中的『困難問題』,而我們能做的主要是挖掘所有視角。」 將客觀性想像成一個聲稱自己完全沒有偏見的朋友,我們都知道事實並非如此,但我們欣賞他所做的努力!這條箴言承認,完美客觀性就像在沒有鏡子的情況下嘗試看自己的後腦勺:理論上用夠多鏡子也許可行,但實際上相當棘手。 在 LCI 中,我們基本上是透過設置一個「鏡子滿室」來應對這項挑戰,每個 LLM 都反映真理的不同角度。與其聲稱找到了完美客觀性的哲學家之石,不如接受多重視角的智慧。 - 像一個「視角大雜燴」的聚會,每個 LLM 都為討論帶來自己的味道,使最終的結果比任何單一模型都更豐富。 - 當一個 LLM 斷言「這絕對是對的」,另一個就會反駁「嗯,事實上……」,透過「友善的辯論」促進誠實。 - 與其追求單一、普世的「客觀性」,我們收集一系列主觀視角,每個都在其特定情境中有效。 這種方法意識到客觀性不是目的地,而是一段旅程——最好有多位同伴共同走過。藉由策劃我們的 AI 討論者之間活躍的辯論,LCI 能提供更全面的視野,即使我們永遠無法真正達成所謂的完美客觀性。例如,新聞報導被分類為左或右,幾乎每個議題的報導都可以顯示出不同的觀點 [9](第 7 章)。理解的道路往往始於承認我們的偏見,並檢視多個觀點。 這種方法將客觀性視為一個不斷發展的過程而非目的地。透過在 AI 討論者之間安排辯論,LCI 建立了更全面的理解。新聞報導很好地闡釋了這一原則:媒體從左到右涵蓋政治光譜,而任何議題的文章都能顯示出不同的觀點 [9](第 7 章)。理解的道路往往始於承認我們的偏見,並檢視多個觀點。 --- ### **箴言 #10** 「將知識發現、倫理監督和行為評估分離為不同的角色,確保了檢查與平衡系統,促進了適應性 AI 安全性並符合文化規範。」 就像擁有分立權力的民主制度一樣,LCI 通過三個分支實施了職責分離: - **行政分支**:產生新知識,探索思想, - **立法分支**:制定倫理框架和原則, - **司法分支**:在文化情境中解釋規則。 這種結構確保了知識、倫理和行為的獨立但和諧的監管。當行政分支提出新知識時,立法分支檢查倫理一致性,而司法分支則在情境中解釋這些原則。 DIKE-ERIS 對偶理論 [1](第 9 章)解決了一個關鍵的技術挑戰:在人類反饋強化學習(RLHF)中,「遺忘效應」。RLHF 可能會通過在微調過程中過度強調倫理修正來削弱 LLM 的基礎技能。通過保持知識生成與倫理監督的獨立性,我們的設計在確保遵守的同時,保留了基礎能力,通過專門的防護措施和情境解釋來實現合規。 在第 9 章中,我們詳細介紹了這一受政府檢查與平衡啟發的框架。該架構整合了三個組件:作為知識生成的行政分支的 LLM;作為制定倫理防護措施的立法分支的 DIKE(希臘正義女神);以及作為提供對抗性測試和文化解釋的司法分支的 ERIS(混亂女神)。Dike 的秩序與 Eris 的混亂的神話對偶創造了倫理指導與對抗性視角之間的平衡。 ### **箴言 #11** 「智慧在雙層運作:一層類似於無意識處理的數據密集型計算基礎,和一層能夠快速情境適應的敏捷意識層。」 正如人類心智分為無意識和意識過程一樣,人工智慧通過兩個不同的機制進化。基礎層,類似於無意識處理,依賴於廣泛的訓練數據來建立強健的模式識別,就像進化過程將基本的生存本能編碼到神經結構中一樣。這一層解釋了為什麼需要像 ImageNet [7, 12] 這樣的大型數據集來建立可靠的計算基礎。 相比之下,第二層,類似於有意識的覺察,允許通過情境理解進行快速適應。這種雙重性澄清了為何人類和 LLMs 都能在建立了基礎模型後通過少量例子學習,類似於孩子在已經發展的認知框架內掌握新概念。 考慮這些平行過程: - **基礎層(無意識)**: - 需要廣泛的訓練數據, - 建立模式識別能力, - 編碼基本反應, - 自動運作,無需有意識的干預。 - **適應層(有意識)**: - 從少量例子中學習, - 應用情境理解, - 允許快速適應, - 建立在基礎模式之上。 這種雙層視角解決了需要大量訓練數據(如 Fei-Fei Li 的觀點)與快速學習能力(如 Yann LeCun 的觀察)之間的表面矛盾。就像動物通過積累經驗發展信任,同時保持天生的生存本能一樣,LLMs 結合了廣泛的預訓練與靈活的情境內學習。 LCI 通過其框架利用這一雙重結構:基礎模型提供計算基礎,而諸如 SocraSynth 的框架則通過對話和推理實現實時情境適應。 **註**:認識到這種雙層性質強調了 LLMs 如何結合廣泛的知識與適應性學習,超越了簡單的模式匹配。