好的,這是一份根據您提供的來源文件,將全文翻譯成繁體中文的內容,重點部分將會以粗體標示:
**[「MACI:多代理協作智能,用於穩健推理和時間規劃」](https://www.researchgate.net/profile/Edward-Chang-22/publication/388418868_MACI_Multi-Agent_Collaborative_Intelligence_for_Robust_Reasoning_and_Temporal_Planning/links/679868df52b58d39f2566aec/MACI-Multi-Agent-Collaborative-Intelligence-for-Robust-Reasoning-and-Temporal-Planning.pdf?origin=publication_detail&_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uRG93bmxvYWQiLCJwcmV2aW91c1BhZ2UiOiJwdWJsaWNhdGlvbiJ9fQ)**
**會議論文 · 2025年1月**
**摘要**
人工智慧需要深思熟慮的推理、時間感知和有效的約束管理。傳統的大型語言模型(LLMs)由於依賴模式匹配、有限的自我驗證和不一致的約束處理,往往缺乏這些能力。我們引入了多代理協作智能(MACI),這是一個圍繞元規劃器(MP)構建的框架,它協調多個代理來設計規劃器範本,定義角色、約束和可操作的工作流程。
MACI的三層架構包括用於構建規劃器的元規劃模塊、用於通用推理的通用代理,以及用於特定領域專業知識的專用代理。通過將規劃與驗證分離,MACI解決了LLM的關鍵限制,實現了高級的時間推理、衝突解決和約束滿足。評估證實了MACI的有效性,確立了它作為應對複雜推理和規劃任務的穩健框架。
**1. 簡介**
人工通用智能的發展需要從模式匹配轉向深思熟慮的分析推理。大型語言模型(LLMs)擅長模式匹配,但缺乏規劃任務所需的深思熟慮的推理(Kahneman,2011)。這些能力對於需要持續關注、約束意識和對未來狀態進行推理的任務至關重要。
**1.1 LLMs 在規劃方面的限制**
我們的評估揭示了當前LLMs在有效規劃方面存在的三個關鍵限制:
* **自我驗證的後設認知限制**:LLM在自我驗證方面的限制不僅僅是哥德爾不完備定理在形式系統上的應用(Gödel,1967)。儘管形式系統無法在其框架內證明自身的連貫性,但LLM由於其機率性質和缺乏邏輯基礎而面臨更大的挑戰(詳細論證見第2節)。這種限制為分散式驗證提供了理論依據,其中專門的代理對規劃過程進行獨立驗證。
* **基於注意力的處理偏差**:在複雜的規劃情境中,LLM表現出一種認知隧道效應,即最近的上下文會主導較早建立的約束。例如,在規劃多站行程時,LLM可能會專注於優化最後一段的到達時間,而忽略了關於車輛可用性或所需休息時間的較早約束。這種注意力偏差會導致局部優化但全局無效的解決方案,破壞計劃的整體可行性。在整個規劃過程中無法保持對所有約束的一致意識是當前架構的一個根本限制。
* **常識知識整合**:LLM經常忽略人類自然會考慮的實際約束。在旅行規劃中,它們可能會忽略機場安檢等待時間或行李提取延誤等因素。這些遺漏是常識知識未能充分整合到規劃過程中的結果。雖然人類會自動納入這些實際考慮,但LLM需要明確指定這些約束,這通常會導致不完整或不切實際的計劃。
**1.2 MACI 框架**
為了克服單一模型方法在規劃任務中的固有局限性,我們引入了多代理協作智能(MACI)框架。MACI的核心是元規劃器(MP),它是一種高階協調機制,與多個代理協作,為時間推理和調度構建專門的規劃器。通過使代理能夠在元級別協同工作,MACI確保了在複雜領域中穩健和適應性的規劃。
* **元規劃模塊**:元規劃模塊是MACI的基石,它分析任務需求並動態生成專門針對應對複雜挑戰的規劃器。這個規劃器會產生一個工作流程,其中包含代表角色(例如,廚師、司機、主管)的節點和代表約束(例如,時間、空間、資源)的依賴關係。與傳統的多代理系統不同,MACI的元規劃器協調動態的代理網路,驗證它們的互動,並實施協議以確保全面的規劃和執行。這種分層方法——規劃生成一個產生可操作工作流程的規劃器——使MACI成為解決現實世界規劃問題的前瞻性解決方案。
* **通用代理**:通用代理構成了MACI通用規劃能力的基礎。它們處理諸如實際推理、約束驗證和穩健性分析等關鍵任務。例如,「常識整合」代理會識別隱含的約束,「約束驗證」代理確保解決方案的可行性,「計劃評估」代理會衡量效能指標。這些代理共同維護顯性和隱性約束,同時確保跨領域的合規性和安全性。
* **專用代理**:專用代理通過解決特定領域的需求來擴展MACI的能力。MACI 不會讓單一規劃器負擔過重,而是部署專注於旅行安排、財務風險評估或物流優化等任務的代理。這些代理將領域專業知識與通用代理的基礎工作相結合,確保為專業規劃挑戰提供精確有效的解決方案。
**1.3 貢獻**
這項工作介紹了MACI,這是一種用於協作規劃的新穎方法。在旅行規劃情境中的初步評估表明,與單一LLM方法相比,MACI在約束滿足、衝突檢測和實際推理方面具有優勢。本文的主要貢獻包括:
1. 通過系統實驗識別單一LLM方法的限制。
2. 開發用於分散式規劃和驗證的三層架構。
3. 設計具有用於約束管理和推理的通用和專用代理的MACI。
4. 證明MACI在旅行規劃情境中的有效性,與單一LLM系統相比取得了顯著的改進。
本文的其餘部分分為五個部分。第2節回顧了相關的MAS框架,並解釋了它們為何無法滿足當前的任務需求。第3節通過案例研究檢驗了LLM的局限性。第4節詳細說明了MACI框架的規範。第5節評估了MACI與最先進的LLM相比的效能。最後,第6節討論了對未來研究和替代觀點的影響。
**2. 相關工作**
MACI的開發基於形式系統的理論見解,並解決了當前多代理架構的限制。哥德爾第二不完備定理(Kennedy,2008;Gödel,1967)確立了沒有一致的形式系統可以證明其自身的連貫性。我們將這個見解擴展到LLM,它基於機率而非公理基礎運作,使其本質上無法進行可靠的自我驗證。表1說明了MACI的分散式驗證架構如何解決這些基本限制。
目前的多代理系統(MAS)主要作為協調多個LLM的整合平台。值得注意的框架包括微軟的AutoGen(Wu et al., 2024)、多LLM代理辯論框架(Du et al., 2023; Chang, 2023; 2024a;b)、LangGraph和CrewAI(LangChain AI, 2024; Moura, 2024)、XAgent(Xia et al., 2023)和CAMEL(Li et al., 2023)。儘管這些框架在代理協調方面表現出色,但它們側重於任務分配,而不是複雜規劃所需的全面約束管理。
MACI的元規劃模塊(第4.1節)通過充當協調專用代理的元系統來解決這些限制。通過解耦規劃和驗證功能,MACI創建了一個驗證框架,類似於證明形式連貫性所需的更高階系統,同時保持對相互依賴約束的認知。
**3. 案例研究:LLM 可以處理規劃嗎**
本節首先介紹各種類型的規劃,包括戰略方法和戰術方法。然後,我們介紹一個調度問題的實驗結果,以說明當前LLM的不足之處。根據我們的診斷,我們在第4節中提出了補救措施。
* **規劃類型**:規劃可分為七種類型。前三種被認為更具戰略性,其餘的則是戰術方法。
1. **循序規劃**:通過正式的時間表示創建滿足目標/約束的時間順序計畫(Allen & Hayes, 1989)。
2. **主動規劃**:通過深思熟慮的遠見來預測未來情境,以先發制人地解決問題(Cox & Veloso, 1998)。
3. **回溯規劃**:通過案例推理分析過去的經驗來改進未來計劃(Kolodner, 1993)。
4. **適應性規劃**:在保持核心約束的同時,調整計劃以應對不斷變化的條件(Hammond, 1990)。
5. **反應性規劃**:在動態、不確定的環境中,優先考慮當前的行動而不是長期目標(Georgeff & Lansky, 1987)。
6. **預測性規劃**:使用數據驅動模型來預測情境並優化決策(Kushmerick et al., 1995)。
* **問題陳述**:我們使用以下設計的感恩節晚餐規劃問題進行實驗:
* **初始設定**:媽媽(Sarah)在波士頓的下午6:00舉辦感恩節晚餐。以下家庭成員正在旅行:
* 爸爸(James)從舊金山飛來,東部時間下午1:00 落地。
* 妹妹(Emily)從芝加哥飛來,下午2:30落地。
* 哥哥(Michael)從紐約開車來,預計下午3:00到達家中。
* 奶奶身體健康,需要從波士頓郊區的家中接走。
* **關鍵依賴關係**:
* James 落地後需要租車。
* Emily 不開車,需要從機場接走,不允許其他交通方式。
* 火雞需要 4 個小時烹飪,一旦火雞放入烤箱,必須有人在家中。
* 配菜需要 2 個小時的準備時間。
* 從家到波士頓機場的行程時間為一個小時。
* 從波士頓機場到奶奶家的行程時間為一個小時。
* 從家到奶奶家的行程時間為 30 分鐘。
* **規劃問題集**:
1. 應該在什麼時間開始烹飪?
2. 誰應該在什麼時候接 Emily?
3. 應該由誰在什麼時候接奶奶?
我們使用這個問題來檢驗GPT4o和DeepSeek進行的三種關鍵類型的規劃:循序、主動/反應和回溯。
* **3.1 研究 1:循序規劃**
GPT-4o 和 DeepSeek 在處理現實世界的旅行物流時遇到了困難,忽略了諸如行李提取時間、租車流程以及機場航站樓和租車中心之間的空間關係等關鍵的人類考量(表2)。這些差距迫使手動添加約束,突顯了LLM無法整合經驗知識的能力不足,而這正是MACI常識代理所解決的差距。
DeepSeek 的行程表進一步揭示了空間時間錯誤:1) 空間錯誤:假設 James 在波士頓羅根機場租車後立即開車回家,忽略了他等待 Emily 時的機場位置;2) 時間錯誤:指示 Michael 在前往奶奶家之前先回家,錯過了從紐約市直接出發的最佳路線。
表3顯示了GPT-4o的行程表,它看起來是可行的,但在需要應急的適應性規劃中包含了兩個關鍵錯誤:1) 算術錯誤:錯誤地計算了奶奶往返的駕駛時間為30分鐘(實際上是30×2分鐘);2) 過度約束:假設只有Sarah必須看著烤箱(而不是「某人」),在縮短寬限時間(例如,延誤)的情況下會造成脆弱性。
分析(附錄A)將這兩個錯誤歸因於約束解釋中的錯誤推理。
* **診斷:常識約束和孤立處理綜合症**
當前的LLM系統需要明確指定人類認為是常識的現實世界約束,突顯了它們在規劃能力方面的限制。此外,我們發現了我們稱之為孤立處理綜合症的現象,即LLM獨立處理子任務,而沒有保持對整體約束的認知。這種綜合症以兩種關鍵方式表現出來:系統要么錯過明顯的優化,要么提出違反既定約束的解決方案,導致計劃不可行或次優。
* **3.2 研究 2:主動和反應性規劃**
現實世界的情境並不總是完全按照計畫進行。穩健的系統需要針對天氣、交通或航空公司變更等因素進行應急規劃。這些因素會影響整個行程表,需要進行適應性重新規劃。
表4顯示了GPT-4o修改後的感恩節行程表。其中出現一個危險的情況:在下午3:00到4:00之間沒有人在家看著烤箱。
為了評估LLM的動態重新規劃能力,我們在感恩節情境中引入了一個重大干擾:James的航班延誤了3個小時(到達時間為下午4:00,而不是下午1:00)。這迫使對接送、膳食準備和協調進行調整,同時保留原始約束。
LLM的回應揭示了關鍵缺陷:1) DeepSeek違反了核心約束,不合理地將晚餐推遲到晚上7:00(而不是下午6:00的截止時間);2) GPT-4o(表4)犯了一個安全違規行為:在有明確約束的情況下,讓烤箱無人看管。這些錯誤突顯了LLM即使在掌握完整資訊的情況下,也無法在重新規劃過程中可靠地維護和驗證約束。
* **診斷:注意力狹窄**
Claude檢測到其他LLM計劃中的約束違規行為,但GPTo4和DeepSeek在自我驗證方面都遇到了困難,這揭示了錯誤檢測中的不對稱性。LLM在規劃過程中經常會嵌入對約束的錯誤解釋(例如,在火雞放入烤箱時,會僵化地解釋「必須有人在家」),從而在其框架中傳播錯誤。
出現了兩個關鍵限制:1) **注意力狹窄**:過分關注目標(例如,到達時間)會導致忽略關鍵約束(例如,防火安全);2) **解決方案僵化**:一旦滿足約束(例如,將Sarah分配到烤箱任務),LLM會將其視為固定上下文,而未能探索替代方案。
更具體地說,GPT-4o分配Sarah監控烤箱,但錯過了較早將此任務重新分配給奶奶的機會,從而阻止Sarah作為額外的司機,這是一個錯失的效率提升。
* **3.3 研究 3:回溯規劃**
回溯規劃通過從過去的決策中學習來改進未來的策略。即使在糾正錯誤後,DeepSeek和GPT-4o都缺乏靈活性:DeepSeek依賴於僵化的範本,而GPT-4o的初始分配(表3中Sarah待在家中)限制了後來的選擇。
* **James 延誤 3 小時期間錯失的機會**:
* Sarah 可以早點接奶奶,讓她可以處理 Emily 的交通等突發狀況。
* Michael 可以早上 10:00 離開紐約市,在下午 2:30 到達 Emily 那裡。
在第4節中,我們展示了MACI的元規劃器如何通過調試錯誤和適應動態約束來有效地修改計劃。
* **3.4 LLM 在規劃方面的限制總結**
我們的分析揭示了當前LLM和推理方法(CoT(Wei et al., 2022)、ToT(Yao et al., 2023))中的三個核心限制:
* **後設認知限制**:LLM在自我驗證和約束意識方面存在困難。雖然外部LLM可以檢測到其他人計劃中的錯誤,但規劃者始終會忽略自己的違規行為(例如,GPT-4o將Sarah僵化地分配到烤箱任務,而沒有考慮奶奶的可用性)。主要原因是:
1. 模式匹配優化與分析驗證。
2. 推理過程中沒有信念狀態追蹤。
3. 單一解決方案關注與比較分析。
當前的推理方法通過在同一有缺陷的認知框架內運行,加劇了這些問題。
* **注意力偏差**:轉換器架構優先考慮最近的上下文,產生:1) **狹窄化**:最近的約束(到達時間)掩蓋了較早的約束(烤箱安全);2) **孤立處理**:在沒有整體意識的情況下解決子任務。
* **常識差距**:LLM忽略了隱含的現實世界知識(行李提取時間、租車物流),需要明確指定人類顯而易見的約束(機場航站樓的鄰近性)。
**4. MACI 框架規範**
MACI 實現了三層架構,以解決當前 LLM 的限制:後設認知約束、注意力偏差和常識推理的差距。頂層的兩個層次代表了關鍵創新,而底層則利用現有的多代理系統(MAS)基礎架構。
* **4.1 三層架構**
* **元規劃器:規劃產生器**
元規劃器MP充當高階規劃器,產生特定任務的規劃系統:
MP : (O, CE)→W,
其中 W 代表由專門的、協調的代理組成的規劃系統。與編譯器產生器如何根據規範產生編譯器類似,MP 根據任務需求構建代理網路。它分析目標,識別所需角色和依賴關係,選擇適當的代理,並建立互動協議。這產生了一個完整的工作流程範本,定義了規劃狀態空間和解決給定任務所需的代理協調機制。
* **代理儲存層**
該層維護一個分散的規劃代理集合,每個代理都設計了受限的上下文窗口和專門的介面。通過在代理之間劃分認知任務,此架構可確保在不使單個組件超載的情況下,完整了解約束。
* **系統基礎架構層**
該基礎架構層構建在開源 MAS 框架之上,支援諸如代理註冊、訊息路由、資源分配和部署擴展等基本操作。
* **4.2 代理儲存層設計**
* **4.2.1 代理註冊和搜尋協議**
代理使用五個屬性在儲存庫中註冊:輸入/輸出協議 (P )、類型 (t)、能力向量 (c)、上下文窗口大小 (w ≤ 1k 個標記) 和用戶評分 (r)。這些屬性使 MP 能夠有效地將任務需求與代理能力相匹配。MP 通過以下方式搜尋代理:1) 將任務需求與能力描述 (c) 相匹配,2) 按代理類型 (t) 和用戶評分 (r) 進行篩選,以及 3) 驗證協議兼容性 (P )。
* **4.2.2 狀態空間和代理設計**
表5呈現了狀態空間的五個維度:**誰(Who)、在哪裡(Where)、何時(When)、做什麼(What)和為什麼(Why)**,這些維度構成了規劃任務的基礎。這些維度足夠通用,可以應用於各個領域,而旅行規劃則是一個說明性的範例。
* **通用代理**:通用代理旨在處理跨領域普遍適用的核心規劃和驗證任務。這些代理提供基礎能力,確保規劃系統的一致性、可行性和穩健性,而與具體的應用無關。它們的角色與誰、在哪裡、何時、做什麼和為什麼的通用狀態空間維度一致,確保解決了規劃的所有基本方面。有關通用代理的列表,請參閱附錄D.2。
這些代理協同工作,以確保跨不同領域的穩健規劃和驗證。儘管通用代理的列表並不詳盡,但它提供了應對大多數規劃任務的堅實基礎。可以根據需要引入新的通用代理,前提是它們提供可以在多個領域重複使用的功能。例如,可以添加一個適應代理,以動態調整約束以應對不斷發展的任務環境。
* **專用代理**:專用代理通過解決並非所有任務都可通用的特定領域需求,來擴展MACI的功能。這些代理旨在實施針對特定應用量身訂製的詳細知識和專業知識,確保MACI對於多種規劃挑戰保持適應性和有效性。專用代理通常側重於需要獨特約束處理、優化或分析的任務。
專用代理的範例包括:
* **旅行規劃代理**:優化行程、管理交通選擇,並確保位置之間的無縫轉換。
* **財務風險代理**:監控市場趨勢、評估風險並驗證投資策略。
* **醫療保健資源代理**:分配醫療用品、安排人員並優化患者護理途徑。
* **供應鏈代理**:管理物流、追蹤庫存並優化配送路線。
專用代理遵守在MACI中維護一致性和整合的架構原則:
* **受限的上下文窗口**:每個代理都在有限的上下文中運行,以確保效率和專注 (w ≤ 1k 個標記)。
* **協議緩衝區介面**:標準化介面實現代理之間的無縫通信。
* **與通用代理的協調**:專用代理利用通用代理的功能進行驗證、合規性和約束管理。
* **領域特定約束**:專用代理具備處理其領域特有的獨特要求和挑戰的能力。
* **4.2.3 代理協調以及狀態和約束管理**
MACI 確保代理在狀態維度之間無縫協調。例如,在旅行規劃中,當排程代理檢測到航班轉機約束時,它會觸發對位置、資源和角色管理器代理的更新。這些更新通過狀態轉換協議傳播,其中提出的狀態更改會根據全域和局部約束進行驗證:
T : St → St+1 subject to Cglobal ∧ Clocal
* **4.2.4 驗證協議**
驗證代理通過將全域約束分解為特定維度的檢查來確保狀態一致性。例如,在預訂航班時,時間代理驗證時間約束,位置代理檢查空間可行性,資源代理驗證座位可用性。常識代理識別被忽略的約束,例如行李提取時間、航站樓之間的步行時間和租車提取時間。如果驗證失敗,系統會觸發恢復過程以生成替代解決方案。當發生意外事件時,可以更新驗證協議以改進回溯規劃。
* **4.2.5 其他考量**
由於篇幅限制,我們在附錄C中記錄了其他考量,包括跨領域通用化、常識知識的增強和整合、可擴展性,以及在支援更多應用時的未來增強列表。
* **4.3 元規劃器:規劃用於規劃的規劃器**
元規劃器MP作為更高階的規劃器運作,構建其他規劃器,這些規劃器是針對特定任務的可操作工作流程。
* **4.3.1 元規劃器演算法**
MP 在演算法 #1 中指定。規範中使用的所有符號列表都在附錄 D 的表 20 中提供。
工作流程網路 W = (N , E) 表示為有向圖,由作為節點的角色和作為邊的依賴關係組成。節點 n ∈ N 表示人類執行者的角色(例如,司機、廚師、主管),而節點 ni 和 nj 之間的邊 eij ∈ E 捕獲監控的依賴關係(例如,時間、空間約束、資料依賴關係和監督的安全要求)。
W = (N , E),其中 N = A∗ n 且 E = A∗e. (1)
MP 分三個階段構建規劃器。首先,它通過識別角色及其依賴關係來構建網路結構,形成工作流程的基礎。
其次,它分配適當的代理來管理角色和依賴關係。每個節點 n ∈ N 由指定的角色代理 αn 管理。同樣,每個邊 eij ∈ E(表示節點之間的依賴關係)由代理 αij 管理,它連接節點代理 αi 和 αj。這些邊會以中繼資料加以豐富,其中可能包括資料類型、通信協定、時間約束和安全要求等詳細資訊。
最後,生成的規劃器會迭代地完善工作流程。此過程涉及優化角色分配並持續監控依賴關係,直到驗證分數穩定為止,從而確保經過良好驗證的工作流程。
* **4.3.2 元規劃組件**
讓我們明確區分角色(需要人類資格)和監控任務(需要能力)。
演算法 1MP:規劃計劃的規劃器
輸入 目標 O,顯性約束 CE,代理池 A,
人員 P,指標 M 輸出 優化工作流程 W∗ = (N, E) (方程式 1)
// 第一階段:網路建構
1. N:從 O 中提取角色和能力(方程式 2)
2. E:從 CE 中識別節點依賴關係(方程式 3)
// 第二階段:代理分配
3. 分配角色代理:∀n ∈ N,選擇 αn ∈ An (方程式 4)
4. 分配邊緣代理:∀eij ∈ E,αij ∈ Ae (方程式 5)
// 第三階段:迭代完善
while V (W,M) 的改進 do
// 角色分配優化
for all n ∈ N do
通過 frole(n,P) 更新角色-人員映射
end for
// 依賴關係監控
for all e ∈ E do
通過分配的邊緣代理驗證依賴關係
end for
// 驗證
if V (Wnew,M) > V (Wcurrent,M) then
Wcurrent ←Wnew
end if
end while
返回 W∗ = Wcurrent
* **角色和資格分析**:MP分析目標O以識別所需的角色及其資格:
maprole : O → {(ni, qi)} (2)
其中 ni 代表一個角色,而 qi 代表其所需的資格。例如,(ndriver, qlicense) 或 (ncook, qexperience)。
* **約束管理**:該框架維護一個由以下內容組成的全域約束集 C:
C = CE ∪ CI ∪ CD (3)
其中 CE 代表來自問題規範的顯性約束,CI 表示由常識代理識別的隱性約束,而 CD 表示來自代理互動的衍生約束。
* **代理分配**:從儲存庫A中選擇兩種代理:節點代理和邊緣代理:
1. **節點監控代理**:
A∗ n = argmin Ai∈A ∑nj dist(qj , Ai.capabilities) (4)
這些代理驗證角色資格並管理人事角色分配和轉換。
2. **邊緣監控代理**:
A∗ e = argmin Ai∈A ∑ej dist(cj , Ai.capabilities) (5)
這些代理監控角色之間的依賴關係,其中 cj 代表約束類型(時間、空間等)。
MP 通過驗證工作流程約束和效能,以及替換或添加代理(即檢查和添加節點和邊緣)來迭代地完善網路。
* **4.4 工作流程執行框架**
工作流程 W∗ 需要一個執行時系統才能執行。在這項工作中,我們通過將 W∗ 以及問題陳述輸入到 LLM(DeepSeek 和 GPT4o)來評估 W∗。一個關鍵的限制是,用於完善 W∗ 的回饋迴路必須手動執行。
**5. 評估 MP 的規劃能力**
為了評估 MP 的效能和適應性,我們採用了雙重方法的實驗結構。第一個實驗使用旅行推銷員問題(TSP)來驗證 MP 的優化能力。第二個實驗涉及感恩節晚餐規劃問題,展示了 MP 處理具有跨線程依賴關係和動態適應性的複雜現實世界挑戰的能力。
* **旅行推銷員問題 (TSP)**:TSP 實驗以規劃器(Claude、DeepSeek、GPT4o)及其 MP 整合作為基準。指標包括:1) 解決品質,和 2) 解決方案最佳性。詳細結果請參閱附錄 E。結論是,儘管任務很簡單,但 MP 有助於提高監視執行、驗證結果和建議演算法方法的效果。
* **感恩節晚餐規劃**:這個問題在第 3 節中詳細介紹,評估了 MP 生成具有增強的約束和依賴關係的工作流程 W∗ 的能力。它涉及多個代理執行相互依賴的任務,代表了一個複雜的多代理情境。
在三種配置之間比較規劃效能:DeepSeek +MP、GPT4o +MP 和 Claude +MP。指標包括:
效能 = {約束滿足百分比,靈活性},
其中靈活性衡量為了處理意外事件而納入的寬限時間。
* **5.1 感恩節事件的元規劃**
根據演算法 1,MP 生成具有以下內容的工作流程:
* 角色節點(例如,廚師、司機、主管);
* 顯性約束邊緣(例如,時間、空間等);
* 來自常識分析的隱性約束邊緣。
規劃器監視節點和邊緣,從而實現動態調整。完整規範請參閱附錄 A。
* **評估情境**:我們在以下情況下測試 MP:1. 循序規劃:按計劃執行的任務。2. 反應性規劃:需要重新分配任務的 3 小時航班延誤。
* **元規劃器輸出**:MP 通過以下方式增強規劃:
* 識別隱性約束(例如,行李提取時間、租車延誤);
* 澄清角色依賴關係;
* 納入常識約束(例如,疲勞、社交偏好);
在反應性規劃中,MP 整合了一個早期資訊代理,以檢測出發時的航班延誤,從而實現及時的工作流程更新,並展示了適應性。
* **5.2 實驗結果**
* **循序規劃效能**:憑藉 MP 增強的工作流程 W∗,所有三個 LLM 均成功生成了可行的解決方案,與之前使用原始問題規範時的失敗相比有了顯著改進。
如表 6 所示,DeepSeek 通過優化 James 接送 Emily 的機場等待時間,僅需兩次迭代,展現出卓越的排程效率。雖然 GPT4o 最終在三次迭代中產生了有效的解決方案,但它通過讓 Michael 進行單獨的行程,創建了次優的旅行模式。Claude 的解決方案雖然在兩次迭代中可行,但包括了接送任務之間不必要的旅行。此實驗突顯了 MP 的顯性約束規範和常識增強功能如何實現不同 LLM 的一致效能改進。
* **反應性規劃效能**:GPT4o 未能產生有效的解決方案,違反了三個關鍵約束,並且無法識別這些違規行為。
航班延誤情境揭示了 LLM 能力之間的顯著差異。DeepSeek 通過將 Michael 直接路由到機場來展示卓越的空間推理能力,這應該來自 MP 的常識空間推理。這種改進工作流程的意外能力突顯了 MP 和 LLM 之間的協同作用 — MP 通過其資訊代理提供早期警報(附錄 A.9 中的表 15),DeepSeek 利用該警報立即重新規劃。
相比之下,Claude 生成了兩個可行的計畫,但錯過了 WR 中的上午 10:00 的警報,並從下午 1:00 開始其排程,錯過了諸如早期接奶奶以釋放 Sarah 作為司機等主動行動的機會。GPT4o 完全失敗,產生了三個它無法識別的約束違規行為,阻礙了進一步的改進。
好的,以下為來源資料中關於 MACI 框架及其在複雜規劃任務中的應用,以及對大型語言模型(LLMs)的限制的總結的最後部分翻譯,並加上粗體以利理解:
**6. 結論與影響聲明**
目前的人工智慧系統擅長模式匹配,但在複雜規劃所需的深思熟慮的分析推理方面存在困難。雖然大型語言模型 (LLM) 展現了令人印象深刻的能力,但它們面臨三個關鍵限制:**無法驗證自己的輸出(與哥德爾不完備定理相似)**,在規劃過程中**無法持續地維持約束**,以及**未能充分整合常識知識**。我們的實驗表明,現有的多智能體系統主要關注協調,而未能解決這些限制。
**MACI(多智能體協作智能)**通過以下三個主要貢獻,提升了技術水平:
1. **元規劃架構**:MACI 通過以下方式生成專門的規劃工作流程:
* 構建角色節點和依賴關係網路。
* 通過常識分析識別隱含約束。
* 在分散式智能體之間建立驗證。
2. **工作流程增強**:正如我們的實驗所證明:
* **循序規劃**:增強的工作流程 W\* 使所有 LLM 都能生成可行的解決方案。
* **反應式規劃**:WR 中的早期信息智能體能夠進行主動的重新規劃。
* **意外的協同作用**:DeepSeek 貢獻了超出 MACI 規格的空間優化。
3. **實證驗證**:我們的感恩節晚餐規劃案例研究顯示:
* **提高了 LLM 的約束滿足能力**。
* 通過早期檢測有效處理危機。
* LLM 在利用 MACI 能力方面存在明顯的性能差異。
MACI 表明,要解決 LLM 的限制,需要的遠不僅僅是簡單的智能體協調。它需要一個結構化的元規劃架構,以實現全面的約束意識和驗證。該框架在複雜的時間規劃方面的成功,以及 LLM 貢獻帶來的意外改進,為開發更強大的人工智慧規劃系統指明了一個有希望的方向。
**參考文獻**
(此部分列出了論文中引用的多篇學術文獻,涵蓋網路流理論、時間邏輯、動態規劃、魯棒優化、多智能體系統等領域的相關研究)
**附錄**
(此部分包含實驗細節,包括元規劃如何應用於感恩節晚餐任務,以及代理需求和分配的詳細資訊)
* **A. 實驗細節:感恩節晚餐任務的元規劃**
* **A.1 階段 1:網路建構**
* A.1.1 節點 (角色) 規範
* A.1.2 邊 (依賴) 規範
* **A.2 階段 2:智能體分配**
* A.2.1 節點 (角色) 智能體分配
* A.2.2 邊 (依賴) 智能體分配
* A.2.3 常識約束分析 (由 LLM 執行)
* A.2.4 常識約束分析與驗證 (人為參與)
* **A.3 智能體需求與分配**
* **A.4 監控協議和動態調整**
* **A.5 整合工作流程網路**
* **A.6 智能體交互規範**
* **A.7 使用 W\* 修訂的新問題陳述**
* **A.8 實驗 #1:循序規劃器**
* A.8.1 結果:DeepSeek 勝出
* A.8.2 錯誤觀察
* **A.9 實驗 #2:航班延誤的反應式規劃器**
* A.9.1 結果:DeepSeek 勝出
* A.9.2 錯誤觀察
* **A.10 結論**
* **B. 驗證和恢復協議**
* B.1 運籌學技術在驗證協議中的應用
* **C. MACI 其他設計考慮**
* C.1 跨領域泛化
* C.2 動態智能體註冊與演進
* C.3 可擴展性和資源效率
* C.4 跨領域的實證評估
* C.5 挑戰與未來方向
* **D. 其他表格和圖形**
* D.1 符號
* D.2 常用智能體示例
* **E. 旅行推銷員問題實驗**
* E.1 一般問題規範
* E.2 W\*:MACI 生成的 TSP 規劃器
* E.3 實驗,從小型到大型 N
* E.3.1 小型校園導覽 (N=5)
* E.3.2 大型校園導覽 (N=10)
* E.4 TSP 實驗結論
**總結**
這篇論文介紹了 MACI 框架,它通過整合元規劃器、通用智能體和專業智能體,以及分離規劃和驗證功能,有效地解決了 LLM 在複雜規劃任務中的限制。實驗結果表明,MACI 能夠顯著提高 LLM 的約束滿足能力、危機處理能力和整體規劃性能。論文還深入探討了 LLM 的限制,包括元認知不足、注意力偏差和常識知識整合不足。最後,論文強調了在開發更強大的人工智慧規劃系統中,全面的約束意識和驗證的重要性。