Lecture 3: On Reasoning, Memory, and Planning of Language Agents

# Lecture 3: On Reasoning, Memory, and Planning of Language Agents ## Introduction ### 對 Agent 現況的看法 (The rise and the divide) [**01:34**](https://youtu.be/zvI4UN2_i-w?t=94) ![image](https://hackmd.io/_uploads/r1gyrp7dee.png) - 現有的 agents 只是對 LLM 的包裝而已。 - Auto-Regressive LLM 永遠無法真正地推理或規劃事情。 - 從 Auto-GPT 在使用上仍有限制，由此可見，Agent 距離成為實用的解決方案還差很遠。 ![image](https://hackmd.io/_uploads/BJ6_IqVuxl.png) ### Why agents again? - Agent 可被視作為，一切能透過 Sensor 感知環境，並透過 Actuators 和環境進行作用的事物 > “An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators” >–– Russel & Norvig, AI: A Modern Approach ### 'Modern' agnet = LLM + external environment - Language Models: text in text out interface - LLM 受限於 text interface，可做的事情有限 - 一旦 LLM 和環境連接, LLM 可以從環境汲取資訊，並對外在環境造成影響 - 也就是 LLM-based Agent - 那這些又是甚麼? Self-reflection? Multi-agent simulation? ... - Self-Reflection: - LLM 透過觀察自己的 reasoning 過程，進行反思、檢討，並在 inference 中，自動決定要做哪些進一步操作。 - Multi-agent Simulation: - 透過多個 LLM Agent 進行交流與協作，模擬處理複雜任務的過程，實現分工合作，多角度推理。提升模型在解決問題上的靈活性與準確性。 ### Two Competing views (for LLM-Agent) LLM-first view: 直接把 LLM 作為 Agent - 以 prompting 為主要手段，圍繞 prompt 優化和工程實作，來驅動 LLM 達成任務，較少關注傳統 AI Agent 的其他問題。 Agent-first view: 先有 Agent 的整體架構，再將 LLM 當作架構中的一個 component - 將 LLM 視作 Reasoning 和溝通的渠道，配合其他 Agent 和工具合作完成任務 - Note: 仍需解決一般 Agent 面臨的問題，如: 感知並理解外在環境、推理、規劃任務..等 - 並需要透過新的方式重新驗證整個 Agentic System ### 相比較過往，LLM 和 Agent 帶來甚麼根本上的變化? Communication - Instruction following: AI 能準確理解，並執行 User 的指令 - In-context learning: AI 能根據 prompt 前後文，理解不同任務和動態調整行為，不需要重新訓練 - Output customization: 能根據使用者需求(簡答、詳細說明、數字)，進行更客製化的輸出，以應用不同的使用場警 Reasoning - state inferences: AI 能做出狀態推斷，理解任務敘述背後的隱含信息 - self-reflection: 能自我反思，改善決策和行動策略 - replanning: 能根據不同情境靈活地進行重新規劃、調整行動方案 ## 新一代語言代理人（Language Agents）的定位 - **核心改變** - 新一代 Language Agents 增加了名為「推理」的 action 類型 - 傳統 AI agent 架構中，action 通常指與外部環境互動的行為。 - 推理 action: 透過 token 生成進行思考，並形成內心獨白 (inner-monologue) - 透過 inner-monologue，Agents 就能處理如 self-reflection 的後設推理行為 (meta-reasoning)，並進行更好的行動 - Note: meta-reasoning 是對**推理過程**進行思考和管理的一種行為，以確認思路是否正確的方式 - 有了**推理**ˇ的幫助，LLM Agents 的**外界感知能力(percept)**和**外部行動能力(action)**得到提升 ### 有關 Reasoning 的定義 ![image](https://hackmd.io/_uploads/B14cDaN_gg.png) - by <Thinking fast and slow> -- Daniel Kahneman - 在心理學上，這些行為皆屬於推理 (Reasoning): 感知 (perception)、直覺推論（intuitive inference）、符號推理（symbolic reasoning）... - 但在 LLM 中，只有單一核心機制 (token generation) - 所有 LLM 的推理行為(如圖)，都會藉由 token generation 完成，因此統稱為 reasoning --- ## Agents 的名稱與定位 ![image](https://hackmd.io/_uploads/SJ49teBulx.png) - **Language Agents** - 現在有許多名稱用來代指Agent，如: 「AI agents」、「autonomous agents」、「LM agents」 - 而在這些名稱中，作者認為「LM agents」更準確，因為語言是最核心能力 - 至於在 Multi-Agents 中的重要性，雖然有其他模態的 Agents 負責感知環境，但語言模型仍肩負著**推理**和**溝通**的重任 - Langeuage Agent 的定位 - 作者認為這一代 Agent 真正需要的，是通用語言理解和生成能力 (universal language understanding and production) - Universal language: 跨模態的理解，不一定來自自然語言，也可能是超越語言的模態 - 而 Language Agents 也因為跨文本、語音、圖像等多模態的理解的能力，備受關注 - **歷史背景** ![image](https://hackmd.io/_uploads/HJy8FlH_lg.png) - 人類智能是大自然創造的模型，大腦將來自不同感官的原始輸入整合為統一的神經表徵，重建我們周遭世界，並支持符號推理與決策。 - 而先前的 AI agent 僅僅具備有限的人類智能特徵（如: 單模態感知、符號推理）。 - 新世代 Agent 結合多模態大型語言模型，能將多模態資訊編碼為統一特徵，支持符號推理與溝通，顯著提升其表達力、推理力與適應性。 --- ## Framework for Language Agents ![image](https://hackmd.io/_uploads/ByZx5gSulx.png) - 核心是「核心能力」（Core competencies） - 這些核心能力對應人類大腦的認知功能： - 底層為感知（Perception）、記憶（Memory）、環境反饋（Embodiment）等基礎功能。 - 中層包括推理（Reasoning）、世界模型（World Models）。 - 上層是計劃（Planning），建立在推理和世界模型之上。工具使用(Tool Use) - **Cross-cutting issue (跨層級議題)**： - 安全性（Safety） - 評估（Evaluation） - 資料生成（Synthetic Data） - 效率（Efficiency） --- ### 記憶（Memory） ![image](https://hackmd.io/_uploads/SyA0c-Suel.png) - 目前的 LLM 難以進行 **長期參數式學習（parametric continual learning）**，容易發生 **catastrophic forgetting** - 當模型學習新知識時，會無意中影響或覆蓋原有知識，導致模型表現不穩定 - 以模型編輯（model editing）為例: - 修改模型知識（model editing）常導致連鎖影響（repo effect），如其他相關事實未更新，或出現矛盾的預測。 - 語言表達也可能變得怪異或不連貫。 - 這些問題源自神經網絡的高度分散，使得持續學習變得非常困難。 ### 非參數式記憶（Non-parametric memory） - **RAG（Retrieval-Augmented Generation）** - 傳統學習方式：直接修改模型參數以融入新知識。 - 非參數記憶（Nonparametric Memory）： - 不改變模型參數，將新經驗存於外部資料庫，透過檢索使用。。 - 常見形式為 RAG（Retrieval-Augmented Generation）。 - LLM 對外部記憶非常**易接納**，即使外部知識與內部知識衝突（但也帶來安全風險）。 ### RAG 的現況與侷限 - RAG 是目前 LLM 長期記憶的主流方案： - 將外部資料編碼成向量（embedding） - 透過向量相似度(如: cosine similarity) 進行檢索 - 將檢索到的資訊作為輔助記憶回答問題。 - 限制：與人類記憶相比，RAG 的檢索能力過於簡單。 - 人類記憶可建立跨經驗的複雜聯想，能快速找到相關資訊。 - 人腦的**關聯記憶與模式完成（pattern completion）**能力 - 後續研究需探索如建立跨知識的動態聯結，而非僅依賴單次向量檢索 ### Hippocampal Indexing Theory(HIT) 啟發的 HippoRAG - **理論背景** - 人腦原始記憶存新皮質（模式分離）+ 海馬迴索引（建立跨感官關聯） - 原始記憶存放在新皮層（neocortex）對應的感知區域 - 聽覺記憶 → 聽覺皮層 - 視覺記憶 → 視覺皮層 - 海馬體（hippocampus）儲存「結構化索引」（structured index） - 將分散的記憶片段快速關聯起來 - 兩大功能 - Pattern Separation - 能區分非常相似的記憶（如相隔幾秒的事件） - Pattern Completion - 用部分線索（partial cues）重建完整記憶 - 例：線索是 "Stanford" 和 "Alzheimer's" → 想起相關人物 - **HippoRAG 流程** - **Offline indexing**： - Input：文本段落 - LLM 抽取三元組（概念、實體、關係） - 建立 Knowledge Graph（無預設 ontology，全自動抽取） - 用 dense retriever 合併同義概念 - **Online retrieval**：NER 找到關鍵節點 → Graph search（personalized PageRank）→ 重新加權檢索 - Query → 使用 NER 抽取關鍵概念 - Dense retriever 找到索引圖的相似節點 - 以這些節點為種子（seed）進行 Personalized PageRank Graph Searching - 找到 Relation 權重高的節點 → 回溯到原始文本 - **優勢**： - 支援 multi-hop QA，能完成複雜關聯檢索，且效果顯著優於傳統 dense retriever - **HippoRAG v2**：與大型嵌入模型（Large Embedding Models）相比，在多場景表現更穩定，可作為直接替換方案。 --- ## 5. 推理（Reasoning） ### Implicit reasoning - 不顯性輸出 Chain-of-Thought，直接在單次 forward pass 完成推理。 - E.g：模型記住「Bar 的妻子是 Michelle」與「Michelle 出生於 1964」，輸入「Bar wife born in」直接輸出 1964。 - **重要性**： - 預訓練時的預測任務，沒有 chain-of-thought， - 影響模型內部事實與規則的結構表現方式，只能依靠 implicit reasoning 預測下一 token - 能力好壞影響模型學得的結構化事實與規則表示。 - 可能是 CoT 能力的基礎。 ### 實驗設計 - 使用合成數據（synthetic data）控制條件，測試組合推理（composition）與比較推理（comparison）。 - 區分 **In-Distribution（ID）** 與 **Out-of-Distribution（OOD/Systematic generalization）** 測試集。 ### 發現 - Transformer 能學 implicit reasoning，但需經過 Grokking 過程 - 訓練集先快速 overfit（準確率 100%），但測試集準確率很低。 - 長時間額外訓練後，測試集準確率突然上升（特別是 ID case）。 - 不同推理類型的泛化能力差異 - Composition reasoning：O 泛化失敗。 - Comparison reasoning：O 泛化成功。 Grokking 觸發因素 - 不是資料量大小，而是資料分佈（推論 facts 與 atomic facts 的比例）影響泛化速度。 - Mechanistic interpretation Mechanistic interpretation 發現不同推理類型有不同電路結構 - Composition：兩階段電路（先找 bridge entity，再延遲處理第二 hop）。 Comparison：平行電路（同時檢索兩個實體的屬性值再比較）。 Comparison：平行電路（同時檢索兩個實體的屬性值再比較）。 Composition O 泛化失敗原因模型無誘因將第二 hop 的 atomic fact 存在高層表示（延遲處理需要）。 - **Composition**：分兩階段（找到橋接實體 → 延遲處理第二步關係）。 - **Comparison**：平行檢索兩個屬性值 → 比較。 - **改進泛化方法**：參數共享（Parameter sharing）迫使高層層數保留關鍵事實表示。 --- ## 6. 規劃（Planning） ### 6.1 定義 - 給定目標（Goal），決定一系列動作，達成目標狀態。 ### 6.2 新趨勢 - **目標描述**更具表達力（自然語言），但更模糊（fuzzy）。 - **行動空間**開放且動態（例如 Web Agent）。 - **目標驗證**困難（無法事先定義明確測試）。 ### 6.3 規劃範式 1. **Reactive Planning**：每步觀察→推理→執行 - 優：快、簡單 - 缺：易陷入壞狀態 2. **Tree Search**：系統性探索+回溯 - 缺：真實環境中許多動作不可逆，風險高 3. **Model-based Planning**：使用世界模型模擬未來狀態 - 優：可預測長期效果與安全性 - 難點：取得泛用世界模型 ### 6.4 WebDreamer - 用 LLM（如 GPT-4）模擬世界模型，對多個候選動作進行模擬與評分，再選擇最佳動作。 - 在 WebArena 測試中，效果優於 Reactive，略低於 Tree Search（但真實網路場景中 Tree Search 很難實施）。 --- ## 7. 未來方向與挑戰 - **記憶**：個人化與持續學習。 - **推理**：在模糊世界中應用 O1/R1 式推理。 - **規劃**：更高效的世界模型、反應式與模型規劃的平衡、長期任務維持。 - **安全**： - **內生風險**（來自 agent 自身的錯誤） - **外生風險**（惡意環境輸入） - **應用**：深度研究（Deep Research）、工作流自動化、科學研究輔助。