# Lecture 3: On Reasoning, Memory, and Planning of Language Agents ## Introduction ### 對 Agent 現況的看法 (The rise and the divide) [**01:34**](https://youtu.be/zvI4UN2_i-w?t=94)  - 現有的 agents 只是對 LLM 的包裝而已。 - Auto-Regressive LLM 永遠無法真正地推理或規劃事情。 - 從 Auto-GPT 在使用上仍有限制,由此可見,Agent 距離成為實用的解決方案還差很遠。  ### Why agents again? - Agent 可被視作為,一切能透過 Sensor 感知環境,並透過 Actuators 和環境進行作用的事物 > “An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators” >–– Russel & Norvig, AI: A Modern Approach ### 'Modern' agnet = LLM + external environment - Language Models: text in text out interface - LLM 受限於 text interface,可做的事情有限 - 一旦 LLM 和環境連接, LLM 可以從環境汲取資訊,並對外在環境造成影響 - 也就是 LLM-based Agent - 那這些又是甚麼? Self-reflection? Multi-agent simulation? ... - Self-Reflection: - LLM 透過觀察自己的 reasoning 過程,進行反思、檢討,並在 inference 中,自動決定要做哪些進一步操作。 - Multi-agent Simulation: - 透過多個 LLM Agent 進行交流與協作,模擬處理複雜任務的過程,實現分工合作,多角度推理。提升模型在解決問題上的靈活性與準確性。 ### Two Competing views (for LLM-Agent) LLM-first view: 直接把 LLM 作為 Agent - 以 prompting 為主要手段,圍繞 prompt 優化和工程實作,來驅動 LLM 達成任務,較少關注傳統 AI Agent 的其他問題。 Agent-first view: 先有 Agent 的整體架構,再將 LLM 當作架構中的一個 component - 將 LLM 視作 Reasoning 和溝通的渠道,配合其他 Agent 和工具合作完成任務 - Note: 仍需解決一般 Agent 面臨的問題,如: 感知並理解外在環境、推理、規劃任務..等 - 並需要透過新的方式重新驗證整個 Agentic System ### 相比較過往,LLM 和 Agent 帶來甚麼根本上的變化? Communication - Instruction following: AI 能準確理解,並執行 User 的指令 - In-context learning: AI 能根據 prompt 前後文,理解不同任務和動態調整行為,不需要重新訓練 - Output customization: 能根據使用者需求(簡答、詳細說明、數字),進行更客製化的輸出,以應用不同的使用場警 Reasoning - state inferences: AI 能做出狀態推斷,理解任務敘述背後的隱含信息 - self-reflection: 能自我反思,改善決策和行動策略 - replanning: 能根據不同情境靈活地進行重新規劃、調整行動方案 ## 新一代語言代理人(Language Agents)的定位 - **核心改變** - 新一代 Language Agents 增加了名為「推理」的 action 類型 - 傳統 AI agent 架構中,action 通常指與外部環境互動的行為。 - 推理 action: 透過 token 生成進行思考,並形成內心獨白 (inner-monologue) - 透過 inner-monologue,Agents 就能處理如 self-reflection 的後設推理行為 (meta-reasoning),並進行更好的行動 - Note: meta-reasoning 是對**推理過程**進行思考和管理的一種行為,以確認思路是否正確的方式 - 有了**推理**ˇ的幫助,LLM Agents 的**外界感知能力(percept)**和**外部行動能力(action)**得到提升 ### 有關 Reasoning 的定義  - by <Thinking fast and slow> -- Daniel Kahneman - 在心理學上,這些行為皆屬於推理 (Reasoning): 感知 (perception)、直覺推論(intuitive inference)、符號推理(symbolic reasoning)... - 但在 LLM 中,只有單一核心機制 (token generation) - 所有 LLM 的推理行為(如圖),都會藉由 token generation 完成,因此統稱為 reasoning --- ## Agents 的名稱與定位  - **Language Agents** - 現在有許多名稱用來代指Agent,如: 「AI agents」、「autonomous agents」、「LM agents」 - 而在這些名稱中,作者認為「LM agents」更準確,因為語言是最核心能力 - 至於在 Multi-Agents 中的重要性,雖然有其他模態的 Agents 負責感知環境,但語言模型仍肩負著**推理**和**溝通**的重任 - Langeuage Agent 的定位 - 作者認為這一代 Agent 真正需要的,是通用語言理解和生成能力 (universal language understanding and production) - Universal language: 跨模態的理解,不一定來自自然語言,也可能是超越語言的模態 - 而 Language Agents 也因為跨文本、語音、圖像等多模態的理解的能力,備受關注 - **歷史背景**  - 人類智能是大自然創造的模型,大腦將來自不同感官的原始輸入整合為統一的神經表徵,重建我們周遭世界,並支持符號推理與決策。 - 而先前的 AI agent 僅僅具備有限的人類智能特徵(如: 單模態感知、符號推理)。 - 新世代 Agent 結合多模態大型語言模型,能將多模態資訊編碼為統一特徵,支持符號推理與溝通,顯著提升其表達力、推理力與適應性。 --- ## Framework for Language Agents  - 核心是「核心能力」(Core competencies) - 這些核心能力對應人類大腦的認知功能: - 底層為感知(Perception)、記憶(Memory)、環境反饋(Embodiment)等基礎功能。 - 中層包括推理(Reasoning)、世界模型(World Models)。 - 上層是計劃(Planning),建立在推理和世界模型之上。工具使用(Tool Use) - **Cross-cutting issue (跨層級議題)**: - 安全性(Safety) - 評估(Evaluation) - 資料生成(Synthetic Data) - 效率(Efficiency) --- ### 記憶(Memory)  - 目前的 LLM 難以進行 **長期參數式學習(parametric continual learning)**,容易發生 **catastrophic forgetting** - 當模型學習新知識時,會無意中影響或覆蓋原有知識,導致模型表現不穩定 - 以模型編輯(model editing)為例: - 修改模型知識(model editing)常導致連鎖影響(repo effect),如其他相關事實未更新,或出現矛盾的預測。 - 語言表達也可能變得怪異或不連貫。 - 這些問題源自神經網絡的高度分散,使得持續學習變得非常困難。 ### 非參數式記憶(Non-parametric memory) - **RAG(Retrieval-Augmented Generation)** - 傳統學習方式:直接修改模型參數以融入新知識。 - 非參數記憶(Nonparametric Memory): - 不改變模型參數,將新經驗存於外部資料庫,透過檢索使用。。 - 常見形式為 RAG(Retrieval-Augmented Generation)。 - LLM 對外部記憶非常**易接納**,即使外部知識與內部知識衝突(但也帶來安全風險)。 ### RAG 的現況與侷限 - RAG 是目前 LLM 長期記憶的主流方案: - 將外部資料編碼成向量(embedding) - 透過向量相似度(如: cosine similarity) 進行檢索 - 將檢索到的資訊作為輔助記憶回答問題。 - 限制:與人類記憶相比,RAG 的檢索能力過於簡單。 - 人類記憶可建立跨經驗的複雜聯想,能快速找到相關資訊。 - 人腦的**關聯記憶與模式完成(pattern completion)**能力 - 後續研究需探索如建立跨知識的動態聯結,而非僅依賴單次向量檢索 ### Hippocampal Indexing Theory(HIT) 啟發的 HippoRAG - **理論背景** - 人腦原始記憶存新皮質(模式分離)+ 海馬迴索引(建立跨感官關聯) - 原始記憶存放在新皮層(neocortex)對應的感知區域 - 聽覺記憶 → 聽覺皮層 - 視覺記憶 → 視覺皮層 - 海馬體(hippocampus)儲存「結構化索引」(structured index) - 將分散的記憶片段快速關聯起來 - 兩大功能 - Pattern Separation - 能區分非常相似的記憶(如相隔幾秒的事件) - Pattern Completion - 用部分線索(partial cues)重建完整記憶 - 例:線索是 "Stanford" 和 "Alzheimer's" → 想起相關人物 - **HippoRAG 流程** - **Offline indexing**: - Input:文本段落 - LLM 抽取三元組(概念、實體、關係) - 建立 Knowledge Graph(無預設 ontology,全自動抽取) - 用 dense retriever 合併同義概念 - **Online retrieval**:NER 找到關鍵節點 → Graph search(personalized PageRank)→ 重新加權檢索 - Query → 使用 NER 抽取關鍵概念 - Dense retriever 找到索引圖的相似節點 - 以這些節點為種子(seed)進行 Personalized PageRank Graph Searching - 找到 Relation 權重高的節點 → 回溯到原始文本 - **優勢**: - 支援 multi-hop QA,能完成複雜關聯檢索,且效果顯著優於傳統 dense retriever - **HippoRAG v2**:與大型嵌入模型(Large Embedding Models)相比,在多場景表現更穩定,可作為直接替換方案。 --- ## 5. 推理(Reasoning) ### Implicit reasoning - 不顯性輸出 Chain-of-Thought,直接在單次 forward pass 完成推理。 - E.g:模型記住「Bar 的妻子是 Michelle」與「Michelle 出生於 1964」,輸入「Bar wife born in」直接輸出 1964。 - **重要性**: - 預訓練時的預測任務,沒有 chain-of-thought, - 影響模型內部事實與規則的結構表現方式,只能依靠 implicit reasoning 預測下一 token - 能力好壞影響模型學得的結構化事實與規則表示。 - 可能是 CoT 能力的基礎。 ### 實驗設計 - 使用合成數據(synthetic data)控制條件,測試組合推理(composition)與比較推理(comparison)。 - 區分 **In-Distribution(ID)** 與 **Out-of-Distribution(OOD/Systematic generalization)** 測試集。 ### 發現 - Transformer 能學 implicit reasoning,但需經過 Grokking 過程 - 訓練集先快速 overfit(準確率 100%),但測試集準確率很低。 - 長時間額外訓練後,測試集準確率突然上升(特別是 ID case)。 - 不同推理類型的泛化能力差異 - Composition reasoning:O 泛化失敗。 - Comparison reasoning:O 泛化成功。 Grokking 觸發因素 - 不是資料量大小,而是資料分佈(推論 facts 與 atomic facts 的比例)影響泛化速度。 - Mechanistic interpretation Mechanistic interpretation 發現不同推理類型有不同電路結構 - Composition:兩階段電路(先找 bridge entity,再延遲處理第二 hop)。 Comparison:平行電路(同時檢索兩個實體的屬性值再比較)。 Comparison:平行電路(同時檢索兩個實體的屬性值再比較)。 Composition O 泛化失敗原因 模型無誘因將第二 hop 的 atomic fact 存在高層表示(延遲處理需要)。 - **Composition**:分兩階段(找到橋接實體 → 延遲處理第二步關係)。 - **Comparison**:平行檢索兩個屬性值 → 比較。 - **改進泛化方法**:參數共享(Parameter sharing)迫使高層層數保留關鍵事實表示。 --- ## 6. 規劃(Planning) ### 6.1 定義 - 給定目標(Goal),決定一系列動作,達成目標狀態。 ### 6.2 新趨勢 - **目標描述**更具表達力(自然語言),但更模糊(fuzzy)。 - **行動空間**開放且動態(例如 Web Agent)。 - **目標驗證**困難(無法事先定義明確測試)。 ### 6.3 規劃範式 1. **Reactive Planning**:每步觀察→推理→執行 - 優:快、簡單 - 缺:易陷入壞狀態 2. **Tree Search**:系統性探索+回溯 - 缺:真實環境中許多動作不可逆,風險高 3. **Model-based Planning**:使用世界模型模擬未來狀態 - 優:可預測長期效果與安全性 - 難點:取得泛用世界模型 ### 6.4 WebDreamer - 用 LLM(如 GPT-4)模擬世界模型,對多個候選動作進行模擬與評分,再選擇最佳動作。 - 在 WebArena 測試中,效果優於 Reactive,略低於 Tree Search(但真實網路場景中 Tree Search 很難實施)。 --- ## 7. 未來方向與挑戰 - **記憶**:個人化與持續學習。 - **推理**:在模糊世界中應用 O1/R1 式推理。 - **規劃**:更高效的世界模型、反應式與模型規劃的平衡、長期任務維持。 - **安全**: - **內生風險**(來自 agent 自身的錯誤) - **外生風險**(惡意環境輸入) - **應用**:深度研究(Deep Research)、工作流自動化、科學研究輔助。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up