# 課程前提與「AI agent」的定義範圍 * 「AI agent」被很廣泛使用,不同人可能有不同定義 * 這堂課不爭論哪個定義才正確,也不排除有人認為要有實體機器人才算 agent * 本課的定義:人類給目標,不給明確步驟;AI 自行規劃並完成目標 # 與一般使用 AI 的差異  * 一般 AI:人下指令,AI 按指令完成單一步驟輸出,不會主動多做事 * AI agent:人只提供目標,AI 需要自己想方法、拆解步驟、執行並調整 # AI agent 的典型能力期待 * 能自己提出假設、設計實驗、進行實驗、分析結果 * 結果不符合假設時,能回頭修正假設並再嘗試 * 面對需要多步驟、與環境複雜互動、且帶有不可預測性的任務 * 能根據當下狀況動態調整計畫,而不是照固定流程走 # 運作流程抽象化:目標—觀察—行動的循環  * 輸入:人給定的目標 * 觀察(observation):agent 取得目前環境狀態 * 行動(action):agent 根據觀察決定要做什麼 * 行動會改變環境,產生新的觀察 * 反覆循環直到目標達成 # 例子:AlphaGo 作為 AI agent  * 目標:贏棋 * 觀察:棋盤上黑白子分佈與盤面狀態 * 行動:在 19×19 的位置中選擇落子點 * 每次落子與對手回應會改變盤面,進而改變下一步決策 # 為何會連到強化學習(RL)的教科書框架  * 很多 RL 入門課都用「agent—environment—observation—action」來開場 * 過去打造 agent 常被認為要靠 RL * RL 透過學習讓 agent 最大化 reward,因此要把目標轉成 reward * 圍棋常見 reward 設計:贏 +1、輸 -1 # RL 型 agent 的侷限:任務綁定與模型不通用 * 每個任務通常要各自訓練一個模型 * AlphaGo 能下圍棋不代表能下西洋棋或將棋 * 即使 AlphaZero 能涵蓋多棋種,也是在不同訓練結果下得到的不同模型與參數 # AI agent 再次爆紅的原因:把 LLM 直接當 agent 用  * 新焦點不是「agent 本身有新技術」,而是 LLM 變強後可否直接承擔決策 * 目標用文字描述輸入給 LLM(例如給規則並要求贏棋) * 環境狀態可轉成文字給模型;部分模型也可直接看圖,不一定要文字化 * 模型輸出用文字描述 action,再轉成可執行的實際行動 * 透過「觀察→行動→新觀察」循環持續運作直到達標 # LLM 下棋的實測:能力仍有限  * 2022 年 BigBench 曾測語言模型下西洋棋(以文字描述棋盤) * 當時沒有模型能給出正確下一步,但較強模型多半至少遵守棋規,較弱模型會亂走 * 有知名影片讓 ChatGPT o1 與 DeepSeek-R1 下棋,出現大量違規走法與憑空變子等問題 * 結論是:最強 LLM 在嚴格棋類規則推理上仍不可靠,但不代表不能用於其他 agent 任務 # 從 LLM 的角度看 agent:不是新技術,是一種用法  * LLM 在 agent 迴圈中做的仍是「根據輸入文字產生下一段文字」 * 目標、觀察、行動都可以被表達成文字序列,模型只是持續接續輸出 * 因此本課重點偏向應用層:使用既有模型,不涉及訓練新模型 # 近期熱潮的歷史脈絡:2023 的一波與退潮  * ChatGPT 在 2022 年底爆紅後,2023 春天出現一波 agent 熱潮 * 代表性例子:AutoGPT * 熱潮後來降溫,原因是實際效果不如早期宣傳強大 # LLM 型 agent 的優勢之一:行動空間更大  * 傳統像 AlphaGo 的行動集合是有限且預先定義(從 19×19 選一格) * LLM 可以產生近乎無限的文字輸出,代表可描述更多樣化的行動 * 當遇到自身解不了的問題時,也更容易改用「呼叫工具」來補足能力 # LLM 型 agent 的優勢之二:不必用 reward「通靈」,回饋更有資訊量  * RL 需要手動設計 reward,數值怎麼設常缺乏明確依據(例如 -1、-10 的差異) * LLM 型 agent 不一定需要 reward 設計 * 面對程式錯誤時可直接給 compile error log,模型可能讀得懂並據此修改 * 相較於單一數值 reward,錯誤 log 提供更豐富的狀態資訊,更利於調整行為 --- # AI 村民虛擬村莊(2023)   * 以多個由語言模型驅動的 NPC 組成虛擬社會 * 每個 NPC 都有人為設定的目標(例如辦派對、準備考試) * NPC 透過「文字化」的環境描述取得觀察資訊(看到誰在做什麼、身邊有哪些物件等) * 根據觀察與目標,由模型決定下一個行為(例如去睡覺) * 需要轉譯器把模型產生的行為描述轉成可執行指令,讓角色在環境中實際移動與互動 # 更大規模的遊戲 NPC:Minecraft 版本  * 有人將 Minecraft 的 NPC 大量替換成 AI NPC * 影片描述宣稱 AI 會自組交易與金融體系、形成政府、制定憲法與自我管理 # 讓 AI 直接「使用電腦」的 Agent(更貼近現實)  * 目標由使用者輸入直接指定(例如訂披薩、網購、預約服務) * 觀察來源可直接是螢幕畫面(現代模型可看圖,因此能把畫面當輸入) * 行動空間是鍵盤按鍵與滑鼠操作(點哪裡、按哪個鍵) # 早期嘗試:2017 Web-based Agent(World of Bits)  * 在大型語言模型出現前,已有人嘗試讓 AI 在網頁世界執行任務 * 方法偏向以 CNN 直接吃螢幕畫面,輸出點擊位置或鍵盤動作 * 能處理的介面較原始,屬於早期探索路線 # 語言模型驅動的 Web Agent 潮流(約 2023 夏季起)  * 代表性工作包含(如)Mind2Web、WebArena、Visual WebArena * 讓模型看螢幕截圖或 HTML,再自行決定操作步驟以完成任務 * 任務例子如:看著訂票網站畫面,完成機票訂購流程 * 形式上與後來的 Operator 類產品概念相近 # 用 AI 來訓練另一個 AI(ML Engineer Agent)  * 把「達到某個 baseline 以上表現」視為目標 * LLM 產生訓練程式與流程,用資料訓練模型並回收評估結果 * 依照正確率等回饋反覆改寫程式與訓練策略,形成迭代循環 * 代表性框架如 AIDE,目標是以多代理方式解資料科學競賽題 # AI Co-scientist:用 Agent 輔助研究規劃  * Google 提出 AI Co-scientist 概念,但未必公開釋出可用服務或模型 * 主要能力偏向產生研究提案與規劃,而非真的做實驗 * 官方案例宣稱能大幅加速研究產出,但實際效果與重要性難以直接驗證 # 互動模式的限制:回合制 vs 即時互動  * 常見 agent 是回合制:觀察一次、做一次動作,再觀察、再動作 * 真實環境可能在動作執行中途就改變,模型需要能即時改變決策 * 語音對話特別需要非回合制互動:可能被打斷、需要即時回饋與接話  * 例子:說故事途中,使用者插話「好」不影響敘事,但說「不是我要聽的」就應立即切換內容 * GPT-4o 的高級語音模式被視為可能部分接近這種即時互動能力 # 後續剖析 AI Agent 的三個關鍵能力面向  * 能否根據過去互動經驗調整行為(從經驗學習) * 如何呼叫外部援助並使用工具(工具使用) * 能否制定並執行計畫(規劃與計畫執行) --- # 根據回饋調整行為:不訓練模型也能做到  * AI agent 需要能根據環境回饋改變後續行為,例如程式 compile 出錯就要修正 * 傳統機器學習常用「更新參數、用 RL 訓練」來學會改行為 * 本課不做任何訓練、不更新參數:直接把錯誤訊息(error message / log)餵給 LLM,就可能讓下一版輸出不同、進而修正 # 為什麼同一個模型給回饋就會變好  * LLM 的運作本質是文字接龍,輸入變了,輸出就會變 * 一開始只看到任務描述,容易寫出有錯的程式 * 加上 compile error 的輸入後,模型接續的內容不同,可能就導向更正確的修改 * 目前有大量實務經驗顯示:LLM 能用回饋改變行為,不必調參數 # 問題:把「所有經驗」都塞回去會失效  * 如果每次決策都把過去所有發生的事全丟給模型,序列會越來越長 * 步數少時還能運作,步數到上萬時可能因為輸入太長與算力限制而無法有效推理 * 類比超憶症:記得太多細節反而容易陷入冗長回憶、難以抽象思考 * 對 agent 來說,「全記全用」可能讓決策品質變差 # 記憶架構:Memory + Read 模組  * 把過去經驗存進長期記憶(memory) * 決策時不讀全部,而是透過 read 模組從 memory 挑出「與當前情境相關」的經驗 * 把挑出的相關經驗放到當前 observation 前面,讓模型據此產生 action * read 模組可以視為一個檢索系統:問題是 query、memory 是資料庫、輸出是相關片段 # Read 模組與 RAG 的關係  * read 模組的本質就是 retrieval,也就是把 RAG 的方法套用到 agent 記憶 * RAG 常見的資料來源是外部知識(例如整個網路) * agent 記憶的資料來源是自己的經歷 * 差別在「資料來源」,檢索與拼接到上下文的技術路徑幾乎相同 # 研究工具:StreamBench 的設計  * 以一連串題目構成互動流程,agent 依序回答並收到回饋 * 回饋是二元(對/錯),因為題目有標準答案 * 衡量方式看整段流程的平均正確率,能越快利用少量回饋提升表現者越好 * baseline 使用類似 RAG 的做法:不把前面所有題目都塞回去,而是檢索出相關經驗再回答 # StreamBench 的主要觀察:檢索式記憶很有效  * 不做跨題學習、每題獨立回答的表現最低 * 固定隨機挑少數經驗當上下文能提升一些 * 用檢索挑選「最相關」的過去經驗,正確率提升更明顯 * 最佳方法通常還會在檢索與使用經驗的策略上做更進一步設計 # StreamBench 的有趣結果:負面回饋通常幫助不大  * 只提供負面例子(錯誤案例)多半沒幫助,甚至可能有害 * 提供正面例子(正確案例)在各資料集更穩定有效  * 同時用正負例通常會變好,但「只用正例」往往更好 * 對應到提示技巧:與其說「不要怎樣」,不如直接說「要怎樣」 # 記憶不該全存:Write 模組決定記什麼  * 若把所有觀察都存進 memory,容易塞滿無關緊要資訊 * 在像「AI 村民」這類場景,log 多是瑣碎描述,存太多只會污染記憶庫  * 需要 write 模組判斷哪些資訊值得記錄,哪些可以丟棄 * 最簡單做法:write 模組也是語言模型(甚至就是 agent 自己),自問「這件事重要到要記嗎」 # 第三模組:Reflection 反思與抽象整理  * reflection 模組把記憶做更高層次的重整與抽象,產生新的想法或規則 * 可把多段經驗整合成推論出的結論,作為之後決策的輔助訊息 * 也可建立經驗之間的關聯,讓 read 模組更容易找出真正相關的線索 # Reflection 與 Knowledge Graph、Graph RAG 的連結  * reflection 可把記憶整理成關係結構(knowledge graph) * 之後檢索不只靠文字相似度,也能沿著圖結構找關聯經驗 * 這類做法與 Graph RAG、HippoRAG 等「圖結構檢索」思路相通 * 將 RAG 的圖式方法套進 agent 記憶體系,可提升搜尋與決策效率 --- # ChatGPT 的長期記憶與 Agent 化意圖  * ChatGPT 具備可寫入與讀取的「記憶」,可視為朝 AI agent 發展的重要特徵 * 使用者明確要求「記下來」通常能觸發寫入(write)模組 * 寫入是否觸發常由模型自行判斷,可能出現想記不記、或不想記卻記的狀況  * 記憶可在設定的個人化/記憶管理中查看,屬於長期保存的資訊 # 記憶的特性與可能錯誤  * 記憶不是逐字保存對話,而是模型「整理/反思後的摘要」 * 因為是摘要與推論,可能存入錯誤資訊(例如誤判身分或背景) * 記憶內容可能包含名字、偏好、行程、曾做過的事情等各種模型認為有用的資訊 # 記憶的讀取(read)如何影響回答 * 當提問與記憶相關時,讀取模組可能啟動並影響回覆(例如提醒週五下午有課) * 讀取機制不透明:可能全部載入,也可能只檢索相關記憶片段 * 讀取後能讓模型在新問題中展現「一致性」與「個人化」 # Agent 記憶研究脈絡(23–25)  * 相關研究持續演進,例子包含 MemoryGPT(2023)、Agent Workflow Memory(2024)、Agent Memory Agent(2025) * 主題核心在於:如何寫入、保存、檢索、更新記憶,使 agent 行為能隨經驗調整 # 什麼是「工具」與為何叫 function calling  * 對語言模型而言,工具是「知道怎麼用即可,不必理解內部運作」的外部能力 * 常見工具包含搜尋引擎、可執行程式碼、其他 AI 模型(多模態或更強模型) * 使用工具本質上等同「呼叫函式」,因此常被稱為 function calling # 通用的工具使用流程(以文字規約驅動)  * 在系統提示中描述:工具名稱、用途、輸入格式、輸出格式與示例 * 使用者提出任務後,模型若判斷需要工具,會輸出一段「呼叫工具的文字」 * 因模型只是在產生文字,需要開發者在外部系統把這段文字轉成真正的函式呼叫  * 工具回傳結果後,再把結果以指定格式塞回模型上下文,讓模型生成最終回答 * 可設計成把呼叫工具與工具輸出「對使用者隱藏」,使用者只看到最終答案 # System Prompt 與 User Prompt 的差別與優先級 * System Prompt:開發者固定放在前面、長期有效的規則與設定,優先級較高 * User Prompt:每次互動由使用者提供的具體問題或需求,優先級較低 * 當兩者衝突時,模型應遵循 System Prompt 而非 User Prompt # 搜尋作為工具:RAG 的典型形式  * 語言模型最常用的工具是搜尋或檢索系統 * 透過 Retrieval-Augmented Generation(RAG)把外部資訊取回後再生成答案 # 以「其他 AI」作為工具解多模態任務    * 文字模型若無法直接理解語音或圖片,可改為呼叫語音辨識、情緒辨識、說話者驗證等工具 * 模型可串接多個工具並整合輸出,得到比單一端到端模型更準確的結果 * 在多任務語音基準(例如涵蓋多種語音任務的評測)上,工具導向方法可勝過當時號稱可直接聽語音的模型 # 工具太多時的挑戰:工具選擇與檢索  * 工具數量達上百上千時,無法把全部工具說明一次塞進提示讓模型閱讀  * 解法是把工具說明存成「工具記憶/工具庫」,再用工具選擇模組做檢索 * 模型在決策下一步時,只看被檢索出的少量候選工具說明,降低上下文負擔 * 工具選擇的研究持續進展,會以狀態/任務需求去挑選最合適的工具 # 模型自行打造工具:用程式碼擴充工具包  * 因工具本質是函式,模型能透過寫程式自建 function 當作新工具 * 若某段程式在任務中反覆有效,可被保存進工具包,未來再被選出使用 * 這與「把成功經驗寫進記憶、再檢索出來影響行為」在精神上相近,只是記憶內容換成可重用的程式碼工具 --- # 工具鏈現象:人用 LLM,LLM 用其他工具  * 人類把語言模型當工具,語言模型再把搜尋引擎等外部系統當工具 * 搜尋引擎變成「工具的工具」,主要由語言模型代用而不是人直接使用 * 但工具可能會犯錯,過度相信工具會導致嚴重後果 # 工具出錯案例:RAG 也會被垃圾資訊帶偏  * 以 Google 的 AI Overview(以搜尋結果做總結的 RAG)為例 * 問「披薩起司黏不住怎麼辦」得到「用無毒膠水黏」這種荒謬建議 * 來源是網路上的玩笑貼文(例如論壇/社群),模型無法可靠判斷玩笑與事實 # 語言模型是否會質疑工具輸出   * 語言模型不一定盲信工具,會用自身常識做一定程度的合理性檢查 * 當工具回傳「高雄 100°C」時,模型可能照單全收並延伸描述「很熱」 * 當工具回傳「一萬度」這種更誇張數值時,模型更可能判斷不合理並懷疑工具有誤 # 內外知識角力:internal knowledge vs external knowledge  * 模型參數中有對世界的內部信念(internal knowledge) * 工具或檢索提供外部資訊(external knowledge) * 最終回答是兩者拉扯後的結果,不是單純照抄外部資訊 # 為什麼「什麼外部資訊更能說服模型」很重要  * 越來越多人用 Deep Research 之類的 AI 搜尋/報告生成,而不是自己查搜尋引擎 * 當議題有爭議、存在正反兩派時,能更「說服 AI」的文字更可能主導 AI 的彙整結果 * 因此理解模型偏好哪些外部證據,會直接影響人類最後接收到的資訊 # 研究結論:外部資訊與模型信念差距越大越不容易被採納 * 實驗先測模型內部答案:某藥最大日劑量模型答 20mg,真實是 30mg * 提供醫學報告寫 30mg 時,模型會被糾正並回答 30mg * 把報告改成 3mg(差太大、偏離常識)時,模型不信外部資訊,回到答 20mg * 把報告改成 60mg(偏離但不至於荒謬)時,模型可能改信外部資訊 * 把報告改成 300mg(差距過大)時,模型又回到不信外部資訊 # 研究結論:模型對自己答案的信心會影響可被動搖程度 * 可用方法估計模型當下的信心程度 * 信心低時較容易被外部資訊說服 * 信心高時較不容易被外部資訊動搖 # 兩篇互相矛盾的文章:模型更信誰  * 有研究發現:一篇人寫、一篇 AI 寫且觀點相左時,模型傾向相信 AI 寫的內容 * 即使刻意挑選「模型原本立場與兩者都不同」的情境,仍觀察到偏向信 AI 的傾向 * 一個推論方向是:AI 文字可能更有結構、更清晰簡潔,使其更容易被另一個模型接受 # Metadata 影響:模型偏好「較新」的文章  * 實驗設計:同題給兩篇相反結論的文章,內容皆為 AI 生成,避免人/AI作者偏好干擾 * 只改發佈年份(例如 2024 vs 2021),模型傾向相信較新的那篇 * 交換兩篇的年份標籤後,模型的偏好也跟著翻轉,顯示「新舊」本身會影響信任 # 來源影響較小:Wiki vs 論壇等 * 測試把文章標示成 Wikipedia 或論壇擷取,對模型相信哪篇的影響相對不明顯 * 在這組設定下,來源標籤不如「發佈時間」有力 # 呈現方式也可能影響:視覺模板的偏差  * 用可看圖的模型,給相同文字內容但不同網頁模板呈現 * 模型在兩種模板間的信任傾向會不同,顯示版面呈現可能成為干擾因子 * 但由於只比較少量模板,不能武斷說模型「喜歡好看」,只能說模板差異會造成偏好差異 # 就算工具正確、RAG 也不保證不出錯  * 例子:要求介紹「李宏毅」且強調多才多藝,模型在檢索後可能把同名不同人的資訊混在一起 * 這種錯誤不是單純工具錯,而是模型整合與敘事時的混淆 * 模型能力會快速變動,某些舊錯誤之後可能修正,但風險類型仍存在 # 使用工具不一定更有效率:取決於任務難度與模型能力  * 類比心算 vs 計算機:簡單題(3×4)人直接答更快,按計算機反而慢 * 早期研究會外接翻譯、QA 等工具,是因為當時模型本身能力不足 * 當模型自身能力提升後,某些工具呼叫變得多餘,甚至增加成本與延遲 * 是否呼叫工具應由「問題難度」與「模型本身能力」共同決定 --- # 規劃能力的核心問題:模型到底有沒有在「想未來」   * 觀察到輸入就輸出,不一定代表模型真的在規劃,可能只是反射式生成 * 可以強迫模型顯式產生 plan:從 observation 出發列出達成目標的一系列行動 * 把 plan 放回後續輸入,讓模型在產生 action 時「參照 plan」執行 # 計畫會失效:環境不可控與隨機性  * 從 action 到下一個 observation 由外部環境決定,模型無法完全控制 * 環境隨機性會導致觀察狀態與預期不同,使原 plan 不再適用 * 例子:下棋無法預測對手出招;使用電腦時可能跳出廣告視窗導致卡住 # 動態重規劃:每一步都重新思考 plan * 每次看到新的 observation,都重新評估是否要改 plan * 形成當下的 plan π,並把 plan π 納入輸入,讓下一步行為可偏離原本規劃 * 這是理想化作法,前提是模型真有能力依目標與狀態產生可執行規劃 # 「看起來會規劃」不等於真的會:農場文式計畫的陷阱  * 模型能生成像「百萬訂閱 YouTuber 分階段策略」這類看似合理的計畫 * 這類輸出可能只是把訓練資料中常見模板接龍出來,不代表具備可落地的規劃推理 # 早期證據:2022 任務分解與虛擬環境執行  * 用「把任務拆成步驟」來衡量規劃能力,例:刷牙流程拆解成連續動作 * 研究把模型生成的步驟用來操控 agent,在虛擬世界中完成取物、開關冰箱等任務 * 這顯示模型至少能在常見日常任務上給出合理的行動序列 # 規劃基準 PlanBench:從積木到「神秘方塊世界」  * 一般積木堆疊題可能被模型在訓練資料中看過,無法證明真正規劃能力  * PlanBench 增加「神秘方塊世界」:行為與規則刻意怪異且複雜,降低背誦可能  * 2023 結果顯示在神秘方塊世界多數模型正確率很低,GPT-4 也僅約個位數等級 # 後續變化:reasoning 模型在神秘方塊世界出現起色(2024/09)  * 一般模型仍普遍低分,僅少數大型或 reasoning 取向模型在簡單難度開始上升 * o1-mini、o1-preview 的曲線相對更有機會解部分題目 * 仍存在資料污染疑慮:無法完全排除模型看過類似規則或題型的可能 # 旅行規劃 Benchmark:工具使用與約束滿足的失敗(2024 年初)   * 任務:讀懂出發地、時間、預算、必去/禁忌等限制,產生三天行程並可用網路工具找資料  * 2024 年初結果:多數模型成功率接近 0%,GPT-4 Turbo 也僅極低成功率 * 即使把資料先整理好貼給模型、不讓它自己用工具,成功率仍只有少數百分比 # 常見錯誤型態:常識違反與預算約束無法收斂  * 行程排到航班起飛後還在安排景點與午餐,時間線不合理 * 面對超支時只微調餐費、不調整住宿等高影響成本,導致始終不符合預算 * 反覆修修補補後直接放棄約束,顯示「約束滿足」能力薄弱 # 以 solver 當工具:把約束交給演算法後大幅提升(2024/04)  * 把「符合限制」交給現成 solver,模型負責寫程式與呼叫 solver 來生成方案  * 引入工具後,旅遊規劃可達到 90% 以上的成功率(以當時報告為例) * 意味著規劃問題中最難的部分往往是嚴格約束與一致性檢查,工具能補足模型弱點 --- # 規劃能力現況評估  * 目前模型的規劃能力介於「有」與「沒有」之間 * 不能說完全不會規劃,但也談不上非常強 # 強化規劃的一種直覺方法:先跟環境互動做搜尋 * 在第一個 observation 先試探可用行為與可能路徑 * 把可選 action 都嘗試一遍,延伸到下一層狀態再繼續嘗試 * 透過大量嘗試找到成功路徑,形成一條可執行的最佳路徑 # 直接報搜的弱點:成本爆炸  * 任務越複雜,路徑數越多,暴力搜尋的算力需求越不切實際 * 不可能每次決策前都完整探索所有可能性 # 剪枝思路:丟掉看起來沒希望的路徑 * 走到某狀態時,模型自問「還有成功機會嗎」 * 對每條路徑打分,低於門檻就停止探索並改走別條路 * 目標是減少無謂搜尋,把算力集中在有希望的分支 # 例子:Tree Search for Language Model Agent  * 讓模型在使用電腦/網頁任務中用樹狀搜尋來做規劃 * 相較於只靠直覺式一步到位的行動,樹狀搜尋加剪枝能提升成功率 * 搜尋過程包含反覆評估路徑可行性、丟棄低分分支、保留高分分支 # Tree Search 在現實互動的問題:覆水難收  * 有些 action 一旦執行就無法回到原狀,例如下單訂 pizza * 搜尋時走錯分支可能造成真實成本,即使後來發現便當才是最佳方案也回不去 * 因此「用真實世界做完整探索」在很多任務風險太高 # 解法方向:把探索搬到「夢境」裡做  * 讓大量嘗試發生在模型腦內模擬,而不是實際對環境執行 * 先在模擬中比較路徑,再把選出的最佳步驟拿到現實執行 # 夢境規劃的關鍵缺口:需要 World Model * 從 action 到下一個 observation 的變化是由環境決定,不是模型決定 * 若在腦內模擬,模型必須猜「做了某事後環境會怎麼變」 * 因此需要一個 World Model 來模擬環境反應與狀態轉移 # 例子:Is your LLM secretly a world model of the internet  * 用 model-based planning 做 web agent 的規劃 * 在腦內模擬點不同按鈕後可能發生的結果,通常用文字描述模擬後續頁面變化 * 對不同路徑估計成功機率(例如 40%/80%/10%),挑最高者 * 只有最後選定的那一步才真的在現實網頁中執行 # 推論模型的「腦內小劇場」可能就是規劃  * 所謂 reasoning 的可見思考過程可視為在內部做多路徑嘗試與驗證 * 可能包含自我扮演 World Model、想像後果、比較成功率、選擇路徑 * 實測例子提到 DeepSeek-R1 會用很長的思考過程找出積木任務的可行解,再輸出下一步 # 風險:Overthinking(想太多)  * 能做腦內小劇場的模型整體表現通常更好,但可能陷入無止盡思考 * 有些情境與其一直推演,不如直接試一次(例如按按鈕再按上一頁就知道) * 也可能在未嘗試前就先判定做不到而放棄,變成「思考很多、行動很少」 # 本段落收束的三個主題  * 模型如何依經驗與回饋調整行為(不訓練參數) * 模型使用工具的可靠性與內外知識拉扯 * 模型是否能做計畫,以及如何用搜尋、夢境模擬、world model 與避免想太多來強化規劃 --- # Terminology * 免責聲明(Disclaimer):課程先界定使用情境與定義範圍,避免名詞爭議影響理解 * 目標導向(Goal-oriented):只給「要達成什麼」,不給「怎麼做」的任務描述方式 * 明確指令(Explicit Instruction):人類逐步指定行為或流程的指令型互動 * 行為步驟(Action Steps):完成目標所需的可執行操作序列 * 觀測(Observation):代理從環境取得的當前狀態資訊 * 行動(Action):代理在某一時刻對環境施加的操作或決策 * 環境(Environment):代理互動的外部系統或世界,會因行動而改變狀態 * 狀態(State):環境在某一時間點的完整描述(觀測可能是其部分或帶噪版本) * 回饋循環(Feedback Loop):行動改變環境、產生新觀測,再驅動下一次行動的閉環 * 終止條件(Termination Condition):判斷任務何時結束(達標、超時、失敗等)的規則 * 強化學習(Reinforcement Learning, RL):透過與環境互動、最大化回饋來學習策略的方法 * 代理(Agent):在環境中根據觀測選擇行動以達成目標的決策體 * 策略(Policy):從狀態或觀測映射到行動的規則或函數 * 獎勵(Reward):環境回傳的數值訊號,用於衡量行動好壞 * 獎勵塑形(Reward Shaping):設計或調整獎勵以引導學習更快收斂的技巧 * 最大化期望回報(Maximize Expected Return):RL 的核心目標:長期累積獎勵的期望最大化 * 回報(Return):一段時間內折扣後的累積獎勵總和 * 折扣因子(Discount Factor, γ):控制未來獎勵在回報中權重的係數 * 馬可夫決策過程(Markov Decision Process, MDP):用狀態、行動、轉移與獎勵形式化決策問題的框架 * 狀態轉移(State Transition):採取行動後環境從一個狀態演變到下一個狀態的機制 * 動作空間(Action Space):代理可選擇的所有行動集合(離散或連續) * 狀態空間(State Space):環境所有可能狀態的集合 * 部分可觀測(Partially Observable):代理無法直接觀察到完整狀態,只能看到部分資訊 * 部分可觀測 MDP(POMDP):在部分可觀測條件下的決策模型 * 棋盤表示(Board Representation):將棋局狀態轉成可供模型處理的資料格式(文字或向量) * 規則一致性(Rule Consistency):行動是否符合任務領域規則(如棋規、語法、流程限制) * 基準測試(Benchmark):用來比較模型能力的標準化題集或任務集合 * BIG-bench(BIG-bench):用於評估語言模型多面向能力的基準集合 * 多模態模型(Multimodal Model):可處理文字以外輸入(影像、聲音等)的模型 * 視覺語言模型(Vision-Language Model, VLM):能同時理解影像與文字並做推理/生成的模型 * 環境文字化(Textualization):把環境狀態轉成文字敘述供 LLM 使用的做法 * 行動轉譯(Action Parsing):把模型輸出的文字轉成可執行指令或 API 呼叫 * 工具介面(Tool Interface):模型與外部系統互動的標準化入口(函式、API、指令等) * 工具使用(Tool Use):代理在推理過程中主動呼叫外部工具以補足能力 * 規劃(Planning):在採取行動前先產生多步策略與路徑的能力 * 動態重規劃(Replanning):根據新觀測與不確定性隨時調整既定計畫 * 不可預測性(Uncertainty):環境回應或狀態轉移無法完全預知的特性 * 彈性策略(Adaptive Strategy):面對變動情境仍能調整行為以逼近目標的方法 * 通用能力(Generalization):跨不同任務或分佈仍能維持表現的能力 * 任務專用模型(Task-specific Model):為單一任務訓練、難以直接遷移到其他任務的模型 * 參數(Parameters):模型內部可學習的權重,決定其行為與能力 * 模型遷移(Transfer):將已學到的能力用到新任務或新場景的過程 * 文字接龍(Next-token Prediction):LLM 以預測下一個 token 為核心的生成機制 * 應用層(Application Layer):在既有模型之上增加流程、工具與介面形成可用產品的層級 * 代理式工作流(Agentic Workflow):以 LLM 作為決策核心,串接工具並迭代完成任務的流程 * AutoGPT(AutoGPT):早期以 LLM 驅動的自動迭代代理系統代表案例 * 幻覺(Hallucination):模型生成看似合理但不正確或不一致的內容(含規則違反行動) * 約束解碼(Constrained Decoding):在生成時施加格式/規則限制以降低違規輸出的方法 * 結構化輸出(Structured Output):要求模型以 JSON/函式呼叫等固定格式輸出以利可靠執行 * 錯誤日誌(Error Log):系統回傳的錯誤訊息與堆疊,用於除錯與迭代修正 * AI Agent(Artificial Intelligence Agent):能感知環境、做出決策並採取行動以達成目標的自主系統 * 虛擬村莊(Virtual Village):由多個自主代理組成、模擬社會互動與生活行為的虛擬環境 * NPC(Non-Player Character):由系統控制、非真人操控的角色,常用於遊戲或模擬 * 語言模型(Language Model):以文字為主要輸入輸出、用來理解與生成語言的模型 * 大型語言模型(Large Language Model, LLM):參數規模極大、具備通用語言理解與生成能力的語言模型 * 目標導向行為(Goal-Oriented Behavior):代理依據預設或動態目標來選擇行動的能力 * Observation(觀察):代理從環境中接收到的資訊,作為決策依據 * Action(行為):代理根據觀察與內部狀態所執行的具體操作 * 環境表徵(Environment Representation):將真實或虛擬世界轉換成代理可理解的形式 * 文字化感知(Textual Perception):將環境狀態以文字描述提供給模型理解 * 行為轉譯器(Action Translator):將高階語言描述的行為轉換為可執行指令的模組 * 自主決策(Autonomous Decision Making):代理在無人工即時干預下自行選擇行動 * 多代理系統(Multi-Agent System):由多個代理互動、協作或競爭所構成的系統 * 社會模擬(Social Simulation):利用代理模擬群體行為與社會動態的方法 * Minecraft AI NPC:在 Minecraft 環境中以 AI 取代傳統腳本 NPC 的實驗系統 * 憲法式治理(Constitutional Governance):由代理自行制定並遵守規則的治理形式 * 人工經濟系統(Artificial Economy):由代理之間交易、資源分配所形成的經濟結構 * Computer Use Agent(電腦使用代理):能像人類一樣操作電腦介面的 AI 系統 * Operator(操作型代理):以完成使用者指令為目標、主動操作工具與介面的代理 * 螢幕感知(Screen Perception):直接以畫面影像作為模型輸入的感知方式 * 視覺語言模型(Vision-Language Model):同時理解影像與文字資訊的模型 * 鍵盤滑鼠控制(Keyboard & Mouse Control):代理可執行的低階輸入操作 * Web-based Agent(網頁型代理):以瀏覽器與網頁作為主要行動空間的代理 * World of Bits:2017 年提出、以網頁互動為目標的早期 AI agent 資料集與平台 * 卷積神經網路(Convolutional Neural Network, CNN):常用於影像處理的深度學習模型 * 端到端學習(End-to-End Learning):從感知到行動全流程由單一模型學習的方法 * BERT 以前時代(Pre-BERT Era):指大型預訓練語言模型尚未成熟的早期 NLP 階段 * 網頁自動化(Web Automation):由代理自動完成網頁操作任務的技術 * MiniWoB(Mini World of Bits):簡化版 World of Bits,用於評估網頁代理能力 * WebArena:用於評估 AI agent 在真實網站完成任務能力的基準 * Visual WebArena:結合視覺輸入與網頁操作的代理評測環境 * 任務導向代理(Task-Oriented Agent):以完成特定任務為主要評估標準的代理 * 強基線(Strong Baseline):在實驗中作為比較對象的高水準參考方法 * 自我改進迴圈(Self-Improvement Loop):代理根據結果反覆調整策略的流程 * AIDE(AI-Driven Engineering):以 AI agent 執行機器學習工程任務的框架 * 機器學習工程師代理(ML Engineer Agent):模擬人類工程師進行模型訓練與調參的代理 * 多代理協作(Multi-Agent Collaboration):多個代理分工合作以解決複雜問題 * AI Co-scientist(AI 共同科學家):輔助研究人員產生研究假說與計畫的代理系統 * 研究提案生成(Proposal Generation):由 AI 產生完整研究計畫的能力 * 回合制互動(Turn-Based Interaction):觀察與行為交替、一步一步進行的互動模式 * 即時互動(Real-Time Interaction):代理能在行為執行中即時回應環境變化 * 非回合制互動(Non-Turn-Based Interaction):觀察與行為可重疊進行的互動形式 * 語音代理(Voice Agent):以語音作為主要互動媒介的 AI agent * GPT-4o Voice Mode:支援即時語音理解與生成的多模態互動模式 * 即時中斷處理(Interruption Handling):代理在被打斷時能即時調整行為的能力 * 行為切換(Action Switching):代理根據新觀察快速改變當前行動的能力 * arXiv(arXiv):開放式學術預印本平台,用於快速公開最新研究成果 * 行為調整(Behavior Adaptation):根據回饋或經驗改變後續決策方式 * 經驗學習(Experience-based Learning):利用過去互動結果影響未來行為 * 環境回饋(Environmental Feedback):環境對行動給出的結果或訊號 * 編譯錯誤(Compile Error):程式在編譯階段產生的錯誤訊息 * 錯誤訊息(Error Message):系統回傳用來描述失敗原因的文字 * 參數更新(Parameter Update):透過訓練調整模型權重的過程 * 微調(Fine-tuning):以額外資料重新訓練模型參數的方法 * 無訓練學習(Training-free Adaptation):不更新參數、僅靠輸入改變行為 * 條件式生成(Conditional Generation):輸出會隨輸入條件不同而改變 * 上下文學習(In-context Learning):模型僅根據上下文範例即時學習 * 長序列問題(Long-context Issue):輸入過長導致模型效能下降的現象 * 上下文視窗(Context Window):模型一次可處理的最大輸入長度 * 計算負擔(Computational Burden):處理大量資訊所需的算力成本 * 記憶瓶頸(Memory Bottleneck):因資訊過多導致檢索或決策困難 * 超憶症(Hyperthymesia):能記住幾乎所有個人經歷的罕見記憶現象 * 抽象思考(Abstract Reasoning):從具體經驗中形成高層概念的能力 * 長期記憶(Long-term Memory):跨時間保存經驗與資訊的儲存結構 * 記憶模組(Memory Module):負責儲存與管理經驗的系統元件 * 讀取模組(Read Module):從記憶中選擇相關經驗供決策使用的機制 * 寫入模組(Write Module):決定哪些資訊應被保存進長期記憶的機制 * 記憶檢索(Memory Retrieval):從大量記憶中找出相關內容的過程 * 關聯性篩選(Relevance Filtering):只保留與當前任務相關的資訊 * 檢索系統(Retrieval System):根據查詢搜尋資料庫的技術架構 * 向量檢索(Vector Retrieval):利用向量相似度搜尋相關內容的方法 * 檢索增強生成(Retrieval Augmented Generation, RAG):結合檢索與生成的技術 * 個人經驗庫(Episodic Memory):儲存代理自身互動歷程的記憶形式 * 外部知識庫(External Knowledge Base):來自代理之外的資料來源 * StreamBench:評估模型是否能隨經驗逐步提升表現的基準測試 * 線上評估(Online Evaluation):在任務進行中即時衡量表現的方法 * 二元回饋(Binary Feedback):僅提供對或錯的回饋形式 * 平均正確率(Average Accuracy):整體任務過程中的表現指標 * 學習速度(Learning Speed):利用回饋改善表現所需的步數 * 基準模型(Baseline):用來比較改進效果的參考方法 * 獨立假設(Independence Assumption):假設各次決策互不影響的設定 * 正向範例(Positive Example):展示正確行為或答案的經驗 * 負向範例(Negative Example):展示錯誤行為或答案的經驗 * 正向回饋偏好(Positive Feedback Bias):模型對正確示例反應更佳的現象 * 指令表述偏好(Instruction Framing):模型更容易理解「要做什麼」而非「不要做什麼」 * 記憶壓縮(Memory Compression):降低記憶冗餘、保留關鍵資訊的策略 * 重要性判斷(Salience Estimation):評估資訊是否值得被記住的過程 * 反思模組(Reflection Module):對既有經驗進行高層整理與推論的機制 * 高層抽象(High-level Abstraction):從多個經驗中歸納出的概念或規則 * 推論記憶(Inferred Memory):非直接觀測、由反思產生的結論 * 知識圖譜(Knowledge Graph):以節點與關係表示知識結構的圖形模型 * Graph RAG:結合知識圖譜與檢索增強生成的 RAG 方法 * HIPO RAG:模仿海馬迴結構、以圖式記憶輔助檢索的 RAG 架構 * 長期記憶(Long-Term Memory):AI agent 用來跨對話保存穩定資訊的記憶機制 * 記憶寫入模組(Memory Write Module):負責判斷哪些資訊需要被存入長期記憶的組件 * 記憶讀取模組(Memory Read Module):在回答問題時從記憶中提取相關資訊的機制 * 自主記憶判斷(Autonomous Memory Selection):由模型自行決定是否寫入或讀取記憶的能力 * 記憶錯誤(Memory Hallucination):AI 在記憶中存入不正確或誤解的資訊現象 * 記憶抽象化(Memory Abstraction):將具體對話內容轉換為高階概念後再存入記憶 * 個人化(Personalization):AI 根據使用者長期資訊調整回應行為的能力 * 記憶管理介面(Memory Management Interface):讓使用者檢視與刪除 AI 記憶的系統 * 情境感知(Context Awareness):AI 利用歷史與當前資訊理解使用情境的能力 * 記憶觸發(Memory Triggering):特定輸入引發記憶模組啟動的過程 * MemoryGPT:2023 年提出,使用外部記憶來擴充 LLM 上下文限制的架構 * Agent Workflow Memory:2024 年提出,將記憶整合進 agent 工作流程的設計 * Agent Memory Agent:2025 年研究,探討 agent 自主學習與管理記憶的方法 * 工具(Tool):AI agent 可調用、但不需理解內部實作的外部功能 * 黑箱工具(Black-Box Tool):僅需遵守輸入輸出介面、不暴露內部細節的工具 * 工具調用(Tool Invocation):AI 以結構化方式請求使用某個工具的行為 * 函式呼叫(Function Calling):將工具使用視為函式調用的設計模式 * Function Calling Prompt:教導模型如何以特定格式呼叫工具的提示設計 * 工具描述(Tool Specification):以文字定義工具用途、輸入與輸出的說明 * System Prompt(系統提示):具有最高優先級、用來規範模型行為的固定提示 * User Prompt(使用者提示):由使用者提供、描述當前任務需求的輸入 * 提示優先級(Prompt Priority):System Prompt 高於 User Prompt 的控制機制 * 文字接龍(Next Token Prediction):語言模型生成回應的基本運作原理 * 工具橋接(Tool Bridging):將模型輸出的文字轉換為實際函式執行的中介流程 * 隱式工具使用(Hidden Tool Usage):對使用者隱藏工具調用細節的設計方式 * 檢索增強生成(Retrieval Augmented Generation, RAG):透過搜尋或檢索工具輔助生成回答 * 搜尋引擎工具(Search Engine Tool):提供即時或外部知識給模型使用的工具 * 多模態工具(Multimodal Tool):可處理語音、影像等非文字資料的工具 * 語音辨識(Automatic Speech Recognition, ASR):將語音轉換為文字的工具能力 * 語者辨識(Speaker Identification):判斷語音中說話者身分的技術 * 情緒辨識(Emotion Recognition):從語音或訊號中推斷情緒狀態的技術 * 聲音事件分類(Sound Event Classification):辨識背景或環境聲音的任務 * 工具鏈(Tool Chain):多個工具依序被調用以完成複雜任務的流程 * 工具協調(Tool Orchestration):管理與安排多個工具使用順序的能力 * Dynamic-SUPER:評估語音理解與推理能力的多任務基準資料集 * 工具選擇模組(Tool Selection Module):從眾多工具中挑選合適工具的機制 * 工具記憶庫(Tool Memory):將工具說明與程式碼存入記憶以供檢索的設計 * 工具檢索(Tool Retrieval):根據當前任務狀態選出相關工具的過程 * 可擴充工具集(Scalable Toolset):支援大量工具而不影響決策效率的架構 * 自動程式生成(Automatic Code Generation):語言模型自行撰寫程式碼的能力 * 自我工具建構(Self-Tool Creation):AI agent 自行產生並重用工具的能力 * 工具演化(Tool Evolution):工具隨著使用經驗被保留、淘汰或改進的過程 * 經驗導向行為調整(Experience-Driven Behavior Adaptation):依據過去成功經驗改變行為策略的能力 * 工具化語言模型(Tool-augmented Language Model):將語言模型視為可調用外部工具的決策核心 * 工具鏈(Tool Chain):工具彼此串接、形成多層依賴的使用結構 * 次級工具(Tool-of-a-tool):僅被其他工具或模型使用、不直接面向人類的系統 * 工具錯誤(Tool Error):外部工具提供不正確或誤導性輸出的情況 * 過度信任(Over-reliance):對工具輸出缺乏質疑與驗證的傾向 * 工具信任校準(Tool Trust Calibration):調整模型對工具可靠度的判斷能力 * 檢索增強生成失效(RAG Failure):因檢索內容品質不佳導致生成錯誤的現象 * 噪音資料(Noisy Data):來源不可靠、玩笑或錯誤的外部資訊 * 資料污染(Data Contamination):不正確資訊被當作知識使用的問題 * 常識檢查(Sanity Check):利用基本常識判斷輸出是否合理的機制 * 溫度 API(Temperature API):回傳環境溫度的外部工具介面 * 不合理輸出檢測(Anomaly Detection):識別明顯違反現實的工具結果 * 內部知識(Internal Knowledge):模型參數中隱含學到的世界知識 * 外部知識(External Knowledge):由工具、文件或檢索系統提供的資訊 * 知識衝突(Knowledge Conflict):內外部資訊彼此矛盾的狀況 * 信念拉扯(Belief Tension):模型在內外部知識間權衡後形成輸出的過程 * 知識一致性(Knowledge Consistency):資訊是否與既有信念相符 * 說服性(Persuasiveness):資訊影響模型最終判斷的能力 * 深度研究(Deep Research):多來源檢索後由模型整合分析的搜尋形式 * 爭議議題(Controversial Topic):存在多種互相衝突觀點的問題 * 資訊優勢(Information Advantage):較容易影響模型或搜尋結果的一方 * 模型信心(Model Confidence):模型對自身答案正確性的內部估計 * 不確定性估計(Uncertainty Estimation):評估回答可靠度的方法 * 信念可動搖性(Belief Plasticity):模型信念被外部資訊改變的程度 * 劑量合理性(Dose Plausibility):醫學數值是否落在合理範圍內的判斷 * 差距容忍度(Belief Gap Tolerance):模型可接受外部資訊偏離自身信念的幅度 * 極端值拒斥(Outlier Rejection):對過於極端外部資訊的不信任 * AI 來源偏好(AI-source Bias):模型傾向相信其他 AI 產生內容的現象 * 同類偏好(In-group Preference):對「同類型系統」資訊的信任傾向 * 跨模型影響(Cross-model Influence):一個模型的輸出影響另一模型判斷 * 結構化表達(Structured Writing):條理清楚、層次分明的文字特徵 * 語言品質偏好(Linguistic Quality Bias):因語言表現佳而提高信任度 * 中繼資料(Metadata):描述資料屬性的附加資訊 * 發佈時間(Publication Date):內容被認為新舊程度的重要訊號 * 新近性偏好(Recency Bias):模型傾向相信較新資訊的行為 * 來源可信度(Source Credibility):資訊來源是否可靠的評估 * 視覺呈現(Visual Presentation):內容在畫面上的呈現方式 * 多模態判斷(Multimodal Judgment):同時利用文字與影像進行判斷 * 模板效應(Template Effect):版面設計影響信任判斷的現象 * 幻覺錯誤(Hallucination Error):即使有工具仍產生錯誤整合的輸出 * 同名歧義(Name Ambiguity):不同實體共享相同名稱造成混淆 * 實體消歧(Entity Disambiguation):區分同名不同對象的能力 * 工具呼叫成本(Tool Invocation Cost):使用工具所需的時間與資源 * 任務難度門檻(Difficulty Threshold):低於此門檻直接推理比用工具更快 * 工具適配性(Tool Appropriateness):是否適合在特定任務中使用工具 * 能力取代(Capability Supersession):模型能力提升後使工具變得多餘 * 效率權衡(Efficiency Trade-off):是否使用工具需在速度與準確間取捨 * 規劃(Planning):為達成目標而事先設計一系列行動步驟的過程 * 行動序列(Action Sequence):按順序執行以完成任務的一組動作 * 反射式回應(Reflexive Response):未顯式規劃、直接由輸入映射到輸出的行為 * 顯式規劃(Explicit Planning):模型明確產生並表達完整行動計畫的能力 * 隱式規劃(Implicit Planning):模型內部可能存在但未對外顯示的規劃過程 * 目標導向規劃(Goal-Directed Planning):以最終目標為核心來設計行動策略 * Observation-conditioned Planning:根據當前觀察狀態動態生成計畫的方式 * 計畫回饋迴圈(Plan-Execute-Observe Loop):計畫、執行、觀察反覆進行的決策流程 * 計畫修正(Plan Revision):在環境改變後調整原有計畫的能力 * 動態規劃(Dynamic Planning):隨時間與環境變化即時更新規劃的能力 * 環境不確定性(Environmental Uncertainty):外部狀態無法完全預測的特性 * 隨機轉移(Stochastic Transition):行動導致的結果具有隨機性的情境 * 對手建模(Opponent Modeling):在競爭環境中推測其他行為者策略的能力 * 封閉世界假設(Closed World Assumption):假設所有狀態與規則皆已知的設定 * 開放世界(Open World):存在未知狀態與突發事件的真實環境設定 * 層級式規劃(Hierarchical Planning):將高層目標拆解為多層次子目標的規劃方式 * 任務分解(Task Decomposition):把複雜任務拆成可執行的小步驟 * 長期規劃(Long-Horizon Planning):需要考慮多步未來影響的規劃問題 * 計畫一致性(Plan Consistency):行動是否前後符合既定規劃的性質 * 計畫脆弱性(Plan Fragility):規劃在小幅環境變動下即失效的問題 * 廣告干擾(Unexpected Pop-up):非預期事件導致計畫中斷的實例 * 即時再規劃(Replanning):在新觀察下重新生成可行計畫的能力 * 策略彈性(Behavioral Flexibility):根據情境變化調整行為的能力 * 推理型模型(Reasoning Model):強化多步推理與規劃能力的語言模型 * 計畫生成提示(Planning Prompt):明確要求模型先產生計畫的提示設計 * 計畫作為輸入(Plan-as-Input):將已生成的計畫放入後續模型輸入的做法 * 計畫導向執行(Plan-Guided Execution):行動生成受既定計畫約束的模式 * 計畫與控制分離(Planning-Control Separation):規劃與執行由不同模組負責的架構 * 任務完成率(Task Success Rate):衡量規劃是否成功達成目標的指標 * 早期規劃研究(Early Planning Studies):2022 年前後對 LLM 規劃能力的初期探索 * 步驟生成能力(Step Generation Ability):模型列出完成任務所需步驟的能力 * 虛擬環境代理(Embodied Agent):在模擬世界中執行實體行為的代理 * 行為可執行性(Action Feasibility):規劃中的行動是否能在環境中實現 * Planning Benchmark:專門評估模型規劃能力的測試集合 * 方塊世界(Block World):經典規劃問題的抽象環境 * 狀態轉移規則(State Transition Rules):定義行動如何改變環境狀態的規則 * 資料洩漏風險(Data Contamination):模型在訓練中看過測試題型的問題 * 神秘方塊世界(Mystery Block World):具有陌生規則、避免記憶套用的規劃測試 * 規則理解(Rule Understanding):正確掌握抽象操作規則的能力 * 過度擬合(Overfitting):模型只在熟悉分佈下表現良好的現象 * Chain-of-Thought Sorting:引導模型整理推理步驟的技術 * o1 系列模型(o1 Models):強調推理與規劃能力的新一代模型 * 旅行規劃任務(Travel Planning Task):結合常識、約束與工具使用的規劃問題 * 約束滿足(Constraint Satisfaction):在多重限制下找到可行解的能力 * Solver-based Planning:利用數學或最佳化求解器輔助完成規劃的方法 * 規劃能力(Planning Capability):模型在行動前組織多步策略以達成目標的能力 * 狀態空間搜尋(State Space Search):在可能狀態組合中尋找成功路徑的方法 * 行為分支(Action Branching):在某一狀態下可選擇的多種行動可能 * 全域搜尋(Exhaustive Search):嘗試所有可能路徑以找出最佳解的方法 * 計算爆炸(Combinatorial Explosion):狀態與行為數量成長導致計算不可行的問題 * 剪枝(Pruning):在搜尋過程中丟棄不具潛力路徑以降低計算量 * 啟發式評分(Heuristic Scoring):估計路徑成功機率以引導搜尋方向的方法 * 門檻值(Threshold):決定是否繼續探索某路徑的臨界標準 * 樹狀搜尋(Tree Search):以樹結構展開狀態與行為進行規劃的演算法 * Tree Search for Language Model Agents:將樹狀搜尋應用於語言模型代理的研究方向 * 反射式決策(Reactive Decision):不經長期規劃、直接根據當前狀態回應的方式 * 覆水難收行動(Irreversible Action):一旦執行便無法撤回的行為 * 真實互動成本(Real-world Interaction Cost):在現實環境中嘗試行動的代價 * 腦內模擬(Mental Simulation):不實際執行、僅在模型內部推演結果的過程 * 夢境規劃(Dream-based Planning):在假想環境中測試行動序列的策略 * 世界模型(World Model):用來預測行動後環境變化的內部模型 * 模型式規劃(Model-based Planning):依賴世界模型進行前瞻規劃的方法 * 自我對弈(Self-play):模型同時扮演環境與代理以學習策略的方式 * 對手建模(Opponent Modeling):預測他方行為以輔助決策的能力 * 文字環境模擬(Text-based Environment Simulation):用文字描述想像中的環境變化 * 潛在結果評估(Outcome Evaluation):比較不同路徑可能結果的好壞 * 成功機率估計(Success Probability Estimation):預測行動達標可能性的能力 * 最佳路徑(Optimal Path):在規劃中達成目標的最優行動序列 * 行動延遲(Action Delay):因過度思考而延後執行行動的現象 * 推理型模型(Reasoning Model):能顯式展開中間思考步驟的語言模型 * 腦內小劇場(Chain-of-Thought Simulation):模型內部展開多步推演的思考形式 * 隱式規劃(Implicit Planning):未明確表述但在推理過程中完成的規劃 * 多路徑假設(Multiple Hypothesis Generation):同時考慮多種可能解法的能力 * 自我驗證(Self-verification):模型檢查自身推論是否合理的過程 * 行動先行(Act-first Strategy):優先嘗試行動再根據結果修正策略的方法 * 探索與利用(Exploration vs. Exploitation):在嘗試新行動與使用已知好行動間的取捨 * 信用卡效應(High-risk Action):某些行動嘗試成本極高、不可輕易測試 * 思考過載(Overthinking):推理過度導致效率下降的問題 * 思考—行動失衡(Think-Act Imbalance):思考很多但實際行動很少的狀態 * 思考的巨人行動的矮子(Analysis Paralysis):因分析過多而無法前進的情況 * 早期放棄(Premature Abandonment):尚未嘗試行動便判定失敗的行為 * 規劃—執行分離(Plan-Execute Separation):先完成規劃再逐步執行的架構 * 單步輸出(Single-step Action Output):一次僅產生下一個行動的控制方式 * 最優解驗證(Solution Validation):確認規劃結果確實可行的過程 * 能力邊界(Capability Boundary):模型規劃與推理能力的實際上限 * 規劃增強(Planning Augmentation):透過外部方法提升模型規劃表現的技術 * 過度推理風險(Over-reasoning Risk):因推理機制導致新型錯誤的可能性
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up