[AI Agent] Jeff Su - AI Agents, Clearly Explained

# 影片目標與學習路徑 ![image](https://hackmd.io/_uploads/SkMYbqqG-x.png) * 給零技術背景但常用 AI 工具的人，用「Chatbot → 工作流程 → 代理（Agent）」三階段理解 AI agents * 透過日常會遇到的例子（行事曆、天氣、社群貼文）建立直覺 * 常見名詞（RAG、ReAct）其實是把概念拆開後的簡單組合 # Level 1：大型語言模型與聊天機器人 ![image](https://hackmd.io/_uploads/Bke9W5cMWg.png) ![image](https://hackmd.io/_uploads/r1N5bqqMZg.png) * 聊天機器人是建立在 LLM 上，擅長生成與改寫文字 * 使用方式是「人給輸入 → LLM 產生輸出」 * LLM 不知道你的私人/公司內部資料（例如個人行事曆）除非另外提供 * LLM 是被動的：等你提問才回應，不會自己去做額外動作 # Level 1 的限制：不知道外部與私有資訊 ![image](https://hackmd.io/_uploads/Sk4jZq5G-g.png) * 你問「幫我寫邀約咖啡聊天的信」可以做得很好 * 你問「我下一個咖啡聊天什麼時候」會失敗，因為它沒有你的行事曆資料 ![image](https://hackmd.io/_uploads/Bkzpb55fZe.png) * 這凸顯兩點：缺乏私有資料存取、無法主動查詢工具 # Level 2：AI 工作流程（Workflows） ![image](https://hackmd.io/_uploads/BkGRW55MZe.png) * 把「查行事曆」這種步驟用規則接到 LLM 前面，讓它先取資料再回答 ![image](https://hackmd.io/_uploads/Bk-1M99zZx.png) ![image](https://hackmd.io/_uploads/HyegGq5Gbg.png) * 工作流程的關鍵是人先設計好固定路徑（控制邏輯），模型照著走 * 路徑只會做被指定的事，問題一換就可能失效（例如行事曆查得到活動，但查不到天氣） # Level 2 延伸：多步驟串接與自動化 ![image](https://hackmd.io/_uploads/rkkbM99MWg.png) * 可以把更多工具加進去：行事曆 API、天氣 API、文字轉語音等 ![image](https://hackmd.io/_uploads/SJlVz9cfbx.png) * 不管步驟多複雜，只要「決策者是人」仍然是工作流程，不是 AI agent ![image](https://hackmd.io/_uploads/ry1izcqzZg.png) * 實例：用 make.com 串 Google Sheets 蒐集新聞連結、用 Perplexity 摘要、用 Claude 產文案、每天固定時間自動跑 * 產出不好時需要人手動改提示詞並反覆測試，迭代由人負責 # RAG 的定位 * RAG 是讓模型「先查再答」的做法，本質上是工作流程的一種 * 常見用法是接外部資料來源（行事曆、文件、搜尋、資料庫）再生成回答 # Level 3：AI 代理（Agents）的核心差異 * 代理需要把「人當決策者」換成「LLM 當決策者」 * 代理面對的是目標，不是固定路徑：它要自己決定怎麼做最有效 * 代理同時要能思考（Reason）與使用工具行動（Act） # ReAct 的概念 ![image](https://hackmd.io/_uploads/Syunfq5GZx.png) * ReAct 指的是 Reason + Act 的循環：先推理下一步，再呼叫工具執行 * 常見的 agent 架構會用這種「思考—行動」交替模式完成任務 # 代理的迭代能力（自我改進循環） ![image](https://hackmd.io/_uploads/BkBTzccG-e.png) * 代理能自己檢查中間產物是否符合標準，必要時自動重做 * 例子：先產出 LinkedIn 文案 v1，再用另一個模型依最佳實務批改，反覆迭代到達標 # 真實範例：影片內容中的視覺代理示範 ![image](https://hackmd.io/_uploads/S1AAM5cMbe.png) * 輸入關鍵字（例如 skier）後，代理先推理「滑雪者可能長什麼樣」 * 接著在影片片段中搜尋與辨識、建立索引，最後回傳匹配片段 * 重點是把原本需要人逐段標註的工作，改由代理自動完成 # 三階段對照圖的重點（用文字表達） ![image](https://hackmd.io/_uploads/HkbzQ5qMZx.png) * Level 1：輸入 → LLM 輸出 ![image](https://hackmd.io/_uploads/H1UMmccG-e.png) * Level 2：輸入 → 按人設計的固定流程取外部資料 → LLM 輸出 ![image](https://hackmd.io/_uploads/rkLmmq5M-e.png) * Level 3：給目標 → LLM 決策如何做 → 用工具產出中間結果 → 觀察與判斷是否要迭代 → 產出最終結果 --- # Terminology * 大型語言模型（Large Language Model, LLM）：以大量資料訓練、能理解與生成自然語言的核心模型 * 聊天式介面（Chat Interface）：讓使用者以對話方式與模型互動的應用層 * 提示詞（Prompt）：使用者提供給模型的輸入指令或問題 * 輸出（Output）：模型根據提示詞產生的回應內容 * 被動回應（Passive Response）：模型僅在收到提示後才產生結果的特性 * 私有資料限制（Proprietary Data Limitation）：模型無法自行存取個人或公司內部資料 * 工具調用（Tool Calling）：模型透過外部工具或 API 執行任務的能力 * API 存取（API Access）：透過應用程式介面取得外部系統資料 * AI 工作流程（AI Workflow）：由人類事先定義步驟的自動化流程 * 控制邏輯（Control Logic）：規範流程執行順序與條件的設計 * 預定路徑（Predefined Path）：工作流程中固定不變的執行步驟 * 檢索增強生成（Retrieval Augmented Generation, RAG）：在生成前先檢索外部資料以提升準確性的方法 * 資料檢索（Retrieval）：從外部來源搜尋並取得相關資訊 * 上下文注入（Context Injection）：將外部資料加入模型上下文以輔助回答 * 多步驟管線（Multi-step Pipeline）：由多個連續處理步驟組成的流程 * 自動化排程（Automation Scheduling）：依時間或條件自動執行流程 * 人類監督（Human-in-the-loop）：流程中仍需人類檢查或修正的設計 * 試誤迭代（Trial and Error Iteration）：透過多次調整以改善輸出的過程 * AI 代理（AI Agent）：能自行決策、使用工具並完成目標的系統 * 目標導向（Goal-oriented）：以達成指定目標為核心運作方式 * 推理能力（Reasoning）：分析情境並決定下一步行動的能力 * 行動能力（Action）：實際呼叫工具或執行任務的能力 * 觀察（Observation）：取得行動後結果以供後續判斷 * 迭代循環（Iteration Loop）：重複推理、行動與觀察的過程 * 自主性（Autonomy）：在最少人類干預下完成任務的特性 * ReAct 架構（Reasoning and Acting, ReAct）：結合推理與行動的代理設計模式 * 任務分解（Task Decomposition）：將複雜目標拆解為多個子任務 * 工具選擇（Tool Selection）：根據情境判斷最適合使用的工具 * 自我評估（Self-evaluation）：模型檢查自身輸出品質的能力 * 批判模型（Critic Model）：專門用於評估與回饋輸出的模型 * 多模型協作（Multi-model Collaboration）：多個模型分工合作完成任務 * 中介結果（Intermediate Result）：流程中產生、供後續使用的暫時輸出 * 最終輸出（Final Output）：完成所有迭代後產生的結果 * 情境感知（Context Awareness）：理解當前任務與環境狀態的能力 * 工具鏈（Tool Chain）：多個工具依序組合使用的結構 * 外部記憶（External Memory）：儲存於模型之外、可反覆存取的資料 * 長期記憶（Long-term Memory）：跨任務保存資訊以供未來使用的機制 * 即時資料（Real-time Data）：隨時間變動、需即時取得的資訊 * 多模態代理（Multimodal Agent）：能處理文字、影像、聲音等多種資料的代理 * 視覺代理（Vision Agent）：專門處理影像或影片理解的 AI 代理 * 任務自動化平台（Automation Platform）：用於建構與執行流程的服務 * 代理框架（Agent Framework）：建立 AI 代理所使用的軟體結構 * 決策引擎（Decision Engine）：負責判斷下一步行動的核心模組 * 成本控制（Cost Control）：限制代理使用資源與 API 成本的機制 * 安全護欄（Safety Guardrails）：避免代理產生不當行為的限制規則