# 影片目標與學習路徑  * 給零技術背景但常用 AI 工具的人,用「Chatbot → 工作流程 → 代理(Agent)」三階段理解 AI agents * 透過日常會遇到的例子(行事曆、天氣、社群貼文)建立直覺 * 常見名詞(RAG、ReAct)其實是把概念拆開後的簡單組合 # Level 1:大型語言模型與聊天機器人   * 聊天機器人是建立在 LLM 上,擅長生成與改寫文字 * 使用方式是「人給輸入 → LLM 產生輸出」 * LLM 不知道你的私人/公司內部資料(例如個人行事曆)除非另外提供 * LLM 是被動的:等你提問才回應,不會自己去做額外動作 # Level 1 的限制:不知道外部與私有資訊  * 你問「幫我寫邀約咖啡聊天的信」可以做得很好 * 你問「我下一個咖啡聊天什麼時候」會失敗,因為它沒有你的行事曆資料  * 這凸顯兩點:缺乏私有資料存取、無法主動查詢工具 # Level 2:AI 工作流程(Workflows)  * 把「查行事曆」這種步驟用規則接到 LLM 前面,讓它先取資料再回答   * 工作流程的關鍵是人先設計好固定路徑(控制邏輯),模型照著走 * 路徑只會做被指定的事,問題一換就可能失效(例如行事曆查得到活動,但查不到天氣) # Level 2 延伸:多步驟串接與自動化  * 可以把更多工具加進去:行事曆 API、天氣 API、文字轉語音等  * 不管步驟多複雜,只要「決策者是人」仍然是工作流程,不是 AI agent  * 實例:用 make.com 串 Google Sheets 蒐集新聞連結、用 Perplexity 摘要、用 Claude 產文案、每天固定時間自動跑 * 產出不好時需要人手動改提示詞並反覆測試,迭代由人負責 # RAG 的定位 * RAG 是讓模型「先查再答」的做法,本質上是工作流程的一種 * 常見用法是接外部資料來源(行事曆、文件、搜尋、資料庫)再生成回答 # Level 3:AI 代理(Agents)的核心差異 * 代理需要把「人當決策者」換成「LLM 當決策者」 * 代理面對的是目標,不是固定路徑:它要自己決定怎麼做最有效 * 代理同時要能思考(Reason)與使用工具行動(Act) # ReAct 的概念  * ReAct 指的是 Reason + Act 的循環:先推理下一步,再呼叫工具執行 * 常見的 agent 架構會用這種「思考—行動」交替模式完成任務 # 代理的迭代能力(自我改進循環)  * 代理能自己檢查中間產物是否符合標準,必要時自動重做 * 例子:先產出 LinkedIn 文案 v1,再用另一個模型依最佳實務批改,反覆迭代到達標 # 真實範例:影片內容中的視覺代理示範  * 輸入關鍵字(例如 skier)後,代理先推理「滑雪者可能長什麼樣」 * 接著在影片片段中搜尋與辨識、建立索引,最後回傳匹配片段 * 重點是把原本需要人逐段標註的工作,改由代理自動完成 # 三階段對照圖的重點(用文字表達)  * Level 1:輸入 → LLM 輸出  * Level 2:輸入 → 按人設計的固定流程取外部資料 → LLM 輸出  * Level 3:給目標 → LLM 決策如何做 → 用工具產出中間結果 → 觀察與判斷是否要迭代 → 產出最終結果 --- # Terminology * 大型語言模型(Large Language Model, LLM):以大量資料訓練、能理解與生成自然語言的核心模型 * 聊天式介面(Chat Interface):讓使用者以對話方式與模型互動的應用層 * 提示詞(Prompt):使用者提供給模型的輸入指令或問題 * 輸出(Output):模型根據提示詞產生的回應內容 * 被動回應(Passive Response):模型僅在收到提示後才產生結果的特性 * 私有資料限制(Proprietary Data Limitation):模型無法自行存取個人或公司內部資料 * 工具調用(Tool Calling):模型透過外部工具或 API 執行任務的能力 * API 存取(API Access):透過應用程式介面取得外部系統資料 * AI 工作流程(AI Workflow):由人類事先定義步驟的自動化流程 * 控制邏輯(Control Logic):規範流程執行順序與條件的設計 * 預定路徑(Predefined Path):工作流程中固定不變的執行步驟 * 檢索增強生成(Retrieval Augmented Generation, RAG):在生成前先檢索外部資料以提升準確性的方法 * 資料檢索(Retrieval):從外部來源搜尋並取得相關資訊 * 上下文注入(Context Injection):將外部資料加入模型上下文以輔助回答 * 多步驟管線(Multi-step Pipeline):由多個連續處理步驟組成的流程 * 自動化排程(Automation Scheduling):依時間或條件自動執行流程 * 人類監督(Human-in-the-loop):流程中仍需人類檢查或修正的設計 * 試誤迭代(Trial and Error Iteration):透過多次調整以改善輸出的過程 * AI 代理(AI Agent):能自行決策、使用工具並完成目標的系統 * 目標導向(Goal-oriented):以達成指定目標為核心運作方式 * 推理能力(Reasoning):分析情境並決定下一步行動的能力 * 行動能力(Action):實際呼叫工具或執行任務的能力 * 觀察(Observation):取得行動後結果以供後續判斷 * 迭代循環(Iteration Loop):重複推理、行動與觀察的過程 * 自主性(Autonomy):在最少人類干預下完成任務的特性 * ReAct 架構(Reasoning and Acting, ReAct):結合推理與行動的代理設計模式 * 任務分解(Task Decomposition):將複雜目標拆解為多個子任務 * 工具選擇(Tool Selection):根據情境判斷最適合使用的工具 * 自我評估(Self-evaluation):模型檢查自身輸出品質的能力 * 批判模型(Critic Model):專門用於評估與回饋輸出的模型 * 多模型協作(Multi-model Collaboration):多個模型分工合作完成任務 * 中介結果(Intermediate Result):流程中產生、供後續使用的暫時輸出 * 最終輸出(Final Output):完成所有迭代後產生的結果 * 情境感知(Context Awareness):理解當前任務與環境狀態的能力 * 工具鏈(Tool Chain):多個工具依序組合使用的結構 * 外部記憶(External Memory):儲存於模型之外、可反覆存取的資料 * 長期記憶(Long-term Memory):跨任務保存資訊以供未來使用的機制 * 即時資料(Real-time Data):隨時間變動、需即時取得的資訊 * 多模態代理(Multimodal Agent):能處理文字、影像、聲音等多種資料的代理 * 視覺代理(Vision Agent):專門處理影像或影片理解的 AI 代理 * 任務自動化平台(Automation Platform):用於建構與執行流程的服務 * 代理框架(Agent Framework):建立 AI 代理所使用的軟體結構 * 決策引擎(Decision Engine):負責判斷下一步行動的核心模組 * 成本控制(Cost Control):限制代理使用資源與 API 成本的機制 * 安全護欄(Safety Guardrails):避免代理產生不當行為的限制規則
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up