AI 代理時代正式來臨：OpenAI 推出全新 Agent SDK

# AI 代理時代正式來臨：OpenAI 推出全新 Agent SDK 與 Responses API 2025 年 3 月 12 日，OpenAI 正式推出了期待已久的 Agent SDK 與 Responses API，這標誌著 AI 代理（Agent）技術正式進入商業化落地階段。這個全面的工具套件不僅簡化了 AI 代理的開發流程，還提供了一系列強大的內建工具，讓開發者能夠更輕鬆地打造複雜的 AI 應用。 ## 為什麼新開發工具如此重要？儘管 AI 代理的概念在業界早已成熟，市場上也有多個框架（如 CrewAI、Pydantic AI、微軟的 Autogen），但開發者們一直面臨將 OpenAI 的推理模型、多模態處理和安全機制整合為可用產品的挑戰。這往往需要大量工程資源投入： - 客製化編排邏輯設計 - 代理執行進度監控 - 提示詞多次迭代優化正如 OpenAI 所指出，他們看到很多開發者反映，將 OpenAI 的推理模型、多模態能力和安全機制整合為可用的 AI 代理，需要投入大量工程工作。新推出的工具套件正是為了解決這些痛點，降低技術門檻，讓更多開發者能夠快速構建強大的 AI 代理系統。 ## OpenAI 新開發工具套件的核心組件這次 OpenAI 發布的開發工具套件包含四大核心組件： 1. **Responses API**：增強版的 API，整合多種工具功能 2. **內建工具**：Web Search、File Search 和 Computer Use 3. **Agent SDK**：多智能體工作流編排框架 4. **監測工具**：可視化代理執行流程工具 ### 1. Responses API：增強版的對話 API Responses API 是 OpenAI 推出的新介面，用於增強 AI 對話能力並整合多種工具： - 內建 Web Search、File Search 和 Computer Use 工具支援 - 自動管理對話歷史記錄 - 計劃將在 2026 年中取代 Assistants API（而非 Chat Completions API） - 提供官方開源範例：[OpenAI Responses Starter App](https://github.com/openai/openai-responses-starter-app) Responses API 使用方式略有不同，但更加簡潔： ```python client.responses.create( model="gpt-4o", input="Hello!" ) ``` 這個 API 的推出，簡化了開發者需要額外串接其他 API 的工作，但同時也意味著 OpenAI 將這些原本可能免費的功能轉為付費服務。 ### 2. 內建工具 #### Web Search：挑戰 AI 搜尋市場 OpenAI 推出了兩款專為搜尋優化的模型：GPT-4o search preview 和 GPT-4o mini search preview，搜尋精準率最高可達 90%。這項功能可能對 Perplexity 和 Exa 等 AI 搜尋引擎構成直接競爭，這可能是 Web Search 市場的第一波衝擊。 - **特點**：搜尋結果提供來源連結 - **使用方式**：只需在代碼中添加 `tools=[{"type": "web_search"}]` 即可啟用 - **SEO 提示**：網站可在 robots.txt 加入 `OAI-SearchBot` 以提高被 OpenAI 搜尋發現的機會 **案例**：[Hebbia](https://www.hebbia.com/) 運用 Web Search 為資產管理、私募股權和信貸公司提供更即時的市場情報。 #### File Search：簡化 RAG 實現 File Search 使檢索增強生成 (RAG) 技術變得更容易實現，大幅降低了實施 RAG 的技術門檻。 - **使用方式**：上傳文件至 OpenAI 平台，獲取 vector store ID 後添加到代碼中 ```python client.responses.create( model="gpt-4o", input="Tell me about RAG", tools=[{ "type": "file_search", "vector_store_ids": ["vs_abc123"] }] ) ``` **案例**：旅行服務公司 [Navan](https://navan.com/) 使用 File Search 根據客戶公司的旅行規範提供精確回覆。 #### Computer Use (Operator)：AI 控制電腦這項功能允許 AI 擷取螢幕畫面，並根據需求提供滑鼠/鍵盤操作指令來控制用戶電腦。這可能對傳統 RPA（機器人流程自動化）市場帶來巨大衝擊。 - **效能基準**： - OSworld 基準測試：38% - WebArena 基準測試：58.1% - **使用方式**：通過五個步驟完成操作： 1. 獲取初始螢幕截圖 2. 模型解析螢幕內容 3. 執行操作指令 4. 獲取操作後的螢幕截圖 5. 重複直到任務完成 - **安全保障**：經過廣泛的安全測試和紅隊測試，但仍需人工監督 **案例**： - [Unify](https://www.unifygtm.com/) 使用該工具訪問無法通過 API 獲取的資訊，幫助物業管理公司驗證企業資產擴展情況。 - [Luminai](https://www.luminai.com/) 簡化大企業缺乏 API 的舊數據系統，將傳統 RPA 需要數月才能完成的工作縮短至數天。 ## OpenAI Agent 工具定價一覽表 | 工具類型 | 功能說明 | 定價 | 備註 | |---------|---------|------|------| | **Web Search** | AI 網路搜尋 | GPT-4o search: $30/1000次<br>GPT-4o mini search: $25/1000次 | 精確率可達90%，每次搜尋約1 TWD | | **File Search** | 文件檢索與 RAG | $2.5/1000次查詢<br>$0.1/GB/天(文件儲存) | 前1GB文件儲存免費 | | **Computer Use** | AI 控制電腦 | $3/百萬輸入標記<br>$12/百萬輸出標記 | 需要人工監督 | | **Agent SDK** | 代理編排框架 | 免費開源 | 支援多種LLM，不限於OpenAI | ### 3. Agent SDK：開源的代理編排框架相較於 OpenAI 去年推出的實驗版 Swarm，新的 Agent SDK 作為開源框架，提供了更完善的功能： - **更清晰的配置**和內建工具支援 - **Handoffs**：智慧地在多個代理之間傳遞任務 - **Guardrails**：輸入/輸出安全檢查機制 - **Tracing**：可視覺化代理執行流程，方便除錯與優化 **使用方式**：Agent SDK 的使用非常簡潔，幾行代碼即可構建單一或多智能體系統： ```python from agents import Agent, Runner # 創建智能體 history_tutor = Agent(name="history_tutor", instructions="你是歷史專家，回答歷史問題") math_tutor = Agent(name="math_tutor", instructions="你是數學專家，解決數學問題") # 建立助理智能體 assistant = Agent( name="assistant", instructions="決定由哪個智能體回答問題", handoffs=[history_tutor, math_tutor] ) # 運行智能體 runner = Runner(agent=assistant) result = runner.run_sync("法國的首都是哪裡？") print(result.response) ``` **重大改進**：Agent SDK 大幅優化了之前推出的實驗版框架 Swarm，提供更簡化的代理編排流程。 **案例**： - [Coinbase](https://www.coinbase.com/zh-tw/developer-platform/discover/launches/introducing-agentkit) 基於 Agent SDK 快速實作了 AgentKit，用於加密錢包和鏈上交易處理。 - [Box](https://www.box.com/)（企業版 Dropbox）利用 SDK 提供企業搜索和查詢提取存在 Box 及網路上的非結構化資訊。值得注意的是，Agent SDK 還支援其他符合 OpenAI API 格式的 LLM 提供商，不限於 OpenAI 自家模型。這表示在設計時，OpenAI 參考了 Pydantic、Griffe 和 MkDocs 等框架的理念。 ### 4. 監測工具 (Observability Tools) OpenAI 還推出了監測工具，幫助開發者跟蹤和調試 AI 代理的工作流程： - **位置**：OpenAI 平台的 Traces 部分 - **功能**： - 可視化代理執行流程 - 監控不同代理之間的互動 - 分析代理決策過程這些工具顯著提高了開發者構建和優化 AI 代理應用的能力。 ## Agent SDK 的設計靈感與整合能力在設計 Agent SDK 時，OpenAI 吸取了業界多個成熟框架的經驗： - **Pydantic**：提供嚴格的數據驗證和類型檢查 - **Griffe**：改善代碼內省和文檔生成 - **MkDocs**：優化文檔結構和可讀性除了使用 OpenAI 內建工具外，Agent SDK 還支持整合第三方 API，例如 Tavily 搜尋 API： ```python from agents import Agent, Runner from tavily import TavilyClient import functools # 定義搜尋函數工具 @functools.tool def web_search(query: str): client = TavilyClient(api_key="your-api-key") return client.search(query=query) # 創建使用搜尋工具的智能體 agent = Agent( name="researcher", instructions="研究最新資訊", tools=[web_search] ) runner = Runner(agent=agent) result = runner.run_sync("最新的體育新聞？") print(result.response) ``` 這種跨框架融合的設計理念使 Agent SDK 更加強大且靈活。 ## 市場影響與展望 OpenAI 推出這套完整的開發工具套件將對 AI 市場產生以下影響： 1. **AI 代理商業化加速**：降低開發門檻，促進企業級 AI 應用落地 2. **明確的付費模式**：以往可能免費的功能現已有清晰的定價結構 3. **跨領域競爭加劇**：尤其是在搜尋引擎、知識管理和自動化領域 4. **2025 成為 AI 代理落地年**：正如多位業界專家預測，今年將是 AI 代理真正走向應用的一年 5. **現有框架面臨挑戰**：考慮到 OpenAI 的資源和影響力，Agent SDK 可能超越 LangGraph 和其他代理框架這標誌著 AI 代理正式進入商業化落地階段，也預示著 2025 年可能成為 AI 代理的爆發之年。對開發者和企業而言，這既是機遇也是挑戰，如何在成本控制和功能需求間取得平衡將成為關鍵考量。 ## 對競爭對手的影響 OpenAI 的這次發布可能對多個領域的競爭對手產生影響： - **搜尋引擎市場**：Perplexity、Exa 等 AI 搜尋引擎將面臨直接競爭 - **企業知識管理**：RAG 解決方案提供商需要重新評估其價值主張 - **RPA 市場**：UiPath、Automation Anywhere 等傳統 RPA 廠商可能面臨顛覆性挑戰 - **代理框架市場**：LangGraph、CrewAI 等現有框架需要創新以保持競爭力 --- 相關資源： - 發表會影片（繁中字幕）：[YouTube](https://youtu.be/M6srBLy2NEg) - OpenAI 官方發布頁面：[New Tools for Building Agents](https://openai.com/index/new-tools-for-building-agents/) - Computer Use 示範專案：[GitHub](https://github.com/openai/openai-cua-sample-app) - Responses API 示例專案：[GitHub](https://github.com/openai/openai-responses-starter-app) *您對 OpenAI 的新定價模式有何看法？這對市場是利還是弊？歡迎在評論區分享您的想法！*