# AI 代理時代正式來臨:OpenAI 推出全新 Agent SDK 與 Responses API 2025 年 3 月 12 日,OpenAI 正式推出了期待已久的 Agent SDK 與 Responses API,這標誌著 AI 代理(Agent)技術正式進入商業化落地階段。這個全面的工具套件不僅簡化了 AI 代理的開發流程,還提供了一系列強大的內建工具,讓開發者能夠更輕鬆地打造複雜的 AI 應用。 ## 為什麼新開發工具如此重要? 儘管 AI 代理的概念在業界早已成熟,市場上也有多個框架(如 CrewAI、Pydantic AI、微軟的 Autogen),但開發者們一直面臨將 OpenAI 的推理模型、多模態處理和安全機制整合為可用產品的挑戰。這往往需要大量工程資源投入: - 客製化編排邏輯設計 - 代理執行進度監控 - 提示詞多次迭代優化 正如 OpenAI 所指出,他們看到很多開發者反映,將 OpenAI 的推理模型、多模態能力和安全機制整合為可用的 AI 代理,需要投入大量工程工作。新推出的工具套件正是為了解決這些痛點,降低技術門檻,讓更多開發者能夠快速構建強大的 AI 代理系統。 ## OpenAI 新開發工具套件的核心組件 這次 OpenAI 發布的開發工具套件包含四大核心組件: 1. **Responses API**:增強版的 API,整合多種工具功能 2. **內建工具**:Web Search、File Search 和 Computer Use 3. **Agent SDK**:多智能體工作流編排框架 4. **監測工具**:可視化代理執行流程工具 ### 1. Responses API:增強版的對話 API Responses API 是 OpenAI 推出的新介面,用於增強 AI 對話能力並整合多種工具: - 內建 Web Search、File Search 和 Computer Use 工具支援 - 自動管理對話歷史記錄 - 計劃將在 2026 年中取代 Assistants API(而非 Chat Completions API) - 提供官方開源範例:[OpenAI Responses Starter App](https://github.com/openai/openai-responses-starter-app) Responses API 使用方式略有不同,但更加簡潔: ```python client.responses.create( model="gpt-4o", input="Hello!" ) ``` 這個 API 的推出,簡化了開發者需要額外串接其他 API 的工作,但同時也意味著 OpenAI 將這些原本可能免費的功能轉為付費服務。 ### 2. 內建工具 #### Web Search:挑戰 AI 搜尋市場 OpenAI 推出了兩款專為搜尋優化的模型:GPT-4o search preview 和 GPT-4o mini search preview,搜尋精準率最高可達 90%。這項功能可能對 Perplexity 和 Exa 等 AI 搜尋引擎構成直接競爭,這可能是 Web Search 市場的第一波衝擊。 - **特點**:搜尋結果提供來源連結 - **使用方式**:只需在代碼中添加 `tools=[{"type": "web_search"}]` 即可啟用 - **SEO 提示**:網站可在 robots.txt 加入 `OAI-SearchBot` 以提高被 OpenAI 搜尋發現的機會 **案例**:[Hebbia](https://www.hebbia.com/) 運用 Web Search 為資產管理、私募股權和信貸公司提供更即時的市場情報。 #### File Search:簡化 RAG 實現 File Search 使檢索增強生成 (RAG) 技術變得更容易實現,大幅降低了實施 RAG 的技術門檻。 - **使用方式**:上傳文件至 OpenAI 平台,獲取 vector store ID 後添加到代碼中 ```python client.responses.create( model="gpt-4o", input="Tell me about RAG", tools=[{ "type": "file_search", "vector_store_ids": ["vs_abc123"] }] ) ``` **案例**:旅行服務公司 [Navan](https://navan.com/) 使用 File Search 根據客戶公司的旅行規範提供精確回覆。 #### Computer Use (Operator):AI 控制電腦 這項功能允許 AI 擷取螢幕畫面,並根據需求提供滑鼠/鍵盤操作指令來控制用戶電腦。這可能對傳統 RPA(機器人流程自動化)市場帶來巨大衝擊。 - **效能基準**: - OSworld 基準測試:38% - WebArena 基準測試:58.1% - **使用方式**:通過五個步驟完成操作: 1. 獲取初始螢幕截圖 2. 模型解析螢幕內容 3. 執行操作指令 4. 獲取操作後的螢幕截圖 5. 重複直到任務完成 - **安全保障**:經過廣泛的安全測試和紅隊測試,但仍需人工監督 **案例**: - [Unify](https://www.unifygtm.com/) 使用該工具訪問無法通過 API 獲取的資訊,幫助物業管理公司驗證企業資產擴展情況。 - [Luminai](https://www.luminai.com/) 簡化大企業缺乏 API 的舊數據系統,將傳統 RPA 需要數月才能完成的工作縮短至數天。 ## OpenAI Agent 工具定價一覽表 | 工具類型 | 功能說明 | 定價 | 備註 | |---------|---------|------|------| | **Web Search** | AI 網路搜尋 | GPT-4o search: $30/1000次<br>GPT-4o mini search: $25/1000次 | 精確率可達90%,每次搜尋約1 TWD | | **File Search** | 文件檢索與 RAG | $2.5/1000次查詢<br>$0.1/GB/天(文件儲存) | 前1GB文件儲存免費 | | **Computer Use** | AI 控制電腦 | $3/百萬輸入標記<br>$12/百萬輸出標記 | 需要人工監督 | | **Agent SDK** | 代理編排框架 | 免費開源 | 支援多種LLM,不限於OpenAI | ### 3. Agent SDK:開源的代理編排框架 相較於 OpenAI 去年推出的實驗版 Swarm,新的 Agent SDK 作為開源框架,提供了更完善的功能: - **更清晰的配置**和內建工具支援 - **Handoffs**:智慧地在多個代理之間傳遞任務 - **Guardrails**:輸入/輸出安全檢查機制 - **Tracing**:可視覺化代理執行流程,方便除錯與優化 **使用方式**:Agent SDK 的使用非常簡潔,幾行代碼即可構建單一或多智能體系統: ```python from agents import Agent, Runner # 創建智能體 history_tutor = Agent(name="history_tutor", instructions="你是歷史專家,回答歷史問題") math_tutor = Agent(name="math_tutor", instructions="你是數學專家,解決數學問題") # 建立助理智能體 assistant = Agent( name="assistant", instructions="決定由哪個智能體回答問題", handoffs=[history_tutor, math_tutor] ) # 運行智能體 runner = Runner(agent=assistant) result = runner.run_sync("法國的首都是哪裡?") print(result.response) ``` **重大改進**:Agent SDK 大幅優化了之前推出的實驗版框架 Swarm,提供更簡化的代理編排流程。 **案例**: - [Coinbase](https://www.coinbase.com/zh-tw/developer-platform/discover/launches/introducing-agentkit) 基於 Agent SDK 快速實作了 AgentKit,用於加密錢包和鏈上交易處理。 - [Box](https://www.box.com/)(企業版 Dropbox)利用 SDK 提供企業搜索和查詢提取存在 Box 及網路上的非結構化資訊。 值得注意的是,Agent SDK 還支援其他符合 OpenAI API 格式的 LLM 提供商,不限於 OpenAI 自家模型。這表示在設計時,OpenAI 參考了 Pydantic、Griffe 和 MkDocs 等框架的理念。 ### 4. 監測工具 (Observability Tools) OpenAI 還推出了監測工具,幫助開發者跟蹤和調試 AI 代理的工作流程: - **位置**:OpenAI 平台的 Traces 部分 - **功能**: - 可視化代理執行流程 - 監控不同代理之間的互動 - 分析代理決策過程 這些工具顯著提高了開發者構建和優化 AI 代理應用的能力。 ## Agent SDK 的設計靈感與整合能力 在設計 Agent SDK 時,OpenAI 吸取了業界多個成熟框架的經驗: - **Pydantic**:提供嚴格的數據驗證和類型檢查 - **Griffe**:改善代碼內省和文檔生成 - **MkDocs**:優化文檔結構和可讀性 除了使用 OpenAI 內建工具外,Agent SDK 還支持整合第三方 API,例如 Tavily 搜尋 API: ```python from agents import Agent, Runner from tavily import TavilyClient import functools # 定義搜尋函數工具 @functools.tool def web_search(query: str): client = TavilyClient(api_key="your-api-key") return client.search(query=query) # 創建使用搜尋工具的智能體 agent = Agent( name="researcher", instructions="研究最新資訊", tools=[web_search] ) runner = Runner(agent=agent) result = runner.run_sync("最新的體育新聞?") print(result.response) ``` 這種跨框架融合的設計理念使 Agent SDK 更加強大且靈活。 ## 市場影響與展望 OpenAI 推出這套完整的開發工具套件將對 AI 市場產生以下影響: 1. **AI 代理商業化加速**:降低開發門檻,促進企業級 AI 應用落地 2. **明確的付費模式**:以往可能免費的功能現已有清晰的定價結構 3. **跨領域競爭加劇**:尤其是在搜尋引擎、知識管理和自動化領域 4. **2025 成為 AI 代理落地年**:正如多位業界專家預測,今年將是 AI 代理真正走向應用的一年 5. **現有框架面臨挑戰**:考慮到 OpenAI 的資源和影響力,Agent SDK 可能超越 LangGraph 和其他代理框架 這標誌著 AI 代理正式進入商業化落地階段,也預示著 2025 年可能成為 AI 代理的爆發之年。對開發者和企業而言,這既是機遇也是挑戰,如何在成本控制和功能需求間取得平衡將成為關鍵考量。 ## 對競爭對手的影響 OpenAI 的這次發布可能對多個領域的競爭對手產生影響: - **搜尋引擎市場**:Perplexity、Exa 等 AI 搜尋引擎將面臨直接競爭 - **企業知識管理**:RAG 解決方案提供商需要重新評估其價值主張 - **RPA 市場**:UiPath、Automation Anywhere 等傳統 RPA 廠商可能面臨顛覆性挑戰 - **代理框架市場**:LangGraph、CrewAI 等現有框架需要創新以保持競爭力 --- 相關資源: - 發表會影片(繁中字幕):[YouTube](https://youtu.be/M6srBLy2NEg) - OpenAI 官方發布頁面:[New Tools for Building Agents](https://openai.com/index/new-tools-for-building-agents/) - Computer Use 示範專案:[GitHub](https://github.com/openai/openai-cua-sample-app) - Responses API 示例專案:[GitHub](https://github.com/openai/openai-responses-starter-app) *您對 OpenAI 的新定價模式有何看法?這對市場是利還是弊?歡迎在評論區分享您的想法!*