# AI 代理時代正式來臨:OpenAI 推出全新 Agent SDK 與 Responses API
2025 年 3 月 12 日,OpenAI 正式推出了期待已久的 Agent SDK 與 Responses API,這標誌著 AI 代理(Agent)技術正式進入商業化落地階段。這個全面的工具套件不僅簡化了 AI 代理的開發流程,還提供了一系列強大的內建工具,讓開發者能夠更輕鬆地打造複雜的 AI 應用。
## 為什麼新開發工具如此重要?
儘管 AI 代理的概念在業界早已成熟,市場上也有多個框架(如 CrewAI、Pydantic AI、微軟的 Autogen),但開發者們一直面臨將 OpenAI 的推理模型、多模態處理和安全機制整合為可用產品的挑戰。這往往需要大量工程資源投入:
- 客製化編排邏輯設計
- 代理執行進度監控
- 提示詞多次迭代優化
正如 OpenAI 所指出,他們看到很多開發者反映,將 OpenAI 的推理模型、多模態能力和安全機制整合為可用的 AI 代理,需要投入大量工程工作。新推出的工具套件正是為了解決這些痛點,降低技術門檻,讓更多開發者能夠快速構建強大的 AI 代理系統。
## OpenAI 新開發工具套件的核心組件
這次 OpenAI 發布的開發工具套件包含四大核心組件:
1. **Responses API**:增強版的 API,整合多種工具功能
2. **內建工具**:Web Search、File Search 和 Computer Use
3. **Agent SDK**:多智能體工作流編排框架
4. **監測工具**:可視化代理執行流程工具
### 1. Responses API:增強版的對話 API
Responses API 是 OpenAI 推出的新介面,用於增強 AI 對話能力並整合多種工具:
- 內建 Web Search、File Search 和 Computer Use 工具支援
- 自動管理對話歷史記錄
- 計劃將在 2026 年中取代 Assistants API(而非 Chat Completions API)
- 提供官方開源範例:[OpenAI Responses Starter App](https://github.com/openai/openai-responses-starter-app)
Responses API 使用方式略有不同,但更加簡潔:
```python
client.responses.create(
model="gpt-4o",
input="Hello!"
)
```
這個 API 的推出,簡化了開發者需要額外串接其他 API 的工作,但同時也意味著 OpenAI 將這些原本可能免費的功能轉為付費服務。
### 2. 內建工具
#### Web Search:挑戰 AI 搜尋市場
OpenAI 推出了兩款專為搜尋優化的模型:GPT-4o search preview 和 GPT-4o mini search preview,搜尋精準率最高可達 90%。這項功能可能對 Perplexity 和 Exa 等 AI 搜尋引擎構成直接競爭,這可能是 Web Search 市場的第一波衝擊。
- **特點**:搜尋結果提供來源連結
- **使用方式**:只需在代碼中添加 `tools=[{"type": "web_search"}]` 即可啟用
- **SEO 提示**:網站可在 robots.txt 加入 `OAI-SearchBot` 以提高被 OpenAI 搜尋發現的機會
**案例**:[Hebbia](https://www.hebbia.com/) 運用 Web Search 為資產管理、私募股權和信貸公司提供更即時的市場情報。
#### File Search:簡化 RAG 實現
File Search 使檢索增強生成 (RAG) 技術變得更容易實現,大幅降低了實施 RAG 的技術門檻。
- **使用方式**:上傳文件至 OpenAI 平台,獲取 vector store ID 後添加到代碼中
```python
client.responses.create(
model="gpt-4o",
input="Tell me about RAG",
tools=[{
"type": "file_search",
"vector_store_ids": ["vs_abc123"]
}]
)
```
**案例**:旅行服務公司 [Navan](https://navan.com/) 使用 File Search 根據客戶公司的旅行規範提供精確回覆。
#### Computer Use (Operator):AI 控制電腦
這項功能允許 AI 擷取螢幕畫面,並根據需求提供滑鼠/鍵盤操作指令來控制用戶電腦。這可能對傳統 RPA(機器人流程自動化)市場帶來巨大衝擊。
- **效能基準**:
- OSworld 基準測試:38%
- WebArena 基準測試:58.1%
- **使用方式**:通過五個步驟完成操作:
1. 獲取初始螢幕截圖
2. 模型解析螢幕內容
3. 執行操作指令
4. 獲取操作後的螢幕截圖
5. 重複直到任務完成
- **安全保障**:經過廣泛的安全測試和紅隊測試,但仍需人工監督
**案例**:
- [Unify](https://www.unifygtm.com/) 使用該工具訪問無法通過 API 獲取的資訊,幫助物業管理公司驗證企業資產擴展情況。
- [Luminai](https://www.luminai.com/) 簡化大企業缺乏 API 的舊數據系統,將傳統 RPA 需要數月才能完成的工作縮短至數天。
## OpenAI Agent 工具定價一覽表
| 工具類型 | 功能說明 | 定價 | 備註 |
|---------|---------|------|------|
| **Web Search** | AI 網路搜尋 | GPT-4o search: $30/1000次<br>GPT-4o mini search: $25/1000次 | 精確率可達90%,每次搜尋約1 TWD |
| **File Search** | 文件檢索與 RAG | $2.5/1000次查詢<br>$0.1/GB/天(文件儲存) | 前1GB文件儲存免費 |
| **Computer Use** | AI 控制電腦 | $3/百萬輸入標記<br>$12/百萬輸出標記 | 需要人工監督 |
| **Agent SDK** | 代理編排框架 | 免費開源 | 支援多種LLM,不限於OpenAI |
### 3. Agent SDK:開源的代理編排框架
相較於 OpenAI 去年推出的實驗版 Swarm,新的 Agent SDK 作為開源框架,提供了更完善的功能:
- **更清晰的配置**和內建工具支援
- **Handoffs**:智慧地在多個代理之間傳遞任務
- **Guardrails**:輸入/輸出安全檢查機制
- **Tracing**:可視覺化代理執行流程,方便除錯與優化
**使用方式**:Agent SDK 的使用非常簡潔,幾行代碼即可構建單一或多智能體系統:
```python
from agents import Agent, Runner
# 創建智能體
history_tutor = Agent(name="history_tutor", instructions="你是歷史專家,回答歷史問題")
math_tutor = Agent(name="math_tutor", instructions="你是數學專家,解決數學問題")
# 建立助理智能體
assistant = Agent(
name="assistant",
instructions="決定由哪個智能體回答問題",
handoffs=[history_tutor, math_tutor]
)
# 運行智能體
runner = Runner(agent=assistant)
result = runner.run_sync("法國的首都是哪裡?")
print(result.response)
```
**重大改進**:Agent SDK 大幅優化了之前推出的實驗版框架 Swarm,提供更簡化的代理編排流程。
**案例**:
- [Coinbase](https://www.coinbase.com/zh-tw/developer-platform/discover/launches/introducing-agentkit) 基於 Agent SDK 快速實作了 AgentKit,用於加密錢包和鏈上交易處理。
- [Box](https://www.box.com/)(企業版 Dropbox)利用 SDK 提供企業搜索和查詢提取存在 Box 及網路上的非結構化資訊。
值得注意的是,Agent SDK 還支援其他符合 OpenAI API 格式的 LLM 提供商,不限於 OpenAI 自家模型。這表示在設計時,OpenAI 參考了 Pydantic、Griffe 和 MkDocs 等框架的理念。
### 4. 監測工具 (Observability Tools)
OpenAI 還推出了監測工具,幫助開發者跟蹤和調試 AI 代理的工作流程:
- **位置**:OpenAI 平台的 Traces 部分
- **功能**:
- 可視化代理執行流程
- 監控不同代理之間的互動
- 分析代理決策過程
這些工具顯著提高了開發者構建和優化 AI 代理應用的能力。
## Agent SDK 的設計靈感與整合能力
在設計 Agent SDK 時,OpenAI 吸取了業界多個成熟框架的經驗:
- **Pydantic**:提供嚴格的數據驗證和類型檢查
- **Griffe**:改善代碼內省和文檔生成
- **MkDocs**:優化文檔結構和可讀性
除了使用 OpenAI 內建工具外,Agent SDK 還支持整合第三方 API,例如 Tavily 搜尋 API:
```python
from agents import Agent, Runner
from tavily import TavilyClient
import functools
# 定義搜尋函數工具
@functools.tool
def web_search(query: str):
client = TavilyClient(api_key="your-api-key")
return client.search(query=query)
# 創建使用搜尋工具的智能體
agent = Agent(
name="researcher",
instructions="研究最新資訊",
tools=[web_search]
)
runner = Runner(agent=agent)
result = runner.run_sync("最新的體育新聞?")
print(result.response)
```
這種跨框架融合的設計理念使 Agent SDK 更加強大且靈活。
## 市場影響與展望
OpenAI 推出這套完整的開發工具套件將對 AI 市場產生以下影響:
1. **AI 代理商業化加速**:降低開發門檻,促進企業級 AI 應用落地
2. **明確的付費模式**:以往可能免費的功能現已有清晰的定價結構
3. **跨領域競爭加劇**:尤其是在搜尋引擎、知識管理和自動化領域
4. **2025 成為 AI 代理落地年**:正如多位業界專家預測,今年將是 AI 代理真正走向應用的一年
5. **現有框架面臨挑戰**:考慮到 OpenAI 的資源和影響力,Agent SDK 可能超越 LangGraph 和其他代理框架
這標誌著 AI 代理正式進入商業化落地階段,也預示著 2025 年可能成為 AI 代理的爆發之年。對開發者和企業而言,這既是機遇也是挑戰,如何在成本控制和功能需求間取得平衡將成為關鍵考量。
## 對競爭對手的影響
OpenAI 的這次發布可能對多個領域的競爭對手產生影響:
- **搜尋引擎市場**:Perplexity、Exa 等 AI 搜尋引擎將面臨直接競爭
- **企業知識管理**:RAG 解決方案提供商需要重新評估其價值主張
- **RPA 市場**:UiPath、Automation Anywhere 等傳統 RPA 廠商可能面臨顛覆性挑戰
- **代理框架市場**:LangGraph、CrewAI 等現有框架需要創新以保持競爭力
---
相關資源:
- 發表會影片(繁中字幕):[YouTube](https://youtu.be/M6srBLy2NEg)
- OpenAI 官方發布頁面:[New Tools for Building Agents](https://openai.com/index/new-tools-for-building-agents/)
- Computer Use 示範專案:[GitHub](https://github.com/openai/openai-cua-sample-app)
- Responses API 示例專案:[GitHub](https://github.com/openai/openai-responses-starter-app)
*您對 OpenAI 的新定價模式有何看法?這對市場是利還是弊?歡迎在評論區分享您的想法!*