當大模型不再是護城河：AI Agent 如何重新定義 AI 競爭

# 當大模型不再是護城河：AI Agent 如何重新定義 AI 競爭 ![agent-trend-cover](https://hackmd.io/_uploads/S1JSTdPoWl.jpg) 你可能還記得 2023 年那段瘋狂的日子。每隔幾週就有一個新模型「屠榜」，參數量從幾百億飆到幾千億，每個人都在問：下一個 GPT 會有多大？訓練要用多少張 H100？但你有沒有注意到，2025 年之後，這種興奮感消失了？不是因為技術停滯。恰恰相反 — 模型變得太好了，好到彼此之間幾乎分不出差別。GPT-5、Claude 4.6、Gemini 2.5，你拿同一個問題去問，得到的答案品質越來越接近。更有意思的是，根據 [OpenRouter](https://openrouter.ai/) 的用戶使用數據，OpenAI 的模型在整體使用量上已經排到第五，落後於 Google、Anthropic、DeepSeek 和 Qwen。當模型能力趨於收斂，一個更根本的問題浮出水面：**如果大家的模型都差不多強，下一步到底在拼什麼？** 答案已經很清楚了 — Agent。 --- ## 大模型撞上的四面牆 ![agent-trend-four-walls](https://hackmd.io/_uploads/HJUBa_vjWx.jpg) 讓我把話說直白一點。大模型遇到了四個結構性的天花板，而且不是靠「再加更多參數」就能解決的。 **第一面牆：Scaling Law 正在放緩。** 過去幾年，學術界和產業界最堅定的信仰就是「模型越大越強」。但邊際效益遞減的鐵律終究追上來了。把參數量從 1 兆翻倍到 2 兆，帶來的能力提升遠不如從 100 億到 1000 億那麼驚人。 **第二面牆：模型正在變得越來越像。** 這是最被低估的趨勢。開源模型（DeepSeek、Qwen、Llama）和閉源模型的差距在快速縮小。[Forbes 報導](https://www.forbes.com/sites/johnwerner/2025/08/06/new-models-from-openai-anthropic-google--all-at-the-same-time/)指出，2025 年中 OpenAI、Anthropic、Google 幾乎同時發布新模型，而 benchmark 差異只在個位數百分點。當你的核心產品可以被輕易替代，這就不是護城河。 **第三面牆：知道不等於做到。** 這面牆是最關鍵的。你問 GPT-5「如何部署一個 Kubernetes 叢集」，它能給你一份完美的教學。但它不能幫你真正部署。它沒辦法打開你的終端機、讀取你的設定檔、執行命令、處理報錯、然後重試。模型「知道」答案，但「完成」任務需要的是完全不同的能力。 **第四面牆：推理成本太高。** 越大的模型，每次推理的成本越高。企業不可能每個任務都用最強的模型。現實中需要的是一個「大腦」負責規劃，多個「手腳」負責執行 — 這恰恰是 Agent 架構的核心理念。 [IBM 的分析](https://www.ibm.com/think/insights/ai-agents-2025-expectations-vs-reality)一針見血地指出：「市場上所謂的 'Agent'，本質上就是在 LLM 上加了初級的規劃和工具呼叫能力。」 — 但就是這個「加法」，改變了整個產業的競爭邏輯。 --- ## 從「AI 知道答案」到「AI 完成任務」 ![agent-trend-five-dimensions](https://hackmd.io/_uploads/HyZIp_vsbg.jpg) [ScienceDirect 的學術論文](https://www.sciencedirect.com/science/article/pii/S1566253525006712)用了一個精準的描述來定義這場轉變：**智能的焦點從「單一模型輸出」轉移到了「系統級行為」。** 什麼意思？過去衡量 AI 強不強，我們看的是「模型能不能回答出正確答案」。現在衡量 AI 有不有用，我們看的是「系統能不能端到端地完成一件事」。從 Copilot 到 Autopilot。從助手到同事。從回答問題到解決問題。 NVIDIA CEO 黃仁勳說得更直接：**「我們的產業從工具的產業，變成了技能的產業。」** 那 Agent 的「綜合能力」到底包含哪些維度？根據 [Unstructured.io 的架構分析](https://unstructured.io/blog/defining-the-autonomous-enterprise-reasoning-memory-and-the-core-capabilities-of-agentic-ai)，一個 Agent 的核心能力可以拆解成五個維度： **感知（Perception）** — Agent 不只處理文字。最先進的 Agent 使用多模態模型，能同時理解圖片、語音、結構化數據。它可以「看到」你的螢幕畫面、讀取你的代碼庫、瀏覽網頁。 **推理（Reasoning）** — 這是大模型的老本行，但在 Agent 架構中被重新定義了。不再是單次推理產出答案，而是 ReAct 循環：思考、行動、觀察結果、再思考。一個持續迭代的推理過程。 **規劃（Planning）** — 把「幫我重構這個專案」這種模糊目標，拆解成二十個具體步驟，決定執行順序，遇到障礙時動態調整路線。這是大模型單獨做不到的。 **記憶（Memory）** — 短期記憶處理當前對話，長期記憶記住你的偏好和專案脈絡，工作記憶維護任務執行的中間狀態。這也是目前最大的技術缺口 — [Mem0 的分析](https://mem0.ai/blog/agentic-frameworks-ai-agents)指出，大多數框架仍然把 context window 和記憶混為一談。 **工具使用（Tool Use）** — 從簡單的 API 呼叫，到代碼執行、文件操作、瀏覽器控制。關鍵不在於「能不能呼叫工具」，而是「知道什麼時候該用哪個工具」。這五個維度的「乘法效應」，才是 Agent 真正的戰場。模型能力是基礎，但只是五分之一。 --- ## 三巨頭的 Agent 哲學之戰 ![agent-trend-three-giants](https://hackmd.io/_uploads/rJFUauPsZl.jpg) 如果你只看模型 benchmark，OpenAI、Google、Anthropic 看起來差不多。但如果你看他們的 Agent 策略，會發現三家公司走上了完全不同的道路。 [MindStudio 的深度分析](https://www.mindstudio.ai/blog/anthropic-vs-openai-vs-google-agent-strategy)把這個差異總結為三個關鍵字：**可程式化基底、治理型企業規模、人機協作。** ### OpenAI：開發者的 Agent 工廠 OpenAI 的策略是提供底層積木，讓開發者自己組裝。[Codex](https://openai.com/index/introducing-codex/) 是雲端編碼 Agent，可以同時派出多個 Agent 獨立處理不同任務。Agent SDK 提供標準化的建構工具。Operator 負責瀏覽器操作。核心理念很明確：我不告訴你 Agent 該長什麼樣，我給你最好的零件，你自己造。這跟 OpenAI 一貫的 API-first 策略一脈相承。 ### Google：企業的 Agent 管家 Google 的路線完全不同。[ADK（Agent Development Kit）](https://github.com/google/adk-python)整合進 GCP 生態，Vertex AI Agent Builder 提供企業級的多代理編排，加上治理鉤子、安全合規、審計日誌。但 Google 最大的野心不在產品，而在協議。他們在 2025 年 4 月推出了 [A2A（Agent-to-Agent）協議](https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/)，並捐贈給 Linux Foundation。這是要定義 Agent 之間怎麼互相溝通的開放標準。如果說 Agent 是新時代的應用程式，A2A 就是 Google 想要制定的 HTTP。 ### Anthropic：安全可控的人機拍檔 Anthropic 的策略最獨特，也最有層次感。他們沒有一步到位推出「萬能 Agent 平台」，而是一層一層堆疊：先推 [MCP（Model Context Protocol）](https://www.anthropic.com/news/donating-the-model-context-protocol-and-establishing-of-the-agentic-ai-foundation) — 讓 Agent 能連接任何工具。再推 [Skills](https://thenewstack.io/agent-skills-anthropics-next-bid-to-define-ai-standards/) — 讓 Agent 學會可重複的工作流程。然後是 Agent Teams — 多 Agent 協作。最近又推出 Channels — 讓 Agent 進入 Telegram 和 Discord 等通訊平台。每一層都強調人類的監督和控制。[Anthropic 的技術文件](https://www.anthropic.com/research/building-effective-agents)明確寫道：Agent 不只是有記憶的模型，它是一個被設計來「在世界中採取行動」的系統 — 而行動必須有邊界。 ### 策略對比一覽 | 維度 | OpenAI | Google | Anthropic | |------|--------|--------|-----------| | 核心哲學 | 開發者平台 | 企業治理 | 安全協作 | | 代表產品 | Codex + Agent SDK | ADK + Vertex AI | Claude Code + MCP | | 協議策略 | 採用 MCP/A2A | 主導 A2A | 主導 MCP | | 目標用戶 | 開發者 | 企業 IT | 開發者 + 進階用戶 | | 護城河 | 用戶基數 | 雲端基礎設施 | 安全信任 + 協議生態 | --- ## Agent 世界的 TCP/IP 正在成形 ![agent-trend-protocols](https://hackmd.io/_uploads/HJgPpODoWg.jpg) 我個人認為，這場 Agent 競爭中最被低估的戰場，是協議標準。回想網際網路的歷史。真正讓 Web 爆發的不是任何一個瀏覽器或伺服器，而是 HTTP、TCP/IP、HTML 這些開放標準。Agent 時代正在經歷同樣的時刻。目前有兩個關鍵協議正在爭奪這個位置： **MCP（Model Context Protocol）** — Anthropic 在 2024 年底發起，解決的是「Agent 怎麼連接工具」的問題。你可以把它想像成 Agent 世界的 USB 接口：開發者只要實作一次 MCP，就能讓自己的工具被任何支持 MCP 的 Agent 使用。 [Pento 的回顧報導](https://www.pento.ai/blog/a-year-of-mcp-2025-review)記錄了 MCP 的爆發式成長：從 Anthropic 內部實驗，到 2025 年 3 月 OpenAI 正式採用，再到捐贈 Linux Foundation 成立 Agentic AI Foundation。一年之內，從一家公司的內部協議變成了產業標準。 **A2A（Agent-to-Agent）** — Google 在 2025 年 4 月推出，解決的是「Agent 怎麼跟其他 Agent 合作」的問題。基於 JSON-RPC 2.0，使用 Agent Cards 描述各個 Agent 的能力。[Microsoft 也宣布支持](https://www.microsoft.com/en-us/microsoft-cloud/blog/2025/05/07/empowering-multi-agent-apps-with-the-open-agent2agent-a2a-protocol/)，與超過 50 家合作夥伴加入生態系。這兩個協議不是競爭關係，而是互補。MCP 是「Agent 到工具」的連接層，A2A 是「Agent 到 Agent」的協作層。就像 HTTP 負責 Client-Server 通訊，而 DNS 負責名稱解析一樣。 [OneReach.ai 的分析](https://onereach.ai/blog/guide-choosing-mcp-vs-a2a-protocols/)預測，到 2026 年，幾乎每個商業應用都會整合 AI 助手，而 MCP 和 A2A 將成為這些助手之間溝通的基礎設施。為什麼這很重要？因為**掌握協議標準的人，掌握的是生態系統的入口**。就像 Google 掌握了搜尋，不是因為它的搜尋引擎最快，而是因為它定義了人們尋找資訊的方式。 --- ## 冷水時間：Agent 還沒有你想像的那麼強 ![agent-trend-reality-gap](https://hackmd.io/_uploads/BJLDTOwjbe.jpg) 市場數據確實讓人興奮。[Gartner 預測](https://www.gartner.com/en/newsroom/press-releases/2025-08-26-gartner-predicts-40-percent-of-enterprise-apps-will-feature-task-specific-ai-agents-by-2026-up-from-less-than-5-percent-in-2025) 2026 年底 40% 企業應用將嵌入 AI Agent，而 2025 年這個數字還不到 5%。[McKinsey 估算](https://www.mckinsey.com/capabilities/quantumblack/our-insights/seizing-the-agentic-ai-advantage) Agent 每年可創造 2.6 到 4.4 兆美元的經濟價值。整個 Agentic AI 市場以 [46.3% 的年複合增長率](https://www.salesmate.io/blog/future-of-ai-agents/)飛速擴張。但我必須潑一盆冷水。 [TheAgentCompany](https://openreview.net/forum?id=LZnKNApvhG) 是一個專門測試 Agent 在真實工作任務中表現的基準測試。結果？**最強的 Agent 也只能自主完成 30% 的任務。** 七成的任務，它搞不定。 [Google Cloud 在年終回顧](https://cloud.google.com/transform/ai-grew-up-and-got-a-job-lessons-from-2025-on-agents-and-trust)中總結了 2025 年的三大主題：Agent 找到了工作、評估成為了架構的核心、**信任成了最大瓶頸**。信任問題有多嚴重？想想看：你願意讓一個 AI Agent 自動回覆你的客戶郵件嗎？自動部署你的程式碼到 production？自動處理你的財務報表？每一個「自動」都伴隨著風險。而目前的 Agent 技術在可預測性、可審計性、錯誤恢復能力上，離「可以放心交給它」還有很大一段距離。 [ScienceDirect 的論文](https://arxiv.org/html/2512.12791v1)指出了一個更深層的問題：Agent 系統中的不確定性會「層層傳遞」— 工具呼叫的不確定性影響記憶操作的正確性，進而影響多代理互動的可靠性。這不是修個 bug 就能解決的，是架構層級的挑戰。所以，清醒一點：**Agent 時代確實來了，但距離「AI 同事」的願景，我們還在走第一步。** --- ## 新護城河在哪裡 ![agent-trend-ecosystem](https://hackmd.io/_uploads/Bk6DauvsZl.jpg) 讓我把觀察整理成一張清晰的對比表： | 維度 | 過去（拼模型） | 現在（拼 Agent 系統） | |------|---------------|---------------------| | 核心指標 | 參數量、benchmark 分數 | 任務完成率、用戶生產力提升 | | 護城河 | 訓練數據、算力規模 | 生態系統、協議標準、工具整合 | | 商業模式 | API 調用計費 | SaaS 平台訂閱 + 按任務計費 | | 用戶體驗 | 單次問答 | 持續工作流程 | | 差異化來源 | 模型本身的能力 | 系統的綜合表現 | 新的護城河不是「我的模型比你大 10%」，而是： **第一，生態系統的網絡效應。** 當你的 MCP 生態有一萬個工具連接器，開發者就不會輕易離開。這跟 App Store 的邏輯一模一樣。 **第二，用戶數據的飛輪效應。** Agent 跟用戶互動越多，記憶越豐富，體驗越好，用戶越黏著。這是大模型做不到的。 **第三，協議標準的鎖定效應。** MCP 和 A2A 的採用者越多，切換成本越高。先佔領標準的人，就像早年的 Google 佔領了搜尋入口。對於正在關注這場變革的你，我的建議是：如果你是**開發者** — 現在就開始學習 Agent 架構思維。了解 MCP 和 A2A 協議。不要只會寫 prompt，要會設計系統。但也別急著把所有東西都改成 Agent — IBM 的建議很實在：很多問題不需要 Agent，一個好的 LLM 呼叫可能就夠了。如果你是**技術決策者** — 選平台的時候，優先考慮支持開放標準（MCP/A2A）的方案。不要被任何一家鎖定。從客服自動化、代碼開發、文件處理這些成熟場景開始，不要一步到位追求「全自主 Agent」。如果你是**投資者或觀察者** — 別再只看模型參數和 benchmark 排名了。看生態系統規模、工具整合數量、協議採用率、企業實際 deployment 數據。這些才是 Agent 時代真正的領先指標。 --- AI 的戰場已經轉移了。不是轉移到另一個更大的模型，而是轉移到一個更大的系統 — 一個能感知、能推理、能規劃、能記憶、能使用工具的系統。大模型是 Agent 的引擎，但引擎從來不等於整台車。而這場「造車」的競賽，才剛剛開始。 --- ## 延伸閱讀 - [Anthropic: Building Effective Agents](https://www.anthropic.com/research/building-effective-agents) — Anthropic 官方的 Agent 架構設計指南 - [Google: Announcing the A2A Protocol](https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/) — A2A 協議的設計理念與技術規格 - [McKinsey: Seizing the Agentic AI Advantage](https://www.mckinsey.com/capabilities/quantumblack/our-insights/seizing-the-agentic-ai-advantage) — 企業如何把握 Agentic AI 機遇 - [IBM: AI Agents 2025 Expectations vs Reality](https://www.ibm.com/think/insights/ai-agents-2025-expectations-vs-reality) — 對 Agent 現狀最誠實的分析之一 - [Gartner: 40% Enterprise Apps Will Feature AI Agents by 2026](https://www.gartner.com/en/newsroom/press-releases/2025-08-26-gartner-predicts-40-percent-of-enterprise-apps-will-feature-task-specific-ai-agents-by-2026-up-from-less-than-5-percent-in-2025) — Gartner 對企業 Agent 採用的權威預測 - [TheAgentCompany Benchmark](https://openreview.net/forum?id=LZnKNApvhG) — Agent 在真實任務中的表現基準測試 - [A Year of MCP: From Internal Experiment to Industry Standard](https://www.pento.ai/blog/a-year-of-mcp-2025-review) — MCP 從內部實驗到產業標準的完整歷程 - [AI Agents vs. Agentic AI: A Conceptual Taxonomy](https://www.sciencedirect.com/science/article/pii/S1566253525006712) — 學術界對 Agent 範式轉移的系統性論述