OpenRouter 2026 排行震撼解讀：為何 Kimi K2.6 取代 Claude？DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因

--- title: "OpenRouter 2026 排行震撼解讀：為何 Kimi K2.6 取代 Claude？DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因" description: "深入解析 OpenRouter 2026 各分類 LLM 排行：Kimi K2.6 為何登頂 Programming、DeepSeek V3.2 如何壟斷 Roleplay 40.2%、Grok 4.1 Fast 怎麼用 2M context 攻下 Legal #1。中國模型佔比從 1.2% 飆升至 45%+ 的結構性原因，以及 8 種用例的選用建議。" date: 2026-04-26 tags: - AI - LLM - OpenRouter - Kimi - DeepSeek - Claude - Gemini - Grok - 模型評比 slug: openrouter-2026-llm-rankings-deep-dive --- # OpenRouter 2026 排行震撼解讀：為何 Kimi K2.6 取代 Claude？DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因 ![openrouter-llm-arena-cover](https://hackmd.io/_uploads/H1EVtdjpZl.jpg) 打開 [OpenRouter 排行榜](https://openrouter.ai/rankings) ，我看到 2026 年 4 月的排行第一名時還是愣了一下。**不是 Claude，不是 GPT，不是 Gemini——而是來自中國 Moonshot AI 的 Kimi K2.6，週吞吐量 1.36T tokens**。再往下滑，前 10 名有 5 席是中國模型。GPT-5.4 連前 10 都沒擠進去。這不是某個小眾排行的數據異常。OpenRouter 是全球最大的 LLM API 路由平台，接超過 [400 個模型、60 多家供應商](https://www.trendingtopics.eu/chinese-ai-models-overtake-us-rivals-in-global-token-consumption/) ，每週路由 20T+ tokens——它的排行不是 benchmark 跑分，是**開發者用真金白銀換來的真實使用量**。更戲劇性的是各分類前列：DeepSeek V3.2 在 Roleplay 拿下 40.2% 壟斷份額；Grok 4.1 Fast 攻下 Legal #1；Gemini 3 Flash Preview 同時稱霸 Health 與 Academia；Marketing 的 #1 是價格只有 $0.10/$0.40 的 Gemini 2.5 Flash Lite。這篇文章會帶你看完整個排行版圖，深入解析每個分類 #1 為什麼能贏——是架構、訓練資料、定價、context window 還是別的東西讓他們勝出。文末附上一張按用例選模型的實戰建議表，2026 年該用哪個模型，看完就有答案。 ## OpenRouter 為何是最值得信的 LLM 排行在開始解讀數字前，先說為什麼 OpenRouter 比 LMArena、benchmark 跑分更具參考價值。 LMArena 看的是「人類偏好」，但跑分跟真實生產用例的距離常常比想像中大。各家 benchmark 又都有過擬合風險——模型在 SWE-Bench 拿高分不代表在你的 codebase 跑得好。OpenRouter 不一樣，它的排行直接反映**「開發者願意為哪個模型持續付錢」**：使用者多用一個 token，OpenRouter 帳上多扣一塊錢，不付出真金白銀就不會出現在這份榜單上。更重要的是，OpenRouter 的客群是真正在開發 AI 產品的人。Janitor AI（角色扮演）、Cline（編碼 agent）、OpenClaw（自動化 agent）、Roo Code、Hermes 這些被廣泛使用的工具，都在透過 OpenRouter 路由模型。你看到的排行，本質上是**這些 production 產品在生產環境中真實的選擇**。 OpenRouter 自己發布的 [State of AI 2025 報告](https://openrouter.ai/state-of-ai) 揭露了更深層的趨勢：總週吞吐量從 2025 年 4 月的 5T tokens 漲到 2026 年 4 月的 20T+，一年成長 4 倍；推理模型已佔全部 token 流量的 50%；平均 prompt 長度從 1.5K 翻到 6K，agent 工作流取代單次推理成為主流。這些結構性變化，正是排行榜每週都在變動的根因。 ## 整體 Top 10：Anthropic 不再壟斷，中國模型半壁江山 ![openrouter-china-models-rising](https://hackmd.io/_uploads/H17BYdspWx.jpg) 來看 2026 年 4 月的整體 Top 10（週 token 使用量）： | 排名 | 模型 | 提供者 | 週 token | 關鍵特徵 | |------|------|--------|----------|----------| | 1 | Kimi K2.6 | moonshotai 🇨🇳 | 1.36T | MoE 1T/32B、agent swarm | | 2 | Claude Sonnet 4.6 | anthropic 🇺🇸 | 1.35T | 1M context、編程主力 | | 3 | DeepSeek V3.2 | deepseek 🇨🇳 | 1.31T | DSA 稀疏注意力、極低價 | | 4 | Claude Opus 4.7 | anthropic 🇺🇸 | 1.14T | Anthropic 旗艦 | | 5 | Gemini 3 Flash Preview | google 🇺🇸 | 1.06T | 1M context、多模態 | | 6 | MiniMax M2.7 | minimax 🇨🇳 | 806B | 性價比之選 | | 7 | Grok 4.1 Fast | x-ai 🇺🇸 | 721B | 2M context | | 8 | Claude Opus 4.6 | anthropic 🇺🇸 | 699B | 上代旗艦 | | 9 | MiniMax M2.5 | minimax 🇨🇳 | 698B | | | 10 | Step 3.5 Flash | stepfun 🇨🇳 | 673B | 快速且廉價 | **有件事看完數字才會驚覺**：2024 年 10 月時，中國模型在 OpenRouter 的整體佔比是 **1.2%**。2026 年 4 月，這個數字是 **45%+**，[連續 5 週中國週 token 量超越美國](https://lucasgraphic.com/posts/chinese-ai-models-dominate-openrouter-top-six-in-token-usage) 。前 10 名有 5 席是中國模型，再加上 OpenAI 的 GPT-5.4 連榜都沒擠進去——LLM 市場的權力結構在 18 個月內被徹底改寫。這不是「中國技術突然超車」這麼簡單的故事。背後有三條主線同時推進：價格戰（中國模型多在 $1/M tokens 以下，美國旗艦多在 $3-25/M）、開源策略（自由部署、企業可自託管）、快速迭代（Kimi 從 K2.5 到 K2.6 只花了三個月）。OpenAI 在 OpenRouter 路由通路的弱勢並不代表 GPT-5.4 整體不行——OpenAI 的真正主場在 ChatGPT 訂閱與企業合約，但這份排行確實顯示「**用 OpenRouter 走多模型路由的開發者**」已經把選票投給了別人。 ## Programming：Kimi K2.6 用 Agent Swarm 改寫遊戲規則 ![kimi-k2-agent-swarm](https://hackmd.io/_uploads/BJaBtOiaZg.jpg) Programming 是 OpenRouter 上最大的單一類別，token 佔比已從 2025 初的 11% 飆升至 [50% 以上](https://openrouter.ai/state-of-ai) 。Anthropic 的 Claude 系列曾經長期佔 60%+ 的編程市場份額，2025 年 11 月以後跌破 60%。然後 Kimi K2.6 來了。來看 [OpenRouter Programming Collection](https://openrouter.ai/collections/programming) 的 Top 10： | # | 模型 | 提供者 | 週 token | 佔比 | |---|------|--------|----------|------| | 1 | Kimi K2.6 | moonshotai | 1.37T | **22.3%** | | 2 | Claude Opus 4.7 | anthropic | 429B | 7.0% | | 3 | Step 3.5 Flash | stepfun | 383B | 6.2% | | 4 | Nemotron 3 Super 120B (free) | nvidia | 319B | 5.2% | | 5 | Claude Sonnet 4.6 | anthropic | 302B | 4.9% | | 6 | MiniMax M2.5 | minimax | 297B | 4.8% | | 7 | MiniMax M2.7 | minimax | 267B | 4.3% | | 8 | Claude Opus 4.6 | anthropic | 237B | 3.8% | | 9 | GPT-5.4 | openai | 209B | 3.4% | | 10 | Others | – | 2.35T | 38.1% | GPT-5.4 在 Programming 排第 9，且其上方有 4 個中國模型（Kimi、Step、MiniMax×2）——這對 18 個月前的格局來說是劇變。 ### Kimi K2.6 為何能贏？三個結構性優勢 **第一是架構**。K2.6 是 [MoE（Mixture-of-Experts）架構](https://huggingface.co/moonshotai/Kimi-K2.6) ，總參數 1T，但每個 token 只 active 32B。這個比例非常聰明——你拿到 1T 模型的能力品質，付的卻是 32B 模型的推理成本。[GMI Cloud 的拆解](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) 指出，K2.6 在 INT4 量化後可以塞進 4 張 H100，企業自託管門檻被壓得很低。 **第二是 agent swarm**。K2.6 最大的差異化在於它是為「長期任務」設計的。[Kimi 官方技術 blog](https://www.kimi.com/blog/kimi-k2-6) 與 [Microsoft Foundry 整合公告](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125) 記載：300 個並行 sub-agents（K2.5 為 100 個）、長期執行 + 持續工具調用、coordinator 動態分派任務並在 sub-agent 失敗時自動重派。這個能力對應的是真實的 production 場景——不是「幫我寫一個 function」，而是「重構整個 codebase、修復所有 lint 錯誤、跑完測試」。 **第三是 benchmark 領先（但有但書）**。K2.6 在 SWE-Bench Pro 拿下 58.6 分，[壓過 GPT-5.4 的 57.7 與 Claude Opus 4.6 的 53.4](https://www.kimi.com/blog/kimi-k2-6) ；HLE w/ tools 達 54.0 第一。但同一份 [GMI Cloud 拆解](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) 也指出，純數學推理上 Gemini 3.1 Pro Thinking 在 LiveCodeBench v6 仍以 91.7 略勝（K2.6 為 89.6），SWE-Bench Multilingual 也是 Opus 4.6 的 77.8 略高於 K2.6 的 76.7。換句話說，K2.6 的勝出不是全面碾壓，而是在「**長期任務 + 工具串接**」這個維度做出顯著差距。加上 K2.6 採用 Modified MIT License 開源、Microsoft Foundry 與 Cloudflare Workers AI 都做了 Day 0 整合、OpenRouter 上排第一名的 app（OpenClaw，週 392B token）原生綁定 K2.6——這是技術 + 商業 + 生態三線同時推進的結果。 ## Roleplay：DeepSeek V3.2 的 40.2% 壟斷 ![deepseek-roleplay-creative](https://hackmd.io/_uploads/SyfUFdiaZg.jpg) 如果說 Programming 還是一個有競爭的市場，[Roleplay 完全是另一個故事](https://openrouter.ai/collections/roleplay) ： | # | 模型 | 提供者 | 週 token | 佔比 | |---|------|--------|----------|------| | 1 | DeepSeek V3.2 | deepseek | 968B | **40.2%** | | 2 | Grok 4.1 Fast | x-ai | 145B | 6.0% | | 3 | GLM 4.5 Air | z-ai | 141B | 5.9% | | 4 | Gemini 2.5 Flash Lite | google | 112B | 4.6% | | 5 | Gemini 3 Flash Preview | google | 93.6B | 3.9% | DeepSeek V3.2 一個模型佔了 40% 以上。其他類別的 #1 通常在 5-25% 範圍——這個壟斷程度在 OpenRouter 上獨一無二。 ### 為什麼是 DeepSeek？三角完美命中 DeepSeek V3.2 的 [架構是 MoE 671B/37B active](https://introl.com/blog/deepseek-v3-2-open-source-ai-cost-advantage) ，最關鍵的創新是 [DeepSeek Sparse Attention（DSA）](https://api-docs.deepseek.com/news/news250929) ——一種細粒度稀疏注意力機制。根據 DeepSeek 官方公告，相較 V3.1-Terminus，DSA 在長 context 訓練/推理的 API 成本下降 50% 以上，benchmark 表現「on par」（基本持平）。對 Roleplay 這種「對話越聊越長」的場景，這個優化直接擊中痛點。但更有趣的是訓練細節。[Kili Technology 的拆解](https://kili-technology.com/blog/data-story-deepseek-v3-2) 指出，DeepSeek 是少數明確揭露 creative writing 與 role-play 訓練流程的 frontier 級模型——他們對「非推理任務」採用 model-generated 響應 + **人工 annotator 驗證準確性**的方式。換句話說，DeepSeek 在角色扮演的「人味」上做過真正的工程投入，不是訓練資料的副產品。定價是壓死駱駝的最後一根稻草：**$0.26/$0.38 per 1M tokens，比 Claude Sonnet 便宜 10 倍**。對 Janitor AI 這種 [免費或微薄訂閱費的 character chat 平台](https://www.linkedin.com/posts/paoloperrone_openrouter-just-analyzed-100-trillion-tokens-activity-7407074083995242496-Bmwl) ，成本不是 nice-to-have 而是 must-have。加上開源（MIT License）、content filter 比 Anthropic/OpenAI 寬鬆——對 Roleplay 用例來說，「不會被 safety filter 打斷的對話流」本身就是核心需求。Claude 與 GPT 在這個領域沒有任何空間切入。 OpenRouter 的 State of AI 報告還補了一刀：**OSS 模型的全部使用量裡，超過 50% 都在做 Roleplay**。Programming 的 38% 是第二大用途。所以「為什麼 OSS 在 Roleplay 強？」的答案不是 OSS 模型訓練得特別好，而是「商用模型因為 safety 限制無法切入這個 50% 大餅」。 ## Health & Academia：Gemini 3 Flash Preview 的雙冠王 Health 與 Academia 屬於 OpenRouter State of AI 報告中歸類的「**Specialized Experts**」象限——使用量低、cost-per-token 高、對精確性極度敏感。這兩個分類的 #1 都是 [Gemini 3 Flash Preview](https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/) 。 ### Gemini 3 Flash Preview 為什麼能在這兩個高敏感領域勝出？ | 維度 | 細節 | |------|------| | 多模態原生 | text/image/audio/video/PDF 同模型，不需切換 | | PhD 級知識 | GPQA Diamond 90.4%（物理/化學/生物 grad-level） | | 抗幻覺 | HLE 33.7% 無工具、43.5% 有工具，[Artificial Analysis 評為知識/抗幻覺最強](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) | | MMMU-Pro | 81.2%（與 Pro 版同分） | | 醫療專項 | Google 系出 [Med-Gemini，MedQA 91.1% 創紀錄](https://intuitionlabs.ai/articles/gemini-3-healthcare-applications) | | Context | 1.05M tokens | | 價格 | $0.50/$3 per 1M tokens（frontier 級中段） | Health 是個極度碎片化的市場——OpenRouter 報告指出沒有單一 sub-tag 超過 25%，從醫研、心理諮商、治療指引到診斷查詢全包。在這種需求多樣的場景，**「全能 + 多模態 + 低幻覺 + 醫療專項微調」**的組合勝出是必然——病歷不只有文字、X 光與 MRI 是圖像、論文裡有圖表，模型必須一次處理。 Academia 也有類似邏輯。Gemini 3 Flash 在 [AA-Omniscience 第一、Humanity's Last Exam 第二](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) ，加上 1M context 可以吞整本論文或教科書——這正是學術工作流的核心。 ## Legal：Grok 4.1 Fast 用 2M Context 殺出血路 ![grok-legal-2m-context](https://hackmd.io/_uploads/Hyt8KOja-l.jpg) Legal 分類的 #1 是 **Grok 4.1 Fast**——這個結果第一眼讓人意外，但拆解完數字就會懂。 ### Grok 4.1 Fast 的法律殺招 [xAI 在 2025 年 11 月發布的 Grok 4.1 Fast](https://x.ai/news/grok-4-1-fast) 把幾個關鍵指標推到極限（[Better Stack 技術解析](https://betterstack.com/community/guides/ai/grok-4-1/) 與 [Oracle Cloud 文件](https://docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-1-fast.htm) 也均做了交叉驗證）： - **2M tokens context window**，業界最大。可以一次吞整本案件卷宗、整份合約集，不用切片 - **幻覺率約 4%**，[xAI 與 Better Stack 報告指出較 Grok 4 大降約 65%](https://betterstack.com/community/guides/ai/grok-4-1/) ；Oracle 文件描述為「reduced by ~3x」 - **$0.20/$0.50 per 1M tokens**，極便宜，可以大量並行 - Berkeley Function Calling v4 達 72%，τ²-bench Telecom 100%（[Artificial Analysis 驗證](https://x.ai/news/grok-4-1-fast) ） - [LMArena Elo 1483 #1](https://medium.com/@leucopsis/grok-4-1-preliminary-review-8dd94f41489b) ，純人類偏好分數冠軍法律工作的痛點完美對應這些特性：合約必須整份讀完、不能瞎掰一條法條、需要多次往返審閱。[Gemini 3 Flash 在 Harvey BigLaw Bench 也提升 7%](https://deepmind.google/models/gemini/flash/) ，但 1M context 對 100+ 頁的契約仍然吃緊——Grok 的 2M 才是甜蜜點。 xAI 同步發布的 Agent Tools API（內建 web search、code execution、MCP 整合）讓 Grok 直接跑「法律研究 agent」，這是 Claude/GPT 還沒做到的整合度。 ## Marketing：Gemini 2.5 Flash Lite 的 $0.10 經濟學 [Gemini 2.5 Flash Lite](https://deepmind.google/models/gemini/flash/) 拿下 Marketing #1，理由很簡單——**$0.10/$0.40 per 1M tokens** 是全 frontier 級模型最便宜的價格。 Marketing 雖然被 OpenRouter 歸類在「Specialized Experts」象限，但實際上的核心需求是「大量量產」：SEO 文章、廣告文案、產品描述、email 主旨。這時候模型品質的邊際效益遠不如價格——便宜 10 倍、品質掉 5%，是穩賺不賠的交易。Gemini 2.5 Flash Lite 配上 1M context（一次讀完整份品牌 guideline），組合無懈可擊。 OpenAI 的 gpt-oss-120b 因為**完全免費**搶下第二名，連定價都不用打就贏。 ## Finance：Claude Sonnet 4.6 為何仍是這個領域的標準答案 Finance 是 Claude 還站穩第一線的領域之一。Sonnet 4.6 是 OpenRouter 整體 Top 10 第二名（週 1.35T tokens），Finance 分類觀察排名 #2——這是在 Anthropic 不削價、單價是 DeepSeek 的 10 倍的前提下做到的。為什麼 Finance 客戶願意付 $3/$15 per 1M tokens（比 DeepSeek 貴 10 倍）？因為 Finance 是「**錯一次比省錢貴一萬倍**」的業務。一份財報誤讀、一個風險評估幻覺、一條 ESG 條款搞錯，後果都是商業災難。Anthropic 的 Constitutional AI 訓練讓 Claude 在「**承認自己不知道**」這件事上做得最好，這對 Finance 來說是決定性優勢。加上 1M context（吞 10K 級報表/招股書）、優秀的 tool use、與 Bloomberg、FactSet 等金融工具的整合——Claude 在這個領域的護城河比 Programming 深得多。 ## 四大勝出原因總整理整理完七個分類的 #1，為什麼某個模型能贏，本質上歸因於四個維度： | 維度 | 代表案例 | 影響的分類 | |------|----------|------------| | **架構優勢** | Kimi MoE 1T/32B、DeepSeek DSA Sparse Attention、Nemotron Hybrid Mamba-Transformer | Programming、Roleplay | | **訓練特化** | Claude Constitutional AI、DeepSeek 創意寫作 RLHF、Med-Gemini、Grok 低幻覺 RL | Finance、Roleplay、Health、Legal | | **經濟優勢** | Gemini Flash Lite $0.10/$0.40、Grok $0.20/$0.50、DeepSeek $0.26/$0.38 | Marketing、Roleplay、長尾類別 | | **規模優勢** | Grok 2M、Gemini 1M、Kimi 256K、Claude 1M | Legal、Academia、長文件處理 | 不過這四個維度也不是「具備就贏」。MiniMax M2.7 在架構（MoE）、經濟（$0.30/$1.20）、規模（197K context）三項都不差，benchmark 也接近第一線，但在 Programming 還是排到第 7。原因是它沒做出 Kimi 那種 agent swarm 的差異化訓練，沒切到「長期任務」這個維度。OpenRouter 排行真正獎勵的是「**找到一個沒被滿足的剛性需求 + 在那個維度做到極致**」——而不是平均都好。 ## Use Case 二元化象限：你的需求落在哪裡？ ![usecase-quadrant-chart](https://hackmd.io/_uploads/SJbvFuo6bx.jpg) OpenRouter State of AI 報告把 11 個分類按「使用量 × 成本」分成四個象限： | 象限 | 特徵 | 涵蓋分類 | 選模型邏輯 | |------|------|----------|------------| | **Mass Market**（高量低成本） | 用量大、單 task 中等成本 | Programming | 選有 agent 能力的中價位（Kimi、Claude Sonnet） | | **Premium**（高量高願付） | 用量大、特殊需求 | Roleplay (OSS 主導) | 選便宜開源（DeepSeek、GLM） | | **Niche Utilities**（低量低成本） | 低量、低願付 | Translation、Trivia | 選最便宜或免費（Gemini Flash Lite、gpt-oss） | | **Specialized Experts**（低量高成本） | 低量、高 cost-per-token、高敏感 | Finance、Health、Legal、Academia、Marketing | 選 frontier 或專項微調（Claude、Gemini Pro、Med-Gemini、Grok） | 象限分類沒有絕對——例如 Marketing 在 OpenRouter 報告裡屬 Specialized Experts，但實務上「SEO 量產」場景反而向 Mass Market 靠攏，所以 Marketing #1 才會是價格極低的 Gemini Flash Lite。**用 OpenRouter 排行做選型決策時，要先確認你自己的工作流落在哪個象限**，而不是直接套分類名稱。 ## 2026 年實戰選用建議表最後整合所有分析，給你一張按用例選模型的表： | 用例 | 首選 | 次選 | 預算最佳 | |------|------|------|----------| | 編程 / Agent | **Kimi K2.6** ($0.74/$4.66) | Claude Opus 4.7 ($5/$25) | Nemotron 3 Super (free) | | Roleplay / 創意寫作 | **DeepSeek V3.2** ($0.26/$0.38) | Grok 4.1 Fast ($0.20/$0.50) | GLM 4.5 Air (free) | | 醫療 / 學術 | **Gemini 3 Flash Preview** ($0.50/$3) | Claude Sonnet 4.6 ($3/$15) | gpt-oss-120b (free) | | 法律合約審閱 | **Grok 4.1 Fast** (2M context) | Gemini 3 Flash Preview | gpt-oss-120b | | 行銷 / SEO 量產 | **Gemini 2.5 Flash Lite** ($0.10/$0.40) | Grok 4.1 Fast | gpt-oss-120b (free) | | 金融分析 | **Claude Sonnet 4.6** | Gemini 3 Flash Preview | Kimi K2.5 | | 翻譯 | **Gemini Flash Lite** | DeepSeek V3.2 | Gemma 4 31B (free) | | 通用問答 | **Gemini 3 Flash Preview** | Claude Sonnet 4.6 | DeepSeek V3.2 | 實戰上我自己的策略是：**主力選一個 frontier 模型 + 備案選一個便宜開源模型**。例如編程主力 Claude Sonnet 4.6（穩定）、便宜路由 Kimi K2.6（agent 重活）、實驗性質 Nemotron 3 Super（免費跑長 context）。透過 OpenRouter 的 fallback 機制可以一個 API 切換，不用改 client 程式碼。 ## 結語：誰會是下一個 #1？ OpenRouter 排行每週都在變動。寫這篇文章的時候，新晉模型像 Alibaba Qwen 3.6 Plus、Xiaomi MiMo 系列、Tencent Hy3 preview 都還在快速攀升。下個月榜首會不會又換人，沒人敢打包票。不過從整份分析看下來，有幾個方向可能比榜單本身更值得注意。中國模型的崛起更像是結構性而非短期波動——Kimi、DeepSeek、MiniMax、Qwen、Step、Xiaomi 已形成完整生態，價格 + 開源 + 快速迭代三線並進。Anthropic 用 Claude 守住企業合規、複雜推理、金融用例；Google 用 Gemini 以多模態 + 從 Flash Lite 到 Pro 的全價格帶切細分市場；OpenAI 在 OpenRouter 路由通路相對弱勢，主場其實是 ChatGPT 訂閱與企業 API 直接合約。最值得關注的是 Agent 工作流的崛起。OpenRouter 上排第一名的 app 不是聊天機器人而是 OpenClaw 這種 agentic 工具、Programming 的 #1 是設計成跑 300 sub-agent 的 Kimi K2.6——這代表「LLM 是 agent 引擎」已從理論走進現實。下一波真正能改變排行格局的，可能不是某個 benchmark 跑得更高的模型，而是把 agent 工程做對的整套產品。如果你正在做 AI 產品決策，我的建議是：**別只看 benchmark，去 OpenRouter 跑壓力測試**。用真實 prompt、真實 context size、真實併發量，比較每個模型在你的場景下的延遲、品質、成本。這份排行只是地圖，真正的答案藏在你的工作流裡。 ## 延伸閱讀與參考資料 **OpenRouter 官方來源** - [OpenRouter Rankings](https://openrouter.ai/rankings) – 即時更新的 LLM 排行 - [OpenRouter State of AI 2025 報告](https://openrouter.ai/state-of-ai) – 100T token 使用量研究 - [Best AI Models for Coding](https://openrouter.ai/collections/programming) – Programming 完整榜單 - [Best AI Models for Roleplay](https://openrouter.ai/collections/roleplay) – Roleplay 完整榜單 **模型架構與技術深度** - [Kimi K2.6 HuggingFace 模型卡](https://huggingface.co/moonshotai/Kimi-K2.6) - [Kimi K2.6 架構與 benchmark 解析（GMI Cloud）](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) - [DeepSeek V3.2 Sparse Attention 論文解讀（Kili Tech）](https://kili-technology.com/blog/data-story-deepseek-v3-2) - [DeepSeek V3.2-Exp 官方公告](https://api-docs.deepseek.com/news/news250929) - [Gemini 3 Flash 官方介紹](https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/) - [Gemini 3 Flash Artificial Analysis 評測](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) - [Grok 4.1 Fast 與 Agent Tools API](https://x.ai/news/grok-4-1-fast) **產業趨勢觀察** - [中國模型橫掃 OpenRouter Top 6（LucasGraphic）](https://lucasgraphic.com/posts/chinese-ai-models-dominate-openrouter-top-six-in-token-usage) - [中國 AI 模型超越美國競爭對手分析（Trending Topics）](https://www.trendingtopics.eu/chinese-ai-models-overtake-us-rivals-in-global-token-consumption/) - [DeepSeek V3.2 經濟學分析（Introl）](https://introl.com/blog/deepseek-v3-2-open-source-ai-cost-advantage) - [OpenRouter 100T token 觀察（LinkedIn）](https://www.linkedin.com/posts/paoloperrone_openrouter-just-analyzed-100-trillion-tokens-activity-7407074083995242496-Bmwl) - [Kimi K2.6 Microsoft Foundry 整合公告](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125) - [Grok 4.1 Fast 技術解析（Better Stack）](https://betterstack.com/community/guides/ai/grok-4-1/) - [Grok 4.1 Fast Oracle Cloud 文件](https://docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-1-fast.htm) 本文摘自一份較長的內部研究筆記，涵蓋 4 輪深度研究、各分類細部排名、模型卡 metadata 與時間 snapshot 比對。如果你對某個分類想看更原始的數據，歡迎在留言區告訴我。