--- title: "OpenRouter 2026 排行震撼解讀:為何 Kimi K2.6 取代 Claude?DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因" description: "深入解析 OpenRouter 2026 各分類 LLM 排行:Kimi K2.6 為何登頂 Programming、DeepSeek V3.2 如何壟斷 Roleplay 40.2%、Grok 4.1 Fast 怎麼用 2M context 攻下 Legal #1。中國模型佔比從 1.2% 飆升至 45%+ 的結構性原因,以及 8 種用例的選用建議。" date: 2026-04-26 tags: - AI - LLM - OpenRouter - Kimi - DeepSeek - Claude - Gemini - Grok - 模型評比 slug: openrouter-2026-llm-rankings-deep-dive --- # OpenRouter 2026 排行震撼解讀:為何 Kimi K2.6 取代 Claude?DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因 ![openrouter-llm-arena-cover](https://hackmd.io/_uploads/H1EVtdjpZl.jpg) 打開 [OpenRouter 排行榜](https://openrouter.ai/rankings) ,我看到 2026 年 4 月的排行第一名時還是愣了一下。**不是 Claude,不是 GPT,不是 Gemini——而是來自中國 Moonshot AI 的 Kimi K2.6,週吞吐量 1.36T tokens**。再往下滑,前 10 名有 5 席是中國模型。GPT-5.4 連前 10 都沒擠進去。 這不是某個小眾排行的數據異常。OpenRouter 是全球最大的 LLM API 路由平台,接超過 [400 個模型、60 多家供應商](https://www.trendingtopics.eu/chinese-ai-models-overtake-us-rivals-in-global-token-consumption/) ,每週路由 20T+ tokens——它的排行不是 benchmark 跑分,是**開發者用真金白銀換來的真實使用量**。 更戲劇性的是各分類前列:DeepSeek V3.2 在 Roleplay 拿下 40.2% 壟斷份額;Grok 4.1 Fast 攻下 Legal #1;Gemini 3 Flash Preview 同時稱霸 Health 與 Academia;Marketing 的 #1 是價格只有 $0.10/$0.40 的 Gemini 2.5 Flash Lite。 這篇文章會帶你看完整個排行版圖,深入解析每個分類 #1 為什麼能贏——是架構、訓練資料、定價、context window 還是別的東西讓他們勝出。文末附上一張按用例選模型的實戰建議表,2026 年該用哪個模型,看完就有答案。 ## OpenRouter 為何是最值得信的 LLM 排行 在開始解讀數字前,先說為什麼 OpenRouter 比 LMArena、benchmark 跑分更具參考價值。 LMArena 看的是「人類偏好」,但跑分跟真實生產用例的距離常常比想像中大。各家 benchmark 又都有過擬合風險——模型在 SWE-Bench 拿高分不代表在你的 codebase 跑得好。OpenRouter 不一樣,它的排行直接反映**「開發者願意為哪個模型持續付錢」**:使用者多用一個 token,OpenRouter 帳上多扣一塊錢,不付出真金白銀就不會出現在這份榜單上。 更重要的是,OpenRouter 的客群是真正在開發 AI 產品的人。Janitor AI(角色扮演)、Cline(編碼 agent)、OpenClaw(自動化 agent)、Roo Code、Hermes 這些被廣泛使用的工具,都在透過 OpenRouter 路由模型。你看到的排行,本質上是**這些 production 產品在生產環境中真實的選擇**。 OpenRouter 自己發布的 [State of AI 2025 報告](https://openrouter.ai/state-of-ai) 揭露了更深層的趨勢:總週吞吐量從 2025 年 4 月的 5T tokens 漲到 2026 年 4 月的 20T+,一年成長 4 倍;推理模型已佔全部 token 流量的 50%;平均 prompt 長度從 1.5K 翻到 6K,agent 工作流取代單次推理成為主流。這些結構性變化,正是排行榜每週都在變動的根因。 ## 整體 Top 10:Anthropic 不再壟斷,中國模型半壁江山 ![openrouter-china-models-rising](https://hackmd.io/_uploads/H17BYdspWx.jpg) 來看 2026 年 4 月的整體 Top 10(週 token 使用量): | 排名 | 模型 | 提供者 | 週 token | 關鍵特徵 | |------|------|--------|----------|----------| | 1 | Kimi K2.6 | moonshotai 🇨🇳 | 1.36T | MoE 1T/32B、agent swarm | | 2 | Claude Sonnet 4.6 | anthropic 🇺🇸 | 1.35T | 1M context、編程主力 | | 3 | DeepSeek V3.2 | deepseek 🇨🇳 | 1.31T | DSA 稀疏注意力、極低價 | | 4 | Claude Opus 4.7 | anthropic 🇺🇸 | 1.14T | Anthropic 旗艦 | | 5 | Gemini 3 Flash Preview | google 🇺🇸 | 1.06T | 1M context、多模態 | | 6 | MiniMax M2.7 | minimax 🇨🇳 | 806B | 性價比之選 | | 7 | Grok 4.1 Fast | x-ai 🇺🇸 | 721B | 2M context | | 8 | Claude Opus 4.6 | anthropic 🇺🇸 | 699B | 上代旗艦 | | 9 | MiniMax M2.5 | minimax 🇨🇳 | 698B | | | 10 | Step 3.5 Flash | stepfun 🇨🇳 | 673B | 快速且廉價 | **有件事看完數字才會驚覺**:2024 年 10 月時,中國模型在 OpenRouter 的整體佔比是 **1.2%**。2026 年 4 月,這個數字是 **45%+**,[連續 5 週中國週 token 量超越美國](https://lucasgraphic.com/posts/chinese-ai-models-dominate-openrouter-top-six-in-token-usage) 。前 10 名有 5 席是中國模型,再加上 OpenAI 的 GPT-5.4 連榜都沒擠進去——LLM 市場的權力結構在 18 個月內被徹底改寫。 這不是「中國技術突然超車」這麼簡單的故事。背後有三條主線同時推進:價格戰(中國模型多在 $1/M tokens 以下,美國旗艦多在 $3-25/M)、開源策略(自由部署、企業可自託管)、快速迭代(Kimi 從 K2.5 到 K2.6 只花了三個月)。OpenAI 在 OpenRouter 路由通路的弱勢並不代表 GPT-5.4 整體不行——OpenAI 的真正主場在 ChatGPT 訂閱與企業合約,但這份排行確實顯示「**用 OpenRouter 走多模型路由的開發者**」已經把選票投給了別人。 ## Programming:Kimi K2.6 用 Agent Swarm 改寫遊戲規則 ![kimi-k2-agent-swarm](https://hackmd.io/_uploads/BJaBtOiaZg.jpg) Programming 是 OpenRouter 上最大的單一類別,token 佔比已從 2025 初的 11% 飆升至 [50% 以上](https://openrouter.ai/state-of-ai) 。Anthropic 的 Claude 系列曾經長期佔 60%+ 的編程市場份額,2025 年 11 月以後跌破 60%。然後 Kimi K2.6 來了。 來看 [OpenRouter Programming Collection](https://openrouter.ai/collections/programming) 的 Top 10: | # | 模型 | 提供者 | 週 token | 佔比 | |---|------|--------|----------|------| | 1 | Kimi K2.6 | moonshotai | 1.37T | **22.3%** | | 2 | Claude Opus 4.7 | anthropic | 429B | 7.0% | | 3 | Step 3.5 Flash | stepfun | 383B | 6.2% | | 4 | Nemotron 3 Super 120B (free) | nvidia | 319B | 5.2% | | 5 | Claude Sonnet 4.6 | anthropic | 302B | 4.9% | | 6 | MiniMax M2.5 | minimax | 297B | 4.8% | | 7 | MiniMax M2.7 | minimax | 267B | 4.3% | | 8 | Claude Opus 4.6 | anthropic | 237B | 3.8% | | 9 | GPT-5.4 | openai | 209B | 3.4% | | 10 | Others | – | 2.35T | 38.1% | GPT-5.4 在 Programming 排第 9,且其上方有 4 個中國模型(Kimi、Step、MiniMax×2)——這對 18 個月前的格局來說是劇變。 ### Kimi K2.6 為何能贏?三個結構性優勢 **第一是架構**。K2.6 是 [MoE(Mixture-of-Experts)架構](https://huggingface.co/moonshotai/Kimi-K2.6) ,總參數 1T,但每個 token 只 active 32B。這個比例非常聰明——你拿到 1T 模型的能力品質,付的卻是 32B 模型的推理成本。[GMI Cloud 的拆解](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) 指出,K2.6 在 INT4 量化後可以塞進 4 張 H100,企業自託管門檻被壓得很低。 **第二是 agent swarm**。K2.6 最大的差異化在於它是為「長期任務」設計的。[Kimi 官方技術 blog](https://www.kimi.com/blog/kimi-k2-6) 與 [Microsoft Foundry 整合公告](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125) 記載:300 個並行 sub-agents(K2.5 為 100 個)、長期執行 + 持續工具調用、coordinator 動態分派任務並在 sub-agent 失敗時自動重派。這個能力對應的是真實的 production 場景——不是「幫我寫一個 function」,而是「重構整個 codebase、修復所有 lint 錯誤、跑完測試」。 **第三是 benchmark 領先(但有但書)**。K2.6 在 SWE-Bench Pro 拿下 58.6 分,[壓過 GPT-5.4 的 57.7 與 Claude Opus 4.6 的 53.4](https://www.kimi.com/blog/kimi-k2-6) ;HLE w/ tools 達 54.0 第一。但同一份 [GMI Cloud 拆解](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) 也指出,純數學推理上 Gemini 3.1 Pro Thinking 在 LiveCodeBench v6 仍以 91.7 略勝(K2.6 為 89.6),SWE-Bench Multilingual 也是 Opus 4.6 的 77.8 略高於 K2.6 的 76.7。換句話說,K2.6 的勝出不是全面碾壓,而是在「**長期任務 + 工具串接**」這個維度做出顯著差距。 加上 K2.6 採用 Modified MIT License 開源、Microsoft Foundry 與 Cloudflare Workers AI 都做了 Day 0 整合、OpenRouter 上排第一名的 app(OpenClaw,週 392B token)原生綁定 K2.6——這是技術 + 商業 + 生態三線同時推進的結果。 ## Roleplay:DeepSeek V3.2 的 40.2% 壟斷 ![deepseek-roleplay-creative](https://hackmd.io/_uploads/SyfUFdiaZg.jpg) 如果說 Programming 還是一個有競爭的市場,[Roleplay 完全是另一個故事](https://openrouter.ai/collections/roleplay) : | # | 模型 | 提供者 | 週 token | 佔比 | |---|------|--------|----------|------| | 1 | DeepSeek V3.2 | deepseek | 968B | **40.2%** | | 2 | Grok 4.1 Fast | x-ai | 145B | 6.0% | | 3 | GLM 4.5 Air | z-ai | 141B | 5.9% | | 4 | Gemini 2.5 Flash Lite | google | 112B | 4.6% | | 5 | Gemini 3 Flash Preview | google | 93.6B | 3.9% | DeepSeek V3.2 一個模型佔了 40% 以上。其他類別的 #1 通常在 5-25% 範圍——這個壟斷程度在 OpenRouter 上獨一無二。 ### 為什麼是 DeepSeek?三角完美命中 DeepSeek V3.2 的 [架構是 MoE 671B/37B active](https://introl.com/blog/deepseek-v3-2-open-source-ai-cost-advantage) ,最關鍵的創新是 [DeepSeek Sparse Attention(DSA)](https://api-docs.deepseek.com/news/news250929) ——一種細粒度稀疏注意力機制。根據 DeepSeek 官方公告,相較 V3.1-Terminus,DSA 在長 context 訓練/推理的 API 成本下降 50% 以上,benchmark 表現「on par」(基本持平)。對 Roleplay 這種「對話越聊越長」的場景,這個優化直接擊中痛點。 但更有趣的是訓練細節。[Kili Technology 的拆解](https://kili-technology.com/blog/data-story-deepseek-v3-2) 指出,DeepSeek 是少數明確揭露 creative writing 與 role-play 訓練流程的 frontier 級模型——他們對「非推理任務」採用 model-generated 響應 + **人工 annotator 驗證準確性**的方式。換句話說,DeepSeek 在角色扮演的「人味」上做過真正的工程投入,不是訓練資料的副產品。 定價是壓死駱駝的最後一根稻草:**$0.26/$0.38 per 1M tokens,比 Claude Sonnet 便宜 10 倍**。對 Janitor AI 這種 [免費或微薄訂閱費的 character chat 平台](https://www.linkedin.com/posts/paoloperrone_openrouter-just-analyzed-100-trillion-tokens-activity-7407074083995242496-Bmwl) ,成本不是 nice-to-have 而是 must-have。 加上開源(MIT License)、content filter 比 Anthropic/OpenAI 寬鬆——對 Roleplay 用例來說,「不會被 safety filter 打斷的對話流」本身就是核心需求。Claude 與 GPT 在這個領域沒有任何空間切入。 OpenRouter 的 State of AI 報告還補了一刀:**OSS 模型的全部使用量裡,超過 50% 都在做 Roleplay**。Programming 的 38% 是第二大用途。所以「為什麼 OSS 在 Roleplay 強?」的答案不是 OSS 模型訓練得特別好,而是「商用模型因為 safety 限制無法切入這個 50% 大餅」。 ## Health & Academia:Gemini 3 Flash Preview 的雙冠王 Health 與 Academia 屬於 OpenRouter State of AI 報告中歸類的「**Specialized Experts**」象限——使用量低、cost-per-token 高、對精確性極度敏感。這兩個分類的 #1 都是 [Gemini 3 Flash Preview](https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/) 。 ### Gemini 3 Flash Preview 為什麼能在這兩個高敏感領域勝出? | 維度 | 細節 | |------|------| | 多模態原生 | text/image/audio/video/PDF 同模型,不需切換 | | PhD 級知識 | GPQA Diamond 90.4%(物理/化學/生物 grad-level) | | 抗幻覺 | HLE 33.7% 無工具、43.5% 有工具,[Artificial Analysis 評為知識/抗幻覺最強](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) | | MMMU-Pro | 81.2%(與 Pro 版同分) | | 醫療專項 | Google 系出 [Med-Gemini,MedQA 91.1% 創紀錄](https://intuitionlabs.ai/articles/gemini-3-healthcare-applications) | | Context | 1.05M tokens | | 價格 | $0.50/$3 per 1M tokens(frontier 級中段) | Health 是個極度碎片化的市場——OpenRouter 報告指出沒有單一 sub-tag 超過 25%,從醫研、心理諮商、治療指引到診斷查詢全包。在這種需求多樣的場景,**「全能 + 多模態 + 低幻覺 + 醫療專項微調」**的組合勝出是必然——病歷不只有文字、X 光與 MRI 是圖像、論文裡有圖表,模型必須一次處理。 Academia 也有類似邏輯。Gemini 3 Flash 在 [AA-Omniscience 第一、Humanity's Last Exam 第二](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) ,加上 1M context 可以吞整本論文或教科書——這正是學術工作流的核心。 ## Legal:Grok 4.1 Fast 用 2M Context 殺出血路 ![grok-legal-2m-context](https://hackmd.io/_uploads/Hyt8KOja-l.jpg) Legal 分類的 #1 是 **Grok 4.1 Fast**——這個結果第一眼讓人意外,但拆解完數字就會懂。 ### Grok 4.1 Fast 的法律殺招 [xAI 在 2025 年 11 月發布的 Grok 4.1 Fast](https://x.ai/news/grok-4-1-fast) 把幾個關鍵指標推到極限([Better Stack 技術解析](https://betterstack.com/community/guides/ai/grok-4-1/) 與 [Oracle Cloud 文件](https://docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-1-fast.htm) 也均做了交叉驗證): - **2M tokens context window**,業界最大。可以一次吞整本案件卷宗、整份合約集,不用切片 - **幻覺率約 4%**,[xAI 與 Better Stack 報告指出較 Grok 4 大降約 65%](https://betterstack.com/community/guides/ai/grok-4-1/) ;Oracle 文件描述為「reduced by ~3x」 - **$0.20/$0.50 per 1M tokens**,極便宜,可以大量並行 - Berkeley Function Calling v4 達 72%,τ²-bench Telecom 100%([Artificial Analysis 驗證](https://x.ai/news/grok-4-1-fast) ) - [LMArena Elo 1483 #1](https://medium.com/@leucopsis/grok-4-1-preliminary-review-8dd94f41489b) ,純人類偏好分數冠軍 法律工作的痛點完美對應這些特性:合約必須整份讀完、不能瞎掰一條法條、需要多次往返審閱。[Gemini 3 Flash 在 Harvey BigLaw Bench 也提升 7%](https://deepmind.google/models/gemini/flash/) ,但 1M context 對 100+ 頁的契約仍然吃緊——Grok 的 2M 才是甜蜜點。 xAI 同步發布的 Agent Tools API(內建 web search、code execution、MCP 整合)讓 Grok 直接跑「法律研究 agent」,這是 Claude/GPT 還沒做到的整合度。 ## Marketing:Gemini 2.5 Flash Lite 的 $0.10 經濟學 [Gemini 2.5 Flash Lite](https://deepmind.google/models/gemini/flash/) 拿下 Marketing #1,理由很簡單——**$0.10/$0.40 per 1M tokens** 是全 frontier 級模型最便宜的價格。 Marketing 雖然被 OpenRouter 歸類在「Specialized Experts」象限,但實際上的核心需求是「大量量產」:SEO 文章、廣告文案、產品描述、email 主旨。這時候模型品質的邊際效益遠不如價格——便宜 10 倍、品質掉 5%,是穩賺不賠的交易。Gemini 2.5 Flash Lite 配上 1M context(一次讀完整份品牌 guideline),組合無懈可擊。 OpenAI 的 gpt-oss-120b 因為**完全免費**搶下第二名,連定價都不用打就贏。 ## Finance:Claude Sonnet 4.6 為何仍是這個領域的標準答案 Finance 是 Claude 還站穩第一線的領域之一。Sonnet 4.6 是 OpenRouter 整體 Top 10 第二名(週 1.35T tokens),Finance 分類觀察排名 #2——這是在 Anthropic 不削價、單價是 DeepSeek 的 10 倍的前提下做到的。 為什麼 Finance 客戶願意付 $3/$15 per 1M tokens(比 DeepSeek 貴 10 倍)?因為 Finance 是「**錯一次比省錢貴一萬倍**」的業務。一份財報誤讀、一個風險評估幻覺、一條 ESG 條款搞錯,後果都是商業災難。Anthropic 的 Constitutional AI 訓練讓 Claude 在「**承認自己不知道**」這件事上做得最好,這對 Finance 來說是決定性優勢。 加上 1M context(吞 10K 級報表/招股書)、優秀的 tool use、與 Bloomberg、FactSet 等金融工具的整合——Claude 在這個領域的護城河比 Programming 深得多。 ## 四大勝出原因總整理 整理完七個分類的 #1,為什麼某個模型能贏,本質上歸因於四個維度: | 維度 | 代表案例 | 影響的分類 | |------|----------|------------| | **架構優勢** | Kimi MoE 1T/32B、DeepSeek DSA Sparse Attention、Nemotron Hybrid Mamba-Transformer | Programming、Roleplay | | **訓練特化** | Claude Constitutional AI、DeepSeek 創意寫作 RLHF、Med-Gemini、Grok 低幻覺 RL | Finance、Roleplay、Health、Legal | | **經濟優勢** | Gemini Flash Lite $0.10/$0.40、Grok $0.20/$0.50、DeepSeek $0.26/$0.38 | Marketing、Roleplay、長尾類別 | | **規模優勢** | Grok 2M、Gemini 1M、Kimi 256K、Claude 1M | Legal、Academia、長文件處理 | 不過這四個維度也不是「具備就贏」。MiniMax M2.7 在架構(MoE)、經濟($0.30/$1.20)、規模(197K context)三項都不差,benchmark 也接近第一線,但在 Programming 還是排到第 7。原因是它沒做出 Kimi 那種 agent swarm 的差異化訓練,沒切到「長期任務」這個維度。OpenRouter 排行真正獎勵的是「**找到一個沒被滿足的剛性需求 + 在那個維度做到極致**」——而不是平均都好。 ## Use Case 二元化象限:你的需求落在哪裡? ![usecase-quadrant-chart](https://hackmd.io/_uploads/SJbvFuo6bx.jpg) OpenRouter State of AI 報告把 11 個分類按「使用量 × 成本」分成四個象限: | 象限 | 特徵 | 涵蓋分類 | 選模型邏輯 | |------|------|----------|------------| | **Mass Market**(高量低成本) | 用量大、單 task 中等成本 | Programming | 選有 agent 能力的中價位(Kimi、Claude Sonnet) | | **Premium**(高量高願付) | 用量大、特殊需求 | Roleplay (OSS 主導) | 選便宜開源(DeepSeek、GLM) | | **Niche Utilities**(低量低成本) | 低量、低願付 | Translation、Trivia | 選最便宜或免費(Gemini Flash Lite、gpt-oss) | | **Specialized Experts**(低量高成本) | 低量、高 cost-per-token、高敏感 | Finance、Health、Legal、Academia、Marketing | 選 frontier 或專項微調(Claude、Gemini Pro、Med-Gemini、Grok) | 象限分類沒有絕對——例如 Marketing 在 OpenRouter 報告裡屬 Specialized Experts,但實務上「SEO 量產」場景反而向 Mass Market 靠攏,所以 Marketing #1 才會是價格極低的 Gemini Flash Lite。**用 OpenRouter 排行做選型決策時,要先確認你自己的工作流落在哪個象限**,而不是直接套分類名稱。 ## 2026 年實戰選用建議表 最後整合所有分析,給你一張按用例選模型的表: | 用例 | 首選 | 次選 | 預算最佳 | |------|------|------|----------| | 編程 / Agent | **Kimi K2.6** ($0.74/$4.66) | Claude Opus 4.7 ($5/$25) | Nemotron 3 Super (free) | | Roleplay / 創意寫作 | **DeepSeek V3.2** ($0.26/$0.38) | Grok 4.1 Fast ($0.20/$0.50) | GLM 4.5 Air (free) | | 醫療 / 學術 | **Gemini 3 Flash Preview** ($0.50/$3) | Claude Sonnet 4.6 ($3/$15) | gpt-oss-120b (free) | | 法律合約審閱 | **Grok 4.1 Fast** (2M context) | Gemini 3 Flash Preview | gpt-oss-120b | | 行銷 / SEO 量產 | **Gemini 2.5 Flash Lite** ($0.10/$0.40) | Grok 4.1 Fast | gpt-oss-120b (free) | | 金融分析 | **Claude Sonnet 4.6** | Gemini 3 Flash Preview | Kimi K2.5 | | 翻譯 | **Gemini Flash Lite** | DeepSeek V3.2 | Gemma 4 31B (free) | | 通用問答 | **Gemini 3 Flash Preview** | Claude Sonnet 4.6 | DeepSeek V3.2 | 實戰上我自己的策略是:**主力選一個 frontier 模型 + 備案選一個便宜開源模型**。例如編程主力 Claude Sonnet 4.6(穩定)、便宜路由 Kimi K2.6(agent 重活)、實驗性質 Nemotron 3 Super(免費跑長 context)。透過 OpenRouter 的 fallback 機制可以一個 API 切換,不用改 client 程式碼。 ## 結語:誰會是下一個 #1? OpenRouter 排行每週都在變動。寫這篇文章的時候,新晉模型像 Alibaba Qwen 3.6 Plus、Xiaomi MiMo 系列、Tencent Hy3 preview 都還在快速攀升。下個月榜首會不會又換人,沒人敢打包票。 不過從整份分析看下來,有幾個方向可能比榜單本身更值得注意。中國模型的崛起更像是結構性而非短期波動——Kimi、DeepSeek、MiniMax、Qwen、Step、Xiaomi 已形成完整生態,價格 + 開源 + 快速迭代三線並進。Anthropic 用 Claude 守住企業合規、複雜推理、金融用例;Google 用 Gemini 以多模態 + 從 Flash Lite 到 Pro 的全價格帶切細分市場;OpenAI 在 OpenRouter 路由通路相對弱勢,主場其實是 ChatGPT 訂閱與企業 API 直接合約。 最值得關注的是 Agent 工作流的崛起。OpenRouter 上排第一名的 app 不是聊天機器人而是 OpenClaw 這種 agentic 工具、Programming 的 #1 是設計成跑 300 sub-agent 的 Kimi K2.6——這代表「LLM 是 agent 引擎」已從理論走進現實。下一波真正能改變排行格局的,可能不是某個 benchmark 跑得更高的模型,而是把 agent 工程做對的整套產品。 如果你正在做 AI 產品決策,我的建議是:**別只看 benchmark,去 OpenRouter 跑壓力測試**。用真實 prompt、真實 context size、真實併發量,比較每個模型在你的場景下的延遲、品質、成本。這份排行只是地圖,真正的答案藏在你的工作流裡。 ## 延伸閱讀與參考資料 **OpenRouter 官方來源** - [OpenRouter Rankings](https://openrouter.ai/rankings) – 即時更新的 LLM 排行 - [OpenRouter State of AI 2025 報告](https://openrouter.ai/state-of-ai) – 100T token 使用量研究 - [Best AI Models for Coding](https://openrouter.ai/collections/programming) – Programming 完整榜單 - [Best AI Models for Roleplay](https://openrouter.ai/collections/roleplay) – Roleplay 完整榜單 **模型架構與技術深度** - [Kimi K2.6 HuggingFace 模型卡](https://huggingface.co/moonshotai/Kimi-K2.6) - [Kimi K2.6 架構與 benchmark 解析(GMI Cloud)](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) - [DeepSeek V3.2 Sparse Attention 論文解讀(Kili Tech)](https://kili-technology.com/blog/data-story-deepseek-v3-2) - [DeepSeek V3.2-Exp 官方公告](https://api-docs.deepseek.com/news/news250929) - [Gemini 3 Flash 官方介紹](https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/) - [Gemini 3 Flash Artificial Analysis 評測](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) - [Grok 4.1 Fast 與 Agent Tools API](https://x.ai/news/grok-4-1-fast) **產業趨勢觀察** - [中國模型橫掃 OpenRouter Top 6(LucasGraphic)](https://lucasgraphic.com/posts/chinese-ai-models-dominate-openrouter-top-six-in-token-usage) - [中國 AI 模型超越美國競爭對手分析(Trending Topics)](https://www.trendingtopics.eu/chinese-ai-models-overtake-us-rivals-in-global-token-consumption/) - [DeepSeek V3.2 經濟學分析(Introl)](https://introl.com/blog/deepseek-v3-2-open-source-ai-cost-advantage) - [OpenRouter 100T token 觀察(LinkedIn)](https://www.linkedin.com/posts/paoloperrone_openrouter-just-analyzed-100-trillion-tokens-activity-7407074083995242496-Bmwl) - [Kimi K2.6 Microsoft Foundry 整合公告](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125) - [Grok 4.1 Fast 技術解析(Better Stack)](https://betterstack.com/community/guides/ai/grok-4-1/) - [Grok 4.1 Fast Oracle Cloud 文件](https://docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-1-fast.htm) 本文摘自一份較長的內部研究筆記,涵蓋 4 輪深度研究、各分類細部排名、模型卡 metadata 與時間 snapshot 比對。如果你對某個分類想看更原始的數據,歡迎在留言區告訴我。