BASHCAT
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note No publishing access yet

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.

      Your account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

      Your team account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

      Explore these features while you wait
      Complete general settings
      Bookmark and like published notes
      Write a few more notes
      Complete general settings
      Write a few more notes
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights New
    • Engagement control
    • Make a copy
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Note Insights Versions and GitHub Sync Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Make a copy Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note No publishing access yet

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.

    Your account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

    Your team account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

    Explore these features while you wait
    Complete general settings
    Bookmark and like published notes
    Write a few more notes
    Complete general settings
    Write a few more notes
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       Owned this note    Owned this note      
    Published Linked with GitHub
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    --- title: "OpenRouter 2026 排行震撼解讀:為何 Kimi K2.6 取代 Claude?DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因" description: "深入解析 OpenRouter 2026 各分類 LLM 排行:Kimi K2.6 為何登頂 Programming、DeepSeek V3.2 如何壟斷 Roleplay 40.2%、Grok 4.1 Fast 怎麼用 2M context 攻下 Legal #1。中國模型佔比從 1.2% 飆升至 45%+ 的結構性原因,以及 8 種用例的選用建議。" date: 2026-04-26 tags: - AI - LLM - OpenRouter - Kimi - DeepSeek - Claude - Gemini - Grok - 模型評比 slug: openrouter-2026-llm-rankings-deep-dive --- # OpenRouter 2026 排行震撼解讀:為何 Kimi K2.6 取代 Claude?DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因 ![openrouter-llm-arena-cover](https://hackmd.io/_uploads/H1EVtdjpZl.jpg) 打開 [OpenRouter 排行榜](https://openrouter.ai/rankings) ,我看到 2026 年 4 月的排行第一名時還是愣了一下。**不是 Claude,不是 GPT,不是 Gemini——而是來自中國 Moonshot AI 的 Kimi K2.6,週吞吐量 1.36T tokens**。再往下滑,前 10 名有 5 席是中國模型。GPT-5.4 連前 10 都沒擠進去。 這不是某個小眾排行的數據異常。OpenRouter 是全球最大的 LLM API 路由平台,接超過 [400 個模型、60 多家供應商](https://www.trendingtopics.eu/chinese-ai-models-overtake-us-rivals-in-global-token-consumption/) ,每週路由 20T+ tokens——它的排行不是 benchmark 跑分,是**開發者用真金白銀換來的真實使用量**。 更戲劇性的是各分類前列:DeepSeek V3.2 在 Roleplay 拿下 40.2% 壟斷份額;Grok 4.1 Fast 攻下 Legal #1;Gemini 3 Flash Preview 同時稱霸 Health 與 Academia;Marketing 的 #1 是價格只有 $0.10/$0.40 的 Gemini 2.5 Flash Lite。 這篇文章會帶你看完整個排行版圖,深入解析每個分類 #1 為什麼能贏——是架構、訓練資料、定價、context window 還是別的東西讓他們勝出。文末附上一張按用例選模型的實戰建議表,2026 年該用哪個模型,看完就有答案。 ## OpenRouter 為何是最值得信的 LLM 排行 在開始解讀數字前,先說為什麼 OpenRouter 比 LMArena、benchmark 跑分更具參考價值。 LMArena 看的是「人類偏好」,但跑分跟真實生產用例的距離常常比想像中大。各家 benchmark 又都有過擬合風險——模型在 SWE-Bench 拿高分不代表在你的 codebase 跑得好。OpenRouter 不一樣,它的排行直接反映**「開發者願意為哪個模型持續付錢」**:使用者多用一個 token,OpenRouter 帳上多扣一塊錢,不付出真金白銀就不會出現在這份榜單上。 更重要的是,OpenRouter 的客群是真正在開發 AI 產品的人。Janitor AI(角色扮演)、Cline(編碼 agent)、OpenClaw(自動化 agent)、Roo Code、Hermes 這些被廣泛使用的工具,都在透過 OpenRouter 路由模型。你看到的排行,本質上是**這些 production 產品在生產環境中真實的選擇**。 OpenRouter 自己發布的 [State of AI 2025 報告](https://openrouter.ai/state-of-ai) 揭露了更深層的趨勢:總週吞吐量從 2025 年 4 月的 5T tokens 漲到 2026 年 4 月的 20T+,一年成長 4 倍;推理模型已佔全部 token 流量的 50%;平均 prompt 長度從 1.5K 翻到 6K,agent 工作流取代單次推理成為主流。這些結構性變化,正是排行榜每週都在變動的根因。 ## 整體 Top 10:Anthropic 不再壟斷,中國模型半壁江山 ![openrouter-china-models-rising](https://hackmd.io/_uploads/H17BYdspWx.jpg) 來看 2026 年 4 月的整體 Top 10(週 token 使用量): | 排名 | 模型 | 提供者 | 週 token | 關鍵特徵 | |------|------|--------|----------|----------| | 1 | Kimi K2.6 | moonshotai 🇨🇳 | 1.36T | MoE 1T/32B、agent swarm | | 2 | Claude Sonnet 4.6 | anthropic 🇺🇸 | 1.35T | 1M context、編程主力 | | 3 | DeepSeek V3.2 | deepseek 🇨🇳 | 1.31T | DSA 稀疏注意力、極低價 | | 4 | Claude Opus 4.7 | anthropic 🇺🇸 | 1.14T | Anthropic 旗艦 | | 5 | Gemini 3 Flash Preview | google 🇺🇸 | 1.06T | 1M context、多模態 | | 6 | MiniMax M2.7 | minimax 🇨🇳 | 806B | 性價比之選 | | 7 | Grok 4.1 Fast | x-ai 🇺🇸 | 721B | 2M context | | 8 | Claude Opus 4.6 | anthropic 🇺🇸 | 699B | 上代旗艦 | | 9 | MiniMax M2.5 | minimax 🇨🇳 | 698B | | | 10 | Step 3.5 Flash | stepfun 🇨🇳 | 673B | 快速且廉價 | **有件事看完數字才會驚覺**:2024 年 10 月時,中國模型在 OpenRouter 的整體佔比是 **1.2%**。2026 年 4 月,這個數字是 **45%+**,[連續 5 週中國週 token 量超越美國](https://lucasgraphic.com/posts/chinese-ai-models-dominate-openrouter-top-six-in-token-usage) 。前 10 名有 5 席是中國模型,再加上 OpenAI 的 GPT-5.4 連榜都沒擠進去——LLM 市場的權力結構在 18 個月內被徹底改寫。 這不是「中國技術突然超車」這麼簡單的故事。背後有三條主線同時推進:價格戰(中國模型多在 $1/M tokens 以下,美國旗艦多在 $3-25/M)、開源策略(自由部署、企業可自託管)、快速迭代(Kimi 從 K2.5 到 K2.6 只花了三個月)。OpenAI 在 OpenRouter 路由通路的弱勢並不代表 GPT-5.4 整體不行——OpenAI 的真正主場在 ChatGPT 訂閱與企業合約,但這份排行確實顯示「**用 OpenRouter 走多模型路由的開發者**」已經把選票投給了別人。 ## Programming:Kimi K2.6 用 Agent Swarm 改寫遊戲規則 ![kimi-k2-agent-swarm](https://hackmd.io/_uploads/BJaBtOiaZg.jpg) Programming 是 OpenRouter 上最大的單一類別,token 佔比已從 2025 初的 11% 飆升至 [50% 以上](https://openrouter.ai/state-of-ai) 。Anthropic 的 Claude 系列曾經長期佔 60%+ 的編程市場份額,2025 年 11 月以後跌破 60%。然後 Kimi K2.6 來了。 來看 [OpenRouter Programming Collection](https://openrouter.ai/collections/programming) 的 Top 10: | # | 模型 | 提供者 | 週 token | 佔比 | |---|------|--------|----------|------| | 1 | Kimi K2.6 | moonshotai | 1.37T | **22.3%** | | 2 | Claude Opus 4.7 | anthropic | 429B | 7.0% | | 3 | Step 3.5 Flash | stepfun | 383B | 6.2% | | 4 | Nemotron 3 Super 120B (free) | nvidia | 319B | 5.2% | | 5 | Claude Sonnet 4.6 | anthropic | 302B | 4.9% | | 6 | MiniMax M2.5 | minimax | 297B | 4.8% | | 7 | MiniMax M2.7 | minimax | 267B | 4.3% | | 8 | Claude Opus 4.6 | anthropic | 237B | 3.8% | | 9 | GPT-5.4 | openai | 209B | 3.4% | | 10 | Others | – | 2.35T | 38.1% | GPT-5.4 在 Programming 排第 9,且其上方有 4 個中國模型(Kimi、Step、MiniMax×2)——這對 18 個月前的格局來說是劇變。 ### Kimi K2.6 為何能贏?三個結構性優勢 **第一是架構**。K2.6 是 [MoE(Mixture-of-Experts)架構](https://huggingface.co/moonshotai/Kimi-K2.6) ,總參數 1T,但每個 token 只 active 32B。這個比例非常聰明——你拿到 1T 模型的能力品質,付的卻是 32B 模型的推理成本。[GMI Cloud 的拆解](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) 指出,K2.6 在 INT4 量化後可以塞進 4 張 H100,企業自託管門檻被壓得很低。 **第二是 agent swarm**。K2.6 最大的差異化在於它是為「長期任務」設計的。[Kimi 官方技術 blog](https://www.kimi.com/blog/kimi-k2-6) 與 [Microsoft Foundry 整合公告](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125) 記載:300 個並行 sub-agents(K2.5 為 100 個)、長期執行 + 持續工具調用、coordinator 動態分派任務並在 sub-agent 失敗時自動重派。這個能力對應的是真實的 production 場景——不是「幫我寫一個 function」,而是「重構整個 codebase、修復所有 lint 錯誤、跑完測試」。 **第三是 benchmark 領先(但有但書)**。K2.6 在 SWE-Bench Pro 拿下 58.6 分,[壓過 GPT-5.4 的 57.7 與 Claude Opus 4.6 的 53.4](https://www.kimi.com/blog/kimi-k2-6) ;HLE w/ tools 達 54.0 第一。但同一份 [GMI Cloud 拆解](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) 也指出,純數學推理上 Gemini 3.1 Pro Thinking 在 LiveCodeBench v6 仍以 91.7 略勝(K2.6 為 89.6),SWE-Bench Multilingual 也是 Opus 4.6 的 77.8 略高於 K2.6 的 76.7。換句話說,K2.6 的勝出不是全面碾壓,而是在「**長期任務 + 工具串接**」這個維度做出顯著差距。 加上 K2.6 採用 Modified MIT License 開源、Microsoft Foundry 與 Cloudflare Workers AI 都做了 Day 0 整合、OpenRouter 上排第一名的 app(OpenClaw,週 392B token)原生綁定 K2.6——這是技術 + 商業 + 生態三線同時推進的結果。 ## Roleplay:DeepSeek V3.2 的 40.2% 壟斷 ![deepseek-roleplay-creative](https://hackmd.io/_uploads/SyfUFdiaZg.jpg) 如果說 Programming 還是一個有競爭的市場,[Roleplay 完全是另一個故事](https://openrouter.ai/collections/roleplay) : | # | 模型 | 提供者 | 週 token | 佔比 | |---|------|--------|----------|------| | 1 | DeepSeek V3.2 | deepseek | 968B | **40.2%** | | 2 | Grok 4.1 Fast | x-ai | 145B | 6.0% | | 3 | GLM 4.5 Air | z-ai | 141B | 5.9% | | 4 | Gemini 2.5 Flash Lite | google | 112B | 4.6% | | 5 | Gemini 3 Flash Preview | google | 93.6B | 3.9% | DeepSeek V3.2 一個模型佔了 40% 以上。其他類別的 #1 通常在 5-25% 範圍——這個壟斷程度在 OpenRouter 上獨一無二。 ### 為什麼是 DeepSeek?三角完美命中 DeepSeek V3.2 的 [架構是 MoE 671B/37B active](https://introl.com/blog/deepseek-v3-2-open-source-ai-cost-advantage) ,最關鍵的創新是 [DeepSeek Sparse Attention(DSA)](https://api-docs.deepseek.com/news/news250929) ——一種細粒度稀疏注意力機制。根據 DeepSeek 官方公告,相較 V3.1-Terminus,DSA 在長 context 訓練/推理的 API 成本下降 50% 以上,benchmark 表現「on par」(基本持平)。對 Roleplay 這種「對話越聊越長」的場景,這個優化直接擊中痛點。 但更有趣的是訓練細節。[Kili Technology 的拆解](https://kili-technology.com/blog/data-story-deepseek-v3-2) 指出,DeepSeek 是少數明確揭露 creative writing 與 role-play 訓練流程的 frontier 級模型——他們對「非推理任務」採用 model-generated 響應 + **人工 annotator 驗證準確性**的方式。換句話說,DeepSeek 在角色扮演的「人味」上做過真正的工程投入,不是訓練資料的副產品。 定價是壓死駱駝的最後一根稻草:**$0.26/$0.38 per 1M tokens,比 Claude Sonnet 便宜 10 倍**。對 Janitor AI 這種 [免費或微薄訂閱費的 character chat 平台](https://www.linkedin.com/posts/paoloperrone_openrouter-just-analyzed-100-trillion-tokens-activity-7407074083995242496-Bmwl) ,成本不是 nice-to-have 而是 must-have。 加上開源(MIT License)、content filter 比 Anthropic/OpenAI 寬鬆——對 Roleplay 用例來說,「不會被 safety filter 打斷的對話流」本身就是核心需求。Claude 與 GPT 在這個領域沒有任何空間切入。 OpenRouter 的 State of AI 報告還補了一刀:**OSS 模型的全部使用量裡,超過 50% 都在做 Roleplay**。Programming 的 38% 是第二大用途。所以「為什麼 OSS 在 Roleplay 強?」的答案不是 OSS 模型訓練得特別好,而是「商用模型因為 safety 限制無法切入這個 50% 大餅」。 ## Health & Academia:Gemini 3 Flash Preview 的雙冠王 Health 與 Academia 屬於 OpenRouter State of AI 報告中歸類的「**Specialized Experts**」象限——使用量低、cost-per-token 高、對精確性極度敏感。這兩個分類的 #1 都是 [Gemini 3 Flash Preview](https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/) 。 ### Gemini 3 Flash Preview 為什麼能在這兩個高敏感領域勝出? | 維度 | 細節 | |------|------| | 多模態原生 | text/image/audio/video/PDF 同模型,不需切換 | | PhD 級知識 | GPQA Diamond 90.4%(物理/化學/生物 grad-level) | | 抗幻覺 | HLE 33.7% 無工具、43.5% 有工具,[Artificial Analysis 評為知識/抗幻覺最強](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) | | MMMU-Pro | 81.2%(與 Pro 版同分) | | 醫療專項 | Google 系出 [Med-Gemini,MedQA 91.1% 創紀錄](https://intuitionlabs.ai/articles/gemini-3-healthcare-applications) | | Context | 1.05M tokens | | 價格 | $0.50/$3 per 1M tokens(frontier 級中段) | Health 是個極度碎片化的市場——OpenRouter 報告指出沒有單一 sub-tag 超過 25%,從醫研、心理諮商、治療指引到診斷查詢全包。在這種需求多樣的場景,**「全能 + 多模態 + 低幻覺 + 醫療專項微調」**的組合勝出是必然——病歷不只有文字、X 光與 MRI 是圖像、論文裡有圖表,模型必須一次處理。 Academia 也有類似邏輯。Gemini 3 Flash 在 [AA-Omniscience 第一、Humanity's Last Exam 第二](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) ,加上 1M context 可以吞整本論文或教科書——這正是學術工作流的核心。 ## Legal:Grok 4.1 Fast 用 2M Context 殺出血路 ![grok-legal-2m-context](https://hackmd.io/_uploads/Hyt8KOja-l.jpg) Legal 分類的 #1 是 **Grok 4.1 Fast**——這個結果第一眼讓人意外,但拆解完數字就會懂。 ### Grok 4.1 Fast 的法律殺招 [xAI 在 2025 年 11 月發布的 Grok 4.1 Fast](https://x.ai/news/grok-4-1-fast) 把幾個關鍵指標推到極限([Better Stack 技術解析](https://betterstack.com/community/guides/ai/grok-4-1/) 與 [Oracle Cloud 文件](https://docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-1-fast.htm) 也均做了交叉驗證): - **2M tokens context window**,業界最大。可以一次吞整本案件卷宗、整份合約集,不用切片 - **幻覺率約 4%**,[xAI 與 Better Stack 報告指出較 Grok 4 大降約 65%](https://betterstack.com/community/guides/ai/grok-4-1/) ;Oracle 文件描述為「reduced by ~3x」 - **$0.20/$0.50 per 1M tokens**,極便宜,可以大量並行 - Berkeley Function Calling v4 達 72%,τ²-bench Telecom 100%([Artificial Analysis 驗證](https://x.ai/news/grok-4-1-fast) ) - [LMArena Elo 1483 #1](https://medium.com/@leucopsis/grok-4-1-preliminary-review-8dd94f41489b) ,純人類偏好分數冠軍 法律工作的痛點完美對應這些特性:合約必須整份讀完、不能瞎掰一條法條、需要多次往返審閱。[Gemini 3 Flash 在 Harvey BigLaw Bench 也提升 7%](https://deepmind.google/models/gemini/flash/) ,但 1M context 對 100+ 頁的契約仍然吃緊——Grok 的 2M 才是甜蜜點。 xAI 同步發布的 Agent Tools API(內建 web search、code execution、MCP 整合)讓 Grok 直接跑「法律研究 agent」,這是 Claude/GPT 還沒做到的整合度。 ## Marketing:Gemini 2.5 Flash Lite 的 $0.10 經濟學 [Gemini 2.5 Flash Lite](https://deepmind.google/models/gemini/flash/) 拿下 Marketing #1,理由很簡單——**$0.10/$0.40 per 1M tokens** 是全 frontier 級模型最便宜的價格。 Marketing 雖然被 OpenRouter 歸類在「Specialized Experts」象限,但實際上的核心需求是「大量量產」:SEO 文章、廣告文案、產品描述、email 主旨。這時候模型品質的邊際效益遠不如價格——便宜 10 倍、品質掉 5%,是穩賺不賠的交易。Gemini 2.5 Flash Lite 配上 1M context(一次讀完整份品牌 guideline),組合無懈可擊。 OpenAI 的 gpt-oss-120b 因為**完全免費**搶下第二名,連定價都不用打就贏。 ## Finance:Claude Sonnet 4.6 為何仍是這個領域的標準答案 Finance 是 Claude 還站穩第一線的領域之一。Sonnet 4.6 是 OpenRouter 整體 Top 10 第二名(週 1.35T tokens),Finance 分類觀察排名 #2——這是在 Anthropic 不削價、單價是 DeepSeek 的 10 倍的前提下做到的。 為什麼 Finance 客戶願意付 $3/$15 per 1M tokens(比 DeepSeek 貴 10 倍)?因為 Finance 是「**錯一次比省錢貴一萬倍**」的業務。一份財報誤讀、一個風險評估幻覺、一條 ESG 條款搞錯,後果都是商業災難。Anthropic 的 Constitutional AI 訓練讓 Claude 在「**承認自己不知道**」這件事上做得最好,這對 Finance 來說是決定性優勢。 加上 1M context(吞 10K 級報表/招股書)、優秀的 tool use、與 Bloomberg、FactSet 等金融工具的整合——Claude 在這個領域的護城河比 Programming 深得多。 ## 四大勝出原因總整理 整理完七個分類的 #1,為什麼某個模型能贏,本質上歸因於四個維度: | 維度 | 代表案例 | 影響的分類 | |------|----------|------------| | **架構優勢** | Kimi MoE 1T/32B、DeepSeek DSA Sparse Attention、Nemotron Hybrid Mamba-Transformer | Programming、Roleplay | | **訓練特化** | Claude Constitutional AI、DeepSeek 創意寫作 RLHF、Med-Gemini、Grok 低幻覺 RL | Finance、Roleplay、Health、Legal | | **經濟優勢** | Gemini Flash Lite $0.10/$0.40、Grok $0.20/$0.50、DeepSeek $0.26/$0.38 | Marketing、Roleplay、長尾類別 | | **規模優勢** | Grok 2M、Gemini 1M、Kimi 256K、Claude 1M | Legal、Academia、長文件處理 | 不過這四個維度也不是「具備就贏」。MiniMax M2.7 在架構(MoE)、經濟($0.30/$1.20)、規模(197K context)三項都不差,benchmark 也接近第一線,但在 Programming 還是排到第 7。原因是它沒做出 Kimi 那種 agent swarm 的差異化訓練,沒切到「長期任務」這個維度。OpenRouter 排行真正獎勵的是「**找到一個沒被滿足的剛性需求 + 在那個維度做到極致**」——而不是平均都好。 ## Use Case 二元化象限:你的需求落在哪裡? ![usecase-quadrant-chart](https://hackmd.io/_uploads/SJbvFuo6bx.jpg) OpenRouter State of AI 報告把 11 個分類按「使用量 × 成本」分成四個象限: | 象限 | 特徵 | 涵蓋分類 | 選模型邏輯 | |------|------|----------|------------| | **Mass Market**(高量低成本) | 用量大、單 task 中等成本 | Programming | 選有 agent 能力的中價位(Kimi、Claude Sonnet) | | **Premium**(高量高願付) | 用量大、特殊需求 | Roleplay (OSS 主導) | 選便宜開源(DeepSeek、GLM) | | **Niche Utilities**(低量低成本) | 低量、低願付 | Translation、Trivia | 選最便宜或免費(Gemini Flash Lite、gpt-oss) | | **Specialized Experts**(低量高成本) | 低量、高 cost-per-token、高敏感 | Finance、Health、Legal、Academia、Marketing | 選 frontier 或專項微調(Claude、Gemini Pro、Med-Gemini、Grok) | 象限分類沒有絕對——例如 Marketing 在 OpenRouter 報告裡屬 Specialized Experts,但實務上「SEO 量產」場景反而向 Mass Market 靠攏,所以 Marketing #1 才會是價格極低的 Gemini Flash Lite。**用 OpenRouter 排行做選型決策時,要先確認你自己的工作流落在哪個象限**,而不是直接套分類名稱。 ## 2026 年實戰選用建議表 最後整合所有分析,給你一張按用例選模型的表: | 用例 | 首選 | 次選 | 預算最佳 | |------|------|------|----------| | 編程 / Agent | **Kimi K2.6** ($0.74/$4.66) | Claude Opus 4.7 ($5/$25) | Nemotron 3 Super (free) | | Roleplay / 創意寫作 | **DeepSeek V3.2** ($0.26/$0.38) | Grok 4.1 Fast ($0.20/$0.50) | GLM 4.5 Air (free) | | 醫療 / 學術 | **Gemini 3 Flash Preview** ($0.50/$3) | Claude Sonnet 4.6 ($3/$15) | gpt-oss-120b (free) | | 法律合約審閱 | **Grok 4.1 Fast** (2M context) | Gemini 3 Flash Preview | gpt-oss-120b | | 行銷 / SEO 量產 | **Gemini 2.5 Flash Lite** ($0.10/$0.40) | Grok 4.1 Fast | gpt-oss-120b (free) | | 金融分析 | **Claude Sonnet 4.6** | Gemini 3 Flash Preview | Kimi K2.5 | | 翻譯 | **Gemini Flash Lite** | DeepSeek V3.2 | Gemma 4 31B (free) | | 通用問答 | **Gemini 3 Flash Preview** | Claude Sonnet 4.6 | DeepSeek V3.2 | 實戰上我自己的策略是:**主力選一個 frontier 模型 + 備案選一個便宜開源模型**。例如編程主力 Claude Sonnet 4.6(穩定)、便宜路由 Kimi K2.6(agent 重活)、實驗性質 Nemotron 3 Super(免費跑長 context)。透過 OpenRouter 的 fallback 機制可以一個 API 切換,不用改 client 程式碼。 ## 結語:誰會是下一個 #1? OpenRouter 排行每週都在變動。寫這篇文章的時候,新晉模型像 Alibaba Qwen 3.6 Plus、Xiaomi MiMo 系列、Tencent Hy3 preview 都還在快速攀升。下個月榜首會不會又換人,沒人敢打包票。 不過從整份分析看下來,有幾個方向可能比榜單本身更值得注意。中國模型的崛起更像是結構性而非短期波動——Kimi、DeepSeek、MiniMax、Qwen、Step、Xiaomi 已形成完整生態,價格 + 開源 + 快速迭代三線並進。Anthropic 用 Claude 守住企業合規、複雜推理、金融用例;Google 用 Gemini 以多模態 + 從 Flash Lite 到 Pro 的全價格帶切細分市場;OpenAI 在 OpenRouter 路由通路相對弱勢,主場其實是 ChatGPT 訂閱與企業 API 直接合約。 最值得關注的是 Agent 工作流的崛起。OpenRouter 上排第一名的 app 不是聊天機器人而是 OpenClaw 這種 agentic 工具、Programming 的 #1 是設計成跑 300 sub-agent 的 Kimi K2.6——這代表「LLM 是 agent 引擎」已從理論走進現實。下一波真正能改變排行格局的,可能不是某個 benchmark 跑得更高的模型,而是把 agent 工程做對的整套產品。 如果你正在做 AI 產品決策,我的建議是:**別只看 benchmark,去 OpenRouter 跑壓力測試**。用真實 prompt、真實 context size、真實併發量,比較每個模型在你的場景下的延遲、品質、成本。這份排行只是地圖,真正的答案藏在你的工作流裡。 ## 延伸閱讀與參考資料 **OpenRouter 官方來源** - [OpenRouter Rankings](https://openrouter.ai/rankings) – 即時更新的 LLM 排行 - [OpenRouter State of AI 2025 報告](https://openrouter.ai/state-of-ai) – 100T token 使用量研究 - [Best AI Models for Coding](https://openrouter.ai/collections/programming) – Programming 完整榜單 - [Best AI Models for Roleplay](https://openrouter.ai/collections/roleplay) – Roleplay 完整榜單 **模型架構與技術深度** - [Kimi K2.6 HuggingFace 模型卡](https://huggingface.co/moonshotai/Kimi-K2.6) - [Kimi K2.6 架構與 benchmark 解析(GMI Cloud)](https://www.gmicloud.ai/en/blog/kimi-k2-6-architecture-benchmarks-and-what-it-means-for-production-ai) - [DeepSeek V3.2 Sparse Attention 論文解讀(Kili Tech)](https://kili-technology.com/blog/data-story-deepseek-v3-2) - [DeepSeek V3.2-Exp 官方公告](https://api-docs.deepseek.com/news/news250929) - [Gemini 3 Flash 官方介紹](https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/) - [Gemini 3 Flash Artificial Analysis 評測](https://artificialanalysis.ai/articles/gemini-3-flash-everything-you-need-to-know) - [Grok 4.1 Fast 與 Agent Tools API](https://x.ai/news/grok-4-1-fast) **產業趨勢觀察** - [中國模型橫掃 OpenRouter Top 6(LucasGraphic)](https://lucasgraphic.com/posts/chinese-ai-models-dominate-openrouter-top-six-in-token-usage) - [中國 AI 模型超越美國競爭對手分析(Trending Topics)](https://www.trendingtopics.eu/chinese-ai-models-overtake-us-rivals-in-global-token-consumption/) - [DeepSeek V3.2 經濟學分析(Introl)](https://introl.com/blog/deepseek-v3-2-open-source-ai-cost-advantage) - [OpenRouter 100T token 觀察(LinkedIn)](https://www.linkedin.com/posts/paoloperrone_openrouter-just-analyzed-100-trillion-tokens-activity-7407074083995242496-Bmwl) - [Kimi K2.6 Microsoft Foundry 整合公告](https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-kimi-k2-6-in-microsoft-foundry/4513125) - [Grok 4.1 Fast 技術解析(Better Stack)](https://betterstack.com/community/guides/ai/grok-4-1/) - [Grok 4.1 Fast Oracle Cloud 文件](https://docs.oracle.com/en-us/iaas/Content/generative-ai/xai-grok-4-1-fast.htm) 本文摘自一份較長的內部研究筆記,涵蓋 4 輪深度研究、各分類細部排名、模型卡 metadata 與時間 snapshot 比對。如果你對某個分類想看更原始的數據,歡迎在留言區告訴我。

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password
    or
    Sign in via Google Sign in via Facebook Sign in via X(Twitter) Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    By signing in, you agree to our terms of service.

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully