OpenRouter 2026 排行震撼解讀:為何 Kimi K2.6 取代 Claude?DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因

OpenRouter 2026 排行震撼解讀:為何 Kimi K2.6 取代 Claude?DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因

openrouter-llm-arena-cover

打開 OpenRouter 排行榜 ,我看到 2026 年 4 月的排行第一名時還是愣了一下。不是 Claude,不是 GPT,不是 Gemini——而是來自中國 Moonshot AI 的 Kimi K2.6,週吞吐量 1.36T tokens。再往下滑,前 10 名有 5 席是中國模型。GPT-5.4 連前 10 都沒擠進去。

這不是某個小眾排行的數據異常。OpenRouter 是全球最大的 LLM API 路由平台,接超過 400 個模型、60 多家供應商 ,每週路由 20T+ tokens——它的排行不是 benchmark 跑分,是開發者用真金白銀換來的真實使用量

更戲劇性的是各分類前列:DeepSeek V3.2 在 Roleplay 拿下 40.2% 壟斷份額;Grok 4.1 Fast 攻下 Legal #1;Gemini 3 Flash Preview 同時稱霸 Health 與 Academia;Marketing 的 #1 是價格只有 $0.10/$0.40 的 Gemini 2.5 Flash Lite。

這篇文章會帶你看完整個排行版圖,深入解析每個分類 #1 為什麼能贏——是架構、訓練資料、定價、context window 還是別的東西讓他們勝出。文末附上一張按用例選模型的實戰建議表,2026 年該用哪個模型,看完就有答案。

OpenRouter 為何是最值得信的 LLM 排行

在開始解讀數字前,先說為什麼 OpenRouter 比 LMArena、benchmark 跑分更具參考價值。

LMArena 看的是「人類偏好」,但跑分跟真實生產用例的距離常常比想像中大。各家 benchmark 又都有過擬合風險——模型在 SWE-Bench 拿高分不代表在你的 codebase 跑得好。OpenRouter 不一樣,它的排行直接反映**「開發者願意為哪個模型持續付錢」**:使用者多用一個 token,OpenRouter 帳上多扣一塊錢,不付出真金白銀就不會出現在這份榜單上。

更重要的是,OpenRouter 的客群是真正在開發 AI 產品的人。Janitor AI(角色扮演)、Cline(編碼 agent)、OpenClaw(自動化 agent)、Roo Code、Hermes 這些被廣泛使用的工具,都在透過 OpenRouter 路由模型。你看到的排行,本質上是這些 production 產品在生產環境中真實的選擇

OpenRouter 自己發布的 State of AI 2025 報告 揭露了更深層的趨勢:總週吞吐量從 2025 年 4 月的 5T tokens 漲到 2026 年 4 月的 20T+,一年成長 4 倍;推理模型已佔全部 token 流量的 50%;平均 prompt 長度從 1.5K 翻到 6K,agent 工作流取代單次推理成為主流。這些結構性變化,正是排行榜每週都在變動的根因。

整體 Top 10:Anthropic 不再壟斷,中國模型半壁江山

openrouter-china-models-rising

來看 2026 年 4 月的整體 Top 10(週 token 使用量):

排名 模型 提供者 週 token 關鍵特徵
1 Kimi K2.6 moonshotai 🇨🇳 1.36T MoE 1T/32B、agent swarm
2 Claude Sonnet 4.6 anthropic 🇺🇸 1.35T 1M context、編程主力
3 DeepSeek V3.2 deepseek 🇨🇳 1.31T DSA 稀疏注意力、極低價
4 Claude Opus 4.7 anthropic 🇺🇸 1.14T Anthropic 旗艦
5 Gemini 3 Flash Preview google 🇺🇸 1.06T 1M context、多模態
6 MiniMax M2.7 minimax 🇨🇳 806B 性價比之選
7 Grok 4.1 Fast x-ai 🇺🇸 721B 2M context
8 Claude Opus 4.6 anthropic 🇺🇸 699B 上代旗艦
9 MiniMax M2.5 minimax 🇨🇳 698B
10 Step 3.5 Flash stepfun 🇨🇳 673B 快速且廉價

有件事看完數字才會驚覺:2024 年 10 月時,中國模型在 OpenRouter 的整體佔比是 1.2%。2026 年 4 月,這個數字是 45%+連續 5 週中國週 token 量超越美國 。前 10 名有 5 席是中國模型,再加上 OpenAI 的 GPT-5.4 連榜都沒擠進去——LLM 市場的權力結構在 18 個月內被徹底改寫。

這不是「中國技術突然超車」這麼簡單的故事。背後有三條主線同時推進:價格戰(中國模型多在 $1/M tokens 以下,美國旗艦多在 $3-25/M)、開源策略(自由部署、企業可自託管)、快速迭代(Kimi 從 K2.5 到 K2.6 只花了三個月)。OpenAI 在 OpenRouter 路由通路的弱勢並不代表 GPT-5.4 整體不行——OpenAI 的真正主場在 ChatGPT 訂閱與企業合約,但這份排行確實顯示「用 OpenRouter 走多模型路由的開發者」已經把選票投給了別人。

Programming:Kimi K2.6 用 Agent Swarm 改寫遊戲規則

kimi-k2-agent-swarm

Programming 是 OpenRouter 上最大的單一類別,token 佔比已從 2025 初的 11% 飆升至 50% 以上 。Anthropic 的 Claude 系列曾經長期佔 60%+ 的編程市場份額,2025 年 11 月以後跌破 60%。然後 Kimi K2.6 來了。

來看 OpenRouter Programming Collection 的 Top 10:

# 模型 提供者 週 token 佔比
1 Kimi K2.6 moonshotai 1.37T 22.3%
2 Claude Opus 4.7 anthropic 429B 7.0%
3 Step 3.5 Flash stepfun 383B 6.2%
4 Nemotron 3 Super 120B (free) nvidia 319B 5.2%
5 Claude Sonnet 4.6 anthropic 302B 4.9%
6 MiniMax M2.5 minimax 297B 4.8%
7 MiniMax M2.7 minimax 267B 4.3%
8 Claude Opus 4.6 anthropic 237B 3.8%
9 GPT-5.4 openai 209B 3.4%
10 Others 2.35T 38.1%

GPT-5.4 在 Programming 排第 9,且其上方有 4 個中國模型(Kimi、Step、MiniMax×2)——這對 18 個月前的格局來說是劇變。

Kimi K2.6 為何能贏?三個結構性優勢

第一是架構。K2.6 是 MoE(Mixture-of-Experts)架構 ,總參數 1T,但每個 token 只 active 32B。這個比例非常聰明——你拿到 1T 模型的能力品質,付的卻是 32B 模型的推理成本。GMI Cloud 的拆解 指出,K2.6 在 INT4 量化後可以塞進 4 張 H100,企業自託管門檻被壓得很低。

第二是 agent swarm。K2.6 最大的差異化在於它是為「長期任務」設計的。Kimi 官方技術 blogMicrosoft Foundry 整合公告 記載:300 個並行 sub-agents(K2.5 為 100 個)、長期執行 + 持續工具調用、coordinator 動態分派任務並在 sub-agent 失敗時自動重派。這個能力對應的是真實的 production 場景——不是「幫我寫一個 function」,而是「重構整個 codebase、修復所有 lint 錯誤、跑完測試」。

第三是 benchmark 領先(但有但書)。K2.6 在 SWE-Bench Pro 拿下 58.6 分,壓過 GPT-5.4 的 57.7 與 Claude Opus 4.6 的 53.4 ;HLE w/ tools 達 54.0 第一。但同一份 GMI Cloud 拆解 也指出,純數學推理上 Gemini 3.1 Pro Thinking 在 LiveCodeBench v6 仍以 91.7 略勝(K2.6 為 89.6),SWE-Bench Multilingual 也是 Opus 4.6 的 77.8 略高於 K2.6 的 76.7。換句話說,K2.6 的勝出不是全面碾壓,而是在「長期任務 + 工具串接」這個維度做出顯著差距。

加上 K2.6 採用 Modified MIT License 開源、Microsoft Foundry 與 Cloudflare Workers AI 都做了 Day 0 整合、OpenRouter 上排第一名的 app(OpenClaw,週 392B token)原生綁定 K2.6——這是技術 + 商業 + 生態三線同時推進的結果。

Roleplay:DeepSeek V3.2 的 40.2% 壟斷

deepseek-roleplay-creative

如果說 Programming 還是一個有競爭的市場,Roleplay 完全是另一個故事

# 模型 提供者 週 token 佔比
1 DeepSeek V3.2 deepseek 968B 40.2%
2 Grok 4.1 Fast x-ai 145B 6.0%
3 GLM 4.5 Air z-ai 141B 5.9%
4 Gemini 2.5 Flash Lite google 112B 4.6%
5 Gemini 3 Flash Preview google 93.6B 3.9%

DeepSeek V3.2 一個模型佔了 40% 以上。其他類別的 #1 通常在 5-25% 範圍——這個壟斷程度在 OpenRouter 上獨一無二。

為什麼是 DeepSeek?三角完美命中

DeepSeek V3.2 的 架構是 MoE 671B/37B active ,最關鍵的創新是 DeepSeek Sparse Attention(DSA) ——一種細粒度稀疏注意力機制。根據 DeepSeek 官方公告,相較 V3.1-Terminus,DSA 在長 context 訓練/推理的 API 成本下降 50% 以上,benchmark 表現「on par」(基本持平)。對 Roleplay 這種「對話越聊越長」的場景,這個優化直接擊中痛點。

但更有趣的是訓練細節。Kili Technology 的拆解 指出,DeepSeek 是少數明確揭露 creative writing 與 role-play 訓練流程的 frontier 級模型——他們對「非推理任務」採用 model-generated 響應 + 人工 annotator 驗證準確性的方式。換句話說,DeepSeek 在角色扮演的「人味」上做過真正的工程投入,不是訓練資料的副產品。

定價是壓死駱駝的最後一根稻草:$0.26/$0.38 per 1M tokens,比 Claude Sonnet 便宜 10 倍。對 Janitor AI 這種 免費或微薄訂閱費的 character chat 平台 ,成本不是 nice-to-have 而是 must-have。

加上開源(MIT License)、content filter 比 Anthropic/OpenAI 寬鬆——對 Roleplay 用例來說,「不會被 safety filter 打斷的對話流」本身就是核心需求。Claude 與 GPT 在這個領域沒有任何空間切入。

OpenRouter 的 State of AI 報告還補了一刀:OSS 模型的全部使用量裡,超過 50% 都在做 Roleplay。Programming 的 38% 是第二大用途。所以「為什麼 OSS 在 Roleplay 強?」的答案不是 OSS 模型訓練得特別好,而是「商用模型因為 safety 限制無法切入這個 50% 大餅」。

Health & Academia:Gemini 3 Flash Preview 的雙冠王

Health 與 Academia 屬於 OpenRouter State of AI 報告中歸類的「Specialized Experts」象限——使用量低、cost-per-token 高、對精確性極度敏感。這兩個分類的 #1 都是 Gemini 3 Flash Preview

Gemini 3 Flash Preview 為什麼能在這兩個高敏感領域勝出?

維度 細節
多模態原生 text/image/audio/video/PDF 同模型,不需切換
PhD 級知識 GPQA Diamond 90.4%(物理/化學/生物 grad-level)
抗幻覺 HLE 33.7% 無工具、43.5% 有工具,Artificial Analysis 評為知識/抗幻覺最強
MMMU-Pro 81.2%(與 Pro 版同分)
醫療專項 Google 系出 Med-Gemini,MedQA 91.1% 創紀錄
Context 1.05M tokens
價格 $0.50/$3 per 1M tokens(frontier 級中段)

Health 是個極度碎片化的市場——OpenRouter 報告指出沒有單一 sub-tag 超過 25%,從醫研、心理諮商、治療指引到診斷查詢全包。在這種需求多樣的場景,**「全能 + 多模態 + 低幻覺 + 醫療專項微調」**的組合勝出是必然——病歷不只有文字、X 光與 MRI 是圖像、論文裡有圖表,模型必須一次處理。

Academia 也有類似邏輯。Gemini 3 Flash 在 AA-Omniscience 第一、Humanity's Last Exam 第二 ,加上 1M context 可以吞整本論文或教科書——這正是學術工作流的核心。

Legal:Grok 4.1 Fast 用 2M Context 殺出血路

grok-legal-2m-context

Legal 分類的 #1 是 Grok 4.1 Fast——這個結果第一眼讓人意外,但拆解完數字就會懂。

Grok 4.1 Fast 的法律殺招

xAI 在 2025 年 11 月發布的 Grok 4.1 Fast 把幾個關鍵指標推到極限(Better Stack 技術解析Oracle Cloud 文件 也均做了交叉驗證):

法律工作的痛點完美對應這些特性:合約必須整份讀完、不能瞎掰一條法條、需要多次往返審閱。Gemini 3 Flash 在 Harvey BigLaw Bench 也提升 7% ,但 1M context 對 100+ 頁的契約仍然吃緊——Grok 的 2M 才是甜蜜點。

xAI 同步發布的 Agent Tools API(內建 web search、code execution、MCP 整合)讓 Grok 直接跑「法律研究 agent」,這是 Claude/GPT 還沒做到的整合度。

Marketing:Gemini 2.5 Flash Lite 的 $0.10 經濟學

Gemini 2.5 Flash Lite 拿下 Marketing #1,理由很簡單——$0.10/$0.40 per 1M tokens 是全 frontier 級模型最便宜的價格。

Marketing 雖然被 OpenRouter 歸類在「Specialized Experts」象限,但實際上的核心需求是「大量量產」:SEO 文章、廣告文案、產品描述、email 主旨。這時候模型品質的邊際效益遠不如價格——便宜 10 倍、品質掉 5%,是穩賺不賠的交易。Gemini 2.5 Flash Lite 配上 1M context(一次讀完整份品牌 guideline),組合無懈可擊。

OpenAI 的 gpt-oss-120b 因為完全免費搶下第二名,連定價都不用打就贏。

Finance:Claude Sonnet 4.6 為何仍是這個領域的標準答案

Finance 是 Claude 還站穩第一線的領域之一。Sonnet 4.6 是 OpenRouter 整體 Top 10 第二名(週 1.35T tokens),Finance 分類觀察排名 #2——這是在 Anthropic 不削價、單價是 DeepSeek 的 10 倍的前提下做到的。

為什麼 Finance 客戶願意付 $3/$15 per 1M tokens(比 DeepSeek 貴 10 倍)?因為 Finance 是「錯一次比省錢貴一萬倍」的業務。一份財報誤讀、一個風險評估幻覺、一條 ESG 條款搞錯,後果都是商業災難。Anthropic 的 Constitutional AI 訓練讓 Claude 在「承認自己不知道」這件事上做得最好,這對 Finance 來說是決定性優勢。

加上 1M context(吞 10K 級報表/招股書)、優秀的 tool use、與 Bloomberg、FactSet 等金融工具的整合——Claude 在這個領域的護城河比 Programming 深得多。

四大勝出原因總整理

整理完七個分類的 #1,為什麼某個模型能贏,本質上歸因於四個維度:

維度 代表案例 影響的分類
架構優勢 Kimi MoE 1T/32B、DeepSeek DSA Sparse Attention、Nemotron Hybrid Mamba-Transformer Programming、Roleplay
訓練特化 Claude Constitutional AI、DeepSeek 創意寫作 RLHF、Med-Gemini、Grok 低幻覺 RL Finance、Roleplay、Health、Legal
經濟優勢 Gemini Flash Lite $0.10/$0.40、Grok $0.20/$0.50、DeepSeek $0.26/$0.38 Marketing、Roleplay、長尾類別
規模優勢 Grok 2M、Gemini 1M、Kimi 256K、Claude 1M Legal、Academia、長文件處理

不過這四個維度也不是「具備就贏」。MiniMax M2.7 在架構(MoE)、經濟($0.30/$1.20)、規模(197K context)三項都不差,benchmark 也接近第一線,但在 Programming 還是排到第 7。原因是它沒做出 Kimi 那種 agent swarm 的差異化訓練,沒切到「長期任務」這個維度。OpenRouter 排行真正獎勵的是「找到一個沒被滿足的剛性需求 + 在那個維度做到極致」——而不是平均都好。

Use Case 二元化象限:你的需求落在哪裡?

usecase-quadrant-chart

OpenRouter State of AI 報告把 11 個分類按「使用量 × 成本」分成四個象限:

象限 特徵 涵蓋分類 選模型邏輯
Mass Market(高量低成本) 用量大、單 task 中等成本 Programming 選有 agent 能力的中價位(Kimi、Claude Sonnet)
Premium(高量高願付) 用量大、特殊需求 Roleplay (OSS 主導) 選便宜開源(DeepSeek、GLM)
Niche Utilities(低量低成本) 低量、低願付 Translation、Trivia 選最便宜或免費(Gemini Flash Lite、gpt-oss)
Specialized Experts(低量高成本) 低量、高 cost-per-token、高敏感 Finance、Health、Legal、Academia、Marketing 選 frontier 或專項微調(Claude、Gemini Pro、Med-Gemini、Grok)

象限分類沒有絕對——例如 Marketing 在 OpenRouter 報告裡屬 Specialized Experts,但實務上「SEO 量產」場景反而向 Mass Market 靠攏,所以 Marketing #1 才會是價格極低的 Gemini Flash Lite。用 OpenRouter 排行做選型決策時,要先確認你自己的工作流落在哪個象限,而不是直接套分類名稱。

2026 年實戰選用建議表

最後整合所有分析,給你一張按用例選模型的表:

用例 首選 次選 預算最佳
編程 / Agent Kimi K2.6 ($0.74/$4.66) Claude Opus 4.7 ($5/$25) Nemotron 3 Super (free)
Roleplay / 創意寫作 DeepSeek V3.2 ($0.26/$0.38) Grok 4.1 Fast ($0.20/$0.50) GLM 4.5 Air (free)
醫療 / 學術 Gemini 3 Flash Preview ($0.50/$3) Claude Sonnet 4.6 ($3/$15) gpt-oss-120b (free)
法律合約審閱 Grok 4.1 Fast (2M context) Gemini 3 Flash Preview gpt-oss-120b
行銷 / SEO 量產 Gemini 2.5 Flash Lite ($0.10/$0.40) Grok 4.1 Fast gpt-oss-120b (free)
金融分析 Claude Sonnet 4.6 Gemini 3 Flash Preview Kimi K2.5
翻譯 Gemini Flash Lite DeepSeek V3.2 Gemma 4 31B (free)
通用問答 Gemini 3 Flash Preview Claude Sonnet 4.6 DeepSeek V3.2

實戰上我自己的策略是:主力選一個 frontier 模型 + 備案選一個便宜開源模型。例如編程主力 Claude Sonnet 4.6(穩定)、便宜路由 Kimi K2.6(agent 重活)、實驗性質 Nemotron 3 Super(免費跑長 context)。透過 OpenRouter 的 fallback 機制可以一個 API 切換,不用改 client 程式碼。

結語:誰會是下一個 #1?

OpenRouter 排行每週都在變動。寫這篇文章的時候,新晉模型像 Alibaba Qwen 3.6 Plus、Xiaomi MiMo 系列、Tencent Hy3 preview 都還在快速攀升。下個月榜首會不會又換人,沒人敢打包票。

不過從整份分析看下來,有幾個方向可能比榜單本身更值得注意。中國模型的崛起更像是結構性而非短期波動——Kimi、DeepSeek、MiniMax、Qwen、Step、Xiaomi 已形成完整生態,價格 + 開源 + 快速迭代三線並進。Anthropic 用 Claude 守住企業合規、複雜推理、金融用例;Google 用 Gemini 以多模態 + 從 Flash Lite 到 Pro 的全價格帶切細分市場;OpenAI 在 OpenRouter 路由通路相對弱勢,主場其實是 ChatGPT 訂閱與企業 API 直接合約。

最值得關注的是 Agent 工作流的崛起。OpenRouter 上排第一名的 app 不是聊天機器人而是 OpenClaw 這種 agentic 工具、Programming 的 #1 是設計成跑 300 sub-agent 的 Kimi K2.6——這代表「LLM 是 agent 引擎」已從理論走進現實。下一波真正能改變排行格局的,可能不是某個 benchmark 跑得更高的模型,而是把 agent 工程做對的整套產品。

如果你正在做 AI 產品決策,我的建議是:別只看 benchmark,去 OpenRouter 跑壓力測試。用真實 prompt、真實 context size、真實併發量,比較每個模型在你的場景下的延遲、品質、成本。這份排行只是地圖,真正的答案藏在你的工作流裡。

延伸閱讀與參考資料

OpenRouter 官方來源

模型架構與技術深度

產業趨勢觀察

本文摘自一份較長的內部研究筆記,涵蓋 4 輪深度研究、各分類細部排名、模型卡 metadata 與時間 snapshot 比對。如果你對某個分類想看更原始的數據,歡迎在留言區告訴我。


本文最初發布於 HackMD @BASHCAT

留言