OpenRouter 2026 排行震撼解讀：為何 Kimi K2.6 取代 Claude？DeepSeek 壟斷角色扮演、Grok 攻下法律 #1 的真實原因

openrouter-llm-arena-cover

打開 OpenRouter 排行榜，我看到 2026 年 4 月的排行第一名時還是愣了一下。不是 Claude，不是 GPT，不是 Gemini——而是來自中國 Moonshot AI 的 Kimi K2.6，週吞吐量 1.36T tokens。再往下滑，前 10 名有 5 席是中國模型。GPT-5.4 連前 10 都沒擠進去。

這不是某個小眾排行的數據異常。OpenRouter 是全球最大的 LLM API 路由平台，接超過 400 個模型、60 多家供應商，每週路由 20T+ tokens——它的排行不是 benchmark 跑分，是開發者用真金白銀換來的真實使用量。

更戲劇性的是各分類前列：DeepSeek V3.2 在 Roleplay 拿下 40.2% 壟斷份額；Grok 4.1 Fast 攻下 Legal #1；Gemini 3 Flash Preview 同時稱霸 Health 與 Academia；Marketing 的 #1 是價格只有 $0.10/$0.40 的 Gemini 2.5 Flash Lite。

這篇文章會帶你看完整個排行版圖，深入解析每個分類 #1 為什麼能贏——是架構、訓練資料、定價、context window 還是別的東西讓他們勝出。文末附上一張按用例選模型的實戰建議表，2026 年該用哪個模型，看完就有答案。

OpenRouter 為何是最值得信的 LLM 排行

在開始解讀數字前，先說為什麼 OpenRouter 比 LMArena、benchmark 跑分更具參考價值。

LMArena 看的是「人類偏好」，但跑分跟真實生產用例的距離常常比想像中大。各家 benchmark 又都有過擬合風險——模型在 SWE-Bench 拿高分不代表在你的 codebase 跑得好。OpenRouter 不一樣，它的排行直接反映**「開發者願意為哪個模型持續付錢」**：使用者多用一個 token，OpenRouter 帳上多扣一塊錢，不付出真金白銀就不會出現在這份榜單上。

更重要的是，OpenRouter 的客群是真正在開發 AI 產品的人。Janitor AI（角色扮演）、Cline（編碼 agent）、OpenClaw（自動化 agent）、Roo Code、Hermes 這些被廣泛使用的工具，都在透過 OpenRouter 路由模型。你看到的排行，本質上是這些 production 產品在生產環境中真實的選擇。

OpenRouter 自己發布的 State of AI 2025 報告揭露了更深層的趨勢：總週吞吐量從 2025 年 4 月的 5T tokens 漲到 2026 年 4 月的 20T+，一年成長 4 倍；推理模型已佔全部 token 流量的 50%；平均 prompt 長度從 1.5K 翻到 6K，agent 工作流取代單次推理成為主流。這些結構性變化，正是排行榜每週都在變動的根因。

整體 Top 10：Anthropic 不再壟斷，中國模型半壁江山

openrouter-china-models-rising

來看 2026 年 4 月的整體 Top 10（週 token 使用量）：

排名	模型	提供者	週 token	關鍵特徵
1	Kimi K2.6	moonshotai 🇨🇳	1.36T	MoE 1T/32B、agent swarm
2	Claude Sonnet 4.6	anthropic 🇺🇸	1.35T	1M context、編程主力
3	DeepSeek V3.2	deepseek 🇨🇳	1.31T	DSA 稀疏注意力、極低價
4	Claude Opus 4.7	anthropic 🇺🇸	1.14T	Anthropic 旗艦
5	Gemini 3 Flash Preview	google 🇺🇸	1.06T	1M context、多模態
6	MiniMax M2.7	minimax 🇨🇳	806B	性價比之選
7	Grok 4.1 Fast	x-ai 🇺🇸	721B	2M context
8	Claude Opus 4.6	anthropic 🇺🇸	699B	上代旗艦
9	MiniMax M2.5	minimax 🇨🇳	698B
10	Step 3.5 Flash	stepfun 🇨🇳	673B	快速且廉價

有件事看完數字才會驚覺：2024 年 10 月時，中國模型在 OpenRouter 的整體佔比是 1.2%。2026 年 4 月，這個數字是 45%+，連續 5 週中國週 token 量超越美國。前 10 名有 5 席是中國模型，再加上 OpenAI 的 GPT-5.4 連榜都沒擠進去——LLM 市場的權力結構在 18 個月內被徹底改寫。

這不是「中國技術突然超車」這麼簡單的故事。背後有三條主線同時推進：價格戰（中國模型多在 $1/M tokens 以下，美國旗艦多在 $3-25/M）、開源策略（自由部署、企業可自託管）、快速迭代（Kimi 從 K2.5 到 K2.6 只花了三個月）。OpenAI 在 OpenRouter 路由通路的弱勢並不代表 GPT-5.4 整體不行——OpenAI 的真正主場在 ChatGPT 訂閱與企業合約，但這份排行確實顯示「用 OpenRouter 走多模型路由的開發者」已經把選票投給了別人。

Programming：Kimi K2.6 用 Agent Swarm 改寫遊戲規則

kimi-k2-agent-swarm

Programming 是 OpenRouter 上最大的單一類別，token 佔比已從 2025 初的 11% 飆升至 50% 以上。Anthropic 的 Claude 系列曾經長期佔 60%+ 的編程市場份額，2025 年 11 月以後跌破 60%。然後 Kimi K2.6 來了。

來看 OpenRouter Programming Collection 的 Top 10：

#	模型	提供者	週 token	佔比
1	Kimi K2.6	moonshotai	1.37T	22.3%
2	Claude Opus 4.7	anthropic	429B	7.0%
3	Step 3.5 Flash	stepfun	383B	6.2%
4	Nemotron 3 Super 120B (free)	nvidia	319B	5.2%
5	Claude Sonnet 4.6	anthropic	302B	4.9%
6	MiniMax M2.5	minimax	297B	4.8%
7	MiniMax M2.7	minimax	267B	4.3%
8	Claude Opus 4.6	anthropic	237B	3.8%
9	GPT-5.4	openai	209B	3.4%
10	Others	–	2.35T	38.1%

GPT-5.4 在 Programming 排第 9，且其上方有 4 個中國模型（Kimi、Step、MiniMax×2）——這對 18 個月前的格局來說是劇變。

Kimi K2.6 為何能贏？三個結構性優勢

第一是架構。K2.6 是 MoE（Mixture-of-Experts）架構，總參數 1T，但每個 token 只 active 32B。這個比例非常聰明——你拿到 1T 模型的能力品質，付的卻是 32B 模型的推理成本。GMI Cloud 的拆解指出，K2.6 在 INT4 量化後可以塞進 4 張 H100，企業自託管門檻被壓得很低。

第二是 agent swarm。K2.6 最大的差異化在於它是為「長期任務」設計的。Kimi 官方技術 blog 與 Microsoft Foundry 整合公告記載：300 個並行 sub-agents（K2.5 為 100 個）、長期執行 + 持續工具調用、coordinator 動態分派任務並在 sub-agent 失敗時自動重派。這個能力對應的是真實的 production 場景——不是「幫我寫一個 function」，而是「重構整個 codebase、修復所有 lint 錯誤、跑完測試」。

第三是 benchmark 領先（但有但書）。K2.6 在 SWE-Bench Pro 拿下 58.6 分，壓過 GPT-5.4 的 57.7 與 Claude Opus 4.6 的 53.4 ；HLE w/ tools 達 54.0 第一。但同一份 GMI Cloud 拆解也指出，純數學推理上 Gemini 3.1 Pro Thinking 在 LiveCodeBench v6 仍以 91.7 略勝（K2.6 為 89.6），SWE-Bench Multilingual 也是 Opus 4.6 的 77.8 略高於 K2.6 的 76.7。換句話說，K2.6 的勝出不是全面碾壓，而是在「長期任務 + 工具串接」這個維度做出顯著差距。

加上 K2.6 採用 Modified MIT License 開源、Microsoft Foundry 與 Cloudflare Workers AI 都做了 Day 0 整合、OpenRouter 上排第一名的 app（OpenClaw，週 392B token）原生綁定 K2.6——這是技術 + 商業 + 生態三線同時推進的結果。

Roleplay：DeepSeek V3.2 的 40.2% 壟斷

deepseek-roleplay-creative

如果說 Programming 還是一個有競爭的市場，Roleplay 完全是另一個故事：

#	模型	提供者	週 token	佔比
1	DeepSeek V3.2	deepseek	968B	40.2%
2	Grok 4.1 Fast	x-ai	145B	6.0%
3	GLM 4.5 Air	z-ai	141B	5.9%
4	Gemini 2.5 Flash Lite	google	112B	4.6%
5	Gemini 3 Flash Preview	google	93.6B	3.9%

DeepSeek V3.2 一個模型佔了 40% 以上。其他類別的 #1 通常在 5-25% 範圍——這個壟斷程度在 OpenRouter 上獨一無二。

為什麼是 DeepSeek？三角完美命中

DeepSeek V3.2 的架構是 MoE 671B/37B active ，最關鍵的創新是 DeepSeek Sparse Attention（DSA） ——一種細粒度稀疏注意力機制。根據 DeepSeek 官方公告，相較 V3.1-Terminus，DSA 在長 context 訓練/推理的 API 成本下降 50% 以上，benchmark 表現「on par」（基本持平）。對 Roleplay 這種「對話越聊越長」的場景，這個優化直接擊中痛點。

但更有趣的是訓練細節。Kili Technology 的拆解指出，DeepSeek 是少數明確揭露 creative writing 與 role-play 訓練流程的 frontier 級模型——他們對「非推理任務」採用 model-generated 響應 + 人工 annotator 驗證準確性的方式。換句話說，DeepSeek 在角色扮演的「人味」上做過真正的工程投入，不是訓練資料的副產品。

定價是壓死駱駝的最後一根稻草：$0.26/$0.38 per 1M tokens，比 Claude Sonnet 便宜 10 倍。對 Janitor AI 這種免費或微薄訂閱費的 character chat 平台，成本不是 nice-to-have 而是 must-have。

加上開源（MIT License）、content filter 比 Anthropic/OpenAI 寬鬆——對 Roleplay 用例來說，「不會被 safety filter 打斷的對話流」本身就是核心需求。Claude 與 GPT 在這個領域沒有任何空間切入。

OpenRouter 的 State of AI 報告還補了一刀：OSS 模型的全部使用量裡，超過 50% 都在做 Roleplay。Programming 的 38% 是第二大用途。所以「為什麼 OSS 在 Roleplay 強？」的答案不是 OSS 模型訓練得特別好，而是「商用模型因為 safety 限制無法切入這個 50% 大餅」。

Health & Academia：Gemini 3 Flash Preview 的雙冠王

Health 與 Academia 屬於 OpenRouter State of AI 報告中歸類的「Specialized Experts」象限——使用量低、cost-per-token 高、對精確性極度敏感。這兩個分類的 #1 都是 Gemini 3 Flash Preview 。

Gemini 3 Flash Preview 為什麼能在這兩個高敏感領域勝出？

維度	細節
多模態原生	text/image/audio/video/PDF 同模型，不需切換
PhD 級知識	GPQA Diamond 90.4%（物理/化學/生物 grad-level）
抗幻覺	HLE 33.7% 無工具、43.5% 有工具，Artificial Analysis 評為知識/抗幻覺最強
MMMU-Pro	81.2%（與 Pro 版同分）
醫療專項	Google 系出 Med-Gemini，MedQA 91.1% 創紀錄
Context	1.05M tokens
價格	$0.50/$3 per 1M tokens（frontier 級中段）

Health 是個極度碎片化的市場——OpenRouter 報告指出沒有單一 sub-tag 超過 25%，從醫研、心理諮商、治療指引到診斷查詢全包。在這種需求多樣的場景，**「全能 + 多模態 + 低幻覺 + 醫療專項微調」**的組合勝出是必然——病歷不只有文字、X 光與 MRI 是圖像、論文裡有圖表，模型必須一次處理。

Academia 也有類似邏輯。Gemini 3 Flash 在 AA-Omniscience 第一、Humanity's Last Exam 第二，加上 1M context 可以吞整本論文或教科書——這正是學術工作流的核心。

Legal：Grok 4.1 Fast 用 2M Context 殺出血路

grok-legal-2m-context

Legal 分類的 #1 是 Grok 4.1 Fast——這個結果第一眼讓人意外，但拆解完數字就會懂。

Grok 4.1 Fast 的法律殺招

xAI 在 2025 年 11 月發布的 Grok 4.1 Fast 把幾個關鍵指標推到極限（Better Stack 技術解析與 Oracle Cloud 文件也均做了交叉驗證）：

2M tokens context window，業界最大。可以一次吞整本案件卷宗、整份合約集，不用切片
幻覺率約 4%，xAI 與 Better Stack 報告指出較 Grok 4 大降約 65% ；Oracle 文件描述為「reduced by ~3x」
$0.20/$0.50 per 1M tokens，極便宜，可以大量並行
Berkeley Function Calling v4 達 72%，τ²-bench Telecom 100%（Artificial Analysis 驗證）
LMArena Elo 1483 #1 ，純人類偏好分數冠軍

法律工作的痛點完美對應這些特性：合約必須整份讀完、不能瞎掰一條法條、需要多次往返審閱。Gemini 3 Flash 在 Harvey BigLaw Bench 也提升 7% ，但 1M context 對 100+ 頁的契約仍然吃緊——Grok 的 2M 才是甜蜜點。

xAI 同步發布的 Agent Tools API（內建 web search、code execution、MCP 整合）讓 Grok 直接跑「法律研究 agent」，這是 Claude/GPT 還沒做到的整合度。

Marketing：Gemini 2.5 Flash Lite 的 $0.10 經濟學

Gemini 2.5 Flash Lite 拿下 Marketing #1，理由很簡單——$0.10/$0.40 per 1M tokens 是全 frontier 級模型最便宜的價格。

Marketing 雖然被 OpenRouter 歸類在「Specialized Experts」象限，但實際上的核心需求是「大量量產」：SEO 文章、廣告文案、產品描述、email 主旨。這時候模型品質的邊際效益遠不如價格——便宜 10 倍、品質掉 5%，是穩賺不賠的交易。Gemini 2.5 Flash Lite 配上 1M context（一次讀完整份品牌 guideline），組合無懈可擊。

OpenAI 的 gpt-oss-120b 因為完全免費搶下第二名，連定價都不用打就贏。

Finance：Claude Sonnet 4.6 為何仍是這個領域的標準答案

Finance 是 Claude 還站穩第一線的領域之一。Sonnet 4.6 是 OpenRouter 整體 Top 10 第二名（週 1.35T tokens），Finance 分類觀察排名 #2——這是在 Anthropic 不削價、單價是 DeepSeek 的 10 倍的前提下做到的。

為什麼 Finance 客戶願意付 $3/$15 per 1M tokens（比 DeepSeek 貴 10 倍）？因為 Finance 是「錯一次比省錢貴一萬倍」的業務。一份財報誤讀、一個風險評估幻覺、一條 ESG 條款搞錯，後果都是商業災難。Anthropic 的 Constitutional AI 訓練讓 Claude 在「承認自己不知道」這件事上做得最好，這對 Finance 來說是決定性優勢。

加上 1M context（吞 10K 級報表/招股書）、優秀的 tool use、與 Bloomberg、FactSet 等金融工具的整合——Claude 在這個領域的護城河比 Programming 深得多。

四大勝出原因總整理

整理完七個分類的 #1，為什麼某個模型能贏，本質上歸因於四個維度：

維度	代表案例	影響的分類
架構優勢	Kimi MoE 1T/32B、DeepSeek DSA Sparse Attention、Nemotron Hybrid Mamba-Transformer	Programming、Roleplay
訓練特化	Claude Constitutional AI、DeepSeek 創意寫作 RLHF、Med-Gemini、Grok 低幻覺 RL	Finance、Roleplay、Health、Legal
經濟優勢	Gemini Flash Lite $0.10/$0.40、Grok $0.20/$0.50、DeepSeek $0.26/$0.38	Marketing、Roleplay、長尾類別
規模優勢	Grok 2M、Gemini 1M、Kimi 256K、Claude 1M	Legal、Academia、長文件處理

不過這四個維度也不是「具備就贏」。MiniMax M2.7 在架構（MoE）、經濟（$0.30/$1.20）、規模（197K context）三項都不差，benchmark 也接近第一線，但在 Programming 還是排到第 7。原因是它沒做出 Kimi 那種 agent swarm 的差異化訓練，沒切到「長期任務」這個維度。OpenRouter 排行真正獎勵的是「找到一個沒被滿足的剛性需求 + 在那個維度做到極致」——而不是平均都好。

Use Case 二元化象限：你的需求落在哪裡？

usecase-quadrant-chart

OpenRouter State of AI 報告把 11 個分類按「使用量 × 成本」分成四個象限：

象限	特徵	涵蓋分類	選模型邏輯
Mass Market（高量低成本）	用量大、單 task 中等成本	Programming	選有 agent 能力的中價位（Kimi、Claude Sonnet）
Premium（高量高願付）	用量大、特殊需求	Roleplay (OSS 主導)	選便宜開源（DeepSeek、GLM）
Niche Utilities（低量低成本）	低量、低願付	Translation、Trivia	選最便宜或免費（Gemini Flash Lite、gpt-oss）
Specialized Experts（低量高成本）	低量、高 cost-per-token、高敏感	Finance、Health、Legal、Academia、Marketing	選 frontier 或專項微調（Claude、Gemini Pro、Med-Gemini、Grok）

象限分類沒有絕對——例如 Marketing 在 OpenRouter 報告裡屬 Specialized Experts，但實務上「SEO 量產」場景反而向 Mass Market 靠攏，所以 Marketing #1 才會是價格極低的 Gemini Flash Lite。用 OpenRouter 排行做選型決策時，要先確認你自己的工作流落在哪個象限，而不是直接套分類名稱。

2026 年實戰選用建議表

最後整合所有分析，給你一張按用例選模型的表：

用例	首選	次選	預算最佳
編程 / Agent	Kimi K2.6 ($0.74/$4.66)	Claude Opus 4.7 ($5/$25)	Nemotron 3 Super (free)
Roleplay / 創意寫作	DeepSeek V3.2 ($0.26/$0.38)	Grok 4.1 Fast ($0.20/$0.50)	GLM 4.5 Air (free)
醫療 / 學術	Gemini 3 Flash Preview ($0.50/$3)	Claude Sonnet 4.6 ($3/$15)	gpt-oss-120b (free)
法律合約審閱	Grok 4.1 Fast (2M context)	Gemini 3 Flash Preview	gpt-oss-120b
行銷 / SEO 量產	Gemini 2.5 Flash Lite ($0.10/$0.40)	Grok 4.1 Fast	gpt-oss-120b (free)
金融分析	Claude Sonnet 4.6	Gemini 3 Flash Preview	Kimi K2.5
翻譯	Gemini Flash Lite	DeepSeek V3.2	Gemma 4 31B (free)
通用問答	Gemini 3 Flash Preview	Claude Sonnet 4.6	DeepSeek V3.2

實戰上我自己的策略是：主力選一個 frontier 模型 + 備案選一個便宜開源模型。例如編程主力 Claude Sonnet 4.6（穩定）、便宜路由 Kimi K2.6（agent 重活）、實驗性質 Nemotron 3 Super（免費跑長 context）。透過 OpenRouter 的 fallback 機制可以一個 API 切換，不用改 client 程式碼。

結語：誰會是下一個 #1？

OpenRouter 排行每週都在變動。寫這篇文章的時候，新晉模型像 Alibaba Qwen 3.6 Plus、Xiaomi MiMo 系列、Tencent Hy3 preview 都還在快速攀升。下個月榜首會不會又換人，沒人敢打包票。

不過從整份分析看下來，有幾個方向可能比榜單本身更值得注意。中國模型的崛起更像是結構性而非短期波動——Kimi、DeepSeek、MiniMax、Qwen、Step、Xiaomi 已形成完整生態，價格 + 開源 + 快速迭代三線並進。Anthropic 用 Claude 守住企業合規、複雜推理、金融用例；Google 用 Gemini 以多模態 + 從 Flash Lite 到 Pro 的全價格帶切細分市場；OpenAI 在 OpenRouter 路由通路相對弱勢，主場其實是 ChatGPT 訂閱與企業 API 直接合約。

最值得關注的是 Agent 工作流的崛起。OpenRouter 上排第一名的 app 不是聊天機器人而是 OpenClaw 這種 agentic 工具、Programming 的 #1 是設計成跑 300 sub-agent 的 Kimi K2.6——這代表「LLM 是 agent 引擎」已從理論走進現實。下一波真正能改變排行格局的，可能不是某個 benchmark 跑得更高的模型，而是把 agent 工程做對的整套產品。

如果你正在做 AI 產品決策，我的建議是：別只看 benchmark，去 OpenRouter 跑壓力測試。用真實 prompt、真實 context size、真實併發量，比較每個模型在你的場景下的延遲、品質、成本。這份排行只是地圖，真正的答案藏在你的工作流裡。

延伸閱讀與參考資料

OpenRouter 官方來源

OpenRouter Rankings – 即時更新的 LLM 排行
OpenRouter State of AI 2025 報告 – 100T token 使用量研究
Best AI Models for Coding – Programming 完整榜單
Best AI Models for Roleplay – Roleplay 完整榜單

模型架構與技術深度

產業趨勢觀察

本文摘自一份較長的內部研究筆記，涵蓋 4 輪深度研究、各分類細部排名、模型卡 metadata 與時間 snapshot 比對。如果你對某個分類想看更原始的數據，歡迎在留言區告訴我。

本文最初發布於 HackMD @BASHCAT。

BASHCAT