當大模型不再是護城河：AI Agent 如何重新定義 AI 競爭

agent-trend-cover

你可能還記得 2023 年那段瘋狂的日子。每隔幾週就有一個新模型「屠榜」，參數量從幾百億飆到幾千億，每個人都在問：下一個 GPT 會有多大？訓練要用多少張 H100？

但你有沒有注意到，2025 年之後，這種興奮感消失了？

不是因為技術停滯。恰恰相反 — 模型變得太好了，好到彼此之間幾乎分不出差別。GPT-5、Claude 4.6、Gemini 2.5，你拿同一個問題去問，得到的答案品質越來越接近。更有意思的是，根據 OpenRouter 的用戶使用數據，OpenAI 的模型在整體使用量上已經排到第五，落後於 Google、Anthropic、DeepSeek 和 Qwen。

當模型能力趨於收斂，一個更根本的問題浮出水面：如果大家的模型都差不多強，下一步到底在拼什麼？

答案已經很清楚了 — Agent。

大模型撞上的四面牆

agent-trend-four-walls

讓我把話說直白一點。大模型遇到了四個結構性的天花板，而且不是靠「再加更多參數」就能解決的。

第一面牆：Scaling Law 正在放緩。 過去幾年，學術界和產業界最堅定的信仰就是「模型越大越強」。但邊際效益遞減的鐵律終究追上來了。把參數量從 1 兆翻倍到 2 兆，帶來的能力提升遠不如從 100 億到 1000 億那麼驚人。

第二面牆：模型正在變得越來越像。 這是最被低估的趨勢。開源模型（DeepSeek、Qwen、Llama）和閉源模型的差距在快速縮小。Forbes 報導指出，2025 年中 OpenAI、Anthropic、Google 幾乎同時發布新模型，而 benchmark 差異只在個位數百分點。當你的核心產品可以被輕易替代，這就不是護城河。

第三面牆：知道不等於做到。 這面牆是最關鍵的。你問 GPT-5「如何部署一個 Kubernetes 叢集」，它能給你一份完美的教學。但它不能幫你真正部署。它沒辦法打開你的終端機、讀取你的設定檔、執行命令、處理報錯、然後重試。模型「知道」答案，但「完成」任務需要的是完全不同的能力。

第四面牆：推理成本太高。 越大的模型，每次推理的成本越高。企業不可能每個任務都用最強的模型。現實中需要的是一個「大腦」負責規劃，多個「手腳」負責執行 — 這恰恰是 Agent 架構的核心理念。

IBM 的分析一針見血地指出：「市場上所謂的 'Agent'，本質上就是在 LLM 上加了初級的規劃和工具呼叫能力。」 — 但就是這個「加法」，改變了整個產業的競爭邏輯。

從「AI 知道答案」到「AI 完成任務」

agent-trend-five-dimensions

ScienceDirect 的學術論文用了一個精準的描述來定義這場轉變：智能的焦點從「單一模型輸出」轉移到了「系統級行為」。

什麼意思？過去衡量 AI 強不強，我們看的是「模型能不能回答出正確答案」。現在衡量 AI 有不有用，我們看的是「系統能不能端到端地完成一件事」。

從 Copilot 到 Autopilot。從助手到同事。從回答問題到解決問題。

NVIDIA CEO 黃仁勳說得更直接：「我們的產業從工具的產業，變成了技能的產業。」

那 Agent 的「綜合能力」到底包含哪些維度？根據 Unstructured.io 的架構分析，一個 Agent 的核心能力可以拆解成五個維度：

感知（Perception） — Agent 不只處理文字。最先進的 Agent 使用多模態模型，能同時理解圖片、語音、結構化數據。它可以「看到」你的螢幕畫面、讀取你的代碼庫、瀏覽網頁。

推理（Reasoning） — 這是大模型的老本行，但在 Agent 架構中被重新定義了。不再是單次推理產出答案，而是 ReAct 循環：思考、行動、觀察結果、再思考。一個持續迭代的推理過程。

規劃（Planning） — 把「幫我重構這個專案」這種模糊目標，拆解成二十個具體步驟，決定執行順序，遇到障礙時動態調整路線。這是大模型單獨做不到的。

記憶（Memory） — 短期記憶處理當前對話，長期記憶記住你的偏好和專案脈絡，工作記憶維護任務執行的中間狀態。這也是目前最大的技術缺口 — Mem0 的分析指出，大多數框架仍然把 context window 和記憶混為一談。

工具使用（Tool Use） — 從簡單的 API 呼叫，到代碼執行、文件操作、瀏覽器控制。關鍵不在於「能不能呼叫工具」，而是「知道什麼時候該用哪個工具」。

這五個維度的「乘法效應」，才是 Agent 真正的戰場。模型能力是基礎，但只是五分之一。

三巨頭的 Agent 哲學之戰

agent-trend-three-giants

如果你只看模型 benchmark，OpenAI、Google、Anthropic 看起來差不多。但如果你看他們的 Agent 策略，會發現三家公司走上了完全不同的道路。

MindStudio 的深度分析把這個差異總結為三個關鍵字：可程式化基底、治理型企業規模、人機協作。

OpenAI：開發者的 Agent 工廠

OpenAI 的策略是提供底層積木，讓開發者自己組裝。Codex 是雲端編碼 Agent，可以同時派出多個 Agent 獨立處理不同任務。Agent SDK 提供標準化的建構工具。Operator 負責瀏覽器操作。

核心理念很明確：我不告訴你 Agent 該長什麼樣，我給你最好的零件，你自己造。這跟 OpenAI 一貫的 API-first 策略一脈相承。

Google：企業的 Agent 管家

Google 的路線完全不同。ADK（Agent Development Kit）整合進 GCP 生態，Vertex AI Agent Builder 提供企業級的多代理編排，加上治理鉤子、安全合規、審計日誌。

但 Google 最大的野心不在產品，而在協議。他們在 2025 年 4 月推出了 A2A（Agent-to-Agent）協議，並捐贈給 Linux Foundation。這是要定義 Agent 之間怎麼互相溝通的開放標準。如果說 Agent 是新時代的應用程式，A2A 就是 Google 想要制定的 HTTP。

Anthropic：安全可控的人機拍檔

Anthropic 的策略最獨特，也最有層次感。他們沒有一步到位推出「萬能 Agent 平台」，而是一層一層堆疊：

先推 MCP（Model Context Protocol） — 讓 Agent 能連接任何工具。再推 Skills — 讓 Agent 學會可重複的工作流程。然後是 Agent Teams — 多 Agent 協作。最近又推出 Channels — 讓 Agent 進入 Telegram 和 Discord 等通訊平台。

每一層都強調人類的監督和控制。Anthropic 的技術文件明確寫道：Agent 不只是有記憶的模型，它是一個被設計來「在世界中採取行動」的系統 — 而行動必須有邊界。

策略對比一覽

維度	OpenAI	Google	Anthropic
核心哲學	開發者平台	企業治理	安全協作
代表產品	Codex + Agent SDK	ADK + Vertex AI	Claude Code + MCP
協議策略	採用 MCP/A2A	主導 A2A	主導 MCP
目標用戶	開發者	企業 IT	開發者 + 進階用戶
護城河	用戶基數	雲端基礎設施	安全信任 + 協議生態

Agent 世界的 TCP/IP 正在成形

agent-trend-protocols

我個人認為，這場 Agent 競爭中最被低估的戰場，是協議標準。

回想網際網路的歷史。真正讓 Web 爆發的不是任何一個瀏覽器或伺服器，而是 HTTP、TCP/IP、HTML 這些開放標準。Agent 時代正在經歷同樣的時刻。

目前有兩個關鍵協議正在爭奪這個位置：

MCP（Model Context Protocol） — Anthropic 在 2024 年底發起，解決的是「Agent 怎麼連接工具」的問題。你可以把它想像成 Agent 世界的 USB 接口：開發者只要實作一次 MCP，就能讓自己的工具被任何支持 MCP 的 Agent 使用。

Pento 的回顧報導記錄了 MCP 的爆發式成長：從 Anthropic 內部實驗，到 2025 年 3 月 OpenAI 正式採用，再到捐贈 Linux Foundation 成立 Agentic AI Foundation。一年之內，從一家公司的內部協議變成了產業標準。

A2A（Agent-to-Agent） — Google 在 2025 年 4 月推出，解決的是「Agent 怎麼跟其他 Agent 合作」的問題。基於 JSON-RPC 2.0，使用 Agent Cards 描述各個 Agent 的能力。Microsoft 也宣布支持，與超過 50 家合作夥伴加入生態系。

這兩個協議不是競爭關係，而是互補。MCP 是「Agent 到工具」的連接層，A2A 是「Agent 到 Agent」的協作層。就像 HTTP 負責 Client-Server 通訊，而 DNS 負責名稱解析一樣。

OneReach.ai 的分析預測，到 2026 年，幾乎每個商業應用都會整合 AI 助手，而 MCP 和 A2A 將成為這些助手之間溝通的基礎設施。

為什麼這很重要？因為掌握協議標準的人，掌握的是生態系統的入口。就像 Google 掌握了搜尋，不是因為它的搜尋引擎最快，而是因為它定義了人們尋找資訊的方式。

冷水時間：Agent 還沒有你想像的那麼強

agent-trend-reality-gap

市場數據確實讓人興奮。Gartner 預測 2026 年底 40% 企業應用將嵌入 AI Agent，而 2025 年這個數字還不到 5%。McKinsey 估算 Agent 每年可創造 2.6 到 4.4 兆美元的經濟價值。整個 Agentic AI 市場以 46.3% 的年複合增長率飛速擴張。

但我必須潑一盆冷水。

TheAgentCompany 是一個專門測試 Agent 在真實工作任務中表現的基準測試。結果？最強的 Agent 也只能自主完成 30% 的任務。 七成的任務，它搞不定。

Google Cloud 在年終回顧中總結了 2025 年的三大主題：Agent 找到了工作、評估成為了架構的核心、信任成了最大瓶頸。

信任問題有多嚴重？想想看：你願意讓一個 AI Agent 自動回覆你的客戶郵件嗎？自動部署你的程式碼到 production？自動處理你的財務報表？

每一個「自動」都伴隨著風險。而目前的 Agent 技術在可預測性、可審計性、錯誤恢復能力上，離「可以放心交給它」還有很大一段距離。

ScienceDirect 的論文指出了一個更深層的問題：Agent 系統中的不確定性會「層層傳遞」— 工具呼叫的不確定性影響記憶操作的正確性，進而影響多代理互動的可靠性。這不是修個 bug 就能解決的，是架構層級的挑戰。

所以，清醒一點：Agent 時代確實來了，但距離「AI 同事」的願景，我們還在走第一步。

新護城河在哪裡

agent-trend-ecosystem

讓我把觀察整理成一張清晰的對比表：

維度	過去（拼模型）	現在（拼 Agent 系統）
核心指標	參數量、benchmark 分數	任務完成率、用戶生產力提升
護城河	訓練數據、算力規模	生態系統、協議標準、工具整合
商業模式	API 調用計費	SaaS 平台訂閱 + 按任務計費
用戶體驗	單次問答	持續工作流程
差異化來源	模型本身的能力	系統的綜合表現

新的護城河不是「我的模型比你大 10%」，而是：

第一，生態系統的網絡效應。 當你的 MCP 生態有一萬個工具連接器，開發者就不會輕易離開。這跟 App Store 的邏輯一模一樣。

第二，用戶數據的飛輪效應。 Agent 跟用戶互動越多，記憶越豐富，體驗越好，用戶越黏著。這是大模型做不到的。

第三，協議標準的鎖定效應。 MCP 和 A2A 的採用者越多，切換成本越高。先佔領標準的人，就像早年的 Google 佔領了搜尋入口。

對於正在關注這場變革的你，我的建議是：

如果你是開發者 — 現在就開始學習 Agent 架構思維。了解 MCP 和 A2A 協議。不要只會寫 prompt，要會設計系統。但也別急著把所有東西都改成 Agent — IBM 的建議很實在：很多問題不需要 Agent，一個好的 LLM 呼叫可能就夠了。

如果你是技術決策者 — 選平台的時候，優先考慮支持開放標準（MCP/A2A）的方案。不要被任何一家鎖定。從客服自動化、代碼開發、文件處理這些成熟場景開始，不要一步到位追求「全自主 Agent」。

如果你是投資者或觀察者 — 別再只看模型參數和 benchmark 排名了。看生態系統規模、工具整合數量、協議採用率、企業實際 deployment 數據。這些才是 Agent 時代真正的領先指標。

AI 的戰場已經轉移了。不是轉移到另一個更大的模型，而是轉移到一個更大的系統 — 一個能感知、能推理、能規劃、能記憶、能使用工具的系統。

大模型是 Agent 的引擎，但引擎從來不等於整台車。

而這場「造車」的競賽，才剛剛開始。

搜尋此網誌

BASHCAT