當大模型不再是護城河:AI Agent 如何重新定義 AI 競爭

當大模型不再是護城河:AI Agent 如何重新定義 AI 競爭

agent-trend-cover

你可能還記得 2023 年那段瘋狂的日子。每隔幾週就有一個新模型「屠榜」,參數量從幾百億飆到幾千億,每個人都在問:下一個 GPT 會有多大?訓練要用多少張 H100?

但你有沒有注意到,2025 年之後,這種興奮感消失了?

不是因為技術停滯。恰恰相反 — 模型變得太好了,好到彼此之間幾乎分不出差別。GPT-5、Claude 4.6、Gemini 2.5,你拿同一個問題去問,得到的答案品質越來越接近。更有意思的是,根據 OpenRouter 的用戶使用數據,OpenAI 的模型在整體使用量上已經排到第五,落後於 Google、Anthropic、DeepSeek 和 Qwen。

當模型能力趨於收斂,一個更根本的問題浮出水面:如果大家的模型都差不多強,下一步到底在拼什麼?

答案已經很清楚了 — Agent。


大模型撞上的四面牆

agent-trend-four-walls

讓我把話說直白一點。大模型遇到了四個結構性的天花板,而且不是靠「再加更多參數」就能解決的。

第一面牆:Scaling Law 正在放緩。 過去幾年,學術界和產業界最堅定的信仰就是「模型越大越強」。但邊際效益遞減的鐵律終究追上來了。把參數量從 1 兆翻倍到 2 兆,帶來的能力提升遠不如從 100 億到 1000 億那麼驚人。

第二面牆:模型正在變得越來越像。 這是最被低估的趨勢。開源模型(DeepSeek、Qwen、Llama)和閉源模型的差距在快速縮小。Forbes 報導指出,2025 年中 OpenAI、Anthropic、Google 幾乎同時發布新模型,而 benchmark 差異只在個位數百分點。當你的核心產品可以被輕易替代,這就不是護城河。

第三面牆:知道不等於做到。 這面牆是最關鍵的。你問 GPT-5「如何部署一個 Kubernetes 叢集」,它能給你一份完美的教學。但它不能幫你真正部署。它沒辦法打開你的終端機、讀取你的設定檔、執行命令、處理報錯、然後重試。模型「知道」答案,但「完成」任務需要的是完全不同的能力。

第四面牆:推理成本太高。 越大的模型,每次推理的成本越高。企業不可能每個任務都用最強的模型。現實中需要的是一個「大腦」負責規劃,多個「手腳」負責執行 — 這恰恰是 Agent 架構的核心理念。

IBM 的分析一針見血地指出:「市場上所謂的 'Agent',本質上就是在 LLM 上加了初級的規劃和工具呼叫能力。」 — 但就是這個「加法」,改變了整個產業的競爭邏輯。


從「AI 知道答案」到「AI 完成任務」

agent-trend-five-dimensions

ScienceDirect 的學術論文用了一個精準的描述來定義這場轉變:智能的焦點從「單一模型輸出」轉移到了「系統級行為」。

什麼意思?過去衡量 AI 強不強,我們看的是「模型能不能回答出正確答案」。現在衡量 AI 有不有用,我們看的是「系統能不能端到端地完成一件事」。

從 Copilot 到 Autopilot。從助手到同事。從回答問題到解決問題。

NVIDIA CEO 黃仁勳說得更直接:「我們的產業從工具的產業,變成了技能的產業。」

那 Agent 的「綜合能力」到底包含哪些維度?根據 Unstructured.io 的架構分析,一個 Agent 的核心能力可以拆解成五個維度:

感知(Perception) — Agent 不只處理文字。最先進的 Agent 使用多模態模型,能同時理解圖片、語音、結構化數據。它可以「看到」你的螢幕畫面、讀取你的代碼庫、瀏覽網頁。

推理(Reasoning) — 這是大模型的老本行,但在 Agent 架構中被重新定義了。不再是單次推理產出答案,而是 ReAct 循環:思考、行動、觀察結果、再思考。一個持續迭代的推理過程。

規劃(Planning) — 把「幫我重構這個專案」這種模糊目標,拆解成二十個具體步驟,決定執行順序,遇到障礙時動態調整路線。這是大模型單獨做不到的。

記憶(Memory) — 短期記憶處理當前對話,長期記憶記住你的偏好和專案脈絡,工作記憶維護任務執行的中間狀態。這也是目前最大的技術缺口 — Mem0 的分析指出,大多數框架仍然把 context window 和記憶混為一談。

工具使用(Tool Use) — 從簡單的 API 呼叫,到代碼執行、文件操作、瀏覽器控制。關鍵不在於「能不能呼叫工具」,而是「知道什麼時候該用哪個工具」。

這五個維度的「乘法效應」,才是 Agent 真正的戰場。模型能力是基礎,但只是五分之一。


三巨頭的 Agent 哲學之戰

agent-trend-three-giants

如果你只看模型 benchmark,OpenAI、Google、Anthropic 看起來差不多。但如果你看他們的 Agent 策略,會發現三家公司走上了完全不同的道路。

MindStudio 的深度分析把這個差異總結為三個關鍵字:可程式化基底、治理型企業規模、人機協作。

OpenAI:開發者的 Agent 工廠

OpenAI 的策略是提供底層積木,讓開發者自己組裝。Codex 是雲端編碼 Agent,可以同時派出多個 Agent 獨立處理不同任務。Agent SDK 提供標準化的建構工具。Operator 負責瀏覽器操作。

核心理念很明確:我不告訴你 Agent 該長什麼樣,我給你最好的零件,你自己造。這跟 OpenAI 一貫的 API-first 策略一脈相承。

Google:企業的 Agent 管家

Google 的路線完全不同。ADK(Agent Development Kit)整合進 GCP 生態,Vertex AI Agent Builder 提供企業級的多代理編排,加上治理鉤子、安全合規、審計日誌。

但 Google 最大的野心不在產品,而在協議。他們在 2025 年 4 月推出了 A2A(Agent-to-Agent)協議,並捐贈給 Linux Foundation。這是要定義 Agent 之間怎麼互相溝通的開放標準。如果說 Agent 是新時代的應用程式,A2A 就是 Google 想要制定的 HTTP。

Anthropic:安全可控的人機拍檔

Anthropic 的策略最獨特,也最有層次感。他們沒有一步到位推出「萬能 Agent 平台」,而是一層一層堆疊:

先推 MCP(Model Context Protocol) — 讓 Agent 能連接任何工具。再推 Skills — 讓 Agent 學會可重複的工作流程。然後是 Agent Teams — 多 Agent 協作。最近又推出 Channels — 讓 Agent 進入 Telegram 和 Discord 等通訊平台。

每一層都強調人類的監督和控制。Anthropic 的技術文件明確寫道:Agent 不只是有記憶的模型,它是一個被設計來「在世界中採取行動」的系統 — 而行動必須有邊界。

策略對比一覽

維度 OpenAI Google Anthropic
核心哲學 開發者平台 企業治理 安全協作
代表產品 Codex + Agent SDK ADK + Vertex AI Claude Code + MCP
協議策略 採用 MCP/A2A 主導 A2A 主導 MCP
目標用戶 開發者 企業 IT 開發者 + 進階用戶
護城河 用戶基數 雲端基礎設施 安全信任 + 協議生態

Agent 世界的 TCP/IP 正在成形

agent-trend-protocols

我個人認為,這場 Agent 競爭中最被低估的戰場,是協議標準。

回想網際網路的歷史。真正讓 Web 爆發的不是任何一個瀏覽器或伺服器,而是 HTTP、TCP/IP、HTML 這些開放標準。Agent 時代正在經歷同樣的時刻。

目前有兩個關鍵協議正在爭奪這個位置:

MCP(Model Context Protocol) — Anthropic 在 2024 年底發起,解決的是「Agent 怎麼連接工具」的問題。你可以把它想像成 Agent 世界的 USB 接口:開發者只要實作一次 MCP,就能讓自己的工具被任何支持 MCP 的 Agent 使用。

Pento 的回顧報導記錄了 MCP 的爆發式成長:從 Anthropic 內部實驗,到 2025 年 3 月 OpenAI 正式採用,再到捐贈 Linux Foundation 成立 Agentic AI Foundation。一年之內,從一家公司的內部協議變成了產業標準。

A2A(Agent-to-Agent) — Google 在 2025 年 4 月推出,解決的是「Agent 怎麼跟其他 Agent 合作」的問題。基於 JSON-RPC 2.0,使用 Agent Cards 描述各個 Agent 的能力。Microsoft 也宣布支持,與超過 50 家合作夥伴加入生態系。

這兩個協議不是競爭關係,而是互補。MCP 是「Agent 到工具」的連接層,A2A 是「Agent 到 Agent」的協作層。就像 HTTP 負責 Client-Server 通訊,而 DNS 負責名稱解析一樣。

OneReach.ai 的分析預測,到 2026 年,幾乎每個商業應用都會整合 AI 助手,而 MCP 和 A2A 將成為這些助手之間溝通的基礎設施。

為什麼這很重要?因為掌握協議標準的人,掌握的是生態系統的入口。就像 Google 掌握了搜尋,不是因為它的搜尋引擎最快,而是因為它定義了人們尋找資訊的方式。


冷水時間:Agent 還沒有你想像的那麼強

agent-trend-reality-gap

市場數據確實讓人興奮。Gartner 預測 2026 年底 40% 企業應用將嵌入 AI Agent,而 2025 年這個數字還不到 5%。McKinsey 估算 Agent 每年可創造 2.6 到 4.4 兆美元的經濟價值。整個 Agentic AI 市場以 46.3% 的年複合增長率飛速擴張。

但我必須潑一盆冷水。

TheAgentCompany 是一個專門測試 Agent 在真實工作任務中表現的基準測試。結果?最強的 Agent 也只能自主完成 30% 的任務。 七成的任務,它搞不定。

Google Cloud 在年終回顧中總結了 2025 年的三大主題:Agent 找到了工作、評估成為了架構的核心、信任成了最大瓶頸

信任問題有多嚴重?想想看:你願意讓一個 AI Agent 自動回覆你的客戶郵件嗎?自動部署你的程式碼到 production?自動處理你的財務報表?

每一個「自動」都伴隨著風險。而目前的 Agent 技術在可預測性、可審計性、錯誤恢復能力上,離「可以放心交給它」還有很大一段距離。

ScienceDirect 的論文指出了一個更深層的問題:Agent 系統中的不確定性會「層層傳遞」— 工具呼叫的不確定性影響記憶操作的正確性,進而影響多代理互動的可靠性。這不是修個 bug 就能解決的,是架構層級的挑戰。

所以,清醒一點:Agent 時代確實來了,但距離「AI 同事」的願景,我們還在走第一步。


新護城河在哪裡

agent-trend-ecosystem

讓我把觀察整理成一張清晰的對比表:

維度 過去(拼模型) 現在(拼 Agent 系統)
核心指標 參數量、benchmark 分數 任務完成率、用戶生產力提升
護城河 訓練數據、算力規模 生態系統、協議標準、工具整合
商業模式 API 調用計費 SaaS 平台訂閱 + 按任務計費
用戶體驗 單次問答 持續工作流程
差異化來源 模型本身的能力 系統的綜合表現

新的護城河不是「我的模型比你大 10%」,而是:

第一,生態系統的網絡效應。 當你的 MCP 生態有一萬個工具連接器,開發者就不會輕易離開。這跟 App Store 的邏輯一模一樣。

第二,用戶數據的飛輪效應。 Agent 跟用戶互動越多,記憶越豐富,體驗越好,用戶越黏著。這是大模型做不到的。

第三,協議標準的鎖定效應。 MCP 和 A2A 的採用者越多,切換成本越高。先佔領標準的人,就像早年的 Google 佔領了搜尋入口。

對於正在關注這場變革的你,我的建議是:

如果你是開發者 — 現在就開始學習 Agent 架構思維。了解 MCP 和 A2A 協議。不要只會寫 prompt,要會設計系統。但也別急著把所有東西都改成 Agent — IBM 的建議很實在:很多問題不需要 Agent,一個好的 LLM 呼叫可能就夠了。

如果你是技術決策者 — 選平台的時候,優先考慮支持開放標準(MCP/A2A)的方案。不要被任何一家鎖定。從客服自動化、代碼開發、文件處理這些成熟場景開始,不要一步到位追求「全自主 Agent」。

如果你是投資者或觀察者 — 別再只看模型參數和 benchmark 排名了。看生態系統規模、工具整合數量、協議採用率、企業實際 deployment 數據。這些才是 Agent 時代真正的領先指標。


AI 的戰場已經轉移了。不是轉移到另一個更大的模型,而是轉移到一個更大的系統 — 一個能感知、能推理、能規劃、能記憶、能使用工具的系統。

大模型是 Agent 的引擎,但引擎從來不等於整台車。

而這場「造車」的競賽,才剛剛開始。


延伸閱讀


本文最初發布於 HackMD @BASHCAT

留言

這個網誌中的熱門文章

Arduino 課本可能沒教的事(1)

SI4432 搭配Arduino

燒錄 Arduino mini Pro 燒錄