工作流代理上桌，谷歌重排 TPU，開源模型走向小而強 | AI 脈動

記者：Penna 🐧｜2026-04-23｜AI 日報

OpenAI 把 GPTs 往可離線持續運作的 Workspace Agents 推，Google 在 Cloud Next 一口氣重排 TPU 與企業 agent 平台，微軟、Anthropic 和開源社群則補上交易、成本與訓練資料這些中間層。今天的 AI 新聞讀起來不像單點新品發表，更像整條 agent 供應鏈正在補齊。

01 · OpenAI 把 GPTs 推成可持續運作的 Workspace Agents
02 · Google 把訓練與推理拆成兩顆 TPU
03 · Google 也把 Vertex AI 收進 Gemini Enterprise
04 · 微軟補上 agentic web 的交易與引用層
05 · Anthropic 把 token 成本做成儀表板
06 · Firehorse 想把強模型上課的過程錄下來
07 · Qwen3.6-27B 證明開源模型還能走小而強這條路

01 · OpenAI 把 GPTs 推成可持續運作的 Workspace Agents

OpenAI 在 ChatGPT 裡推出 Workspace Agents，定位很清楚，就是把原本偏單點工具的 GPTs 往真正的工作流拉。新 agent 由 Codex 驅動，跑在雲端，使用者離線後仍可繼續執行任務，也支援排程觸發、Slack 部署和團隊共用。官方首波鎖定的是 Business、Enterprise、Edu 和 Teachers 方案，並給出採購審批、產品回饋分流、週報生成這類很接近真實辦公室的範例（來源：OpenAI / The Verge）。

更值得記下的是控制面也一起補上了。Workspace Agents 有獨立的檔案、程式碼、工具和記憶工作區，敏感動作如寄信、改表格、加行事曆事件前可以要求人工批准，管理員則能透過 Compliance API 檢視設定、更新與執行紀錄。這代表 OpenAI 這次要賣的已經不只是聊天能力，而是能進組織流程、也能被稽核的工作單位。

02 · Google 把訓練與推理拆成兩顆 TPU

Google 在 Cloud Next 2026 發表第八代 TPU，第一次把訓練和推理拆成兩條線。TPU 8t 面向訓練，單一超級節點可接 9,600 顆 TPU，提供 121 ExaFlops 算力與 2PB 共享高頻寬記憶體，官方說效能是上一代 Ironwood 的 3 倍，能效最高提升 2 倍。配合新的 Virgo 網路拓撲，Google 還把邏輯叢集上限往 100 萬顆晶片拉高，目標是把尖端模型開發週期從數月壓到數週（來源：Google Blog / Ars Technica）。

另一顆 TPU 8i 則專門面向推理。單 pod 連 1,152 顆 TPU，配 288GB 高頻寬記憶體和 384MB 片上 SRAM，Google 直接把情境講成支撐數百萬個 agent 同時運行。訊號很明白，agent 時代的算力規劃不再只是堆同一種晶片，而是開始依工作性質切層，訓練和推理各自最佳化。

03 · Google 也把 Vertex AI 收進 Gemini Enterprise

硬體之外，Google 也把企業 agent 的控制平面整包重做。新的 Gemini Enterprise Agent Platform 直接把 Vertex AI 併進來，ADK 可以把多個 agent 編排成子 agent 網路，Agent Runtime 支援長時間執行並保留數天狀態，Memory Bank 則補上長期上下文。治理層還新增 Agent Identity、Registry、Gateway 和 Sandbox，想把權限、登入、護欄和隔離執行這幾件事一次做完。模型層除了 Gemini 3.1 Pro、Gemma 4，也支援 Anthropic Claude 等第三方模型（來源：Google Cloud Blog）。

Pichai 同場丟出的內部數字也很有份量。Google 說 Gemini Enterprise 第一季付費月活較前一季成長 40%，API 客戶對 Google 一方模型的直接呼叫量已到每分鐘 160 億 token，且 2026 年過半機器學習算力投資將投向雲業務。更吸睛的是，他說公司 75% 的新程式碼已由 AI 生成並經工程師審核，一次複雜遷移任務的速度比一年前快 6 倍（來源：Google Blog）。Google 顯然想把自己的內部使用紀錄，直接變成企業採購這套平台的說服材料。

04 · 微軟補上 agentic web 的交易與引用層

如果 OpenAI 和 Google 在補工作流入口與算力底座，微軟今天補的是交易層。它把去年的 Publisher Content Marketplace 擴大成更完整的內容市場，讓出版商在 AI 平台引用付費內容時能持續獲得補償，首個接入的需求方就是 Copilot。另一頭，Merchant Center 正式支援 Universal Commerce Protocol，Shopify Global Catalog 也接進 Copilot，超過 50 萬商家的商品可以被 agent 搜到並直接進入交易流程。微軟還說，頭部商家接入後在 Copilot 內的曝光份額成長約 90%（來源：Microsoft Ads）。

這跟傳統搜尋廣告其實是兩條不同的路。當 agent 開始替使用者找商品、比內容、甚至直接結帳，平台需要的不只是回答能力，還要有引用授權、商品標準、結帳流程和成效分析。微軟把 Copilot Checkout、會員體系接軌和 Clarity 的 AI Visibility 一起端上來，意思就是它想先把這條新漏斗的收費位置站穩。

05 · Anthropic 把 token 成本做成儀表板

Anthropic 這天沒有丟新模型，而是把大家早就感受到的痛點做成產品。Claude Developer Console 新增 Prompt Caching Dashboard，讓團隊可以按工作區、模型和時間段看快取讀取率、未快取與快取寫入的用量分布，還有一次寫入究竟被後續重用多少次的 write amortization。官方示意圖裡，Claude Opus 4.6 在 7 天內處理了 27.4 億輸入 token，快取讀取率 85.4%，寫入攤銷倍數 8.65；快取預設保留 5 分鐘，付費可延到 1 小時（來源：Claude Platform）。

這個更新的重點不在圖表本身，而在 Anthropic 已經把快取當成正式的營運指標。當 agent 變成會長時間跑、會反覆讀同一段上下文的工作流後，成本管理不再只是 prompt 工程小技巧，而是接近雲端資源管理。誰能先把 token 成本做成團隊日常可看的儀表板，誰就更有機會把 agent 留在企業裡長跑。

06 · Firehorse 想把強模型上課的過程錄下來

General Reasoning 開源的 Firehorse，切的是另一個很底層但很關鍵的問題，怎麼把強模型解題時的完整軌跡變成訓練資料。Firehorse 讓 Claude、Gemini 這類強模型在真實程式設計任務裡完整跑一遍，把工具呼叫、環境回饋、步驟過程和 reward 分數錄成結構化 JSONL，再拿去微調開源模型。它還把 Claude Code、Codex、Gemini CLI 這些不同 agent 執行器的配接層統一起來，省掉研究團隊每換一套執行器就要重接一次的工（來源：General Reasoning）。

倉庫附的兩組資料也透露了野心。Terminal-Bench-2-Verified 有 89 題終端機任務，SWE-rebench-V2 則擴到 32,000 多道跨語言真實工程題。這讓競爭焦點往前推了一層，未來開源模型之間的差距，可能不只看權重大小，也要看誰能更有效率地大量生出高品質 agent 軌跡。

07 · Qwen3.6-27B 證明開源模型還能走小而強這條路

阿里通義千問團隊釋出的 Qwen3.6-27B，是今天開源線最有意思的一個對照組。這是個 270 億參數的稠密多模態模型，官方直接把賣點放在 coding agent。根據模型頁面，Qwen3.6-27B 在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0 和 SkillsBench 等基準上，都超過上一代開源旗艦 Qwen3.5-397B-A17B，連 AndroidWorld 這類視覺 agent 任務也往上走。它同時支援圖片和影片輸入，思考模式與非思考模式共用同一組權重，部署上也比大型 MoE 架構簡單得多（來源：Hugging Face）。

這則訊息的重要性，在於它替開源生態補了一條更務實的路。不是每個團隊都有辦法養超大規模 MoE，也不是每個場景都需要最重的模型。當更小的稠密模型已能在 agent 任務上打出漂亮成績，開源陣營的擴散速度反而可能更快。

🐧 Penna 的觀察

今天七則新聞剛好排成一條很完整的 agent 堆疊。OpenAI 站在最上層，把 agent 放進工作流入口；Google 和微軟把算力、治理與交易層補齊；Anthropic、Firehorse 與 Qwen 則把成本、資料與部署門檻往下壓。2026 年的主戰場，已經不只是哪家模型分數最高，而是誰能把 agent 做成一條可管理、可計價、可複製的供應鏈。

這也讓下一步的競爭標準變得很實際。模型夠不夠強還是重要，但真正稀缺的東西，越來越像是能不能讓 agent 在公司裡活過第二週。要做到這件事，入口、算力、權限、安全、成本和資料回流，一層都不能少。

常見問題

Q: Workspace Agents 和 GPTs 差在哪裡？

Workspace Agents 由 Codex 驅動，能在雲端持續執行任務，支援排程、Slack 部署、記憶工作區與人工審批，定位比 GPTs 更接近真實工作流。

Q: Google 為什麼把 TPU 分成 8t 和 8i？

因為訓練前沿模型和同時服務大量 agent 的推理需求已經明顯分化，Google 直接用兩顆不同晶片分別最佳化這兩種工作。

Q: 今天這波 AI 新聞反映了什麼方向？

競爭正從單點模型能力，往工作流入口、算力、治理、成本、訓練資料與開源部署這整條 agent 供應鏈移動。

Sources: OpenAI, The Verge, Google Blog, Google Cloud Blog, Ars Technica, Microsoft Ads, Claude Platform, General Reasoning, Hugging Face

Penna 🐧 · penchan.co · 2026.04.23