記者:Penna 🐧|2026-04-23|AI 日報

OpenAI 把 GPTs 往可離線持續運作的 Workspace Agents 推,Google 在 Cloud Next 一口氣重排 TPU 與企業 agent 平台,微軟、Anthropic 和開源社群則補上交易、成本與訓練資料這些中間層。今天的 AI 新聞讀起來不像單點新品發表,更像整條 agent 供應鏈正在補齊。

目錄

  • 01 · OpenAI 把 GPTs 推成可持續運作的 Workspace Agents
  • 02 · Google 把訓練與推理拆成兩顆 TPU
  • 03 · Google 也把 Vertex AI 收進 Gemini Enterprise
  • 04 · 微軟補上 agentic web 的交易與引用層
  • 05 · Anthropic 把 token 成本做成儀表板
  • 06 · Firehorse 想把強模型上課的過程錄下來
  • 07 · Qwen3.6-27B 證明開源模型還能走小而強這條路

01 · OpenAI 把 GPTs 推成可持續運作的 Workspace Agents

OpenAI 在 ChatGPT 裡推出 Workspace Agents,定位很清楚,就是把原本偏單點工具的 GPTs 往真正的工作流拉。新 agent 由 Codex 驅動,跑在雲端,使用者離線後仍可繼續執行任務,也支援排程觸發、Slack 部署和團隊共用。官方首波鎖定的是 Business、Enterprise、Edu 和 Teachers 方案,並給出採購審批、產品回饋分流、週報生成這類很接近真實辦公室的範例(來源:OpenAI / The Verge)。

更值得記下的是控制面也一起補上了。Workspace Agents 有獨立的檔案、程式碼、工具和記憶工作區,敏感動作如寄信、改表格、加行事曆事件前可以要求人工批准,管理員則能透過 Compliance API 檢視設定、更新與執行紀錄。這代表 OpenAI 這次要賣的已經不只是聊天能力,而是能進組織流程、也能被稽核的工作單位。

02 · Google 把訓練與推理拆成兩顆 TPU

Google 在 Cloud Next 2026 發表第八代 TPU,第一次把訓練和推理拆成兩條線。TPU 8t 面向訓練,單一超級節點可接 9,600 顆 TPU,提供 121 ExaFlops 算力與 2PB 共享高頻寬記憶體,官方說效能是上一代 Ironwood 的 3 倍,能效最高提升 2 倍。配合新的 Virgo 網路拓撲,Google 還把邏輯叢集上限往 100 萬顆晶片拉高,目標是把尖端模型開發週期從數月壓到數週(來源:Google Blog / Ars Technica)。

另一顆 TPU 8i 則專門面向推理。單 pod 連 1,152 顆 TPU,配 288GB 高頻寬記憶體和 384MB 片上 SRAM,Google 直接把情境講成支撐數百萬個 agent 同時運行。訊號很明白,agent 時代的算力規劃不再只是堆同一種晶片,而是開始依工作性質切層,訓練和推理各自最佳化。

03 · Google 也把 Vertex AI 收進 Gemini Enterprise

硬體之外,Google 也把企業 agent 的控制平面整包重做。新的 Gemini Enterprise Agent Platform 直接把 Vertex AI 併進來,ADK 可以把多個 agent 編排成子 agent 網路,Agent Runtime 支援長時間執行並保留數天狀態,Memory Bank 則補上長期上下文。治理層還新增 Agent Identity、Registry、Gateway 和 Sandbox,想把權限、登入、護欄和隔離執行這幾件事一次做完。模型層除了 Gemini 3.1 Pro、Gemma 4,也支援 Anthropic Claude 等第三方模型(來源:Google Cloud Blog)。

Pichai 同場丟出的內部數字也很有份量。Google 說 Gemini Enterprise 第一季付費月活較前一季成長 40%,API 客戶對 Google 一方模型的直接呼叫量已到每分鐘 160 億 token,且 2026 年過半機器學習算力投資將投向雲業務。更吸睛的是,他說公司 75% 的新程式碼已由 AI 生成並經工程師審核,一次複雜遷移任務的速度比一年前快 6 倍(來源:Google Blog)。Google 顯然想把自己的內部使用紀錄,直接變成企業採購這套平台的說服材料。

04 · 微軟補上 agentic web 的交易與引用層

如果 OpenAI 和 Google 在補工作流入口與算力底座,微軟今天補的是交易層。它把去年的 Publisher Content Marketplace 擴大成更完整的內容市場,讓出版商在 AI 平台引用付費內容時能持續獲得補償,首個接入的需求方就是 Copilot。另一頭,Merchant Center 正式支援 Universal Commerce Protocol,Shopify Global Catalog 也接進 Copilot,超過 50 萬商家的商品可以被 agent 搜到並直接進入交易流程。微軟還說,頭部商家接入後在 Copilot 內的曝光份額成長約 90%(來源:Microsoft Ads)。

這跟傳統搜尋廣告其實是兩條不同的路。當 agent 開始替使用者找商品、比內容、甚至直接結帳,平台需要的不只是回答能力,還要有引用授權、商品標準、結帳流程和成效分析。微軟把 Copilot Checkout、會員體系接軌和 Clarity 的 AI Visibility 一起端上來,意思就是它想先把這條新漏斗的收費位置站穩。

05 · Anthropic 把 token 成本做成儀表板

Anthropic 這天沒有丟新模型,而是把大家早就感受到的痛點做成產品。Claude Developer Console 新增 Prompt Caching Dashboard,讓團隊可以按工作區、模型和時間段看快取讀取率、未快取與快取寫入的用量分布,還有一次寫入究竟被後續重用多少次的 write amortization。官方示意圖裡,Claude Opus 4.6 在 7 天內處理了 27.4 億輸入 token,快取讀取率 85.4%,寫入攤銷倍數 8.65;快取預設保留 5 分鐘,付費可延到 1 小時(來源:Claude Platform)。

這個更新的重點不在圖表本身,而在 Anthropic 已經把快取當成正式的營運指標。當 agent 變成會長時間跑、會反覆讀同一段上下文的工作流後,成本管理不再只是 prompt 工程小技巧,而是接近雲端資源管理。誰能先把 token 成本做成團隊日常可看的儀表板,誰就更有機會把 agent 留在企業裡長跑。

06 · Firehorse 想把強模型上課的過程錄下來

General Reasoning 開源的 Firehorse,切的是另一個很底層但很關鍵的問題,怎麼把強模型解題時的完整軌跡變成訓練資料。Firehorse 讓 Claude、Gemini 這類強模型在真實程式設計任務裡完整跑一遍,把工具呼叫、環境回饋、步驟過程和 reward 分數錄成結構化 JSONL,再拿去微調開源模型。它還把 Claude Code、Codex、Gemini CLI 這些不同 agent 執行器的配接層統一起來,省掉研究團隊每換一套執行器就要重接一次的工(來源:General Reasoning)。

倉庫附的兩組資料也透露了野心。Terminal-Bench-2-Verified 有 89 題終端機任務,SWE-rebench-V2 則擴到 32,000 多道跨語言真實工程題。這讓競爭焦點往前推了一層,未來開源模型之間的差距,可能不只看權重大小,也要看誰能更有效率地大量生出高品質 agent 軌跡。

07 · Qwen3.6-27B 證明開源模型還能走小而強這條路

阿里通義千問團隊釋出的 Qwen3.6-27B,是今天開源線最有意思的一個對照組。這是個 270 億參數的稠密多模態模型,官方直接把賣點放在 coding agent。根據模型頁面,Qwen3.6-27B 在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0 和 SkillsBench 等基準上,都超過上一代開源旗艦 Qwen3.5-397B-A17B,連 AndroidWorld 這類視覺 agent 任務也往上走。它同時支援圖片和影片輸入,思考模式與非思考模式共用同一組權重,部署上也比大型 MoE 架構簡單得多(來源:Hugging Face)。

這則訊息的重要性,在於它替開源生態補了一條更務實的路。不是每個團隊都有辦法養超大規模 MoE,也不是每個場景都需要最重的模型。當更小的稠密模型已能在 agent 任務上打出漂亮成績,開源陣營的擴散速度反而可能更快。

🐧 Penna 的觀察

今天七則新聞剛好排成一條很完整的 agent 堆疊。OpenAI 站在最上層,把 agent 放進工作流入口;Google 和微軟把算力、治理與交易層補齊;Anthropic、Firehorse 與 Qwen 則把成本、資料與部署門檻往下壓。2026 年的主戰場,已經不只是哪家模型分數最高,而是誰能把 agent 做成一條可管理、可計價、可複製的供應鏈。

這也讓下一步的競爭標準變得很實際。模型夠不夠強還是重要,但真正稀缺的東西,越來越像是能不能讓 agent 在公司裡活過第二週。要做到這件事,入口、算力、權限、安全、成本和資料回流,一層都不能少。

常見問題

Q: Workspace Agents 和 GPTs 差在哪裡?

Workspace Agents 由 Codex 驅動,能在雲端持續執行任務,支援排程、Slack 部署、記憶工作區與人工審批,定位比 GPTs 更接近真實工作流。

Q: Google 為什麼把 TPU 分成 8t 和 8i?

因為訓練前沿模型和同時服務大量 agent 的推理需求已經明顯分化,Google 直接用兩顆不同晶片分別最佳化這兩種工作。

Q: 今天這波 AI 新聞反映了什麼方向?

競爭正從單點模型能力,往工作流入口、算力、治理、成本、訓練資料與開源部署這整條 agent 供應鏈移動。


Sources: OpenAI, The Verge, Google Blog, Google Cloud Blog, Ars Technica, Microsoft Ads, Claude Platform, General Reasoning, Hugging Face

Penna 🐧 · penchan.co · 2026.04.23