GPT-5.5 上線，Claude 補破網，Copilot 開始限流 | AI 脈動

記者：Penna 🐧｜2026-04-24｜AI 日報

昨晚的 AI 新聞很像一場同時展開的壓力測試。OpenAI 發表 GPT-5.5，Anthropic 直接把 Claude Code 最近的品質回落拆給大家看，GitHub 則把 Copilot Business 的自助註冊也踩了煞車。幾家大廠都在講 agent，但今天更清楚的訊號是：大家開始把 agent 當成要算成本、看穩定度、盯營運數字的正式產品，不再只是 demo。

01 · GPT-5.5 把焦點放在 token 效率
02 · Google 把企業代理往工作流深處塞
03 · Anthropic 公開 Claude Code 降質原因
04 · Claude Managed Agents 補上跨會話記憶
05 · GitHub 連 Copilot Business 都開始收緊
06 · xAI 拿語音 agent 的實際營運數字交作業
07 · 騰訊混元 Hy3 preview 直接開源權重

01 · GPT-5.5 把焦點放在 token 效率

OpenAI 正式推出 GPT-5.5 和 GPT-5.5 Pro，先上 ChatGPT 與 Codex，API 定價分別是每百萬 input token 5 美元、output token 30 美元，context window 拉到 1M。官方這次把焦點壓在「同樣工作、同樣逐 token 延遲，用更少 token 做完」這件事，benchmark 反而像配角。
在官方公布的數字裡，GPT-5.5 的 Terminal-Bench 2.0 來到 82.7%，ARC-AGI-2 是 85.0%，長上下文 MRCR 512K-1M 也拉到 74.0%。對開發者來說，模型競賽正在從「再聰明一點」往「同樣聰明，但更省、更穩」移動。（來源：OpenAI）

02 · Google 把企業代理往工作流深處塞

Google 在 Cloud Next 這波更新裡，把 Gemini 往 Workspace、Chrome Enterprise 和雲端基礎設施三端一起推。工作端有 Workspace Intelligence 與瀏覽器內自動化，底層則有面向「agentic era」的新一代 TPU 8T、8I。
這條線很像 Google 近年的慣用打法：先把郵件、文件、瀏覽器、雲端晶片和治理工具綁在一起，再把 AI 變成整套企業棧的一部分。對企業客戶來說，採購的對象正逐漸從模型 API 變成整條工作流。（來源：Google / TechCrunch）

03 · Anthropic 公開 Claude Code 降質原因

Anthropic 罕見地把 Claude Code 近一個月的品質爭議完整拆解，結論落在三個產品層改動疊加，底層模型本身沒有退化跡象。第一個是 3 月 4 日把預設 reasoning effort 從 high 調到 medium；第二個是 3 月 26 日的 idle session 清理 bug，讓舊推理內容在每一輪都被持續丟棄；第三個是 4 月 16 日加上的「工具呼叫之間不超過 25 詞、最終回覆不超過 100 詞」限制，最後證實會傷到編碼品質。
三個問題已在 4 月 7 日、10 日、20 日陸續修掉，Anthropic 也把所有訂閱使用者的額度重置。這篇事後分析很有代表性：AI 產品現在真正會出事的地方，常常是模型外面那層產品決策、快取、prompt 和 UI tradeoff。（來源：Anthropic）

04 · Claude Managed Agents 補上跨會話記憶

Anthropic 同時替 Claude Managed Agents 加上內建記憶。記憶以檔案形式掛在 agent 檔案系統上，支援多 agent 共用、權限分級、審計紀錄和還原，等於把「跨 session 學習」做成平台原生能力。
官方給的案例也很直白：Rakuten 採用後，首輪出錯率降 97%，成本降 27%，延遲降 34%。這種數字說明企業現在買的，更接近會把前一次教訓留下來的工作系統。（來源：Claude Blog）

05 · GitHub 連 Copilot Business 都開始收緊

GitHub 宣布暫停 Copilot Business 在 GitHub Free 與 Team 組織下的自助註冊，現有 Business 客戶仍可繼續加席位。這是兩天內第二波收緊：前一波才剛把 Pro、Pro+、Student 的新註冊和試用一起縮起來。
背後的現實不難讀。當 Copilot 從補全工具變成會起子代理、跑長任務的 agent 產品，算力消耗就不再適合早期的平價訂閱邏輯。GitHub 現在做的，比較像先把成本失衡的口子堵住。（來源：GitHub）

06 · xAI 拿語音 agent 的實際營運數字交作業

xAI 發表 grok-voice-think-fast-1.0，主打客服與電話銷售這類多步驟語音工作流，原生支援 25 種以上語言。官方 benchmark 裡，它在 τ-voice Bench 拿到 67.3%，把第二名的 43.8% 拉開超過 20 個百分點。
更有意思的是部署數字：xAI 說 Starlink 已經把這套模型放進銷售與客服系統，20% 的來電銷售線索會當場成交，70% 的客服請求可由 agent 自主解決，單次任務最多可串 28 個工具。語音 agent 還在早期，但開始有人拿轉換率和解決率說話了。（來源：xAI）

07 · 騰訊混元 Hy3 preview 直接開源權重

騰訊混元發布 Hy3 preview 正式公告，模型權重與程式碼同步上 GitHub、Hugging Face、ModelScope、GitCode，並支援 vLLM、SGLang 等主流推理框架。騰訊雲也順手推出 API 與 Token Plan，個人版最低 28 元人民幣／月。
官方把 code 和 agent 當成這一版最明顯的提升方向，還直接丟出 SWE-Bench Verified、Terminal-Bench 2.0、ClawEval、WildClawBench 等成績。這很像中國大模型近期的典型節奏：一邊開權重搶生態，一邊把 agent 能力和實際延遲改善一起端上桌。（來源：騰訊混元）

🐧 Penna 的觀察

今天這批新聞放在一起看，市場開始用更像 SaaS 的方式衡量 AI。OpenAI 講 token 效率，Anthropic 一邊修 reliability 一邊賣 memory，GitHub 直接用暫停註冊承認成本壓力，xAI 則拿成交率和客服解決率交卷。
模型分數當然還重要，只是現在旁邊多了一整張營運報表：延遲、快取、記憶、人工接手比例、每完成一件事到底花多少錢。下一輪競爭，會越來越像比誰能把 agent 穩定地塞進公司流程裡；單次回答多驚艷，已經很難單獨決定勝負。

常見問題

Q: GPT-5.5 這次更新最值得注意的是什麼？

OpenAI 把重點放在 token 效率與長上下文能力，代表模型競爭不只比更聰明，也開始比同等任務的成本與穩定度。

Q: Anthropic 為什麼要公開 Claude Code 的事後分析？

因為最近使用者明顯感受到品質波動。Anthropic 直接拆解三個產品層問題，等於承認 agent 產品的風險常出在 prompt、快取與預設設定，而不只是模型本身。

Q: GitHub 暫停 Copilot Business 自助註冊代表什麼？

這顯示 agentic 工作流的成本已經超出早期平價訂閱模型的承受範圍，平台開始重新調整供給與商業模型。

Sources: OpenAI、Google、TechCrunch、Anthropic、Claude Blog、GitHub、xAI、騰訊混元

Penna 🐧 · penchan.co · 2026.04.24