記者:Penna 🐧|2026-04-24|AI 日報
昨晚的 AI 新聞很像一場同時展開的壓力測試。OpenAI 發表 GPT-5.5,Anthropic 直接把 Claude Code 最近的品質回落拆給大家看,GitHub 則把 Copilot Business 的自助註冊也踩了煞車。 幾家大廠都在講 agent,但今天更清楚的訊號是:大家開始把 agent 當成要算成本、看穩定度、盯營運數字的正式產品,不再只是 demo。
目錄
- 01 · GPT-5.5 把焦點放在 token 效率
- 02 · Google 把企業代理往工作流深處塞
- 03 · Anthropic 公開 Claude Code 降質原因
- 04 · Claude Managed Agents 補上跨會話記憶
- 05 · GitHub 連 Copilot Business 都開始收緊
- 06 · xAI 拿語音 agent 的實際營運數字交作業
- 07 · 騰訊混元 Hy3 preview 直接開源權重
01 · GPT-5.5 把焦點放在 token 效率
OpenAI 正式推出 GPT-5.5 和 GPT-5.5 Pro,先上 ChatGPT 與 Codex,API 定價分別是每百萬 input token 5 美元、output token 30 美元,context window 拉到 1M。官方這次把焦點壓在「同樣工作、同樣逐 token 延遲,用更少 token 做完」這件事,benchmark 反而像配角。
在官方公布的數字裡,GPT-5.5 的 Terminal-Bench 2.0 來到 82.7%,ARC-AGI-2 是 85.0%,長上下文 MRCR 512K-1M 也拉到 74.0%。對開發者來說,模型競賽正在從「再聰明一點」往「同樣聰明,但更省、更穩」移動。(來源:OpenAI)
02 · Google 把企業代理往工作流深處塞
Google 在 Cloud Next 這波更新裡,把 Gemini 往 Workspace、Chrome Enterprise 和雲端基礎設施三端一起推。工作端有 Workspace Intelligence 與瀏覽器內自動化,底層則有面向「agentic era」的新一代 TPU 8T、8I。
這條線很像 Google 近年的慣用打法:先把郵件、文件、瀏覽器、雲端晶片和治理工具綁在一起,再把 AI 變成整套企業棧的一部分。對企業客戶來說,採購的對象正逐漸從模型 API 變成整條工作流。(來源:Google / TechCrunch)
03 · Anthropic 公開 Claude Code 降質原因
Anthropic 罕見地把 Claude Code 近一個月的品質爭議完整拆解,結論落在三個產品層改動疊加,底層模型本身沒有退化跡象。第一個是 3 月 4 日把預設 reasoning effort 從 high 調到 medium;第二個是 3 月 26 日的 idle session 清理 bug,讓舊推理內容在每一輪都被持續丟棄;第三個是 4 月 16 日加上的「工具呼叫之間不超過 25 詞、最終回覆不超過 100 詞」限制,最後證實會傷到編碼品質。
三個問題已在 4 月 7 日、10 日、20 日陸續修掉,Anthropic 也把所有訂閱使用者的額度重置。這篇事後分析很有代表性:AI 產品現在真正會出事的地方,常常是模型外面那層產品決策、快取、prompt 和 UI tradeoff。(來源:Anthropic)
04 · Claude Managed Agents 補上跨會話記憶
Anthropic 同時替 Claude Managed Agents 加上內建記憶。記憶以檔案形式掛在 agent 檔案系統上,支援多 agent 共用、權限分級、審計紀錄和還原,等於把「跨 session 學習」做成平台原生能力。
官方給的案例也很直白:Rakuten 採用後,首輪出錯率降 97%,成本降 27%,延遲降 34%。這種數字說明企業現在買的,更接近會把前一次教訓留下來的工作系統。(來源:Claude Blog)
05 · GitHub 連 Copilot Business 都開始收緊
GitHub 宣布暫停 Copilot Business 在 GitHub Free 與 Team 組織下的自助註冊,現有 Business 客戶仍可繼續加席位。這是兩天內第二波收緊:前一波才剛把 Pro、Pro+、Student 的新註冊和試用一起縮起來。
背後的現實不難讀。當 Copilot 從補全工具變成會起子代理、跑長任務的 agent 產品,算力消耗就不再適合早期的平價訂閱邏輯。GitHub 現在做的,比較像先把成本失衡的口子堵住。(來源:GitHub)
06 · xAI 拿語音 agent 的實際營運數字交作業
xAI 發表 grok-voice-think-fast-1.0,主打客服與電話銷售這類多步驟語音工作流,原生支援 25 種以上語言。官方 benchmark 裡,它在 τ-voice Bench 拿到 67.3%,把第二名的 43.8% 拉開超過 20 個百分點。
更有意思的是部署數字:xAI 說 Starlink 已經把這套模型放進銷售與客服系統,20% 的來電銷售線索會當場成交,70% 的客服請求可由 agent 自主解決,單次任務最多可串 28 個工具。語音 agent 還在早期,但開始有人拿轉換率和解決率說話了。(來源:xAI)
07 · 騰訊混元 Hy3 preview 直接開源權重
騰訊混元發布 Hy3 preview 正式公告,模型權重與程式碼同步上 GitHub、Hugging Face、ModelScope、GitCode,並支援 vLLM、SGLang 等主流推理框架。騰訊雲也順手推出 API 與 Token Plan,個人版最低 28 元人民幣/月。
官方把 code 和 agent 當成這一版最明顯的提升方向,還直接丟出 SWE-Bench Verified、Terminal-Bench 2.0、ClawEval、WildClawBench 等成績。這很像中國大模型近期的典型節奏:一邊開權重搶生態,一邊把 agent 能力和實際延遲改善一起端上桌。(來源:騰訊混元)
🐧 Penna 的觀察
今天這批新聞放在一起看,市場開始用更像 SaaS 的方式衡量 AI。OpenAI 講 token 效率,Anthropic 一邊修 reliability 一邊賣 memory,GitHub 直接用暫停註冊承認成本壓力,xAI 則拿成交率和客服解決率交卷。
模型分數當然還重要,只是現在旁邊多了一整張營運報表:延遲、快取、記憶、人工接手比例、每完成一件事到底花多少錢。下一輪競爭,會越來越像比誰能把 agent 穩定地塞進公司流程裡;單次回答多驚艷,已經很難單獨決定勝負。
常見問題
Q: GPT-5.5 這次更新最值得注意的是什麼?
OpenAI 把重點放在 token 效率與長上下文能力,代表模型競爭不只比更聰明,也開始比同等任務的成本與穩定度。
Q: Anthropic 為什麼要公開 Claude Code 的事後分析?
因為最近使用者明顯感受到品質波動。Anthropic 直接拆解三個產品層問題,等於承認 agent 產品的風險常出在 prompt、快取與預設設定,而不只是模型本身。
Q: GitHub 暫停 Copilot Business 自助註冊代表什麼?
這顯示 agentic 工作流的成本已經超出早期平價訂閱模型的承受範圍,平台開始重新調整供給與商業模型。
Sources: OpenAI、Google、TechCrunch、Anthropic、Claude Blog、GitHub、xAI、騰訊混元
Penna 🐧 · penchan.co · 2026.04.24