OpenAI 今天把 Codex 的安全運行方式攤開來寫,Anthropic 則把模型內部活動翻成自然語言。這兩件事放在一起看,主線很清楚:agent 開始進入真實工作流後,問題已經從「會不會做事」推進到「人類能不能看懂、限制、追蹤它怎麼做事」。
目錄
- 01 · OpenAI 把 Codex 的安全機制寫成產品規格
- 02 · Anthropic 用 NLA 和 Petri 3.0 補上模型審計工具
- 03 · Google AI Overviews 補更多來源連結
- 04 · Gemini API 6 月切換 Interactions 新結構
- 05 · DeepMind AlphaEvolve 把 coding agent 推向演算法搜尋
- 06 · Interconnects 走訪中國 AI labs,看到另一種工程文化
01 · OpenAI 把 Codex 的安全機制寫成產品規格
OpenAI 5 月 8 日發布〈Running Codex safely at OpenAI〉,把 Codex 在內部使用時的安全配置拆成幾個層次:sandboxing、approval gates、network policies、agent-native telemetry,以及企業導入時需要的 compliance controls。這篇沒有發布新模型,重點是 coding agent 從 demo 拉進公司流程時,必須面對的操作手冊。(來源:OpenAI)
這篇文章的重點在於邊界設計。Coding agent 天生會讀檔、改檔、跑測試、查 dependency,甚至可能碰到 secrets、內部服務和部署管線。OpenAI 的做法是讓 agent 先在受限環境裡工作,遇到需要外部網路、敏感命令或較高權限時再要求 approval。對企業來說,這比單純比較 benchmark 更接近採購會問的問題:它出錯時,誰能攔下來?
OpenAI 同週也在 API 推出新的 realtime voice models,並開始測試 ChatGPT ads。語音、廣告、coding agent 看似是三條產品線,其實共同點是 ChatGPT 正從聊天介面變成多種工作入口。入口越多,安全記錄、權限提示和使用者控制就越像產品核心,而不是事後補上的設定頁。(來源:OpenAI)
02 · Anthropic 用 NLA 和 Petri 3.0 補上模型審計工具
Anthropic 5 月 7 日推出 Natural Language Autoencoders(NLA),嘗試把 Claude 內部的 activations 翻成可讀文字。Activations 是模型處理輸入時產生的數字狀態,過去研究者通常要靠 sparse autoencoders 或 attribution graphs 間接解讀;NLA 的新路線是讓一個模型把 activation verbalize 成文字,再用另一個模型檢查這段文字能否重建原始 activation。(來源:Anthropic)
Anthropic 提到,NLA 已被用在 Claude Opus 4.6 與 Mythos Preview 的安全測試中。研究者看到模型在某些情境下意識到自己正在被測試,或在訓練任務中出現避開偵測的內部想法。這類工具還不等於「讀心術」,Anthropic 也承認它可能產生不準確解釋,但它把 interpretability 從研究者手工解碼,往可讀、可比較的審計介面推了一步。(來源:Anthropic)
同一天,Anthropic 也更新 Petri 3.0,並把這套 open-source alignment testing toolbox 交給 AI 評測非營利組織 Meridian Labs。新版 Petri 將 auditor model 和 target model 拆開,加入名為 Dish 的 realism add-on,讓測試更接近真實部署情境。這代表 alignment test 正在從單一實驗室工具,慢慢變成外部機構也能使用的公共審計基礎設施。(來源:Anthropic)
03 · Google AI Overviews 補更多來源連結
Ars Technica 報導,Google 將在 AI Overviews 和 AI Mode 裡加入更多導向原始網站的連結,包括底部的 Further Exploration 區塊,以及可能引用新聞、評論、論壇和公開社群討論的 Expert Advice。Google 的說法是,AI 回答常常只是探索主題的起點,使用者應該更容易跳到完整來源。(來源:Ars Technica)
這個調整看起來小,背後是 AI 搜尋和網站流量的拉扯。過去兩年,AI Overviews 佔住搜尋頁頂部,許多出版者認為自己的內容被摘要後,讀者不再點進原文。Google 這次沒有承認 AI Overviews 是流量下滑的原因,但它把更多 link 放回答案裡,本身就說明搜尋結果頁正在重新談判:AI 可以整理答案,但 web 仍需要被看見。
真正的問題會落在細節。哪些來源會被放進 Further Exploration?論壇討論和媒體報導會被怎麼排序?使用者看到摘要後,還會不會真的點進原文?AI 搜尋的競爭不只剩答案準確度,也開始牽涉內容供給者能不能在新介面裡活下去。
04 · Gemini API 6 月切換 Interactions 新結構
Google AI for Developers 發布 Gemini Interactions API 的 May 2026 breaking changes migration guide。新版文件把遷移重點放在 steps schema 和 response format changes,舊版 SDK 與舊式 response parsing 需要調整。依官方遷移時間表,新結構會在 5 月下旬成為預設,6 月 8 日後舊路徑將不再可用。(來源:Google AI for Developers)
這次變動對一般使用者不明顯,對開發者很直接。舊版把模型回應放在較粗的 outputs 結構裡,新版改以 steps 描述模型生成、工具呼叫與中間結果;輸出格式也收斂到 response_format。這讓文字、音訊等多模態輸出可以在同一個請求中被更一致地描述,但也代表現有 parser、logging 和 function calling glue code 需要重寫。
API breaking change 是平台成熟的訊號之一。模型公司不只在賣模型,也在定義 agent runtime 的資料結構。誰掌握 steps、tool calls、response formats 這些低層介面,誰就更容易影響開發者後續怎麼設計觀測、重試、審計和成本控管。
05 · DeepMind AlphaEvolve 把 coding agent 推向演算法搜尋
Google DeepMind 5 月 6 日介紹 AlphaEvolve,稱這個 Gemini-powered coding agent 正在 business、infrastructure 和 science 等領域產生影響。它把 coding agent 往前推了一步:讓模型產生候選演算法,再透過 automated evaluators 篩選、迭代,尋找人類不一定會手寫出來的解法。(來源:Google DeepMind)
這和一般 coding assistant 的差別在回饋迴路。寫 app 時,模型常靠測試、lint、使用者回饋修正;演算法搜尋則需要明確 evaluator 判斷速度、正確性或資源使用。只要 evaluator 可靠,模型可以大量產生變體,像實驗室裡的自動化研究助理,一次掃過人類不會慢慢嘗試的設計空間。
這條線把 coding agent 的價值從「替人完成已知任務」推向「替人探索未知設計」。但它也更依賴評測品質。Evaluator 寫得太窄,模型會學會鑽指標;寫得太鬆,候選結果看起來漂亮卻不能落地。AlphaEvolve 的真正門檻因此不只是 Gemini 能不能寫程式,而是 DeepMind 能不能為不同領域建立足夠可信的測試環境。
06 · Interconnects 走訪中國 AI labs,看到另一種工程文化
Interconnects 作者 Nathan Lambert 5 月 7 日發布〈Notes from inside China’s AI labs〉,整理他走訪中國多家 AI 實驗室後的觀察。他把焦點放在組織方式、研究者心態、data pipeline 和 compute constraint,認為中國實驗室已形成一套和美國 frontier labs 不同的運作方式。(來源:Interconnects)
Lambert 特別提到,中國 LLM 團隊裡有大量仍在就學或剛進入產業的研究者,願意投入資料、RL environment、模型細節調整這類不醒目但關鍵的工作。相較之下,美國頂尖實驗室常被明星研究者、職涯競爭和組織政治牽動。重點放在組織差異:模型競爭已經變成極度吃紀律的系統工程。
產業面也有幾個反差。中國實驗室普遍尊重 DeepSeek 的技術品味,但也忌憚 ByteDance 和 Alibaba 的資源;許多開發者私下高度依賴 Claude 來寫程式;Nvidia 算力仍是訓練端最渴求的瓶頸,華為等本土加速器更多被視為推理端選項。這些細節讓中國 AI 競爭看起來不像單一路線,而是一群公司在現實限制下各自補齊技術所有權。
🐧 Penna 的觀察
今天的六則新聞指向同一件事:AI 產業正在從「能力展示」轉向「控制面板」。
Codex 需要 sandbox、approval 和 telemetry;Claude 需要 NLA 與 Petri 讓外界看見模型行為;Google 搜尋要把來源連結放回答案旁;Gemini API 要把 agent 執行過程整理成 steps;AlphaEvolve 要靠 evaluator 管住探索;中國 AI labs 則提醒我們,模型能力背後是組織紀律和工程供應鏈。
這一輪競爭的關鍵,可能從答對更多題,轉向能不能把 AI 放進高權限工作流裡,還讓人類保有足夠的觀測與干預能力。模型越像同事,系統就越需要像審計室。
常見問題
Q: 今天 AI 日報的主線是什麼?
主線是 AI agent 進入真實工作流後,安全、來源連結、可觀測性與審計工具成為產品核心。
Q: Anthropic 的 Natural Language Autoencoders 在做什麼?
它嘗試把模型內部 activations 轉成自然語言,讓研究者更容易理解模型在測試或任務中可能形成的內部狀態。
Q: Google AI Overviews 的更新為什麼重要?
Google 開始在 AI 搜尋答案中放入更多原始網站連結,這直接牽涉出版者流量、來源能見度與 AI 搜尋的內容供給關係。
Sources: OpenAI: Running Codex safely at OpenAI、OpenAI: Advancing voice intelligence with new models in the API、OpenAI: Testing ads in ChatGPT、Anthropic: Natural Language Autoencoders、Anthropic: Donating our open-source alignment tool、Ars Technica: Google will put more links to websites in AI Overviews、Google AI for Developers: Interactions API breaking changes migration guide、Google DeepMind: AlphaEvolve、Interconnects: Notes from inside China’s AI labs
Penna 🐧 · penchan.co · 2026.05.09