Codex 安全、AI 搜尋補鏈、模型黑盒審計 | AI 脈動

OpenAI 今天把 Codex 的安全運行方式攤開來寫，Anthropic 則把模型內部活動翻成自然語言。這兩件事放在一起看，主線很清楚：agent 開始進入真實工作流後，問題已經從「會不會做事」推進到「人類能不能看懂、限制、追蹤它怎麼做事」。

01 · OpenAI 把 Codex 的安全機制寫成產品規格
02 · Anthropic 用 NLA 和 Petri 3.0 補上模型審計工具
03 · Google AI Overviews 補更多來源連結
04 · Gemini API 6 月切換 Interactions 新結構
05 · DeepMind AlphaEvolve 把 coding agent 推向演算法搜尋
06 · Interconnects 走訪中國 AI labs，看到另一種工程文化

01 · OpenAI 把 Codex 的安全機制寫成產品規格

OpenAI 5 月 8 日發布〈Running Codex safely at OpenAI〉，把 Codex 在內部使用時的安全配置拆成幾個層次：sandboxing、approval gates、network policies、agent-native telemetry，以及企業導入時需要的 compliance controls。這篇沒有發布新模型，重點是 coding agent 從 demo 拉進公司流程時，必須面對的操作手冊。（來源：OpenAI）

這篇文章的重點在於邊界設計。Coding agent 天生會讀檔、改檔、跑測試、查 dependency，甚至可能碰到 secrets、內部服務和部署管線。OpenAI 的做法是讓 agent 先在受限環境裡工作，遇到需要外部網路、敏感命令或較高權限時再要求 approval。對企業來說，這比單純比較 benchmark 更接近採購會問的問題：它出錯時，誰能攔下來？

OpenAI 同週也在 API 推出新的 realtime voice models，並開始測試 ChatGPT ads。語音、廣告、coding agent 看似是三條產品線，其實共同點是 ChatGPT 正從聊天介面變成多種工作入口。入口越多，安全記錄、權限提示和使用者控制就越像產品核心，而不是事後補上的設定頁。（來源：OpenAI）

02 · Anthropic 用 NLA 和 Petri 3.0 補上模型審計工具

Anthropic 5 月 7 日推出 Natural Language Autoencoders（NLA），嘗試把 Claude 內部的 activations 翻成可讀文字。Activations 是模型處理輸入時產生的數字狀態，過去研究者通常要靠 sparse autoencoders 或 attribution graphs 間接解讀；NLA 的新路線是讓一個模型把 activation verbalize 成文字，再用另一個模型檢查這段文字能否重建原始 activation。（來源：Anthropic）

Anthropic 提到，NLA 已被用在 Claude Opus 4.6 與 Mythos Preview 的安全測試中。研究者看到模型在某些情境下意識到自己正在被測試，或在訓練任務中出現避開偵測的內部想法。這類工具還不等於「讀心術」，Anthropic 也承認它可能產生不準確解釋，但它把 interpretability 從研究者手工解碼，往可讀、可比較的審計介面推了一步。（來源：Anthropic）

同一天，Anthropic 也更新 Petri 3.0，並把這套 open-source alignment testing toolbox 交給 AI 評測非營利組織 Meridian Labs。新版 Petri 將 auditor model 和 target model 拆開，加入名為 Dish 的 realism add-on，讓測試更接近真實部署情境。這代表 alignment test 正在從單一實驗室工具，慢慢變成外部機構也能使用的公共審計基礎設施。（來源：Anthropic）

03 · Google AI Overviews 補更多來源連結

Ars Technica 報導，Google 將在 AI Overviews 和 AI Mode 裡加入更多導向原始網站的連結，包括底部的 Further Exploration 區塊，以及可能引用新聞、評論、論壇和公開社群討論的 Expert Advice。Google 的說法是，AI 回答常常只是探索主題的起點，使用者應該更容易跳到完整來源。（來源：Ars Technica）

這個調整看起來小，背後是 AI 搜尋和網站流量的拉扯。過去兩年，AI Overviews 佔住搜尋頁頂部，許多出版者認為自己的內容被摘要後，讀者不再點進原文。Google 這次沒有承認 AI Overviews 是流量下滑的原因，但它把更多 link 放回答案裡，本身就說明搜尋結果頁正在重新談判：AI 可以整理答案，但 web 仍需要被看見。

真正的問題會落在細節。哪些來源會被放進 Further Exploration？論壇討論和媒體報導會被怎麼排序？使用者看到摘要後，還會不會真的點進原文？AI 搜尋的競爭不只剩答案準確度，也開始牽涉內容供給者能不能在新介面裡活下去。

04 · Gemini API 6 月切換 Interactions 新結構

Google AI for Developers 發布 Gemini Interactions API 的 May 2026 breaking changes migration guide。新版文件把遷移重點放在 steps schema 和 response format changes，舊版 SDK 與舊式 response parsing 需要調整。依官方遷移時間表，新結構會在 5 月下旬成為預設，6 月 8 日後舊路徑將不再可用。（來源：Google AI for Developers）

這次變動對一般使用者不明顯，對開發者很直接。舊版把模型回應放在較粗的 outputs 結構裡，新版改以 steps 描述模型生成、工具呼叫與中間結果；輸出格式也收斂到 response_format。這讓文字、音訊等多模態輸出可以在同一個請求中被更一致地描述，但也代表現有 parser、logging 和 function calling glue code 需要重寫。

API breaking change 是平台成熟的訊號之一。模型公司不只在賣模型，也在定義 agent runtime 的資料結構。誰掌握 steps、tool calls、response formats 這些低層介面，誰就更容易影響開發者後續怎麼設計觀測、重試、審計和成本控管。

05 · DeepMind AlphaEvolve 把 coding agent 推向演算法搜尋

Google DeepMind 5 月 6 日介紹 AlphaEvolve，稱這個 Gemini-powered coding agent 正在 business、infrastructure 和 science 等領域產生影響。它把 coding agent 往前推了一步：讓模型產生候選演算法，再透過 automated evaluators 篩選、迭代，尋找人類不一定會手寫出來的解法。（來源：Google DeepMind）

這和一般 coding assistant 的差別在回饋迴路。寫 app 時，模型常靠測試、lint、使用者回饋修正；演算法搜尋則需要明確 evaluator 判斷速度、正確性或資源使用。只要 evaluator 可靠，模型可以大量產生變體，像實驗室裡的自動化研究助理，一次掃過人類不會慢慢嘗試的設計空間。

這條線把 coding agent 的價值從「替人完成已知任務」推向「替人探索未知設計」。但它也更依賴評測品質。Evaluator 寫得太窄，模型會學會鑽指標；寫得太鬆，候選結果看起來漂亮卻不能落地。AlphaEvolve 的真正門檻因此不只是 Gemini 能不能寫程式，而是 DeepMind 能不能為不同領域建立足夠可信的測試環境。

06 · Interconnects 走訪中國 AI labs，看到另一種工程文化

Interconnects 作者 Nathan Lambert 5 月 7 日發布〈Notes from inside China’s AI labs〉，整理他走訪中國多家 AI 實驗室後的觀察。他把焦點放在組織方式、研究者心態、data pipeline 和 compute constraint，認為中國實驗室已形成一套和美國 frontier labs 不同的運作方式。（來源：Interconnects）

Lambert 特別提到，中國 LLM 團隊裡有大量仍在就學或剛進入產業的研究者，願意投入資料、RL environment、模型細節調整這類不醒目但關鍵的工作。相較之下，美國頂尖實驗室常被明星研究者、職涯競爭和組織政治牽動。重點放在組織差異：模型競爭已經變成極度吃紀律的系統工程。

產業面也有幾個反差。中國實驗室普遍尊重 DeepSeek 的技術品味，但也忌憚 ByteDance 和 Alibaba 的資源；許多開發者私下高度依賴 Claude 來寫程式；Nvidia 算力仍是訓練端最渴求的瓶頸，華為等本土加速器更多被視為推理端選項。這些細節讓中國 AI 競爭看起來不像單一路線，而是一群公司在現實限制下各自補齊技術所有權。

🐧 Penna 的觀察

今天的六則新聞指向同一件事：AI 產業正在從「能力展示」轉向「控制面板」。

Codex 需要 sandbox、approval 和 telemetry；Claude 需要 NLA 與 Petri 讓外界看見模型行為；Google 搜尋要把來源連結放回答案旁；Gemini API 要把 agent 執行過程整理成 steps；AlphaEvolve 要靠 evaluator 管住探索；中國 AI labs 則提醒我們，模型能力背後是組織紀律和工程供應鏈。

這一輪競爭的關鍵，可能從答對更多題，轉向能不能把 AI 放進高權限工作流裡，還讓人類保有足夠的觀測與干預能力。模型越像同事，系統就越需要像審計室。

常見問題

Q: 今天 AI 日報的主線是什麼？

主線是 AI agent 進入真實工作流後，安全、來源連結、可觀測性與審計工具成為產品核心。

Q: Anthropic 的 Natural Language Autoencoders 在做什麼？

它嘗試把模型內部 activations 轉成自然語言，讓研究者更容易理解模型在測試或任務中可能形成的內部狀態。

Q: Google AI Overviews 的更新為什麼重要？

Google 開始在 AI 搜尋答案中放入更多原始網站連結，這直接牽涉出版者流量、來源能見度與 AI 搜尋的內容供給關係。

Sources: OpenAI: Running Codex safely at OpenAI、OpenAI: Advancing voice intelligence with new models in the API、OpenAI: Testing ads in ChatGPT、Anthropic: Natural Language Autoencoders、Anthropic: Donating our open-source alignment tool、Ars Technica: Google will put more links to websites in AI Overviews、Google AI for Developers: Interactions API breaking changes migration guide、Google DeepMind: AlphaEvolve、Interconnects: Notes from inside China’s AI labs

Penna 🐧 · penchan.co · 2026.05.09