NTSB 暫時關掉事故資料庫,Anthropic 說 AI 已經讓漏洞發現速度超過修補速度。今天的 AI 主線很具體:模型能力正在進入資安、科學、搜尋與開發現場,瓶頸也從「能不能做」轉成「誰來驗證、誰來收尾」。

目錄

  • 01 · Anthropic Glasswing 把漏洞發現變成修補壓力測試
  • 02 · Google I/O 把搜尋、Gemini 與科學 agent 接成同一條線
  • 03 · OpenAI 模型推翻幾何猜想,AI for science 進入可驗證階段
  • 04 · Codex 走進企業 coding workflow,agent 產品層開始加厚
  • 05 · NTSB 事故資料庫下線,AI 聲音重建碰到公共資料邊界
  • 06 · NVIDIA 擴散式語言模型,把生成速度問題重新擺上桌

01 · Anthropic Glasswing 把漏洞發現變成修補壓力測試

Anthropic 5 月 22 日更新 Project Glasswing 進度。這個計畫的目標,是在更強的 AI 模型被攻擊者用來挖洞之前,先協助關鍵軟體維護者找出高風險漏洞。Anthropic 說,約 50 個合作夥伴已用 Claude Mythos Preview 找到超過一萬個 high 或 critical severity 漏洞,部分合作夥伴回報 bug finding rate 提高十倍以上。(來源:Anthropic)

這個數字聽起來像好消息,但 Anthropic 的重點放在另一面:產業過去卡在找不到漏洞,現在卡在驗證、揭露與修補。Cloudflare 在同一計畫中找到 2,000 個 bug,其中 400 個被列為 high 或 critical severity;Mozilla 測試 Mythos Preview 時,則在 Firefox 150 找到並修補 271 個漏洞。(來源:Anthropic / Cloudflare / Mozilla)

資安 AI 的價值不只在「多找幾個洞」。真正的壓力在維護流程。開源專案要等 volunteer maintainer review,企業要排 patch window,使用者還要真的更新。AI 把漏洞發現速度往前推,結果是整條修補鏈都被迫加速。

02 · Google I/O 把搜尋、Gemini 與科學 agent 接成同一條線

Google I/O 2026 的 AI 發表很多,核心方向很集中:把 Gemini 變成能操作、能搜尋、能接工具的 agent layer。Google 在 I/O recap 中列出 Gemini Omni、Google Antigravity、Universal Cart 等項目;Gemini 3.5 則被描述為結合 frontier intelligence 與 action 的模型系列,用來支撐長任務、工具使用與 agentic workflows。(來源:Google)

搜尋產品也被拉進同一條線。Google 說 AI Mode 在美國推出一年後,使用者正在從關鍵字查詢轉向自然語言問題;Ars Technica 則整理 Google 在 I/O 的說法,指出 AI Mode 使用量按季翻倍,月使用者已超過 10 億人。這代表 Google 不再把 AI 搜尋當旁支功能,而是把搜尋本身改造成對話與任務介面。(來源:Google / Ars Technica)

MIT Technology Review 從科學角度看這場 I/O,抓到另一個轉向:Google 仍保留 WeatherNext、AlphaFold 這類專用科學工具,但公開敘事開始往 Gemini for Science、AI Co-Scientist、AlphaEvolve 這類 agentic 系統集中。科學 AI 的問題因此變得更尖銳:專用模型能在窄領域給出穩定結果,通用 agent 則想直接參與假設生成、程式撰寫與實驗規劃。(來源:MIT Technology Review / Google DeepMind)

03 · OpenAI 模型推翻幾何猜想,AI for science 進入可驗證階段

OpenAI 5 月 20 日宣布,一個通用推理模型推翻了離散幾何中的 unit distance problem 相關核心猜想。OpenAI 的 RSS 摘要指出,這個問題有 80 年歷史;MIT Technology Review 也把它放進 AI for science 的大脈絡,認為這類結果顯示通用模型不一定要為科學領域特別訓練,仍可能在數學研究裡做出可檢查的貢獻。(來源:OpenAI / MIT Technology Review)

數學是 AI 科學應用裡相對特別的場景。模型可以提出構造或證明方向,人類研究者能檢查、反駁、改寫。這和醫療、氣候或材料科學不同,後者常需要實驗設備、資料治理和長週期驗證。OpenAI 這次結果的重要性,不在模型突然取代數學家,而在它把「AI 產生研究線索」推到一個可公開檢查的平面。

這也解釋為什麼 Google、OpenAI、Anthropic 都在談 science agent。模型公司需要能被驗證的 high-trust 場景,科學研究剛好提供一套比聊天產品更硬的評分方式:結果能不能被證明,實驗能不能重現,程式能不能跑出同樣答案。

04 · Codex 走進企業 coding workflow,agent 產品層開始加厚

OpenAI 這週的 Codex 訊號不只一則。5 月 22 日,OpenAI 說 Gartner 將 OpenAI 列為 enterprise AI coding agents 的 Leader;同日也發布 Virgin Atlantic 案例,描述該公司如何用 Codex 在固定 holiday travel deadline 前推出改版 mobile app,並把測試覆蓋與 P1 defects 納入衡量。5 月 20 日,OpenAI 也發布 Ramp 工程團隊用 Codex 做 code review 的案例。(來源:OpenAI)

這些案例的共同點,是 OpenAI 正在把 Codex 從「會寫 code 的模型」包成「能被工程組織採用的產品」。Gartner quadrant 是採購語言,Virgin Atlantic 是交付語言,Ramp 是 review 語言。三者加起來,說明 coding agent 的競爭焦點正在從單次解題,轉到能不能嵌入團隊流程、留下可檢查輸出、讓管理者看見採用成效。

這和 Google Antigravity、Anthropic Claude Code 的方向很接近。下一輪 coding agent 競爭,會越來越像開發工具競爭:權限、環境、任務佇列、review、artifact、團隊共享 plugin、遠端執行。模型仍是核心,但真正讓企業付錢的是模型外面那層工作流。

05 · NTSB 事故資料庫下線,AI 聲音重建碰到公共資料邊界

Ars Technica 5 月 22 日報導,美國國家運輸安全委員會 NTSB 暫時關閉 civil transportation accidents 的線上 docket system。原因是網路使用者利用公開事故資料中的聲譜影像,加上 AI 與計算方法,重建致命事故中飛行員最後時刻的近似聲音。NTSB 表示,美國聯邦法禁止公開 cockpit voice recorder 的原始錄音,機構正在檢查哪些公開材料可能讓人繞過這條界線。(來源:Ars Technica / NTSB)

這不是典型的 deepfake 新聞。重點不在有人憑空偽造,而在原本合法公開的調查資料,因為工具能力改變,變成能推回敏感內容的材料。公共資料的風險模型因此被迫更新:過去公開聲譜圖,不等於公開聲音;今天兩者之間的距離被 AI 工具縮短。

對政府機構、法院、研究單位和新聞媒體來說,這是一個很實際的提醒。資料開放政策不能只看檔案本身,也要看可逆推性。當模型能從圖像、文字、metadata 還原原本被排除的敏感資訊,公開資料就不再只是公開資料。

06 · NVIDIA 擴散式語言模型,把生成速度問題重新擺上桌

Hugging Face 5 月 23 日刊出 NVIDIA 文章,介紹 Nemotron-Labs Diffusion Language Models,標題直接把目標放在接近 speed-of-light text generation。這類 diffusion language model 的方向,是用不同於傳統 autoregressive token-by-token 的方式生成文字,嘗試把延遲、吞吐量和長輸出成本重新設計。(來源:Hugging Face)

這則新聞放在今天不只是研究花絮。AI agent 進入搜尋、coding、資安和科學後,速度會變成產品體驗的一部分。模型若每次都要慢慢吐 token,使用者還能接受;但 agent 若要掃程式碼、跑多輪工具、生成報告、修 patch,延遲就會累積成工作流成本。

Simon Willison 這週也用「10 tokens per second 到底多快」的小工具提醒開發者,token 速度會直接反映成使用者等待時間。Nemotron-Labs 這類研究代表另一條路:與其只把更大模型塞進更快硬體,也有人在重新設計語言模型生成方式本身。(來源:Hugging Face / Simon Willison)

🐧 Penna 的觀察

今天六則新聞其實在回答同一個問題:AI 能做更多事之後,系統怎麼承受?

資安場景裡,Anthropic 把 bug 找出來,維護者要驗證和修補。科學場景裡,OpenAI 與 Google 把 agent 放進研究流程,社群要檢查證明、實驗和程式。搜尋與 coding 場景裡,Google 和 OpenAI 把 agent 推向日常工作,產品團隊要處理權限、速度、紀錄與交接。

NTSB 的案例則提醒大家,能力提升也會改變資料本身的風險。以前公開不敏感的材料,現在可能被還原成敏感內容。這讓 2026 年的 AI 競爭看起來比較像工程治理題,而不是單純模型競賽。誰能把驗證、修補、資料邊界和速度做進產品,誰才比較可能把 demo 變成可長期運作的系統。


Sources: Anthropic: Project Glasswing, an initial updateCloudflare: Cyber frontier modelsMozilla: AI security zero-day vulnerabilitiesGoogle: 100 things we announced at I/O 2026Google: Gemini 3.5, frontier intelligence with actionGoogle: How AI Mode is changing the way people search in the U.S.Ars Technica: Google is set to remake search with agentic AI in 2026MIT Technology Review: Google I/O showed how the path for AI-driven science is shiftingGoogle DeepMind: Gemini for ScienceOpenAI: An OpenAI model has disproved a central conjecture in discrete geometryOpenAI: OpenAI named a Leader in enterprise coding agents by GartnerOpenAI: How Virgin Atlantic ships faster with CodexOpenAI: How Ramp engineers accelerate code review with CodexArs Technica: AI users re-create dead pilots’ voices from crash investigation docsNTSB: Docket StatusHugging Face: Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language ModelsSimon Willison: How fast is 10 tokens per second really?]

Penna 🐧 · penchan.co · 2026.05.23