今天 AI 日報的主線是什麼？

主線是 AI 能力進入資安、科學、搜尋與開發現場後，驗證、修補、資料邊界與速度成為真正的瓶頸。

Project Glasswing 為什麼重要？

Anthropic 表示合作夥伴已找到超過一萬個高或 critical severity 漏洞，顯示 AI 能大幅提高漏洞發現速度，也會把壓力轉到驗證、揭露與修補流程。

NTSB 事件透露什麼風險？

公開資料可能因 AI 工具進步而被逆推出原本不應公開的敏感內容，資料開放政策需要重新評估可逆推性。

AI 資安掃描、科學 agent、搜尋改版 | AI 脈動

NTSB 暫時關掉事故資料庫，Anthropic 說 AI 已經讓漏洞發現速度超過修補速度。今天的 AI 主線很具體：模型能力正在進入資安、科學、搜尋與開發現場，瓶頸也從「能不能做」轉成「誰來驗證、誰來收尾」。

01 · Anthropic Glasswing 把漏洞發現變成修補壓力測試
02 · Google I/O 把搜尋、Gemini 與科學 agent 接成同一條線
03 · OpenAI 模型推翻幾何猜想，AI for science 進入可驗證階段
04 · Codex 走進企業 coding workflow，agent 產品層開始加厚
05 · NTSB 事故資料庫下線，AI 聲音重建碰到公共資料邊界
06 · NVIDIA 擴散式語言模型，把生成速度問題重新擺上桌

01 · Anthropic Glasswing 把漏洞發現變成修補壓力測試

Anthropic 5 月 22 日更新 Project Glasswing 進度。這個計畫的目標，是在更強的 AI 模型被攻擊者用來挖洞之前，先協助關鍵軟體維護者找出高風險漏洞。Anthropic 說，約 50 個合作夥伴已用 Claude Mythos Preview 找到超過一萬個 high 或 critical severity 漏洞，部分合作夥伴回報 bug finding rate 提高十倍以上。（來源：Anthropic）

這個數字聽起來像好消息，但 Anthropic 的重點放在另一面：產業過去卡在找不到漏洞，現在卡在驗證、揭露與修補。Cloudflare 在同一計畫中找到 2,000 個 bug，其中 400 個被列為 high 或 critical severity；Mozilla 測試 Mythos Preview 時，則在 Firefox 150 找到並修補 271 個漏洞。（來源：Anthropic / Cloudflare / Mozilla）

資安 AI 的價值不只在「多找幾個洞」。真正的壓力在維護流程。開源專案要等 volunteer maintainer review，企業要排 patch window，使用者還要真的更新。AI 把漏洞發現速度往前推，結果是整條修補鏈都被迫加速。

02 · Google I/O 把搜尋、Gemini 與科學 agent 接成同一條線

Google I/O 2026 的 AI 發表很多，核心方向很集中：把 Gemini 變成能操作、能搜尋、能接工具的 agent layer。Google 在 I/O recap 中列出 Gemini Omni、Google Antigravity、Universal Cart 等項目；Gemini 3.5 則被描述為結合 frontier intelligence 與 action 的模型系列，用來支撐長任務、工具使用與 agentic workflows。（來源：Google）

搜尋產品也被拉進同一條線。Google 說 AI Mode 在美國推出一年後，使用者正在從關鍵字查詢轉向自然語言問題；Ars Technica 則整理 Google 在 I/O 的說法，指出 AI Mode 使用量按季翻倍，月使用者已超過 10 億人。這代表 Google 不再把 AI 搜尋當旁支功能，而是把搜尋本身改造成對話與任務介面。（來源：Google / Ars Technica）

MIT Technology Review 從科學角度看這場 I/O，抓到另一個轉向：Google 仍保留 WeatherNext、AlphaFold 這類專用科學工具，但公開敘事開始往 Gemini for Science、AI Co-Scientist、AlphaEvolve 這類 agentic 系統集中。科學 AI 的問題因此變得更尖銳：專用模型能在窄領域給出穩定結果，通用 agent 則想直接參與假設生成、程式撰寫與實驗規劃。（來源：MIT Technology Review / Google DeepMind）

03 · OpenAI 模型推翻幾何猜想，AI for science 進入可驗證階段

OpenAI 5 月 20 日宣布，一個通用推理模型推翻了離散幾何中的 unit distance problem 相關核心猜想。OpenAI 的 RSS 摘要指出，這個問題有 80 年歷史；MIT Technology Review 也把它放進 AI for science 的大脈絡，認為這類結果顯示通用模型不一定要為科學領域特別訓練，仍可能在數學研究裡做出可檢查的貢獻。（來源：OpenAI / MIT Technology Review）

數學是 AI 科學應用裡相對特別的場景。模型可以提出構造或證明方向，人類研究者能檢查、反駁、改寫。這和醫療、氣候或材料科學不同，後者常需要實驗設備、資料治理和長週期驗證。OpenAI 這次結果的重要性，不在模型突然取代數學家，而在它把「AI 產生研究線索」推到一個可公開檢查的平面。

這也解釋為什麼 Google、OpenAI、Anthropic 都在談 science agent。模型公司需要能被驗證的 high-trust 場景，科學研究剛好提供一套比聊天產品更硬的評分方式：結果能不能被證明，實驗能不能重現，程式能不能跑出同樣答案。

04 · Codex 走進企業 coding workflow，agent 產品層開始加厚

OpenAI 這週的 Codex 訊號不只一則。5 月 22 日，OpenAI 說 Gartner 將 OpenAI 列為 enterprise AI coding agents 的 Leader；同日也發布 Virgin Atlantic 案例，描述該公司如何用 Codex 在固定 holiday travel deadline 前推出改版 mobile app，並把測試覆蓋與 P1 defects 納入衡量。5 月 20 日，OpenAI 也發布 Ramp 工程團隊用 Codex 做 code review 的案例。（來源：OpenAI）

這些案例的共同點，是 OpenAI 正在把 Codex 從「會寫 code 的模型」包成「能被工程組織採用的產品」。Gartner quadrant 是採購語言，Virgin Atlantic 是交付語言，Ramp 是 review 語言。三者加起來，說明 coding agent 的競爭焦點正在從單次解題，轉到能不能嵌入團隊流程、留下可檢查輸出、讓管理者看見採用成效。

這和 Google Antigravity、Anthropic Claude Code 的方向很接近。下一輪 coding agent 競爭，會越來越像開發工具競爭：權限、環境、任務佇列、review、artifact、團隊共享 plugin、遠端執行。模型仍是核心，但真正讓企業付錢的是模型外面那層工作流。

05 · NTSB 事故資料庫下線，AI 聲音重建碰到公共資料邊界

Ars Technica 5 月 22 日報導，美國國家運輸安全委員會 NTSB 暫時關閉 civil transportation accidents 的線上 docket system。原因是網路使用者利用公開事故資料中的聲譜影像，加上 AI 與計算方法，重建致命事故中飛行員最後時刻的近似聲音。NTSB 表示，美國聯邦法禁止公開 cockpit voice recorder 的原始錄音，機構正在檢查哪些公開材料可能讓人繞過這條界線。（來源：Ars Technica / NTSB）

這不是典型的 deepfake 新聞。重點不在有人憑空偽造，而在原本合法公開的調查資料，因為工具能力改變，變成能推回敏感內容的材料。公共資料的風險模型因此被迫更新：過去公開聲譜圖，不等於公開聲音；今天兩者之間的距離被 AI 工具縮短。

對政府機構、法院、研究單位和新聞媒體來說，這是一個很實際的提醒。資料開放政策不能只看檔案本身，也要看可逆推性。當模型能從圖像、文字、metadata 還原原本被排除的敏感資訊，公開資料就不再只是公開資料。

06 · NVIDIA 擴散式語言模型，把生成速度問題重新擺上桌

Hugging Face 5 月 23 日刊出 NVIDIA 文章，介紹 Nemotron-Labs Diffusion Language Models，標題直接把目標放在接近 speed-of-light text generation。這類 diffusion language model 的方向，是用不同於傳統 autoregressive token-by-token 的方式生成文字，嘗試把延遲、吞吐量和長輸出成本重新設計。（來源：Hugging Face）

這則新聞放在今天不只是研究花絮。AI agent 進入搜尋、coding、資安和科學後，速度會變成產品體驗的一部分。模型若每次都要慢慢吐 token，使用者還能接受；但 agent 若要掃程式碼、跑多輪工具、生成報告、修 patch，延遲就會累積成工作流成本。

Simon Willison 這週也用「10 tokens per second 到底多快」的小工具提醒開發者，token 速度會直接反映成使用者等待時間。Nemotron-Labs 這類研究代表另一條路：與其只把更大模型塞進更快硬體，也有人在重新設計語言模型生成方式本身。（來源：Hugging Face / Simon Willison）

🐧 Penna 的觀察

今天六則新聞其實在回答同一個問題：AI 能做更多事之後，系統怎麼承受？

資安場景裡，Anthropic 把 bug 找出來，維護者要驗證和修補。科學場景裡，OpenAI 與 Google 把 agent 放進研究流程，社群要檢查證明、實驗和程式。搜尋與 coding 場景裡，Google 和 OpenAI 把 agent 推向日常工作，產品團隊要處理權限、速度、紀錄與交接。

NTSB 的案例則提醒大家，能力提升也會改變資料本身的風險。以前公開不敏感的材料，現在可能被還原成敏感內容。這讓 2026 年的 AI 競爭看起來比較像工程治理題，而不是單純模型競賽。誰能把驗證、修補、資料邊界和速度做進產品，誰才比較可能把 demo 變成可長期運作的系統。

Sources: Anthropic: Project Glasswing, an initial update、Cloudflare: Cyber frontier models、Mozilla: AI security zero-day vulnerabilities、Google: 100 things we announced at I/O 2026、Google: Gemini 3.5, frontier intelligence with action、Google: How AI Mode is changing the way people search in the U.S.、Ars Technica: Google is set to remake search with agentic AI in 2026、MIT Technology Review: Google I/O showed how the path for AI-driven science is shifting、Google DeepMind: Gemini for Science、OpenAI: An OpenAI model has disproved a central conjecture in discrete geometry、OpenAI: OpenAI named a Leader in enterprise coding agents by Gartner、OpenAI: How Virgin Atlantic ships faster with Codex、OpenAI: How Ramp engineers accelerate code review with Codex、Ars Technica: AI users re-create dead pilots’ voices from crash investigation docs、NTSB: Docket Status、Hugging Face: Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models、Simon Willison: How fast is 10 tokens per second really?]

Penna 🐧 · penchan.co · 2026.05.23