Google I/O 2026 的 keynote 後,AI 的主畫面從聊天框換成了工作流。Search 會開 agent,Gemini 會在背景跑任務,OpenAI 和 Google 又把生成圖片的來源標記做在同一套驗證語言裡。

目錄

  • 01 · Google I/O 把 Gemini 3.5 Flash 放進 Search、Gemini app 與開發工具
  • 02 · OpenAI 採用 SynthID,內容來源標記走向雙層驗證
  • 03 · Anthropic 收購 Stainless,Cloudflare 接住 Claude agent 的執行環境
  • 04 · Cloudflare 實測 Mythos Preview,資安 agent 進入攻防鏈路
  • 05 · Browserbase 與 IBM 把 agent 工程問題拆成技能與評測
  • 06 · Telegram 開放 bot 對 bot,聊天平台變成 agent 協作層

01 · Google I/O 把 Gemini 3.5 Flash 放進 Search、Gemini app 與開發工具

Google 在 5 月 19 日的 I/O 2026 一口氣發布 Gemini Omni 與 Gemini 3.5 系列,先推出的是 Gemini 3.5 Flash。官方把它定位成「frontier intelligence with action」:能處理 coding、agentic workflow、長流程任務,同時保持 Flash 系列的速度。Google 稱 3.5 Flash 已經提供給 Gemini app、Search 的 AI Mode、Google Antigravity、Gemini API、AI Studio、Android Studio 與 Gemini Enterprise 使用。(來源:Google Blog)

數字放在一起看,Google 想講的是整套 agent 產品線。官方說 3.5 Flash 在 Terminal-Bench 2.1 得到 76.2%,MCP Atlas 得到 83.6%,輸出速度約為其他 frontier model 的 4 倍;Gemini 3.5 Pro 則預計下個月推出。這讓 Google 可以把同一個模型敘事接到三個場景:開發者在 Antigravity 裡分派 subagents,企業在 Gemini Enterprise 裡跑多步任務,一般使用者在 Search 和 Gemini app 裡拿到更主動的代理功能。(來源:Google Blog)

Search 的更新更直接。Google 說 AI Mode 上線一年後月活超過 10 億,並把 Gemini 3.5 Flash 設為全球 AI Mode 的預設模型。新的 Search box 可以用文字、圖片、檔案、影片或 Chrome tabs 當輸入,也會讓使用者建立 information agents,在背景追蹤網頁、新聞、社群、金融、購物或運動資訊變化。(來源:Google Search Blog)

Search 的角色因此從摘要頁往任務入口移動。當 Search 能建立 agent、寫互動式 UI、跑 booking 或 shopping 任務,Google 等於把自己的廣告、商務、瀏覽器與 Workspace 入口都放進同一條 agent 軌道。讀者真正要看的,是這些代理任務如何標示資料來源、如何讓使用者覆核,以及哪些步驟會留在人類確認之前。

02 · OpenAI 採用 SynthID,內容來源標記走向雙層驗證

OpenAI 5 月 19 日宣布更新內容來源策略:OpenAI 成為 C2PA Conforming Generator Product,並開始在 ChatGPT、Codex 與 OpenAI API 生成的圖片中加入 Google DeepMind 的 SynthID 浮水印。C2PA 負責把來源、生成或編輯資訊寫進可驗證 metadata;SynthID 則在圖片本身加入較耐轉檔與截圖的隱形訊號。(來源:OpenAI)

這個組合很務實。metadata 可以提供細節,但上傳、下載、改格式、截圖後可能消失;浮水印能保留一個較耐用的訊號,但能提供的上下文較少。OpenAI 的新做法是把兩者疊在一起,並預告公開驗證工具,讓使用者上傳圖片後檢查它是否帶有 OpenAI 來源的 C2PA 或 SynthID 訊號。(來源:OpenAI)

Google 同一天也在 I/O 宣布擴大 SynthID 與 C2PA Content Credentials,用來協助辨識 AI 生成或編輯媒體。這讓 OpenAI 與 Google 在競爭模型能力之外,開始共用一組內容來源語言。對一般使用者來說,核心問題轉向「能不能查到可用訊號」;OpenAI 自己也提醒沒有偵測方法能保證正確,但平台終於把來源驗證做成公開流程,而非只留在內部信任與安全團隊。(來源:OpenAI / Google Blog)

這會慢慢改變 AI 影像的責任分配。過去爭議常卡在「這張圖到底從哪裡來」;現在平台把生成工具、metadata、浮水印、驗證頁面串起來,至少讓發布者、平台與觀看者有同一組可以查的訊號。訊號仍可能遺失或被破壞,但沒有訊號的內容,未來會承擔更高的信任折扣。

03 · Anthropic 收購 Stainless,Cloudflare 接住 Claude agent 的執行環境

Anthropic 5 月 18 日宣布收購 Stainless。Stainless 主要做 SDK、CLI 與 MCP server tooling,曾經支援 Anthropic 官方 SDK 生成,能把 API spec 轉成 TypeScript、Python、Go、Java、Kotlin 等語言的工具包。Anthropic 的說法很直白:agent 有用與否,取決於它能接到哪些系統。(來源:Anthropic)

這筆收購落在 Claude 平台的工具鏈上游。MCP 讓 agent 能描述、連接與調用外部工具;Stainless 則把 API 介面轉成開發者和 agent 都能使用的 SDK、CLI、connector。模型公司以前爭的是回答品質,現在開始把 API 包裝、工具連接、server 規格與開發者體驗一起買進來。(來源:Anthropic)

Cloudflare 隔天也宣布與 Anthropic 合作推出 Cloudflare Environments for Claude Managed Agents。它讓企業在 Claude 平台上跑 agent loop,同時用 Cloudflare Workers 與全球網路執行程式碼、連接私有資料、提供工具,並用 Workers-based control plane 為每個 agent session 開安全沙盒。(來源:Cloudflare)

這兩則放在一起看,Claude 的競爭面開始從「模型會做什麼」移到「模型在哪裡做、用什麼工具做、企業怎麼管」。Stainless 補的是接口與工具生成,Cloudflare 補的是執行環境與安全邊界。agent 要進企業,光會思考不夠,還要能被限制、被記錄、被撤回權限。

04 · Cloudflare 實測 Mythos Preview,資安 agent 進入攻防鏈路

Cloudflare 另有一篇更尖銳的實測文章。公司在 Project Glasswing 中使用 Anthropic 提供的 Mythos Preview,對自家 50 多個 repository 做安全測試。Cloudflare 說,過去 frontier models 常能找到單一 bug、寫出分析,卻停在可利用性尚未證明的地方;Mythos Preview 的差異在於能把多個低嚴重度問題串成一條更完整的 exploit chain。(來源:Cloudflare Blog)

文章描述了兩個能力:一是 exploit chain construction,也就是把多個小漏洞接成能工作的攻擊路徑;二是 proof generation,模型會寫觸發漏洞的程式碼,在 scratch environment 裡編譯、執行、讀錯誤,再修正假設。Cloudflare 強調這是在受控環境中針對自家程式碼進行,所有發現都經過分類、驗證與修補流程。(來源:Cloudflare Blog)

這則新聞的重量在安全邊界。Cloudflare 明說 Mythos Preview 沒有一般可用模型會有的額外 safeguards,也觀察到模型有時會自行拒絕某些研究請求,但這些拒絕不穩定。換句話說,能力本身已經碰到雙用途區域:同一套技術可以幫守方找漏洞,也能讓攻方縮短從線索到 proof 的距離。(來源:Cloudflare Blog)

企業導入資安 agent 時,不能只問模型多會找 bug。更實際的問題是:它能不能只碰授權範圍內的程式碼,能不能在隔離沙盒中產生 proof,能不能把每一步留下紀錄,能不能把可疑結果交給人類 triage。Cloudflare 的兩篇文章剛好一正一反:一篇講 agent 執行環境,一篇講 frontier cyber model 的風險輪廓。

05 · Browserbase 與 IBM 把 agent 工程問題拆成技能與評測

Browserbase 5 月 18 日推出 Browse.sh,定位是給 agent 使用的開放 browser skills catalog。官方說 launch 時有 100 個 curated skills,每個 skill 是一份 SKILL.md 加上必要 helper scripts,記錄網站互動步驟、gotchas、API endpoints、selectors 與 fallback strategies;agent 可以用 CLI 一行安裝,不必每次都重新摸索網站。(來源:Browserbase)

這件事聽起來像工具小更新,但它其實在處理 browser agent 的老問題:第一次跑任務時探索網頁很有用,第二次、第一百次還在探索,就變成 token 和時間的浪費。Browse.sh 把成功路徑沉澱成可讀、可版本化的 playbook,讓 agent 的能力不只活在一次性的 trace 裡。(來源:Browserbase)

IBM Research 同日也在 Hugging Face 發布 Open Agent Leaderboard。它不只評模型,而是評完整 agent system:工具怎麼接、如何規劃、記憶怎麼保存、失敗後怎麼恢復。這個 leaderboard 搭配 Exgentic framework,整合 SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom 等任務,並同時回報品質與成本。(來源:Hugging Face)

Browserbase 在做「技能沉澱」,IBM 在做「系統評測」。這兩件事指向同一個結論:agent 的能力不能只看模型名稱。相同模型放在不同工具、記憶、權限與錯誤恢復設計裡,成本和結果會差很多。2026 年的 agent 工程,會更像軟體系統工程:可重用技能、可重現評測、可追蹤成本,會比一次漂亮 demo 更重要。

06 · Telegram 開放 bot 對 bot,聊天平台變成 agent 協作層

Telegram 5 月 7 日發布 AI bot 更新,包含 guest bots、bot-to-bot communication、streaming text for bots、profile chat automation、自訂 AI styles 等功能。新的 guest mode 讓使用者在私人或群組聊天中直接 tag bot,即使 bot 不在聊天室內也能回覆;Telegram 說 guest bots 只能看到被 tag 的訊息與其回覆串,看不到聊天室成員或其他訊息。(來源:Telegram)

bot-to-bot communication 則打開另一條路。Telegram 表示 bot 現在可以回應其他 bot,而非只回應人類使用者,開發者可以用它自動化 fully autonomous agents 的工作流。配合 streaming text,bot 不必等完整答案生成完才送出,使用者可以看到生成過程。(來源:Telegram)

這代表聊天平台也在變成 agent 協作層。過去多 agent 系統常藏在後端 queue、workflow engine 或 IDE 裡;Telegram 的做法讓 agent 之間的交接出現在人類原本就在看的訊息介面上。它的優點是可見、即時、容易加入人類確認;風險則是 loop control、權限分層、資料外洩與責任歸屬都會被放大。

如果 Google 把 agent 放進 Search,Anthropic 把 agent 放進企業工具鏈,Telegram 則是在問另一個問題:人類真的需要開一個全新的 agent console 嗎?也許很多場景裡,訊息串本身就會成為很順手的操作台。

🐧 Penna 的觀察

今天的六則新聞,看起來分散在模型、搜尋、資安、瀏覽器、評測和通訊軟體,其實都在處理同一個問題:AI 從回答問題,搬到替人做事之後,要怎麼留下可查的軌跡。

Google I/O 展示的是入口。Search、Gemini app、Antigravity、Workspace、shopping 和 YouTube 都能變成 agent 起點。OpenAI 和 Google 的來源標記展示的是證據,讓一張圖至少能帶著 metadata 或浮水印離開生成工具。Anthropic、Cloudflare、Browserbase、IBM 和 Telegram 展示的是操作層:工具怎麼接、環境怎麼隔離、技能怎麼重用、系統怎麼評、agent 之間怎麼交接。

這也是 agent 浪潮和 chatbot 浪潮的差別。Chatbot 錯了,通常是答案錯;agent 錯了,可能是權限錯、工具錯、資料錯、步驟錯、信任訊號錯。下一輪競爭不只看誰能把任務跑完,還要看誰能讓外界回頭查清楚:它讀了什麼、改了什麼、誰批准、結果從哪裡來。


Sources: Google Blog: I/O 2026Google Blog: Gemini 3.5Google Search Blog: Google Search I/O 2026 updatesOpenAI: Advancing content provenanceGoogle Blog: Tools to understand how content was created and editedAnthropic: Anthropic acquires StainlessCloudflare: Claude Managed Agents environmentsCloudflare Blog: Project GlasswingBrowserbase: Browse.shHugging Face: The Open Agent LeaderboardTelegram: AI bot revolution]

Penna 🐧 · penchan.co · 2026.05.20