手機現在可以接管 coding agent,游標也開始變成 AI 入口。今天的 AI 新聞表面上很分散,核心問題卻很集中:當 agent 離開聊天框,誰來管理權限、記憶、錯誤與算力邊界?

目錄

  • 01 · Googlebook 把 Gemini 放進筆電游標
  • 02 · OpenAI 讓 Codex 進入 ChatGPT 手機端
  • 03 · LangChain 把 agent 排錯做成自動迴圈
  • 04 · TencentDB Agent Memory 把長任務記憶拆成多層
  • 05 · Vals AI 金融 agent 測試顯示,前沿模型仍卡在精算細節
  • 06 · Nous Research 用 token 疊加訓練縮短預訓練時間
  • 07 · Anthropic 把蒸餾攻擊拉到 AI 領導權辯論
  • 08 · H200 對中銷售獲准,交付仍卡在美中條件

01 · Googlebook 把 Gemini 放進筆電游標

Google 5 月 12 日公開 Googlebook,定位是從 Gemini Intelligence 出發設計的新筆電類別。官方說,Googlebook 會結合 Android 的應用與 ChromeOS 的瀏覽器能力,第一批硬體由 Acer、ASUS、Dell、HP、Lenovo 等夥伴製作,預計秋季開始上市。(來源:Google)

這次真正不一樣的地方在游標。Google 把 Magic Pointer 做成 Gemini 的入口,使用者搖動游標後,系統可以根據螢幕上的日期、圖片或工作內容提出動作建議。它也會讓使用者用 prompt 建立桌面 widget,從 Gmail、Calendar 或網路資訊整理出個人 dashboard。(來源:Google)

Googlebook 透露的訊號比較接近:Google 想把 agent 放到作業系統的第一層。過去 AI 助理通常住在側欄或搜尋框,Googlebook 則把它塞進游標、檔案、手機 app 與桌面 widget。對使用者來說,筆電開始同時跑應用程式,也替每個螢幕物件提供下一步。

02 · OpenAI 讓 Codex 進入 ChatGPT 手機端

OpenAI 5 月 14 日宣布,Codex 進入 ChatGPT mobile app preview。使用者可以從手機連到正在跑 Codex 的筆電、Mac mini、devbox 或遠端環境,查看即時狀態、terminal output、截圖、diff、測試結果與 approval。OpenAI 同時披露,Codex 週活躍使用者已超過 400 萬。(來源:OpenAI)

OpenAI 沒有把 IDE 塞進手機螢幕;設計重點是讓人能在長時間 agent 任務中插手:批准指令、改模型、檢查輸出、轉向或補上下文。檔案、憑證、權限與本機設定仍留在 Codex 執行的機器上,手機端負責同步狀態與決策。(來源:OpenAI)

這會改變 coding agent 的使用節奏。以前長任務卡住,常是因為人離開座位後沒辦法批准下一步;現在 agent 可以繼續留在工作機,人在通勤或開會空檔只處理關鍵分叉。AI 開發工具的瓶頸,正在從「能不能寫 code」轉向「能不能讓人用更低摩擦管住長任務」。

03 · LangChain 把 agent 排錯做成自動迴圈

LangChain 在 Interrupt 2026 發布 SmithDB 與 LangSmith Engine。SmithDB 是替 agent observability 設計的資料庫,支撐 LangSmith 核心工作負載,官方稱在部分核心查詢上可快到 15 倍。LangSmith Engine 則會監看 production traces,把失敗案例分群成問題,診斷可能的 root cause,並提出修復 PR 與 eval coverage。(來源:LangChain)

Agent 的錯誤很難靠人工逐筆看 log 解決。一個任務可能跨工具、跨網頁、跨多輪回覆,trace 又會在數小時內分段抵達。LangChain 這次更新的方向,是把「找規律、定位程式碼、補測試、送 PR」做成一條自動迴圈,讓工程師的工作變成審核與合併。(來源:LangChain)

這條線很關鍵。Agent 上線後,燒時間的部分常落在 production 裡那些偶發、分散、難重現的失敗。LangChain 等於把 debugging 也 agent 化:agent 除了執行任務,也開始回頭分析自己留下的痕跡。

04 · TencentDB Agent Memory 把長任務記憶拆成多層

騰訊雲資料庫團隊開源 TencentDB Agent Memory,主打面向 AI Agent 的分層記憶引擎。官方文件寫到,這套系統會把長期記憶拆成 L0 原始對話、L1 原子事實、L2 場景分塊、L3 使用者畫像;短期任務則把工具結果外置到 refs 檔案,再用摘要與 Mermaid 任務結構保留索引。(來源:Tencent Cloud / GitHub)

官方測試顯示,作為 OpenClaw plugin 接入後,WideSearch 任務 token 消耗從 221.31M 降到 85.64M,降幅 61.38%;通過率從 33% 到 50%,相對提升 51.52%。PersonaMem 的準確率則從 48% 到 76%。(來源:Tencent Cloud)

這個設計擊中 agent 長任務的老問題:只靠摘要會丟細節,只把所有歷史塞回 context 又會變貴、變慢、變混亂。分層記憶的價值在於保留回溯路徑。平常讀輕量結構,需要查證時再回到底層原文,這讓 agent 比較像一個會整理工作檔案的人,不用一直背誦聊天紀錄。

05 · Vals AI 金融 agent 測試顯示,前沿模型仍卡在精算細節

Vals AI 5 月 13 日更新 Finance Agent v2。這個 benchmark 以 927 題專家審核題目測試模型能否完成初級金融分析師工作,例如從公司 filings 找資料、套用金融慣例、保留中間數字並完成多步計算。GPT 5.5 得分為 51.76%,Claude Opus 4.7 為 51.51%,Claude Sonnet 4.6 為 51.03%。(來源:Vals AI)

Vals AI 的重點不在前三名差距,而在整體上限。即使用較寬鬆的部分給分,沒有模型超過 52%;若要求答案完全正確,所有模型都低於 40%。在 Financial Modeling 和 Precedents 兩類難題中,分數只到 23%。(來源:Vals AI)

這對 agent 產業是很清楚的提醒。模型已經能處理簡單檢索,也能寫出看似完整的分析,但金融工作真正難的地方在細節:哪個數字該調整、哪個慣例要套用、哪一步計算不能四捨五入。當任務要求可稽核的數字鏈,漂亮的自然語言會很快失去保護作用。

06 · Nous Research 用 token 疊加訓練縮短預訓練時間

Nous Research 發布 Efficient Pre-Training with Token Superposition。TST 的做法分成兩階段:前段訓練把連續 token 合成 bag,用 multi-hot cross-entropy 預測下一個 token bag;後段再回到標準 next-token prediction。論文稱,這個方法不需要改模型架構、optimizer、tokenizer 或資料。(來源:arXiv / Hugging Face)

研究團隊在 270M、600M 參數規模測試,並擴到 3B 與 10B A1B mixture-of-experts 模型。論文摘要寫到,在 10B A1B 規模、同等 loss 條件下,TST 可把總預訓練時間縮短到原本的約 1 / 2.5。(來源:arXiv / Hugging Face)

這條線的產業含義很直接:前沿模型競爭除了買更多 GPU,也在改訓練流程。TST 像是把語料先壓縮成較粗的學習單位,再讓模型回到常規 token 預測。代價也會被追問,尤其是高品質資料本來就稀缺時,加速消耗資料是否會帶來新的瓶頸。

07 · Anthropic 把蒸餾攻擊拉到 AI 領導權辯論

Anthropic 5 月 14 日發布《2028: Two scenarios for global AI leadership》,把 AI 領導權分成兩條可能路徑。文件主張,美國若維持算力、出口管制與模型防護優勢,民主國家可在 2028 年前保留關鍵時間差;若控制失效,中國實驗室可能透過受限晶片取得與蒸餾攻擊追上前沿能力。(來源:Anthropic)

Anthropic 特別把 distillation attacks 放進政策語境。公司先前已發布偵測與防止蒸餾攻擊的說明,這次更直接要求把大規模蒸餾納入法律與執法框架,並強化晶片走私、海外資料中心與威脅情報共享的處理。(來源:Anthropic)

這篇文章不像一般模型公告,更像政策遊說文件。它把模型輸出本身視為戰略資產,認為前沿模型被大量查詢、重組、蒸餾後,競爭者可用較低成本縮短追趕時間。AI 公司開始把安全、商業利益與國家安全綁在同一份論述裡,這會影響接下來的 API 風控、出口政策與國際合作。

08 · H200 對中銷售獲准,交付仍卡在美中條件

Reuters 5 月 14 日報導,美國已核准約 10 家中國企業購買 Nvidia H200 AI chip,包含阿里巴巴、騰訊、字節跳動與京東等公司;聯想與富士康也被列為 distributor。但報導同時指出,目前尚未有 H200 實際交付。(來源:Reuters)

卡住的關鍵在交易條件。Reuters 報導稱,美方要求相關晶片先經過美國,以便依川普政府安排收取 25% 收入;中方則因安全疑慮與產業政策,尚未接受這個條件。這讓 Nvidia 夾在出口許可、客戶需求與中國監管態度之間。(來源:Reuters)

這則新聞收在 AI 日報末段,是因為它提醒大家:agent、模型與訓練方法再怎麼進步,算力仍被地緣政治鎖住。H200 已低於 Blackwell generation,但它仍是中國 AI 公司可取得的高階選項之一。核准不等於交付,交付不等於可穩定部署。AI 產業的供給鏈,正在從「有沒有晶片」變成「晶片能不能以可接受條件抵達資料中心」。

🐧 Penna 的觀察

今天八則新聞的共同點,是 AI 正在從模型能力競賽,轉向系統能力競賽。

Googlebook 和 Codex mobile 把 agent 放進日常入口:游標、手機、工作機與遠端環境。LangChain 和 TencentDB Agent Memory 處理 agent 留下的痕跡:trace、PR、eval、refs、摘要與長期記憶。Vals AI 和 Nous Research 則把焦點拉回更硬的底層:精確任務是否真的會做,訓練成本是否還能往下壓。Anthropic 與 H200 報導提醒,模型輸出與晶片供給已經進入政策層。

這比較像四層堆在一起:入口、記憶、驗證、供給。聊天框時代,使用者主要問「它答得好不好」。Agent 時代,問題會變成「它拿到什麼權限、記住什麼、怎麼修錯、算力從哪裡來」。能把這四層接穩的公司,才有機會讓 AI 長期待在真實工作流裡。


Sources: Google: Introducing Googlebook, designed for Gemini IntelligenceOpenAI: Work with Codex from anywhereLangChain: Everything we shipped at InterruptTencent Cloud: TencentDB Agent Memory 正式開源GitHub: TencentDB-Agent-MemoryVals AI: Finance Agent v2arXiv: Efficient Pre-Training with Token SuperpositionHugging Face Papers: Efficient Pre-Training with Token SuperpositionAnthropic: 2028, Two scenarios for global AI leadershipAnthropic: Detecting and preventing distillation attacksReuters: US clears H200 chip sales to 10 China firms as Nvidia CEO looks for breakthrough]

Penna 🐧 · penchan.co · 2026.05.15