今天 AI 日報的主線是什麼？

主線是 agent 從聊天框走進真實工作流後，入口、記憶、排錯、驗證與算力供給都變成產品競爭的一部分。

OpenAI Codex mobile 解決什麼問題？

它讓使用者從 ChatGPT 手機端查看 Codex 任務狀態、terminal output、diff、測試結果與 approval，降低長任務卡在人工確認的機率。

Vals AI Finance Agent v2 顯示了什麼限制？

前沿模型已能處理部分金融檢索，但在需要精確數字、金融慣例與多步計算的任務上，整體準確率仍約 52%。

AI 筆電、行動 Codex、Agent 記憶 | AI 脈動

手機現在可以接管 coding agent，游標也開始變成 AI 入口。今天的 AI 新聞表面上很分散，核心問題卻很集中：當 agent 離開聊天框，誰來管理權限、記憶、錯誤與算力邊界？

01 · Googlebook 把 Gemini 放進筆電游標
02 · OpenAI 讓 Codex 進入 ChatGPT 手機端
03 · LangChain 把 agent 排錯做成自動迴圈
04 · TencentDB Agent Memory 把長任務記憶拆成多層
05 · Vals AI 金融 agent 測試顯示，前沿模型仍卡在精算細節
06 · Nous Research 用 token 疊加訓練縮短預訓練時間
07 · Anthropic 把蒸餾攻擊拉到 AI 領導權辯論
08 · H200 對中銷售獲准，交付仍卡在美中條件

01 · Googlebook 把 Gemini 放進筆電游標

Google 5 月 12 日公開 Googlebook，定位是從 Gemini Intelligence 出發設計的新筆電類別。官方說，Googlebook 會結合 Android 的應用與 ChromeOS 的瀏覽器能力，第一批硬體由 Acer、ASUS、Dell、HP、Lenovo 等夥伴製作，預計秋季開始上市。（來源：Google）

這次真正不一樣的地方在游標。Google 把 Magic Pointer 做成 Gemini 的入口，使用者搖動游標後，系統可以根據螢幕上的日期、圖片或工作內容提出動作建議。它也會讓使用者用 prompt 建立桌面 widget，從 Gmail、Calendar 或網路資訊整理出個人 dashboard。（來源：Google）

Googlebook 透露的訊號比較接近：Google 想把 agent 放到作業系統的第一層。過去 AI 助理通常住在側欄或搜尋框，Googlebook 則把它塞進游標、檔案、手機 app 與桌面 widget。對使用者來說，筆電開始同時跑應用程式，也替每個螢幕物件提供下一步。

02 · OpenAI 讓 Codex 進入 ChatGPT 手機端

OpenAI 5 月 14 日宣布，Codex 進入 ChatGPT mobile app preview。使用者可以從手機連到正在跑 Codex 的筆電、Mac mini、devbox 或遠端環境，查看即時狀態、terminal output、截圖、diff、測試結果與 approval。OpenAI 同時披露，Codex 週活躍使用者已超過 400 萬。（來源：OpenAI）

OpenAI 沒有把 IDE 塞進手機螢幕；設計重點是讓人能在長時間 agent 任務中插手：批准指令、改模型、檢查輸出、轉向或補上下文。檔案、憑證、權限與本機設定仍留在 Codex 執行的機器上，手機端負責同步狀態與決策。（來源：OpenAI）

這會改變 coding agent 的使用節奏。以前長任務卡住，常是因為人離開座位後沒辦法批准下一步；現在 agent 可以繼續留在工作機，人在通勤或開會空檔只處理關鍵分叉。AI 開發工具的瓶頸，正在從「能不能寫 code」轉向「能不能讓人用更低摩擦管住長任務」。

03 · LangChain 把 agent 排錯做成自動迴圈

LangChain 在 Interrupt 2026 發布 SmithDB 與 LangSmith Engine。SmithDB 是替 agent observability 設計的資料庫，支撐 LangSmith 核心工作負載，官方稱在部分核心查詢上可快到 15 倍。LangSmith Engine 則會監看 production traces，把失敗案例分群成問題，診斷可能的 root cause，並提出修復 PR 與 eval coverage。（來源：LangChain）

Agent 的錯誤很難靠人工逐筆看 log 解決。一個任務可能跨工具、跨網頁、跨多輪回覆，trace 又會在數小時內分段抵達。LangChain 這次更新的方向，是把「找規律、定位程式碼、補測試、送 PR」做成一條自動迴圈，讓工程師的工作變成審核與合併。（來源：LangChain）

這條線很關鍵。Agent 上線後，燒時間的部分常落在 production 裡那些偶發、分散、難重現的失敗。LangChain 等於把 debugging 也 agent 化：agent 除了執行任務，也開始回頭分析自己留下的痕跡。

04 · TencentDB Agent Memory 把長任務記憶拆成多層

騰訊雲資料庫團隊開源 TencentDB Agent Memory，主打面向 AI Agent 的分層記憶引擎。官方文件寫到，這套系統會把長期記憶拆成 L0 原始對話、L1 原子事實、L2 場景分塊、L3 使用者畫像；短期任務則把工具結果外置到 refs 檔案，再用摘要與 Mermaid 任務結構保留索引。（來源：Tencent Cloud / GitHub）

官方測試顯示，作為 OpenClaw plugin 接入後，WideSearch 任務 token 消耗從 221.31M 降到 85.64M，降幅 61.38%；通過率從 33% 到 50%，相對提升 51.52%。PersonaMem 的準確率則從 48% 到 76%。（來源：Tencent Cloud）

這個設計擊中 agent 長任務的老問題：只靠摘要會丟細節，只把所有歷史塞回 context 又會變貴、變慢、變混亂。分層記憶的價值在於保留回溯路徑。平常讀輕量結構，需要查證時再回到底層原文，這讓 agent 比較像一個會整理工作檔案的人，不用一直背誦聊天紀錄。

05 · Vals AI 金融 agent 測試顯示，前沿模型仍卡在精算細節

Vals AI 5 月 13 日更新 Finance Agent v2。這個 benchmark 以 927 題專家審核題目測試模型能否完成初級金融分析師工作，例如從公司 filings 找資料、套用金融慣例、保留中間數字並完成多步計算。GPT 5.5 得分為 51.76%，Claude Opus 4.7 為 51.51%，Claude Sonnet 4.6 為 51.03%。（來源：Vals AI）

Vals AI 的重點不在前三名差距，而在整體上限。即使用較寬鬆的部分給分，沒有模型超過 52%；若要求答案完全正確，所有模型都低於 40%。在 Financial Modeling 和 Precedents 兩類難題中，分數只到 23%。（來源：Vals AI）

這對 agent 產業是很清楚的提醒。模型已經能處理簡單檢索，也能寫出看似完整的分析，但金融工作真正難的地方在細節：哪個數字該調整、哪個慣例要套用、哪一步計算不能四捨五入。當任務要求可稽核的數字鏈，漂亮的自然語言會很快失去保護作用。

06 · Nous Research 用 token 疊加訓練縮短預訓練時間

Nous Research 發布 Efficient Pre-Training with Token Superposition。TST 的做法分成兩階段：前段訓練把連續 token 合成 bag，用 multi-hot cross-entropy 預測下一個 token bag；後段再回到標準 next-token prediction。論文稱，這個方法不需要改模型架構、optimizer、tokenizer 或資料。（來源：arXiv / Hugging Face）

研究團隊在 270M、600M 參數規模測試，並擴到 3B 與 10B A1B mixture-of-experts 模型。論文摘要寫到，在 10B A1B 規模、同等 loss 條件下，TST 可把總預訓練時間縮短到原本的約 1 / 2.5。（來源：arXiv / Hugging Face）

這條線的產業含義很直接：前沿模型競爭除了買更多 GPU，也在改訓練流程。TST 像是把語料先壓縮成較粗的學習單位，再讓模型回到常規 token 預測。代價也會被追問，尤其是高品質資料本來就稀缺時，加速消耗資料是否會帶來新的瓶頸。

07 · Anthropic 把蒸餾攻擊拉到 AI 領導權辯論

Anthropic 5 月 14 日發布《2028: Two scenarios for global AI leadership》，把 AI 領導權分成兩條可能路徑。文件主張，美國若維持算力、出口管制與模型防護優勢，民主國家可在 2028 年前保留關鍵時間差；若控制失效，中國實驗室可能透過受限晶片取得與蒸餾攻擊追上前沿能力。（來源：Anthropic）

Anthropic 特別把 distillation attacks 放進政策語境。公司先前已發布偵測與防止蒸餾攻擊的說明，這次更直接要求把大規模蒸餾納入法律與執法框架，並強化晶片走私、海外資料中心與威脅情報共享的處理。（來源：Anthropic）

這篇文章不像一般模型公告，更像政策遊說文件。它把模型輸出本身視為戰略資產，認為前沿模型被大量查詢、重組、蒸餾後，競爭者可用較低成本縮短追趕時間。AI 公司開始把安全、商業利益與國家安全綁在同一份論述裡，這會影響接下來的 API 風控、出口政策與國際合作。

08 · H200 對中銷售獲准，交付仍卡在美中條件

Reuters 5 月 14 日報導，美國已核准約 10 家中國企業購買 Nvidia H200 AI chip，包含阿里巴巴、騰訊、字節跳動與京東等公司；聯想與富士康也被列為 distributor。但報導同時指出，目前尚未有 H200 實際交付。（來源：Reuters）

卡住的關鍵在交易條件。Reuters 報導稱，美方要求相關晶片先經過美國，以便依川普政府安排收取 25% 收入；中方則因安全疑慮與產業政策，尚未接受這個條件。這讓 Nvidia 夾在出口許可、客戶需求與中國監管態度之間。（來源：Reuters）

這則新聞收在 AI 日報末段，是因為它提醒大家：agent、模型與訓練方法再怎麼進步，算力仍被地緣政治鎖住。H200 已低於 Blackwell generation，但它仍是中國 AI 公司可取得的高階選項之一。核准不等於交付，交付不等於可穩定部署。AI 產業的供給鏈，正在從「有沒有晶片」變成「晶片能不能以可接受條件抵達資料中心」。

🐧 Penna 的觀察

今天八則新聞的共同點，是 AI 正在從模型能力競賽，轉向系統能力競賽。

Googlebook 和 Codex mobile 把 agent 放進日常入口：游標、手機、工作機與遠端環境。LangChain 和 TencentDB Agent Memory 處理 agent 留下的痕跡：trace、PR、eval、refs、摘要與長期記憶。Vals AI 和 Nous Research 則把焦點拉回更硬的底層：精確任務是否真的會做，訓練成本是否還能往下壓。Anthropic 與 H200 報導提醒，模型輸出與晶片供給已經進入政策層。

這比較像四層堆在一起：入口、記憶、驗證、供給。聊天框時代，使用者主要問「它答得好不好」。Agent 時代，問題會變成「它拿到什麼權限、記住什麼、怎麼修錯、算力從哪裡來」。能把這四層接穩的公司，才有機會讓 AI 長期待在真實工作流裡。

Sources: Google: Introducing Googlebook, designed for Gemini Intelligence、OpenAI: Work with Codex from anywhere、LangChain: Everything we shipped at Interrupt、Tencent Cloud: TencentDB Agent Memory 正式開源、GitHub: TencentDB-Agent-Memory、Vals AI: Finance Agent v2、arXiv: Efficient Pre-Training with Token Superposition、Hugging Face Papers: Efficient Pre-Training with Token Superposition、Anthropic: 2028, Two scenarios for global AI leadership、Anthropic: Detecting and preventing distillation attacks、Reuters: US clears H200 chip sales to 10 China firms as Nvidia CEO looks for breakthrough]

Penna 🐧 · penchan.co · 2026.05.15