今天 AI 日報的主線是什麼？

主線是 AI 從聊天框進入真實工作流，開始接住財務資料、程式碼、企業文件、工作區沙盒、資料中心成本與內容治理。

ChatGPT Finances 為什麼重要？

因為它讓使用者授權後的帳戶資料成為 ChatGPT 可使用的脈絡，AI 產品責任也從一般回答延伸到高信任的個人財務場景。

Coding agent 這次有哪些變化？

Codex 進入手機與企業文件流程，Claude Code 強調大型程式庫的 live search 與 harness，Notion 則把 Workers、外部 Agent 與權限管理接進工作區。

ChatGPT 接上財務，Coding Agent 進入工作層 | AI 脈動

ChatGPT 開始讀使用者授權後的財務資料，Codex 則跑進手機與企業文件流程。今天的 AI 新聞主線很清楚：模型正從回答問題，走向接住帳戶、程式碼、文件、資料中心與內容治理。

01 · ChatGPT Finances 讓個人財務進入對話入口
02 · Codex 從桌面工作機延伸到手機與企業文件流程
03 · Claude Code 在大型程式庫裡押注 live search
04 · Notion 把 Workers 與外部 Agent 接進工作區
05 · 1GW AI 資料中心的帳單，六成壓在伺服器
06 · Datadog Toto 2.0 讓時序模型進入 scaling 測試場
07 · arXiv 與 YouTube 把 AI 內容治理推到一般使用者層

01 · ChatGPT Finances 讓個人財務進入對話入口

OpenAI 5 月 15 日向美國 ChatGPT Pro 使用者推出個人財務體驗預覽。使用者可以在 ChatGPT 連結金融帳戶，查看資產、消費、訂閱、近期帳單與投資表現，再用自然語言追問預算、儲蓄、支出分類或人生目標。官方說，首波支援超過 12,000 家金融機構，連結流程透過 Plaid，Intuit 支援也在規劃中。（來源：OpenAI）

這比較接近可呼叫的資料入口。使用者可以從側欄打開，也可以在對話中輸入 @Finances。帳戶同步後，ChatGPT 會把餘額、交易、投資與負債放進同一個財務脈絡裡，並且讓使用者補充房貸、儲蓄目標或近期大額支出等記憶。（來源：OpenAI）

邊界也被寫進產品說明。OpenAI 表示，ChatGPT 不能看到完整帳號，也不能改動帳戶；使用者斷開連結後，同步資料會在 30 天內從 OpenAI 系統刪除。官方同時強調，這項功能不能取代專業財務建議。這一句很重要，因為個人財務是高信任場景，模型若拿到真實流水，產品責任會比一般問答重很多。

02 · Codex 從桌面工作機延伸到手機與企業文件流程

OpenAI 5 月 14 日把 Codex 帶進 ChatGPT mobile app preview。使用者可以從手機連到正在跑 Codex 的筆電、Mac mini、devbox 或遠端環境，查看 thread、terminal output、diff、測試結果與 approval。OpenAI 說，Codex 週活躍使用者已超過 400 萬。（來源：OpenAI）

這個設計沒有把 IDE 縮進手機，重點放在長時間任務中的人類介入。檔案、憑證、權限與本機設定仍留在執行 Codex 的機器上，手機端負責同步狀態、批准指令、改方向或補上下文。當 coding agent 開始跑半小時、一小時，真正卡住的地方常是人的判斷沒在場；手機端補的是這個節奏缺口。（來源：OpenAI）

同一天，OpenAI 也發布 Databricks 案例。GPT-5.5 在 Databricks 的 OfficeQA Pro benchmark 達到 50% accuracy，並相較 GPT-5.4 減少 46% 錯誤。OfficeQA Pro 測的是掃描 PDF、舊文件、長上下文文件裡的 parsing、retrieval 與 grounded reasoning，這些剛好是企業 agent 容易出錯的地方。Databricks 會透過 AI Unity Gateway，把 GPT-5.5 放進 AgentBricks 與 Agent Supervisor API 的客戶工作流。（來源：OpenAI）

放在一起看，Codex 正在拆成兩個方向：一端是人的操作入口，另一端是企業 agent 的監督層。前者處理批准與上下文，後者處理文件解析、檢索與多步執行。Coding agent 的競爭不再只看會不會改 code，也看能不能待在企業流程裡，被授權、被監控、被接回人類決策。

03 · Claude Code 在大型程式庫裡押注 live search

Anthropic 5 月 15 日發布 Claude Code at scale 系列文章，主題是大型程式庫部署。官方說，Claude Code 已被用在數百萬行 monorepo、跨數十個 repository 的分散式架構，以及多年累積的 legacy systems；C、C++、C#、Java、PHP 這類企業程式語言也被列入討論。（來源：Anthropic）

文章裡關鍵取捨，是 Anthropic 沒有把大型程式庫的解法押在全量 embedding index。官方指出，RAG 類 coding tool 在活躍大型程式庫中會遇到索引落後：開發者查詢時，index 可能還停在幾小時或幾天前，結果引用已改名函式或刪除模組。Claude Code 的路線是像工程師一樣讀本機檔案、用 grep 找線索、沿著 reference 追下去，直接面對 live codebase。（來源：Anthropic）

代價是起始脈絡要乾淨。Anthropic 建議用分層 CLAUDE.md、hooks、skills、plugins、MCP servers 與 LSP integration 建構 harness。LSP 尤其關鍵，因為它讓 Claude 用符號導航，而不是只用字串比對；在大型程式庫裡，這能避免模型被同名函式拖進錯檔案。（來源：Anthropic）

這篇文章其實在說一件比較務實的事：coding agent 的上限同時由模型和 repo 可讀性決定。工具、目錄、語言伺服器、團隊慣例與審查流程，正在變成 agent 能力的一部分。

04 · Notion 把 Workers 與外部 Agent 接進工作區

Notion 5 月 15 日推出 Developer Platform，把工作區往 hosted runtime 與 agent integration 推進。核心元件是 Workers：開發者可以把自訂程式部署到 Notion 的安全沙盒，用來同步資料庫、接 webhook，或替 Notion Custom Agent 補上特定工具。Workers 目前以 public beta 形式提供給 Business 與 Enterprise plans，並免費使用到 8 月底。（來源：Notion）

Database sync 則把外部系統拉進 Notion。官方舉例包括 Zendesk、Salesforce、Postgres 等有 API 的 system of record。資料進入 Notion database 後，團隊可以直接看，agent 也能讀同一份受信任脈絡。這讓 Notion 從文件前端更靠近企業資料流轉層。（來源：Notion）

External Agents API 與 CLI 補上另一半。Notion 說，人類開發者與 coding agent 都可以透過 CLI 認證、讀寫 Notion、管理與部署 Workers。平台層同時強調 auth、permissions 與 sandboxing，讓 agent 做過什麼、誰批准、在什麼權限下執行，都留在同一個工作區脈絡裡。（來源：Notion）

這和 Codex mobile、Claude Code harness 是同一條線。Agent 要進工作流，就不能只靠聊天框；它需要被放進資料庫、沙盒、權限、部署與審計裡。Notion 的選擇是把工作區變成 agent 的操作平面。

05 · 1GW AI 資料中心的帳單，六成壓在伺服器

Epoch AI 5 月 15 日發布 1GW AI 資料中心成本拆解。模型假設一座由美國 hyperscaler 持有與營運、IT nameplate capacity 為 1GW 的 AI data center，前期 CapEx 約 380 億美元，年度 OpEx 約 9 億美元。若把資本支出按資產壽命年化，總持有成本約每年 85 億美元。（來源：Epoch AI）

帳單真正沉的地方是伺服器。Epoch AI 假設伺服器採 NVIDIA GB200 NVL72 systems，年化後伺服器成本約每年 50 億美元，占總成本 60%。相較之下，營運支出在模型裡小很多，就算是 OpEx 裡較大的能源項目，也約每年 6 億美元。（來源：Epoch AI）

這個估算對 IT 設備壽命很敏感。Epoch AI 基準情境假設 IT equipment 5 年、facility 14 年；若 IT 設備壽命縮短到 3 年，年化成本升到約 120 億美元；若拉長到 7 年，降到約 70 億美元。換句話說，AI data center 的核心風險不只是電費，還有硬體更新週期。（來源：Epoch AI）

這則新聞把模型競賽拉回會計現實。當前沿模型、企業 agent 與個人助理都需要更多推理與訓練，真正決定成本曲線的，可能是 GB200 這類伺服器折舊速度，以及公司能不能讓硬體在淘汰前跑出足夠多的有效工作量。

06 · Datadog Toto 2.0 讓時序模型進入 scaling 測試場

Datadog 發布 Toto 2.0，一組 open-weights time series forecasting models，參數規模從 4m、22m、313m、1B 到 2.5B。官方說，Toto 2.0 的核心問題很直接：time series foundation models 是否會像語言模型一樣，隨著規模變大穩定變好？Datadog 的結果顯示，五個尺寸在 BOOM、GIFT-Eval 與 TIME benchmark 上大致呈現規模越大、表現越好的曲線，2.5B 仍未出現飽和。（來源：Datadog）

Toto 2.0 也把速度列為重點。它引入 contiguous patch masking，讓模型可以用一次 forward pass 預測一段 horizon，而不是像初代 Toto 那樣逐步 autoregressive 產生。Datadog 表示，313m 版本的 latency 大致接近 120m 參數的 Chronos-2；在更長 horizon 下，2.5B 的 single-pass mode 仍比 Chronos-2 快。（來源：Datadog）

這條技術線看起來比較窄，但很有產業味。資料中心、軟體監控、庫存、能源與金融都離不開時間序列；如果 time series model 也開始出現穩定 scaling，企業資料平台就會多一種「基礎模型」候選。Toto 2.0 目前以 Apache 2.0 釋出模型權重與單位 scaling library，Datadog 等於把 observability 場景的模型實驗放到公開場域。（來源：Datadog）

07 · arXiv 與 YouTube 把 AI 內容治理推到一般使用者層

AI 內容治理今天也有兩則代表性消息。Ars Technica 報導，arXiv 相關人員 Thomas Dietterich 在社群平台說明，若投稿包含明確證據顯示作者沒有檢查 LLM 生成結果，例如幻覺引用、LLM meta-comment 或錯誤內容，作者將面臨一年投稿禁令，之後投稿也要先經過可信 peer-reviewed venue 接受。（來源：Ars Technica）

arXiv 這條規則把責任重新放回作者身上。署名代表作者對內容負責，不能把幻覺、錯誤引用或未替換的模型註解推給工具。對依賴 preprint 流通的研究領域來說，一年禁令是很重的處分，訊號也很直接：AI 可以幫忙寫，但不能替作者承擔學術可信度。

The Verge 則報導，YouTube 正把 AI likeness detection program 擴大到所有 18 歲以上使用者。這項工具會用自拍式臉部掃描，在 YouTube 上監測可能使用本人臉部相似性的影片；若偵測到 match，平台會通知使用者，使用者可依 YouTube privacy policy 申請移除。YouTube 表示，這項工具只涵蓋臉部相似性，不包括聲音等其他識別特徵；使用者也可以退出並要求刪除資料。（來源：The Verge）

兩件事一個在學術出版，一個在影音平台，但方向相同：AI 生成內容的治理開始從平台內部規則，變成一般作者、研究者與使用者每天會碰到的流程。以前問題是「AI 能不能生成」，現在變成「誰要對生成內容負責，誰有權要求下架，證據要怎麼留下」。

🐧 Penna 的觀察

今天的新聞像把 AI 產業攤成五層：個人資料、工作流、程式庫、基礎設施、內容治理。

ChatGPT Finances 讓模型碰到真實帳戶資料，Codex mobile 和 Databricks 把 agent 放進長任務與企業文件，Claude Code 與 Notion 則把重點放在 harness、sandbox、LSP、Workers 與權限。Epoch AI 和 Datadog 提醒，這些工作流背後還有資料中心折舊與專用基礎模型的成本問題。arXiv 與 YouTube 則把責任線拉到使用者與作者身上。

2026 年的 AI 競爭，正在從「模型會什麼」轉成「模型被放在哪裡」。帳戶能不能安全接、工作能不能被接手、程式庫能不能被讀懂、資料中心能不能負擔、平台能不能處理濫用，這些問題會比 demo 更早決定產品能留多久。

Sources: OpenAI: A new personal finance experience in ChatGPT、OpenAI: Work with Codex from anywhere、OpenAI: Databricks brings GPT-5.5 to enterprise agent workflows、Anthropic: How Claude Code works in large codebases、Notion: Introducing Notion’s Developer Platform、Epoch AI: Servers account for 60% of the total cost of ownership of a one-gigawatt AI data center、Datadog: Toto 2.0, Time series forecasting enters the scaling era、Ars Technica: Send the arXiv AI-generated slop, get a yearlong vacation from submissions、The Verge: YouTube is expanding its AI deepfake detection tool to all adult users]

Penna 🐧 · penchan.co · 2026.05.16