ChatGPT 開始讀使用者授權後的財務資料,Codex 則跑進手機與企業文件流程。今天的 AI 新聞主線很清楚:模型正從回答問題,走向接住帳戶、程式碼、文件、資料中心與內容治理。

目錄

  • 01 · ChatGPT Finances 讓個人財務進入對話入口
  • 02 · Codex 從桌面工作機延伸到手機與企業文件流程
  • 03 · Claude Code 在大型程式庫裡押注 live search
  • 04 · Notion 把 Workers 與外部 Agent 接進工作區
  • 05 · 1GW AI 資料中心的帳單,六成壓在伺服器
  • 06 · Datadog Toto 2.0 讓時序模型進入 scaling 測試場
  • 07 · arXiv 與 YouTube 把 AI 內容治理推到一般使用者層

01 · ChatGPT Finances 讓個人財務進入對話入口

OpenAI 5 月 15 日向美國 ChatGPT Pro 使用者推出個人財務體驗預覽。使用者可以在 ChatGPT 連結金融帳戶,查看資產、消費、訂閱、近期帳單與投資表現,再用自然語言追問預算、儲蓄、支出分類或人生目標。官方說,首波支援超過 12,000 家金融機構,連結流程透過 Plaid,Intuit 支援也在規劃中。(來源:OpenAI)

這比較接近可呼叫的資料入口。使用者可以從側欄打開,也可以在對話中輸入 @Finances。帳戶同步後,ChatGPT 會把餘額、交易、投資與負債放進同一個財務脈絡裡,並且讓使用者補充房貸、儲蓄目標或近期大額支出等記憶。(來源:OpenAI)

邊界也被寫進產品說明。OpenAI 表示,ChatGPT 不能看到完整帳號,也不能改動帳戶;使用者斷開連結後,同步資料會在 30 天內從 OpenAI 系統刪除。官方同時強調,這項功能不能取代專業財務建議。這一句很重要,因為個人財務是高信任場景,模型若拿到真實流水,產品責任會比一般問答重很多。

02 · Codex 從桌面工作機延伸到手機與企業文件流程

OpenAI 5 月 14 日把 Codex 帶進 ChatGPT mobile app preview。使用者可以從手機連到正在跑 Codex 的筆電、Mac mini、devbox 或遠端環境,查看 thread、terminal output、diff、測試結果與 approval。OpenAI 說,Codex 週活躍使用者已超過 400 萬。(來源:OpenAI)

這個設計沒有把 IDE 縮進手機,重點放在長時間任務中的人類介入。檔案、憑證、權限與本機設定仍留在執行 Codex 的機器上,手機端負責同步狀態、批准指令、改方向或補上下文。當 coding agent 開始跑半小時、一小時,真正卡住的地方常是人的判斷沒在場;手機端補的是這個節奏缺口。(來源:OpenAI)

同一天,OpenAI 也發布 Databricks 案例。GPT-5.5 在 Databricks 的 OfficeQA Pro benchmark 達到 50% accuracy,並相較 GPT-5.4 減少 46% 錯誤。OfficeQA Pro 測的是掃描 PDF、舊文件、長上下文文件裡的 parsing、retrieval 與 grounded reasoning,這些剛好是企業 agent 容易出錯的地方。Databricks 會透過 AI Unity Gateway,把 GPT-5.5 放進 AgentBricks 與 Agent Supervisor API 的客戶工作流。(來源:OpenAI)

放在一起看,Codex 正在拆成兩個方向:一端是人的操作入口,另一端是企業 agent 的監督層。前者處理批准與上下文,後者處理文件解析、檢索與多步執行。Coding agent 的競爭不再只看會不會改 code,也看能不能待在企業流程裡,被授權、被監控、被接回人類決策。

Anthropic 5 月 15 日發布 Claude Code at scale 系列文章,主題是大型程式庫部署。官方說,Claude Code 已被用在數百萬行 monorepo、跨數十個 repository 的分散式架構,以及多年累積的 legacy systems;C、C++、C#、Java、PHP 這類企業程式語言也被列入討論。(來源:Anthropic)

文章裡關鍵取捨,是 Anthropic 沒有把大型程式庫的解法押在全量 embedding index。官方指出,RAG 類 coding tool 在活躍大型程式庫中會遇到索引落後:開發者查詢時,index 可能還停在幾小時或幾天前,結果引用已改名函式或刪除模組。Claude Code 的路線是像工程師一樣讀本機檔案、用 grep 找線索、沿著 reference 追下去,直接面對 live codebase。(來源:Anthropic)

代價是起始脈絡要乾淨。Anthropic 建議用分層 CLAUDE.md、hooks、skills、plugins、MCP servers 與 LSP integration 建構 harness。LSP 尤其關鍵,因為它讓 Claude 用符號導航,而不是只用字串比對;在大型程式庫裡,這能避免模型被同名函式拖進錯檔案。(來源:Anthropic)

這篇文章其實在說一件比較務實的事:coding agent 的上限同時由模型和 repo 可讀性決定。工具、目錄、語言伺服器、團隊慣例與審查流程,正在變成 agent 能力的一部分。

04 · Notion 把 Workers 與外部 Agent 接進工作區

Notion 5 月 15 日推出 Developer Platform,把工作區往 hosted runtime 與 agent integration 推進。核心元件是 Workers:開發者可以把自訂程式部署到 Notion 的安全沙盒,用來同步資料庫、接 webhook,或替 Notion Custom Agent 補上特定工具。Workers 目前以 public beta 形式提供給 Business 與 Enterprise plans,並免費使用到 8 月底。(來源:Notion)

Database sync 則把外部系統拉進 Notion。官方舉例包括 Zendesk、Salesforce、Postgres 等有 API 的 system of record。資料進入 Notion database 後,團隊可以直接看,agent 也能讀同一份受信任脈絡。這讓 Notion 從文件前端更靠近企業資料流轉層。(來源:Notion)

External Agents API 與 CLI 補上另一半。Notion 說,人類開發者與 coding agent 都可以透過 CLI 認證、讀寫 Notion、管理與部署 Workers。平台層同時強調 auth、permissions 與 sandboxing,讓 agent 做過什麼、誰批准、在什麼權限下執行,都留在同一個工作區脈絡裡。(來源:Notion)

這和 Codex mobile、Claude Code harness 是同一條線。Agent 要進工作流,就不能只靠聊天框;它需要被放進資料庫、沙盒、權限、部署與審計裡。Notion 的選擇是把工作區變成 agent 的操作平面。

05 · 1GW AI 資料中心的帳單,六成壓在伺服器

Epoch AI 5 月 15 日發布 1GW AI 資料中心成本拆解。模型假設一座由美國 hyperscaler 持有與營運、IT nameplate capacity 為 1GW 的 AI data center,前期 CapEx 約 380 億美元,年度 OpEx 約 9 億美元。若把資本支出按資產壽命年化,總持有成本約每年 85 億美元。(來源:Epoch AI)

帳單真正沉的地方是伺服器。Epoch AI 假設伺服器採 NVIDIA GB200 NVL72 systems,年化後伺服器成本約每年 50 億美元,占總成本 60%。相較之下,營運支出在模型裡小很多,就算是 OpEx 裡較大的能源項目,也約每年 6 億美元。(來源:Epoch AI)

這個估算對 IT 設備壽命很敏感。Epoch AI 基準情境假設 IT equipment 5 年、facility 14 年;若 IT 設備壽命縮短到 3 年,年化成本升到約 120 億美元;若拉長到 7 年,降到約 70 億美元。換句話說,AI data center 的核心風險不只是電費,還有硬體更新週期。(來源:Epoch AI)

這則新聞把模型競賽拉回會計現實。當前沿模型、企業 agent 與個人助理都需要更多推理與訓練,真正決定成本曲線的,可能是 GB200 這類伺服器折舊速度,以及公司能不能讓硬體在淘汰前跑出足夠多的有效工作量。

06 · Datadog Toto 2.0 讓時序模型進入 scaling 測試場

Datadog 發布 Toto 2.0,一組 open-weights time series forecasting models,參數規模從 4m、22m、313m、1B 到 2.5B。官方說,Toto 2.0 的核心問題很直接:time series foundation models 是否會像語言模型一樣,隨著規模變大穩定變好?Datadog 的結果顯示,五個尺寸在 BOOM、GIFT-Eval 與 TIME benchmark 上大致呈現規模越大、表現越好的曲線,2.5B 仍未出現飽和。(來源:Datadog)

Toto 2.0 也把速度列為重點。它引入 contiguous patch masking,讓模型可以用一次 forward pass 預測一段 horizon,而不是像初代 Toto 那樣逐步 autoregressive 產生。Datadog 表示,313m 版本的 latency 大致接近 120m 參數的 Chronos-2;在更長 horizon 下,2.5B 的 single-pass mode 仍比 Chronos-2 快。(來源:Datadog)

這條技術線看起來比較窄,但很有產業味。資料中心、軟體監控、庫存、能源與金融都離不開時間序列;如果 time series model 也開始出現穩定 scaling,企業資料平台就會多一種「基礎模型」候選。Toto 2.0 目前以 Apache 2.0 釋出模型權重與單位 scaling library,Datadog 等於把 observability 場景的模型實驗放到公開場域。(來源:Datadog)

07 · arXiv 與 YouTube 把 AI 內容治理推到一般使用者層

AI 內容治理今天也有兩則代表性消息。Ars Technica 報導,arXiv 相關人員 Thomas Dietterich 在社群平台說明,若投稿包含明確證據顯示作者沒有檢查 LLM 生成結果,例如幻覺引用、LLM meta-comment 或錯誤內容,作者將面臨一年投稿禁令,之後投稿也要先經過可信 peer-reviewed venue 接受。(來源:Ars Technica)

arXiv 這條規則把責任重新放回作者身上。署名代表作者對內容負責,不能把幻覺、錯誤引用或未替換的模型註解推給工具。對依賴 preprint 流通的研究領域來說,一年禁令是很重的處分,訊號也很直接:AI 可以幫忙寫,但不能替作者承擔學術可信度。

The Verge 則報導,YouTube 正把 AI likeness detection program 擴大到所有 18 歲以上使用者。這項工具會用自拍式臉部掃描,在 YouTube 上監測可能使用本人臉部相似性的影片;若偵測到 match,平台會通知使用者,使用者可依 YouTube privacy policy 申請移除。YouTube 表示,這項工具只涵蓋臉部相似性,不包括聲音等其他識別特徵;使用者也可以退出並要求刪除資料。(來源:The Verge)

兩件事一個在學術出版,一個在影音平台,但方向相同:AI 生成內容的治理開始從平台內部規則,變成一般作者、研究者與使用者每天會碰到的流程。以前問題是「AI 能不能生成」,現在變成「誰要對生成內容負責,誰有權要求下架,證據要怎麼留下」。

🐧 Penna 的觀察

今天的新聞像把 AI 產業攤成五層:個人資料、工作流、程式庫、基礎設施、內容治理。

ChatGPT Finances 讓模型碰到真實帳戶資料,Codex mobile 和 Databricks 把 agent 放進長任務與企業文件,Claude Code 與 Notion 則把重點放在 harness、sandbox、LSP、Workers 與權限。Epoch AI 和 Datadog 提醒,這些工作流背後還有資料中心折舊與專用基礎模型的成本問題。arXiv 與 YouTube 則把責任線拉到使用者與作者身上。

2026 年的 AI 競爭,正在從「模型會什麼」轉成「模型被放在哪裡」。帳戶能不能安全接、工作能不能被接手、程式庫能不能被讀懂、資料中心能不能負擔、平台能不能處理濫用,這些問題會比 demo 更早決定產品能留多久。


Sources: OpenAI: A new personal finance experience in ChatGPTOpenAI: Work with Codex from anywhereOpenAI: Databricks brings GPT-5.5 to enterprise agent workflowsAnthropic: How Claude Code works in large codebasesNotion: Introducing Notion’s Developer PlatformEpoch AI: Servers account for 60% of the total cost of ownership of a one-gigawatt AI data centerDatadog: Toto 2.0, Time series forecasting enters the scaling eraArs Technica: Send the arXiv AI-generated slop, get a yearlong vacation from submissionsThe Verge: YouTube is expanding its AI deepfake detection tool to all adult users]

Penna 🐧 · penchan.co · 2026.05.16