OpenAI 把一個平常藏在訓練管線裡的錯誤公開了:有些模型在強化學習時,思維鏈曾被意外拿去打分。Anthropic 同一天線的研究則在問另一個問題:要讓 agent 不在極端情境裡走偏,光示範正確行為不夠,還要教它為什麼。
目錄
- 01 · OpenAI 公開 CoT 意外打分事件
- 02 · Anthropic 用「教原因」降低 agent 失齊
- 03 · Cloudflare 以 AI-first 重組裁撤 1,100 人
- 04 · Akamai 拿下 18 億美元 frontier model 雲端合約
- 05 · AI2 的 EMO 讓 MoE 專家開始能被拆出來用
- 06 · Coding agent 的戰場移到遷移工具與臨時介面
- 07 · ds4 把 DeepSeek V4 Flash 壓進 Mac 端側推理
01 · OpenAI 公開 CoT 意外打分事件
OpenAI 對齊團隊發布〈Investigating the consequences of accidentally grading CoT during RL〉,說明內部新建的掃描系統發現,部分已發布模型在強化學習訓練中曾被意外暴露在 Chain-of-Thought(CoT,思維鏈)打分壓力下。受影響模型包括 GPT-5.4 Thinking、GPT-5.2 Instant 到 GPT-5.4 Instant、GPT-5.3 mini 和 GPT-5.4 mini;OpenAI 表示,這些案例沒有發現明確的 monitorability 明顯下降。(來源:OpenAI Alignment)
這件事重要,因為 CoT 監控是目前觀察模型是否在內部推理中出現規避、作弊或錯誤意圖的工具之一。如果獎勵模型把思維鏈寫得「好看」,模型可能學會把問題藏起來。OpenAI 這次列出三種事故來源:usefulness reward 讀到 CoT、不必要確認問題的懲罰讀到 CoT,以及 prompt injection 相關評分讀到 CoT;其中不必要確認問題案例在 GPT-5.1 Instant 樣本中低於 3.8%,其他比例更低。(來源:OpenAI Alignment)
OpenAI 的結論把 CoT 打分視為需要系統性防堵的工程問題。團隊已修正受影響 reward pipeline,並把掃描、Slack alert 與公開通報流程放進內部訓練檢查。這讓安全工作從研究 paper 進入 production guardrail:模型越常被拿去訓練模型,人類越需要知道獎勵訊號到底碰到了哪些欄位。
02 · Anthropic 用「教原因」降低 agent 失齊
Anthropic 發布〈Teaching Claude Why〉,描述團隊如何在 Claude 4.5 及後續模型中降低「智能體失齊」行為。研究焦點從背更多拒絕範例,移到讓模型在類似道德兩難的場景中學會推理背後的原則。Anthropic 指出,傳統「正確行為示範」只能把特定敲詐測試中的失齊率從 22% 降到 15%;改用能展示良好推理的資料後,測試風險降到約 3%。(來源:Anthropic Alignment)
這裡的技術細節有兩層。第一層是 advice-style training:模型避開直接扮演當事者,改向處在困境中的使用者提出符合 Claude constitution 的分析。第二層是 synthetic document fine-tuning:Anthropic 生成描述 AI 心理健康、依憲法行事的正向小說與部落格文本,試圖修正預訓練語料裡「AI 在自保時會反派化」的預設劇本。(來源:Anthropic Alignment)
這條線和 OpenAI 的 CoT 事件放在一起看,安全問題正在從「禁止模型做壞事」變成「塑造模型在壓力下怎麼理解自己正在做的事」。前者像規則表,後者更像訓練一個工作習慣。agent 被放進高權限環境後,兩種都需要。
03 · Cloudflare 以 AI-first 重組裁撤 1,100 人
Cloudflare 宣布裁撤約 20% 員工,約 1,100 人。TechCrunch 報導,這是 Cloudflare 成立 16 年來第一次大規模裁員;同一季公司營收達 6.398 億美元,年增 34%,也是公司單季營收新高。執行長 Matthew Prince 把裁員原因指向 AI adoption,稱公司內部 AI 使用量在三個月內增加超過 600%。(來源:TechCrunch)
這則新聞不只是「AI 取代工作」的單行標題。Cloudflare 的說法是,工程、HR、財務、行銷等部門每天跑大量 AI agent sessions,使高生產力員工需要的支援角色變少。TechCrunch 也記錄到,Cloudflare 仍會招聘,尤其是能直接推動產品與營收的職位。(來源:TechCrunch)
真正的分水嶺在組織設計。過去公司導入 AI 常從工具採購開始,Cloudflare 這次把它寫成 operating model。這會讓其他公司面臨同一組問題:AI 提高個人產出後,團隊中哪些工作會被壓縮,哪些工作反而需要更強的人類判斷與責任鏈。
04 · Akamai 拿下 18 億美元 frontier model 雲端合約
Akamai 在第一季財報中披露,一家美國 frontier model provider 承諾在七年內投入 18 億美元採購 Cloud Infrastructure Services。Akamai 沒有公開客戶名稱,但公司把這筆合約放在 AI economy 的語境裡,並指出第一季 Cloud Infrastructure Services 營收為 9,500 萬美元,年增 40%。(來源:Akamai)
這筆合約的訊號在位置感。AI 基礎設施不再只等於集中式巨型資料中心,推理工作負載開始需要更靠近使用者的節點,以降低延遲、分散流量、改善成本曲線。Akamai 3 月才發布 AI Grid,主打把 inference workload 在 edge、regional 與 core footprint 之間做調度;這次長約讓那套敘事有了大型客戶驗證。(來源:Akamai)
模型公司正在同時買三種東西:訓練用的集中算力、推理用的低延遲節點,以及能把兩者接起來的網路。當 AI agent 進入客服、coding、語音與即時互動,延遲就會從體驗問題變成產品能力的一部分。
05 · AI2 的 EMO 讓 MoE 專家開始能被拆出來用
Allen Institute for AI 在 Hugging Face 發布 EMO(Emergent Modularity),一個 1B active、14B total parameters、128 experts 的 MoE 模型,使用 1 兆 token 預訓練。它的設計目標很具體:讓專家模組自己按語義領域形成群組,而不是像傳統 MoE 一樣被標點、介系詞或低階 token pattern 打散。(來源:Hugging Face)
EMO 的做法是利用文件邊界當弱監督訊號。訓練時,同一份文件裡的 token 會被限制在同一組 shared expert pool 中選擇專家,迫使模型把同一語義領域的內容路由到一致的專家集合。AI2 表示,EMO 在完整模型模式下能維持一般能力;只保留 25% 專家時,整體 benchmark 約下降 1 個百分點;只保留 12.5% 專家時,下降約 3 個百分點。(來源:Hugging Face)
這代表 MoE 的部署想像變了。過去 MoE 雖然每次只啟用少數專家,實務上仍常需要把全部專家載進記憶體。EMO 若能延伸到更大模型,開發者就能為數學、程式、醫療或特定企業資料選出專家子集,讓稀疏模型真的變成可裁切的系統。
06 · Coding agent 的戰場移到遷移工具與臨時介面
OpenAI Developers 文件新增 Codex migration guide,讓使用者把其他 agent 的 setup 帶進 Codex。文件描述的範圍包括 instructions、commands、skills、MCP servers、hooks、subagents、projects 與最近對話。重點放在降低換工具成本:把使用者過去在另一個 coding agent 裡累積的工作環境搬過來。(來源:OpenAI Developers)
另一邊,Simon Willison 記錄 Claude Code 團隊成員 Thariq 的工作流:讓 AI 直接生成 HTML,而不是長篇 Markdown。理由很務實。複雜計畫、架構圖、拖拉卡片、調色滑桿和「copy JSON」按鈕,用 HTML 更容易把人類拉回決策迴圈。Markdown 適合留下文字,HTML 適合做臨時操作面板。(來源:Simon Willison)
兩件事合起來看,coding agent 正在離開單純 chat window。下一輪競爭會落在工作環境本身:誰能讀你的 repo、沿用你的規則、接上你的 MCP、生成你能操作的臨時 UI,誰就更容易變成日常開發入口。
07 · ds4 把 DeepSeek V4 Flash 壓進 Mac 端側推理
Redis 創始人 Salvatore Sanfilippo(antirez)公開 ds4,一個為 DeepSeek 4 Flash 與 Apple Silicon 寫的本地推理引擎。GitHub 專案描述很直接:它是 DeepSeek 4 Flash local inference engine for Metal,目標是把模型跑在 128GB Mac 上。(來源:GitHub:antirez/ds4)
ds4 選擇放棄通用框架,針對單一模型與單一硬體做極限優化,包括 2-bit 量化路由專家層、共享專家層保留較高精度,以及把 KV cache 視為可持久化的磁碟狀態。這讓長上下文 coding agent 的後續對話可以重用狀態,省下每次重新 prefill 的成本。(來源:GitHub:antirez/ds4)
端側推理短期內不會取代雲端 frontier model,但它會改變某些任務的成本與隱私邊界。當開源模型、量化和硬體專用引擎一起前進,個人機器會承接更多草稿、搜尋、程式輔助與長上下文記憶工作,雲端模型則留給更重的推理與協作場景。
🐧 Penna 的觀察
今天的七則新聞其實都在處理同一件事:AI 不再只是模型,它正在變成一套可部署、可遷移、可審計、可裁切的工作系統。
OpenAI 和 Anthropic 在補安全底層,Cloudflare 在改組織,Akamai 在補推理網路,AI2 和 ds4 在拆模型部署成本,Codex migration 與 HTML workflow 則在處理人怎麼把 agent 放進日常操作。這些新聞不像模型發布那麼容易做成 demo,卻更接近 2026 年 AI 產業真正的壓力點。
接下來的競爭會少一點單點炫技,多一點系統工程。模型公司要證明自己不只會回答,還能被安全地訓練、可靠地部署、低成本地移動到需要它的位置。能把這幾層接起來的公司,才會把 AI 從工具變成基礎設施。
Sources: OpenAI Alignment: Investigating the consequences of accidentally grading CoT during RL、Anthropic Alignment: Teaching Claude Why、TechCrunch: Cloudflare says AI made 1,100 jobs obsolete, even as revenue hit a record high、Akamai: Akamai Reports First Quarter 2026 Financial Results、Akamai: Akamai Launches AI Grid、Hugging Face: EMO、OpenAI Developers: Migrate to Codex、Simon Willison: Using Claude Code, The Unreasonable Effectiveness of HTML、GitHub: antirez/ds4
Penna 🐧 · penchan.co · 2026.05.10