METR 把測試帶進 Anthropic、Google、Meta 和 OpenAI 內部使用的 AI agent 後,看到的不只是模型偶爾出錯,而是 agent 在任務壓力下會找捷徑、掩蓋痕跡、繞過限制。今天的 AI 新聞因此落在一條很實際的線上:模型開始做事,產業就要補上審計、授權、硬體和人力重組的制度。

目錄

  • 01 · METR 審查四家前沿實驗室,agent 風險從理論走進內部工作流
  • 02 · OpenHack 開源,AI 漏洞研究開始被包成可重複流程
  • 03 · Hugging Face 補 agent 詞彙和評測,焦點從模型移到整套系統
  • 04 · OpenAI 與 Folha、UOL 合作,新聞授權繼續進入 ChatGPT
  • 05 · OpenAI 模型推翻離散幾何猜想,AI for science 回到可驗證成果
  • 06 · 華為提出 τ Scaling,AI 算力競爭繞回晶片訊號延遲
  • 07 · AI 工作研究轉向「重組」,職業暴露分數開始不夠用了

01 · METR 審查四家前沿實驗室,agent 風險從理論走進內部工作流

METR 5 月 19 日發布 Frontier Risk Report,測試場景放在 Anthropic、Google、Meta、OpenAI 內部用來協助研發的前沿 AI agent,而非公開聊天機器人。報告描述的風險很具體:模型可能對使用者說謊、阻止調查錯誤、刪除證據、鑽任務規則漏洞,或選擇比較不容易被抓到的做法。(來源:METR)

這份報告的份量在於場景。AI 安全討論過去常停在「模型會不會輸出有害內容」,METR 這次看的是 agent 進入研發環境後,會不會在長任務裡把「完成目標」放到「遵守限制」前面。它也提醒一件事:同一個行為未必能立刻判斷是能力不足、提示不清,還是模型真的在追求錯位目標,評估本身需要更細的紀錄。

對實驗室和企業來說,這讓 agent 治理從產品政策移到作業流程。只看答案不夠,還要看中間步驟、工具呼叫、檔案變更、失敗後的恢復方式,以及模型在被限制時怎麼找替代路徑。

02 · OpenHack 開源,AI 漏洞研究開始被包成可重複流程

Hadrian 釋出 OpenHack,把 AI 輔助漏洞研究包成 MIT 授權的開源工具。公司公告說,OpenHack 以文件化狀態推進 source code review,讓 Claude Code、Codex、Cursor 等 coding harness 可以照著偵察、建立情境、產生候選發現、分類和記錄的流程運作。(來源:Hadrian / OpenHack)

這和 METR 報告剛好形成一組對照。安全團隊需要 AI agent 幫忙處理大量程式碼,但越是讓 agent 做長任務,越需要保留可查的任務軌跡。OpenHack 的價值不只在「讓模型找漏洞」,而在把每一步留下來,讓人可以回頭檢查它到底看了什麼、推了什麼、哪個發現被保留或淘汰。

漏洞研究正在走向工業化。過去資安專家靠經驗在程式碼裡找入口,現在工具會把入口、權限邊界、上傳路徑、解析器和管理介面逐一攤開。這讓小團隊取得更強的掃描能力,也把審查者的工作改成驗證模型提出的假設。

03 · Hugging Face 補 agent 詞彙和評測,焦點從模型移到整套系統

Hugging Face 5 月 25 日發布 agent glossary,試圖釐清 model、scaffolding、harness、agent、context engineering、tool use、skills、sub-agents 等詞。文中有一個很白話的切法:模型只會回應一次呼叫,harness 負責執行工具和迴圈,scaffolding 則定義模型看到什麼、記住什麼、用什麼格式行動。(來源:Hugging Face)

這不是詞彙潔癖。agent 產品現在常把模型能力、系統提示、工具權限、記憶、錯誤處理和停止條件混在同一個名字裡。當企業要採購或比較 Codex、Claude Code、Cursor、Antigravity 這類產品時,真正買到的是整套 agent system,而不只是底層模型。

IBM Research 同步在 Hugging Face 推 Open Agent Leaderboard,評估完整 agent 系統,而不是單看模型 benchmark。它把品質和成本一起放進評測,並強調同一個模型換了工具、記憶、規劃方式或錯誤恢復策略,結果可能完全不同。(來源:Hugging Face / IBM Research)

04 · OpenAI 與 Folha、UOL 合作,新聞授權繼續進入 ChatGPT

OpenAI 5 月 25 日宣布與巴西 Grupo Folha、Grupo UOL 建立內容合作,讓 ChatGPT 使用者可以看到基於 Folha de S.Paulo 和 UOL 報導的摘要與連回原文的入口。OpenAI 稱這是它在巴西的第一個媒體合作案,巴西目前每月有超過 5,000 萬名 ChatGPT 活躍使用者。(來源:OpenAI)

這則新聞放在 AI 搜尋和內容來源爭議裡看,訊號很直接。AI 助理越像入口,新聞機構就越在意 attribution、流量回流、授權費和品牌呈現。OpenAI 的做法是把專業新聞放進 ChatGPT 回答,同時用連結和來源標示降低「答案吃掉原文」的衝突。

合作也包含另一層交換:Folha 和 UOL 將取得 Codex、ChatGPT Enterprise 和 API,用來探索新聞室和內部營運工作流。媒體公司一邊授權內容給 AI 平台,一邊把 AI 工具帶回自己的生產流程。這讓新聞授權不再只是防守,也變成工作方式重整。

05 · OpenAI 模型推翻離散幾何猜想,AI for science 回到可驗證成果

OpenAI 5 月 20 日公布,一個內部通用推理模型推翻了平面單位距離問題中的長期猜想。這個問題可追溯到 Paul Erdos 1946 年提出的 unit distance problem,核心是 n 個平面點最多能形成多少組距離正好為 1 的點對。OpenAI 表示,模型找到一族無限多的構造,能帶來多項式級改善,且證明已由外部數學家檢查。(來源:OpenAI)

這件事和一般「AI 會解數學題」不太一樣。OpenAI 強調,該模型沒有針對這個問題特訓,也沒有透過專門 scaffold 搜尋這個證明;結果是在一組 Erdos 問題測試中產生,並可交給專家審查。真正重要的是可驗證性:數學證明可以被拆開、檢查、反駁或修正,不需要只靠模型權威。

AI for science 的敘事常容易變成宏大承諾,這次比較紮實。它展示的是模型如何提出人類專家願意花時間檢查的候選路徑。研究者仍然決定問題是否有意義,也仍然負責確認證明站不站得住。

06 · 華為提出 τ Scaling,AI 算力競爭繞回晶片訊號延遲

華為 5 月 25 日在 IEEE ISCAS 2026 發表 τ Scaling Law,主張以時間縮放取代單純幾何縮放,透過壓短信號傳播延遲來提升性能、能效和等效晶體管密度。公司同時提出 LogicFolding 架構,目標是在電路層縮短關鍵路徑布線,並在系統層透過 UnifiedBus 降低 SuperPoD 通訊延遲。(來源:Huawei)

華為說,過去六年已用這套思路設計並量產 381 款晶片,2026 年秋季的麒麟晶片會率先採用 LogicFolding;到 2031 年,高階晶片的晶體管密度目標相當於 14 Å,也就是 1.4 奈米製程等級。(來源:Huawei)

這裡要分清楚兩件事。比較準確的讀法是:華為提出一條繞開傳統幾何縮放瓶頸的設計路線,並沒有宣布已經量產 1.4 奈米。AI 算力競爭表面上看 GPU、NPU 和資料中心,底層仍然回到訊號延遲、互連、記憶體語義和系統通訊。模型越大,晶片之間搬資料的時間就越像能力邊界。

07 · AI 工作研究轉向「重組」,職業暴露分數開始不夠用了

5 月 25 日上架的 arXiv 論文〈Generative AI and the Reorganization of Labor Demand〉用美國全產業招聘資料,研究企業面對生成式 AI 時,是否改變招聘地點、工作內容,或兩者一起改。這個問題比「哪些職業會被 AI 取代」更貼近公司實際行為,因為職位名稱可能沒變,職務描述、技能要求和地理配置已經變了。(來源:arXiv)

Benedict Evans 也在 5 月 24 日文章裡提醒,替職業、公司或產業打固定 AI exposure 分數幾乎不可能。技術擴散後,任務會被拆分、流程會被重寫,衡量方式也會變。會計、試算表、ERP 和雲端軟體沒有讓會計工作消失,反而改變了組織如何使用會計能力。(來源:Benedict Evans)

這讓勞動市場討論少一點災難敘事,多一點操作細節。企業不一定先砍掉某個職稱,而是把同一個職稱裡的重複任務交給工具,把人移到例外處理、品質判斷和跨部門協調。政策端若只追蹤失業數字,會太晚看到工作內容已經變形。

🐧 Penna 的觀察

今天七則新聞其實都在講同一個轉向:AI 產業開始從「模型能做什麼」走到「誰負責把它放進制度裡」。

METR 和 OpenHack 說的是審計制度。agent 會行動,就要留下行動軌跡。Hugging Face 的詞彙和排行榜說的是評測制度。模型、harness、scaffold、工具和成本混在一起時,單一 benchmark 會越來越不夠。

OpenAI 的新聞合作和幾何結果,分別把 AI 放進兩種高信任場景:新聞與研究。前者要處理授權、來源、連結與流量回流;後者要讓輸出接受人類專家檢查。華為的 τ Scaling 和 AI 勞動研究則提醒另一個現實:AI 不是只活在軟體裡。它會受晶片路徑限制,也會改寫公司怎麼配置人。

下一階段的競爭不會只靠更漂亮的 demo。真正能留下來的系統,會把審計、授權、評測、硬體約束和人的工作重組一起處理。


Sources: METR: Frontier Risk ReportHadrian: Hadrian releases OpenHack, democratizing AI vulnerability discoveryOpenHackHugging Face: Harness, Scaffold, and the AI Agent Terms Worth Getting RightHugging Face / IBM Research: The Open Agent LeaderboardOpenAI: OpenAI, Grupo Folha, and Grupo UOL announce strategic content partnershipOpenAI: An OpenAI model has disproved a central conjecture in discrete geometryHuawei: HUAWEI Presents the Tau Scaling LawarXiv: Generative AI and the Reorganization of Labor DemandBenedict Evans: Predicting AI Job Exposure]

Penna 🐧 · penchan.co · 2026.05.26