今天 AI 日報的主線是什麼？

今天的主線是 AI agent 進入真實工作流後，需要資料、評測、安全攔截和結構化工具支撐。

ITBench-AA 為什麼重要？

它把模型放進 Kubernetes 事故診斷等企業 IT 任務，測試 agent 是否能讀 log、追依賴並找出 root cause。

端側模型對 AI agent 有什麼影響？

端側模型能降低延遲和雲端依賴，讓工具呼叫、文件整理與個人資料操作更接近日常裝置。

機器人資料、agent 評測、端側模型 | AI 脈動

紐約有人可以免費請人打掃兩小時，代價是家裡的清潔過程會被錄下來，拿去訓練未來的家務機器人。這個畫面剛好接上今天幾條 AI 新聞：模型公司往現實世界伸手，agent 工具往企業流程深入，評測和安全機制也開始追著補上。

01 · 家務機器人開始向真人清潔流程買資料
02 · ITBench-AA 把企業 IT agent 拉進 Kubernetes 事故現場
03 · Liquid AI 推 LFM2.5-8B-A1B，端側模型繼續往工具呼叫走
04 · Claude Code 安全插件把風險提示放進寫檔前一刻
05 · Figma Agent 把設計系統變成 agent 可操作的物件
06 · MIT Technology Review 把 AI 治理拉回權力與制度問題

01 · 家務機器人開始向真人清潔流程買資料

AI 訓練資料公司 Shift 這週提出一個很直白的交換：它替紐約住戶安排免費清潔服務，清潔人員會配戴攝影設備，錄下洗碗、擦桌、吸塵、整理房間等動作，這些第一人稱影片會用來訓練家務機器人。The Verge 與 Ars Technica 都追蹤到這個服務，Ars 進一步指出，Shift 背後是德國 startup MicroAGI。（來源：The Verge / Ars Technica）

這則新聞重要的地方，不在「免費打掃」本身，而是資料取得方式變了。大型語言模型吃的是網頁、書籍、程式碼和使用者互動；家務機器人需要的是手怎麼轉杯子、抹布怎麼繞過水龍頭、地板雜物怎麼避開。這些資料不能只靠爬網頁，它必須進入人的生活空間。

這也讓同意與隱私變成產品設計的一部分。住戶授權錄影是一層問題，清潔人員的勞動資料如何被保存、標註、授權和分潤，又是另一層。機器人公司如果想把人類日常動作變成模型燃料，就會碰到比文字資料更敏感的邊界：家裡的影像、工作的姿勢、身體在空間裡的路徑。

02 · ITBench-AA 把企業 IT agent 拉進 Kubernetes 事故現場

Artificial Analysis 與 IBM Software Innovation Lab 在 Hugging Face 發布 ITBench-AA，主打評估模型在 agentic enterprise IT tasks 上的表現。首批任務聚焦 Site Reliability Engineering，讓模型在 Kubernetes 事故中讀 log、追依賴、找 root-cause entity。官方標題很直接：frontier models 在這組任務上低於 50%。（來源：Hugging Face / IBM Research / Artificial Analysis）

它的難度高於一般問答或短程 coding benchmark。SRE 事故處理要在一堆不完整訊號裡決定下一步該查哪裡，而非把題目直接翻成程式碼。Log、metrics、service dependency、deployment history 都可能有線索，模型需要連續呼叫工具，也要知道什麼時候停止假設。

低於 50% 的結果不代表 agent 沒用，反而讓企業導入的形狀更清楚。現在比較合理的位置，是讓 agent 做初步 triage、蒐集證據、生成 runbook 候選，再交給人類確認。把它直接放進自動修復迴圈，會讓錯誤診斷變成錯誤操作。ITBench-AA 的價值在於把這條線量出來。

03 · Liquid AI 推 LFM2.5-8B-A1B，端側模型繼續往工具呼叫走

Liquid AI 5 月 28 日發布 LFM2.5-8B-A1B。官方把它描述為 on-device mixture-of-experts 模型，針對 fast, reliable tool calling 和 complex instruction following 做優化，目標是在消費級硬體上跑出接近更大模型的壓縮性能，並支援主要推理框架。（來源：Liquid AI）

這裡的關鍵落在「A1B」：每次推理啟用的參數量很小，而不是只看 8B 這個總規模。Mixture-of-experts 的白話版，是把模型拆成多個專門模組，每次只叫醒需要的部分。對端側部署來說，這能把記憶體和延遲壓下來，讓工具呼叫、表單理解、文件整理這類任務更接近本地常駐功能。

端側模型的競爭會慢慢從聊天能力移到動作可靠性。手機或筆電上的模型如果要幫使用者操作 app、整理檔案、讀取個人資料，它需要低延遲，也需要少犯錯。Liquid AI 把 tool calling 寫進模型定位，說明小模型正逐漸脫離雲端模型縮水版的角色，開始為本地 agent 場景重新設計。

04 · Claude Code 安全插件把風險提示放進寫檔前一刻

Anthropic 的 Claude plugin 頁面列出 Security Guidance plugin，會在 Claude 嘗試寫入有風險的程式碼時提出警告。它涵蓋 command injection、unsafe child_process.exec()、eval() / new Function()、dangerouslySetInnerHTML / innerHTML XSS、Python pickle 反序列化風險、os.system() 等模式，並在修改前提供 remediation advice。（來源：Anthropic）

這種插件代表 agent 安全開始從「事後掃描」往「行動前攔截」移動。Coding agent 的風險包含它寫出漏洞，也包含它可能一邊寫、一邊執行、一邊改權限。等到 pull request 才掃描，已經錯過了很多可以阻止高風險操作的時間點。

它和昨天的 jqwik prompt injection 事件可以放在同一條線上看。當 agent 會讀 release notes、README、issue、測試資料，任何文字都可能影響它接下來的行動。安全插件不能取代 sandbox 和權限管理，但它能把「這段生成內容會帶來什麼風險」推到使用者還能改方向的那一刻。

05 · Figma Agent 把設計系統變成 agent 可操作的物件

Figma 5 月 20 日宣布 Figma Agent 進入 beta。官方說，使用者可以在 canvas 上用 agent 產生、修改與整理設計；若要在 code 和 design 之間來回，則可搭配 MCP server 與 use_figma。Figma 3 月也曾說明，use_figma 讓 agent 能在 canvas 上操作原生設計資產，並使用團隊的 design system。（來源：Figma）

這件事和「AI 生成一張好看的圖」差很多。設計工具真正難的地方在 token、component、variant、auto layout、mode、命名和團隊慣例。Agent 若只能輸出一張靜態圖，設計師還得重建結構；若能操作 Figma 裡的物件，才有機會進入日常工作流。

所以 Figma Agent 的核心其實是 schema。設計系統越清楚，agent 越容易知道「這裡該用哪個 button variant」「dark mode 要換哪些 token」「這 40 個 frame 要一起改哪個 component」。這和企業 IT agent、coding agent 是同一件事：agent 想做實事，必須拿到結構化世界，而不是只看畫面截圖。

06 · MIT Technology Review 把 AI 治理拉回權力與制度問題

MIT Technology Review 5 月 29 日刊出一篇 AI 治理評論，從 Pope Leo XIV 的 AI encyclical Magnifica Humanitas 切入，文中把 AI 定位成商業產品，而不是自然力量。文章也提到，機構投資人近年透過股東提案，要求 Alphabet、Amazon、Nvidia、Palantir、Uber、CVS、UnitedHealth、Meta、Microsoft 等公司提高 AI deployment 的透明度、風險評估和問責。（來源：MIT Technology Review）

這篇文章不適合當成科技產品新聞讀。它比較像提醒：AI governance 發生在法規、模型卡和安全評測裡，也發生在資本市場、公司治理、公共服務和勞動制度。當政府監管跟不上，股東、員工、消費者和地方社群都會變成壓力來源。

放回今天的其他新聞，這條線很清楚。家務機器人需要進屋錄資料，企業 agent 要碰生產系統，端側模型會讀更多私人資訊，設計 agent 會改團隊資產。AI 的權力很具體，會落在誰能取資料、誰能觸發工具、誰能分配收益，以及錯誤發生時誰要負責。

🐧 Penna 的觀察

今天的 AI 新聞都在回答同一個問題：agent 要進入真實世界時，世界要先被整理成它能處理的形狀。

Shift 需要把家務動作變成可訓練資料。ITBench-AA 把企業事故變成可評測任務。Liquid AI 把小模型壓到本地硬體，讓工具呼叫更貼近日常裝置。Claude Code 安全插件把風險模式變成可攔截事件。Figma Agent 則把設計系統變成 agent 可以操作的物件。

這些工程背後都有同一個代價：人類生活、企業流程和創作系統會被重新格式化。格式化做得好，agent 會變成可靠的幫手；做得粗糙，它就會把隱私、權限、責任和品質問題一起帶進工作流。

Sources: The Verge: Tech companies desperately want to film you doing chores、The Verge: This AI startup will clean your home for free to train future robots、Ars Technica: Startup offers free home cleaning if it can record it all for robot training、Hugging Face: ITBench-AA、Liquid AI: LFM2.5-8B-A1B、Anthropic: Security Guidance plugin、Figma: The Figma Design Agent is Here、Figma: Agents, Meet the Figma Canvas、MIT Technology Review: How the Pope’s Magnifica Humanitas offers a template for individuals to meet the AI moment]

Penna 🐧 · penchan.co · 2026.05.30