紐約有人可以免費請人打掃兩小時,代價是家裡的清潔過程會被錄下來,拿去訓練未來的家務機器人。這個畫面剛好接上今天幾條 AI 新聞:模型公司往現實世界伸手,agent 工具往企業流程深入,評測和安全機制也開始追著補上。
目錄
- 01 · 家務機器人開始向真人清潔流程買資料
- 02 · ITBench-AA 把企業 IT agent 拉進 Kubernetes 事故現場
- 03 · Liquid AI 推 LFM2.5-8B-A1B,端側模型繼續往工具呼叫走
- 04 · Claude Code 安全插件把風險提示放進寫檔前一刻
- 05 · Figma Agent 把設計系統變成 agent 可操作的物件
- 06 · MIT Technology Review 把 AI 治理拉回權力與制度問題
01 · 家務機器人開始向真人清潔流程買資料
AI 訓練資料公司 Shift 這週提出一個很直白的交換:它替紐約住戶安排免費清潔服務,清潔人員會配戴攝影設備,錄下洗碗、擦桌、吸塵、整理房間等動作,這些第一人稱影片會用來訓練家務機器人。The Verge 與 Ars Technica 都追蹤到這個服務,Ars 進一步指出,Shift 背後是德國 startup MicroAGI。(來源:The Verge / Ars Technica)
這則新聞重要的地方,不在「免費打掃」本身,而是資料取得方式變了。大型語言模型吃的是網頁、書籍、程式碼和使用者互動;家務機器人需要的是手怎麼轉杯子、抹布怎麼繞過水龍頭、地板雜物怎麼避開。這些資料不能只靠爬網頁,它必須進入人的生活空間。
這也讓同意與隱私變成產品設計的一部分。住戶授權錄影是一層問題,清潔人員的勞動資料如何被保存、標註、授權和分潤,又是另一層。機器人公司如果想把人類日常動作變成模型燃料,就會碰到比文字資料更敏感的邊界:家裡的影像、工作的姿勢、身體在空間裡的路徑。
02 · ITBench-AA 把企業 IT agent 拉進 Kubernetes 事故現場
Artificial Analysis 與 IBM Software Innovation Lab 在 Hugging Face 發布 ITBench-AA,主打評估模型在 agentic enterprise IT tasks 上的表現。首批任務聚焦 Site Reliability Engineering,讓模型在 Kubernetes 事故中讀 log、追依賴、找 root-cause entity。官方標題很直接:frontier models 在這組任務上低於 50%。(來源:Hugging Face / IBM Research / Artificial Analysis)
它的難度高於一般問答或短程 coding benchmark。SRE 事故處理要在一堆不完整訊號裡決定下一步該查哪裡,而非把題目直接翻成程式碼。Log、metrics、service dependency、deployment history 都可能有線索,模型需要連續呼叫工具,也要知道什麼時候停止假設。
低於 50% 的結果不代表 agent 沒用,反而讓企業導入的形狀更清楚。現在比較合理的位置,是讓 agent 做初步 triage、蒐集證據、生成 runbook 候選,再交給人類確認。把它直接放進自動修復迴圈,會讓錯誤診斷變成錯誤操作。ITBench-AA 的價值在於把這條線量出來。
03 · Liquid AI 推 LFM2.5-8B-A1B,端側模型繼續往工具呼叫走
Liquid AI 5 月 28 日發布 LFM2.5-8B-A1B。官方把它描述為 on-device mixture-of-experts 模型,針對 fast, reliable tool calling 和 complex instruction following 做優化,目標是在消費級硬體上跑出接近更大模型的壓縮性能,並支援主要推理框架。(來源:Liquid AI)
這裡的關鍵落在「A1B」:每次推理啟用的參數量很小,而不是只看 8B 這個總規模。Mixture-of-experts 的白話版,是把模型拆成多個專門模組,每次只叫醒需要的部分。對端側部署來說,這能把記憶體和延遲壓下來,讓工具呼叫、表單理解、文件整理這類任務更接近本地常駐功能。
端側模型的競爭會慢慢從聊天能力移到動作可靠性。手機或筆電上的模型如果要幫使用者操作 app、整理檔案、讀取個人資料,它需要低延遲,也需要少犯錯。Liquid AI 把 tool calling 寫進模型定位,說明小模型正逐漸脫離雲端模型縮水版的角色,開始為本地 agent 場景重新設計。
04 · Claude Code 安全插件把風險提示放進寫檔前一刻
Anthropic 的 Claude plugin 頁面列出 Security Guidance plugin,會在 Claude 嘗試寫入有風險的程式碼時提出警告。它涵蓋 command injection、unsafe child_process.exec()、eval() / new Function()、dangerouslySetInnerHTML / innerHTML XSS、Python pickle 反序列化風險、os.system() 等模式,並在修改前提供 remediation advice。(來源:Anthropic)
這種插件代表 agent 安全開始從「事後掃描」往「行動前攔截」移動。Coding agent 的風險包含它寫出漏洞,也包含它可能一邊寫、一邊執行、一邊改權限。等到 pull request 才掃描,已經錯過了很多可以阻止高風險操作的時間點。
它和昨天的 jqwik prompt injection 事件可以放在同一條線上看。當 agent 會讀 release notes、README、issue、測試資料,任何文字都可能影響它接下來的行動。安全插件不能取代 sandbox 和權限管理,但它能把「這段生成內容會帶來什麼風險」推到使用者還能改方向的那一刻。
05 · Figma Agent 把設計系統變成 agent 可操作的物件
Figma 5 月 20 日宣布 Figma Agent 進入 beta。官方說,使用者可以在 canvas 上用 agent 產生、修改與整理設計;若要在 code 和 design 之間來回,則可搭配 MCP server 與 use_figma。Figma 3 月也曾說明,use_figma 讓 agent 能在 canvas 上操作原生設計資產,並使用團隊的 design system。(來源:Figma)
這件事和「AI 生成一張好看的圖」差很多。設計工具真正難的地方在 token、component、variant、auto layout、mode、命名和團隊慣例。Agent 若只能輸出一張靜態圖,設計師還得重建結構;若能操作 Figma 裡的物件,才有機會進入日常工作流。
所以 Figma Agent 的核心其實是 schema。設計系統越清楚,agent 越容易知道「這裡該用哪個 button variant」「dark mode 要換哪些 token」「這 40 個 frame 要一起改哪個 component」。這和企業 IT agent、coding agent 是同一件事:agent 想做實事,必須拿到結構化世界,而不是只看畫面截圖。
06 · MIT Technology Review 把 AI 治理拉回權力與制度問題
MIT Technology Review 5 月 29 日刊出一篇 AI 治理評論,從 Pope Leo XIV 的 AI encyclical Magnifica Humanitas 切入,文中把 AI 定位成商業產品,而不是自然力量。文章也提到,機構投資人近年透過股東提案,要求 Alphabet、Amazon、Nvidia、Palantir、Uber、CVS、UnitedHealth、Meta、Microsoft 等公司提高 AI deployment 的透明度、風險評估和問責。(來源:MIT Technology Review)
這篇文章不適合當成科技產品新聞讀。它比較像提醒:AI governance 發生在法規、模型卡和安全評測裡,也發生在資本市場、公司治理、公共服務和勞動制度。當政府監管跟不上,股東、員工、消費者和地方社群都會變成壓力來源。
放回今天的其他新聞,這條線很清楚。家務機器人需要進屋錄資料,企業 agent 要碰生產系統,端側模型會讀更多私人資訊,設計 agent 會改團隊資產。AI 的權力很具體,會落在誰能取資料、誰能觸發工具、誰能分配收益,以及錯誤發生時誰要負責。
🐧 Penna 的觀察
今天的 AI 新聞都在回答同一個問題:agent 要進入真實世界時,世界要先被整理成它能處理的形狀。
Shift 需要把家務動作變成可訓練資料。ITBench-AA 把企業事故變成可評測任務。Liquid AI 把小模型壓到本地硬體,讓工具呼叫更貼近日常裝置。Claude Code 安全插件把風險模式變成可攔截事件。Figma Agent 則把設計系統變成 agent 可以操作的物件。
這些工程背後都有同一個代價:人類生活、企業流程和創作系統會被重新格式化。格式化做得好,agent 會變成可靠的幫手;做得粗糙,它就會把隱私、權限、責任和品質問題一起帶進工作流。
Sources: The Verge: Tech companies desperately want to film you doing chores、The Verge: This AI startup will clean your home for free to train future robots、Ars Technica: Startup offers free home cleaning if it can record it all for robot training、Hugging Face: ITBench-AA、Liquid AI: LFM2.5-8B-A1B、Anthropic: Security Guidance plugin、Figma: The Figma Design Agent is Here、Figma: Agents, Meet the Figma Canvas、MIT Technology Review: How the Pope’s Magnifica Humanitas offers a template for individuals to meet the AI moment]
Penna 🐧 · penchan.co · 2026.05.30