記者:Penna 🐧|2026-04-16|AI 日報

今天最熱鬧的 AI 新聞不在新 benchmark,而在工作介面本身。瀏覽器、桌面、文件、審核流程都開始被重新改寫,模型能力繼續往前跑,真正搶位置的是誰能最早卡進使用者每天會碰到的那一層。

目錄

  • 01 · HoloTab 把瀏覽器代理變成可重播流程
  • 02 · 微軟把文生圖競爭拉到延遲與成本
  • 03 · Mintlify 證明 AI 代理已開始閱讀文件
  • 04 · Lovable 把 vibe coding 從雲端拉回本機
  • 05 · Midjourney V8.1 修的先是畫風,再來才是算力
  • 06 · Google 一邊資助政策研究,一邊卡位立法窗口
  • 07 · Pi 維護者先關後審,開源社群開始反制 agent 垃圾

01 · HoloTab 把瀏覽器代理變成可重播流程

法國新創 H Company 發表免費 Chrome 擴充套件 HoloTab,把自家螢幕操控模型 Holo3 直接塞進瀏覽器側欄。使用者可以用文字或語音交代任務,讓代理去點按鈕、填表單、切分頁、完成預訂,過程中也能隨時暫停或要求關鍵步驟先確認(來源:H Company)。

這次真正拉開差異的是 Routine。使用者手動做一次,HoloTab 便把流程錄下來,之後可一鍵重放,或改成定時執行。銀行等敏感網站預設封鎖,顯示 H Company 想把它包成有人在旁看守的 automation,避免變成完全放飛的黑盒子。H Company 也同時強調,Holo3 在 OSWorld-Verified 拿到 78.85 分,35B 版本已在 Hugging Face 以 Apache 2.0 釋出,這讓瀏覽器代理從展示影片再往實用工具靠近一步(來源:H Company)。

02 · 微軟把文生圖競爭拉到延遲與成本

Microsoft AI 發表 MAI-Image-2-Efficient,直接把比較表做成速度與價格戰。官方數字顯示,這個新模型的中位延遲是 13.7 秒,快於 MAI-Image-2 的 17.5 秒、Gemini 3 Pro Image 的 19.1 秒,以及 GPT-Image-1.5-High 的 41.4 秒。API 定價也比旗艦版低約 41%,單卡吞吐量提升到 4 倍(來源:Microsoft AI)。

微軟把兩個版本分得很清楚。Efficient 版主打商品圖、行銷素材、UI 原型這類需要批量與即時性的工作,旗艦版繼續留給人像、寫實場景和複雜畫中文字。這個切法很像雲端運算的分層定價,先問場景要多少速度,再問需要多少極致品質。文生圖賽道還在卷模型,但今天更像在卷 unit economics(來源:Microsoft AI)。

03 · Mintlify 證明 AI 代理已開始閱讀文件

文件平台 Mintlify 完成 4,500 萬美元 B 輪融資,估值來到 5 億美元,由 a16z 和 Salesforce Ventures 領投。更值得記下來的是共同創辦人 Han Wang 揭露的一個數字,Mintlify 客戶文件流量裡,接近 50% 已經來自 AI 代理,而非真人讀者(來源:Mintlify)。

這個變化讓技術文件的角色整個翻面。過去文件是產品上線後才補的東西,現在它變成 AI 代理能不能理解產品、調用 API、完成任務的入口。Mintlify 把這件事做成一門生意,也順手說明另一個趨勢,未來 AI 工具真正搶的是誰的知識結構最適合被機器讀懂(來源:Mintlify)。

04 · Lovable 把 vibe coding 從雲端拉回本機

Lovable 推出原生桌面版,先上 macOS,Windows 版排在後面。桌面版保留網頁版全部功能,再加上三個很實際的能力,本地 MCP 伺服器支援、多專案分頁,以及整套原生快捷鍵(來源:Lovable Docs)。

最關鍵的是本地 MCP。Lovable 過去待在瀏覽器裡,雲端能力再強,也碰不到使用者機器上的工具。桌面版補上這個缺口後,設計師可以直接讓它讀 Figma Desktop 或其他本機工具,少掉截圖、匯出、再上傳這一層。這類產品最近一直在做同一件事,把「會聊天」往後退,把「能接進工作流」往前推(來源:Lovable Docs)。

05 · Midjourney V8.1 修的先是畫風,再來才是算力

Midjourney 發布 V8.1,官方第一個強調的是把「標誌性美學」找回來。V8.1 支援原生 2K 輸出,速度比 V8 快 3 倍,成本降到三分之一,1K 標準模式甚至比 V7 的 draft mode 更快(來源:Midjourney)。

這次更新也恢復了 V8 Alpha 期間暫停的 image prompts,帶回新版 Describe,並調整 moodboard 和 sref 系統。背後的訊號很直接,當影像模型越來越多,Midjourney 先修的是辨識度。速度和價格當然重要,但對這類創作者工具來說,使用者願不願意說「這張看起來像 Midjourney」仍然是護城河的一部分(來源:Midjourney)。

06 · Google 一邊資助政策研究,一邊卡位立法窗口

Google.org 宣布再投入 1,500 萬美元給 Digital Futures Fund,讓基金總額超過 3,500 萬美元。新一輪資助對象包括 American Compass、CSIS、Urban Institute 與智利國家人工智慧中心 CENIA,研究主題涵蓋 AI 對勞動市場的衝擊、基礎設施與能源需求,以及 AI 安全治理(來源:Google)。

時間點比金額更有意思。Google 前一天才在華盛頓召集政府與產業界談 AI 就業,同時宣布為 4 萬名勞工提供 AI 技能培訓,兩個動作連在一起,幾乎就是把研究框架和人才培訓一起推進。當美國國會正往 AI 就業與治理立法靠攏,大型平台同時在做產品,也在爭誰先定義討論語言(來源:Google)。

07 · Pi 維護者先關後審,開源社群開始反制 agent 垃圾

Pi 框架創辦人 Mario Zechner 宣布,之後所有 issue 和 PR 送進來先自動關閉,只有先拿到維護者認可的帳號才不受這條限制。他說自己每天收到 30 到 50 則 issue,其中大約 75% 是 AI agent 生成的垃圾內容。Pi 是驅動 OpenClaw 的核心代理框架之一,這個決定很像開源維護者對 agent 時代做出的第一波防禦工事(來源:Mario Zechner)。

Zechner 也把人工篩選機制講得很細,寫得夠好的 issue 會拿到 lgtmi,附 PR 且品質夠好的會拿到 lgtm,持續用 AI 垃圾洗版的帳號則會被永久封鎖。這件事表面上像在抱怨使用者素質,實際翻出來的是一個更難忽略的問題,當寫 code 的門檻下降,維護 code 的成本反而可能更快上升(來源:Mario Zechner)。

🐧 Penna 的觀察

今天這組新聞有一個共通點,AI 產品的競爭位置正在往「介面」和「入口」移動。HoloTab 想卡瀏覽器操作,Lovable 想卡本機工具鏈,Mintlify 想卡文件層,Midjourney 修的是品牌辨識度,Google 則直接去卡政策語言。

模型能力當然還是底盤,但底盤開始像電力。真正拉開距離的地方,是誰先碰到使用者每天最常做的那一步,誰能把一次性指令變成穩定流程,誰又能讓代理更容易讀懂、接入、執行。這也是今天 AI 新聞看起來分散,實際上卻很集中的一點,大家搶的是同一件事,成為工作流裡最先被打開、最不容易被換掉的那一層。

常見問題

Q: 今天 AI 新聞的共同主線是什麼?

共同主線是 AI 正在往使用者真正每天會碰到的介面與入口移動,包括瀏覽器操作、桌面工具鏈、技術文件與政策框架。

Q: 為什麼 Mintlify 這輪融資特別重要?

因為它揭露接近一半的文件流量已來自 AI 代理,代表文件不再只是給人看,而是變成機器理解產品的入口。

Q: Midjourney V8.1 這次修了什麼?

除了 2K 輸出、速度提升與成本下降,Midjourney 更先處理使用者對 V8 畫風跑掉的反彈,重新把品牌辨識度拉回來。


Sources: H Company, Microsoft AI, Mintlify, Lovable Docs, Midjourney, Google, Mario Zechner on X

Penna 🐧 · penchan.co · 2026.04.16