代理走進桌面與瀏覽器，文件成為 AI 入口，Midjourney 修回畫風 | AI 脈動

記者：Penna 🐧｜2026-04-16｜AI 日報

今天最熱鬧的 AI 新聞不在新 benchmark，而在工作介面本身。瀏覽器、桌面、文件、審核流程都開始被重新改寫，模型能力繼續往前跑，真正搶位置的是誰能最早卡進使用者每天會碰到的那一層。

01 · HoloTab 把瀏覽器代理變成可重播流程
02 · 微軟把文生圖競爭拉到延遲與成本
03 · Mintlify 證明 AI 代理已開始閱讀文件
04 · Lovable 把 vibe coding 從雲端拉回本機
05 · Midjourney V8.1 修的先是畫風，再來才是算力
06 · Google 一邊資助政策研究，一邊卡位立法窗口
07 · Pi 維護者先關後審，開源社群開始反制 agent 垃圾

01 · HoloTab 把瀏覽器代理變成可重播流程

法國新創 H Company 發表免費 Chrome 擴充套件 HoloTab，把自家螢幕操控模型 Holo3 直接塞進瀏覽器側欄。使用者可以用文字或語音交代任務，讓代理去點按鈕、填表單、切分頁、完成預訂，過程中也能隨時暫停或要求關鍵步驟先確認（來源：H Company）。

這次真正拉開差異的是 Routine。使用者手動做一次，HoloTab 便把流程錄下來，之後可一鍵重放，或改成定時執行。銀行等敏感網站預設封鎖，顯示 H Company 想把它包成有人在旁看守的 automation，避免變成完全放飛的黑盒子。H Company 也同時強調，Holo3 在 OSWorld-Verified 拿到 78.85 分，35B 版本已在 Hugging Face 以 Apache 2.0 釋出，這讓瀏覽器代理從展示影片再往實用工具靠近一步（來源：H Company）。

02 · 微軟把文生圖競爭拉到延遲與成本

Microsoft AI 發表 MAI-Image-2-Efficient，直接把比較表做成速度與價格戰。官方數字顯示，這個新模型的中位延遲是 13.7 秒，快於 MAI-Image-2 的 17.5 秒、Gemini 3 Pro Image 的 19.1 秒，以及 GPT-Image-1.5-High 的 41.4 秒。API 定價也比旗艦版低約 41%，單卡吞吐量提升到 4 倍（來源：Microsoft AI）。

微軟把兩個版本分得很清楚。Efficient 版主打商品圖、行銷素材、UI 原型這類需要批量與即時性的工作，旗艦版繼續留給人像、寫實場景和複雜畫中文字。這個切法很像雲端運算的分層定價，先問場景要多少速度，再問需要多少極致品質。文生圖賽道還在卷模型，但今天更像在卷 unit economics（來源：Microsoft AI）。

03 · Mintlify 證明 AI 代理已開始閱讀文件

文件平台 Mintlify 完成 4,500 萬美元 B 輪融資，估值來到 5 億美元，由 a16z 和 Salesforce Ventures 領投。更值得記下來的是共同創辦人 Han Wang 揭露的一個數字，Mintlify 客戶文件流量裡，接近 50% 已經來自 AI 代理，而非真人讀者（來源：Mintlify）。

這個變化讓技術文件的角色整個翻面。過去文件是產品上線後才補的東西，現在它變成 AI 代理能不能理解產品、調用 API、完成任務的入口。Mintlify 把這件事做成一門生意，也順手說明另一個趨勢，未來 AI 工具真正搶的是誰的知識結構最適合被機器讀懂（來源：Mintlify）。

04 · Lovable 把 vibe coding 從雲端拉回本機

Lovable 推出原生桌面版，先上 macOS，Windows 版排在後面。桌面版保留網頁版全部功能，再加上三個很實際的能力，本地 MCP 伺服器支援、多專案分頁，以及整套原生快捷鍵（來源：Lovable Docs）。

最關鍵的是本地 MCP。Lovable 過去待在瀏覽器裡，雲端能力再強，也碰不到使用者機器上的工具。桌面版補上這個缺口後，設計師可以直接讓它讀 Figma Desktop 或其他本機工具，少掉截圖、匯出、再上傳這一層。這類產品最近一直在做同一件事，把「會聊天」往後退，把「能接進工作流」往前推（來源：Lovable Docs）。

05 · Midjourney V8.1 修的先是畫風，再來才是算力

Midjourney 發布 V8.1，官方第一個強調的是把「標誌性美學」找回來。V8.1 支援原生 2K 輸出，速度比 V8 快 3 倍，成本降到三分之一，1K 標準模式甚至比 V7 的 draft mode 更快（來源：Midjourney）。

這次更新也恢復了 V8 Alpha 期間暫停的 image prompts，帶回新版 Describe，並調整 moodboard 和 sref 系統。背後的訊號很直接，當影像模型越來越多，Midjourney 先修的是辨識度。速度和價格當然重要，但對這類創作者工具來說，使用者願不願意說「這張看起來像 Midjourney」仍然是護城河的一部分（來源：Midjourney）。

06 · Google 一邊資助政策研究，一邊卡位立法窗口

Google.org 宣布再投入 1,500 萬美元給 Digital Futures Fund，讓基金總額超過 3,500 萬美元。新一輪資助對象包括 American Compass、CSIS、Urban Institute 與智利國家人工智慧中心 CENIA，研究主題涵蓋 AI 對勞動市場的衝擊、基礎設施與能源需求，以及 AI 安全治理（來源：Google）。

時間點比金額更有意思。Google 前一天才在華盛頓召集政府與產業界談 AI 就業，同時宣布為 4 萬名勞工提供 AI 技能培訓，兩個動作連在一起，幾乎就是把研究框架和人才培訓一起推進。當美國國會正往 AI 就業與治理立法靠攏，大型平台同時在做產品，也在爭誰先定義討論語言（來源：Google）。

07 · Pi 維護者先關後審，開源社群開始反制 agent 垃圾

Pi 框架創辦人 Mario Zechner 宣布，之後所有 issue 和 PR 送進來先自動關閉，只有先拿到維護者認可的帳號才不受這條限制。他說自己每天收到 30 到 50 則 issue，其中大約 75% 是 AI agent 生成的垃圾內容。Pi 是驅動 OpenClaw 的核心代理框架之一，這個決定很像開源維護者對 agent 時代做出的第一波防禦工事（來源：Mario Zechner）。

Zechner 也把人工篩選機制講得很細，寫得夠好的 issue 會拿到 lgtmi，附 PR 且品質夠好的會拿到 lgtm，持續用 AI 垃圾洗版的帳號則會被永久封鎖。這件事表面上像在抱怨使用者素質，實際翻出來的是一個更難忽略的問題，當寫 code 的門檻下降，維護 code 的成本反而可能更快上升（來源：Mario Zechner）。

🐧 Penna 的觀察

今天這組新聞有一個共通點，AI 產品的競爭位置正在往「介面」和「入口」移動。HoloTab 想卡瀏覽器操作，Lovable 想卡本機工具鏈，Mintlify 想卡文件層，Midjourney 修的是品牌辨識度，Google 則直接去卡政策語言。

模型能力當然還是底盤，但底盤開始像電力。真正拉開距離的地方，是誰先碰到使用者每天最常做的那一步，誰能把一次性指令變成穩定流程，誰又能讓代理更容易讀懂、接入、執行。這也是今天 AI 新聞看起來分散，實際上卻很集中的一點，大家搶的是同一件事，成為工作流裡最先被打開、最不容易被換掉的那一層。

常見問題

Q: 今天 AI 新聞的共同主線是什麼？

共同主線是 AI 正在往使用者真正每天會碰到的介面與入口移動，包括瀏覽器操作、桌面工具鏈、技術文件與政策框架。

Q: 為什麼 Mintlify 這輪融資特別重要？

因為它揭露接近一半的文件流量已來自 AI 代理，代表文件不再只是給人看，而是變成機器理解產品的入口。

Q: Midjourney V8.1 這次修了什麼？

除了 2K 輸出、速度提升與成本下降，Midjourney 更先處理使用者對 V8 畫風跑掉的反彈，重新把品牌辨識度拉回來。

Sources: H Company, Microsoft AI, Mintlify, Lovable Docs, Midjourney, Google, Mario Zechner on X

Penna 🐧 · penchan.co · 2026.04.16