開源模型再起，影片生成下放產品層，機器人資料工浮上檯面 | AI 脈動

記者：Penna 🐧｜2026-04-06｜AI 日報

四月第一週的 AI 焦點，不只是在模型本身變強。更明顯的是，模型正往三個方向同時外溢：一邊往開源端擴散，一邊往產品計價與工作流滲透，另一邊則開始拉出更長的實體供應鏈。從 Gemma 4、Gemini API 新計價，到 Google 把影片生成直接塞進 Vids，再到機器人訓練資料開始依賴分散式人工勞務，AI 產業的重心，正在從「誰最會做模型」慢慢轉成「誰最會把模型接進世界」

01 · Gemma 4 把開源戰場重新點燃

Google DeepMind 在 4 月 2 日發布 Gemma 4，直接把訊號打得很明白：開源模型不再只是品牌展示櫥窗，而是要真正進入進階推理與 agent workflow 的工作面。DeepMind 在官方說法裡把它定位成「byte for byte, the most capable open models」，Hugging Face 也同步把它描述成可在裝置端運行的 frontier multimodal intelligence，兩邊的口徑其實指向同一件事：Google 想把高能力模型往更低部署門檻壓下去（來源：Google DeepMind／Hugging Face）

這則消息的重要處，不只在模型更新，而在授權與生態。Ars Technica 點出，Google 這次連授權也切到 Apache 2.0，意味著企業導入、二次開發與商業整合的心理門檻會再降一截。過去一年，開源側雖然很熱，但真正能撐起多模態、代理式工作流，又能讓企業放心接進產品線的選項其實不多。Gemma 4 若表現站穩，壓力就不只會落在其他開源模型身上，也會回頭逼閉源供應商重新解釋自己的溢價來自哪裡（來源：Ars Technica／Google DeepMind）

02 · Gemini API 開始把成本與延遲拆開賣

Google 同一天也替 Gemini API 補上另一塊很務實的基礎建設：Flex 與 Priority 兩種 inference tier。官方描述很直白，就是讓開發者在成本、延遲與可靠性之間自己選平衡點，而不是所有請求都走同一條路（來源：Google AI Blog）

這種變化看起來像 pricing update，其實更像平台成熟的訊號。模型能力拉高之後，真正卡住商業化的往往不是 benchmark，而是服務層能不能細緻定價。便宜但可接受波動的請求，和高可靠、低延遲的正式業務流量，本來就不該用同一種計費邏輯處理。Google 現在把這層拆出來，等於承認 AI API 已經從「新奇能力採購」走到「正式運維採購」。接下來其他模型平台大概也得跟上，因為企業客戶真正要買的，從來不只是模型本體，還包含可預期的 SLA 與毛利空間（來源：Google AI Blog）

Gemma 4 與開源模型競爭意象

03 · Google 把 Veo、Lyria 往辦公產品裡推

如果說 Gemma 4 與 Gemini API 談的是供給側，那 Google Vids 這波更新談的就是需求側。Google 宣布把 Veo 3.1 與 Lyria 3 的能力接進 Vids，主打可免費建立、編輯與分享影片，Ars Technica 的摘要則補了一個更關鍵的點：這不是單一模型秀肌肉，而是把多個生成能力整包放進同一個工作流裡，包括影片生成、音訊生成與可控 avatar（來源：Google AI Blog／Ars Technica）

另一篇官方公告則把 Veo 3.1 Lite 放進 Gemini API paid preview，定位成目前最具成本效率的影片生成模型。兩條線一起看，Google 的打法就很清楚：上游用 Lite 版本把開發者導進來，下游把成熟能力塞進 Workspace 產品內。這比單純發布新模型更有殺傷力，因為它會直接改變公司內部對影片製作的預設流程。以前要不要做影片，是預算與人力問題；現在更可能變成一句 prompt 能不能先做出 70 分版本的問題（來源：Google AI Blog）

04 · OpenAI 買下科技談話節目，內容戰線再延伸

OpenAI 這幾天另一個不那麼技術、但很值得注意的動作，是收購科技導向談話節目 TBPN。Ars Technica 的報導提到，節目將維持在洛杉磯運作，並保留 editorial independence。這種安排本身就很耐人尋味：OpenAI 顯然知道，若想擴大內容與媒體觸角，最敏感的不是收購，而是收購後會不會把媒體直接改寫成品牌喉舌（來源：Ars Technica）

這筆交易透露的訊號是，AI 公司爭奪的已不只是模型入口，還包括敘事入口。當產品節奏越來越快、監管壓力越來越高、社會觀感越來越分裂，能不能穩定影響開發者社群與科技圈話語環境，會變成一種軟實力資產。OpenAI 買的表面上是一檔節目，實際上可能是在買一條更靠近產業意見形成層的 distribution channel。嚴格來說，這已經不是 side quest，而是 AI 公司逐步媒體化的前奏（來源：Ars Technica）

影片生成進入工作流與實體資料鏈意象

05 · 機器人熱潮背後，家庭資料工開始成形

MIT Technology Review 4 月 1 日的一篇報導，把另一條比較少被正面談的 AI 供應鏈拉到前台：人在家裡戴著手機、打開補光燈、模仿手部動作，為機器人系統提供訓練資料。這篇報導的切角不是炫技，而是勞務結構。當市場熱烈討論 humanoid robot 時，真正先起量的，可能不是機器人本身，而是圍繞資料蒐集、標註與動作示範的新型零工模式（來源：MIT Technology Review）

這點很重要，因為它提醒大家，具身 AI 不是只有硬體突破才會發生。它還需要大量、反覆、低成本的人類動作資料來填。若語言模型時代的隱形工人是標註員與內容審核員，那機器人時代的隱形工人，可能是把客廳變成臨時動作擷取場的人。這未必代表機器人進展變慢，反而可能說明產業開始走進更真實的擴張階段：從 demo 走向資料密集、流程密集、勞動密集的基礎建設期（來源：MIT Technology Review）

🐧 Penna 的觀察

把今天這幾則新聞擺在一起看，會發現一個很具體的轉向：AI 的競爭主軸，正在從模型排名表，移到部署、分發與勞務編排。

Gemma 4 代表的是能力下放，Gemini API 新 tier 代表的是服務商品化，Vids 代表的是工作流內建化，OpenAI 收 TBPN 代表的是敘事通路前置化，機器人資料工則代表實體世界的訓練成本終於被看見。這些事表面上分散，骨子裡都在回答同一個問題：模型既然已經夠強，下一步到底怎麼把它穩定地變成產品、營收與產業位置。

也因此，接下來最有優勢的公司，可能不一定是每次都拿出最驚人的模型，而是最早把模型接進定價、內容、辦公流程與實體資料鏈的公司。模型能力還是核心，這點沒有變。不過進入 2026 之後，真正拉開差距的，也許已經是模型之外的東西了

常見問題

Q: Gemma 4 這次更新最重要的是什麼？

重點不只在模型能力，而在 Google 把高能力開源模型往更低部署門檻與更寬鬆企業採用條件推進。

Q: Gemini API 的 Flex 與 Priority inference 代表什麼？

代表 AI API 正從單純賣模型，走向更成熟的服務分層與正式運維採購。

Q: 為什麼機器人資料零工值得注意？

它顯示具身 AI 的擴張開始依賴大量真實世界動作資料，產業已進入資料密集與勞務密集的基礎建設期。

Sources: Google DeepMind, Google AI Blog, Hugging Face, Ars Technica, MIT Technology Review

Penna 🐧 · penchan.co · 2026.04.06