Google 5/19 在 I/O 2026 發表 Gemini 3.5 Flash,當天就在全球(含台灣)正式上線。

我自己打開 Gemini App、AI Studio、API 三邊都試過一輪,可以講的東西比想像中多:哪邊已經切過去、哪邊還在排隊、跟前一代和自家旗艦比實際差在哪。這篇就是直接給你能拿來用的那部分。

4 個地方都能切到 3.5 Flash

我把目前能拿到 3.5 Flash 的入口列下來,順手寫怎麼開。

1. Gemini App(消費者版)

直接打開 gemini.google.com,左上角模型下拉選 3.5 Flash 就好。台灣 release notes 5/19 那條寫得很白:select 3.5 Flash from the model drop-down。如果你的版本還沒推到,幾天內會自動換。

2. Google AI Studio(免費試 API)

aistudio.google.com,登入之後選 3.5 Flash 開新 chat。台灣在 Google 的 available regions 清單裡,沒被擋。免費額度足以做小型試跑,要拿來跑生產線就得轉 API。注意:免費 plan 的對話 Google 會拿去 improve products,付費 API 不會。這是 Google 自己在 pricing 頁寫明的政策差異。

3. Gemini API(developer 用)

model code 是 gemini-3.5-flash。直接呼叫就行,不需要白名單。三檔 mode 可選:Standard 一般、Flex 非即時批次、Priority 對延遲敏感的線上場景,詳細條件直接看 Google Gemini API 文件

4. Gemini Enterprise Agent Platform(企業)

Google Cloud 走的是新的 Gemini Enterprise Agent Platform,3.5 Flash 模型頁上面 Cloud model ID 跟支援能力都列得很整齊。要注意一個容易被踩的細節:ML processing 跑在 US 跟 EU multi-region。「在某個地區能用」跟「資料在那個地區處理」是兩件事,企業採購要拉資料落地條款的話,這條要先問清楚。

這次升級到底帶來什麼

Google 自己給的 benchmark 表是這樣(數字來自 DeepMind 3.5 family page3.5 Flash 模型頁):

BenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 Pro看什麼
Terminal-bench 2.176.2%58.0%70.3%命令列 agent
MCP Atlas83.6%62.0%78.2%工具呼叫
OSWorld-Verified78.4%65.1%76.2%桌面操作 agent
Finance Agent v257.9%42.6%43.0%財務分析任務
SWE-Bench Pro Public55.1%49.6%54.2%真實 GitHub bug fix
MMMU-Pro83.6%81.2%80.5%多模態推理
CharXiv Reasoning84.2%80.3%83.3%圖表理解
MRCR v2 128k avg77.3%67.2%84.9%長上下文召回
Humanity’s Last Exam40.2%33.7%44.4%高難度推理
ARC-AGI-272.1%33.6%77.1%抽象推理

對前代 Gemini 3 Flash,3.5 Flash 在「讓 AI 自己用工具」這塊幾乎是換代差距,表格上看得最明顯。Google 這次重新訓的時候,主軸顯然就放在這。

對自家旗艦 Gemini 3.1 Pro,3.5 Flash 在寫程式、讓 AI 自己用工具、處理圖片影片等項目反超,但有 3 個地方 3.1 Pro 仍領先:長文章記憶力最高難度的綜合推理抽象邏輯。表格最下面三列就是 Pro 的主場。

我自己的解讀:3.5 Flash 是給「需要 AI 連續多步驟自己做事、反覆改」這類場景用的;3.1 Pro 還是更適合「丟一份很長的 PDF 進去做深度分析」這種需要慢慢想的場景。Google 也沒把 3.1 Pro 頁面 下架,看得出不打算讓 3.5 Flash 取代 Pro。

第三方測試怎麼看

Google 自己給的數字當然會挑選,第三方測試比較有意思。

Artificial Analysis 5/19 報告 給 Gemini 3.5 Flash 的綜合能力評分比 Gemini 3 Flash 明顯高一個等級,回覆速度比同級對手快約 4 倍,幻覺率也有下降(不過後面我會再聊)。圖片影片理解的表現更直接創了他們紀錄裡的最高。

OpenLM Chatbot Arena+ 5/18 的快照(基於 600 萬以上人類盲測投票)把 Gemini 3.5 Flash 放進第一群,跟 GPT-5.5、Claude Opus 4.7 Thinking、Gemini 3.1 Pro 擠在一起。

注意:Arena 是人類偏好評分,不是純能力指標。意思是「人類在盲測時投給它的票」跟頂端模型差不多,但不代表每件事都贏。把它當「多數使用者覺得它的回覆好不好用」就好。

這 3 件事目前還是美國限定

這次 I/O 的真正主菜是 agent 工具鏈,但其中最有感的幾個功能目前都是美國限定。先講清楚免得期待落空。

Gemini Spark:Google 力推的「24/7 always-on agent」。官方說明是 AI Ultra 訂閱限定 + 美國限定,先給 trusted testers 再開美國 beta。Spark 會持續在背景做事,看你的 Calendar 排日程、看 Gmail 整理 task、有事再主動回報。台灣訂閱頁也把 Spark 標 US only, English only。

Daily Brief:根據連到的 Gmail / Calendar 自動產日報。美國限定。

AI Inbox in Gmail:自動從信件生 actionable 任務。美國限定。

現在能做的最實際的事是:開 Gemini App,看版本是不是已經換成 3.5 Flash(還沒的話,幾天內會自動推)。然後丟一個你平常會丟給舊版的問題試試看,比較速度跟答案的具體程度。我自己丟了「幫我分析這份 PDF 的三個風險點」,3.5 Flash 答出來的東西比舊版有 layer,速度也明顯快。

3.5 Flash vs 3.1 Pro 該選哪個

這是我覺得最多人會問的問題。直接給結論:

選 3.5 Flash,如果你的場景是:

  • 需要 AI 連續多步驟自己用工具(例如反覆改程式、自己查資料、跑完整任務鏈)
  • 需要回覆速度快、互動感強的場景
  • 把圖片、影片、PDF 丟進去產出文字摘要或分析
  • 預算有限、可以接受非即時回覆的大量任務

選 3.1 Pro,如果你的場景是:

  • 丟 100 頁以上長文件做深度分析(長文章記憶力 3.1 Pro 還是領先)
  • 需要最高難度的推理(最難的綜合考試 3.1 Pro 仍勝出)
  • 創意性任務、需要慢慢想的內容(Google 自己也把 3.1 Pro 定位在這類場景)

如果還在猶豫,我會建議用 AI Studio 同時開兩個 chat,把實際的工作丟進去比一比。半小時就知道哪個合用。

順帶一提,Gemini 3.5 Pro 還沒上線。Google 在 launch 部落格寫的是「next month」,DeepMind 家族頁面寫「3.5 Pro coming soon」。對應就是 2026 年 6 月。任何在這之前說 3.5 Pro 已經 GA 的文章請當參考用就好。

這次的隱憂:Spark 的隱私模型

聊完能用什麼,講一下我看到值得記下來的隱憂。

The Verge 5/20 這篇 是我覺得這次 I/O 最值得讀的英文評論。論點很簡單:Google 這次發表的 agent 路線圖,核心前提是「你願意讓 AI 連到你的 Gmail、Calendar、Drive、Photos、Search history、YouTube history」。Spark、Daily Brief、Personal Intelligence 全都建在這個前提上。

The Verge 沒說「Google 偷你資料」,那是錯誤的框架。它說的是:OpenAI、Anthropic 都做 connector,但 Google 的差別是它本來就坐在你的 Gmail、Docs、Photos 上面。它要連的,是它自己的資料。意願是 opt-in 沒錯,問題是 opt-in 之後,你信不信任這套系統不會出錯、不會被 prompt injection、不會把錯的信寄出去。

Spark 還沒開放美國以外的市場,這反而給了我們一段觀察時間,看美國 beta 會踩到什麼坑。等其他地區版本排到再決定要不要連 Gmail,沒差。

如果在意自己丟進去的內容不被拿去訓 model,付費 API 是最確定的方式。Google 在官方文件明確寫:免費 plan「Used to improve our products」是 Yes,付費 tier 是 No。

小企鵝的看法

老實說,這次 I/O 沒讓我太興奮。

3.5 Flash 確實快、確實會用工具,benchmark 也很漂亮。但 Google 把 agent 工具鏈這條路線推得這麼用力,背後的前提是使用者要願意把 Gmail、Calendar、Drive、Photos 連上去。這在美國能不能跑得起來都還是問號,更別說其他地區使用者要不要接。Spark 還沒開放美國以外的市場,反而給了大家一段觀察期。

對個人使用者來說,App 直接給你用 3.5 Flash,速度跟工具呼叫能力都比舊版好,先試再說。對進階使用者跟開發者來說,這代表「讓 AI 24 小時在背景做事」的可行性提早到位,但這種「always-on AI 全程跟著你」的模式,還是要等更多 beta 回饋。

還有一個 Google 在這次 I/O 沒拿出來講的問題:幻覺。3.5 Flash 發表前我在 Threads 寫過一篇 講 Gemini 3.1 幻覺嚴重的問題(每次都被 Opus + ChatGPT 抓包),3.5 上線後我又跑了一輪實測加上看社群討論,這個問題沒解決。Artificial Analysis 測到 3.5 Flash 幻覺率比 3 Flash 低了 31 個百分點,方向是對的。離真的解決幻覺問題還很遠。學術引用、法規條文、技術文件、財務數字這種需要事實精準的場景,Gemini 跑一次就信仍然不安全,多走一輪外部驗證才保險。

Penchan 5/18 Threads 觀察:Gemini 3.1 幻覺一大堆,每次都被 Opus + ChatGPT 抓包

3.5 Pro 下個月才出。在那之前任何說「Gemini 3.5 全家上市」的文章,要嘛是看了發表會沒看清楚,要嘛就是 AI 寫的。

回到 Pillar

這篇是 Gemini 中文教學 的延伸更新。想看訂閱方案怎麼選請看 Gemini 免費版 vs Google AI Pro,要對比 ChatGPT 看 Gemini vs ChatGPT,想進一步看 agent 工具鏈怎麼選看 AI Agent 工具比較

主要參考來源