AI 模型怎麼選？9 工具實測分工

主流 AI 模型在 2026 年的格局已經跟一年前完全不同。Claude、ChatGPT、Gemini、Grok、Perplexity 各自佔據不同位置，沒有單一工具能吃下所有場景。這篇用實際工作流的角度，攤開五個主流模型在價格、中文能力、使用場景上的差異，跳過「各有優劣」的客套話，直接給可行的分工建議。

大比較表

AI 模型選擇指南

下面這張表是 2026-05-30 重新查證後的整理結果，評分是基於日常重度使用的主觀打分，滿分 5 分。

模型	擅長	弱項	中文能力	免費額度	月費（參考）	主觀評分
Claude Opus 4.8	長文寫作、指令遵守、1M context	慢、不能生圖	★★★★⯪	有，訊息數受限	Pro US$20 / Max US$100-200；API US$5/US$25 per 1M	4.5
Claude Sonnet	速度快、性價比高	深度不如 Opus	★★★★☆	同上	同上（含在方案內）	4.0
ChatGPT 5.5	創意發想、多模態、Codex 整合	話太多、常自作主張	★★★★⯪	有，GPT-5.5 額度受限，超過切 mini	Go 依地區 / Plus US$20 / Pro US$100-200	3.5
Gemini 3.1 Pro	圖片生成、長 context	過於諂媚、深度一般	★★★☆☆	最大方	AI Plus NT$260 / Pro NT$650 / Ultra NT$8,150	3.5
Gemini 3.5 Flash	agentic/coding、快速、1M context	深度仍不如 Pro	★★★☆☆	非常多	同上；API US$1.50/US$9 per 1M	3.5
Grok 4.3	即時資訊、X 整合、2M context	語音功能僵硬、深度不足	★★★☆☆	有	SuperGrok Lite US$10 / SuperGrok US$30	3.5
Perplexity	搜尋整合、引用來源	不適合長文寫作	★★★☆☆	有，每日查詢受限	Pro ~US$20	4.0

幾個重點解釋一下。

Claude 拿 4.5 分是因為在最核心的工作場景（寫文章、寫程式、遵守規則）表現最穩。扣的半分是不能生圖，有些場景非得切到別的工具。詳細的版本選擇可以參考 Claude Opus vs Sonnet 比較。

ChatGPT 拿 3.5 分的理由：它是 AI 的瑞士刀，能生圖、寫程式、做深度調查，什麼都能做，效能相當平衡，但在文體表現上仍略遜於 Claude 家族。但 ChatGPT 的發想能力跟 Grok 的回覆品質是真的不錯。

Perplexity 拿 3 分跟 Claude 差不多。原因是它在自己的領域（搜尋整合）做到了其他模型做不到的事。需要查資料確認事實的時候，它通常是第一選擇。完整介紹見 Perplexity 完整教學。

中文能力深入比較

這是很多人選模型會忽略的面向。在台灣用 AI 工具，中文能力直接影響每天的使用體驗。

Claude 的中文是真的好。叫它用什麼語氣就用什麼語氣，不會突然蹦出「讓我們深入探討」這種機器味句子。即使丟一份寫了二十幾條風格規則的指南進去，它也幾乎全部做到。三千字的文章從頭到尾維持同一個語氣，不會到第五段突然變成學術論文。

ChatGPT 中文也行，日常對話沒問題。但有時候會出現那種「最佳化您的工作流程」的翻譯腔，句子結構明顯是英文邏輯翻過來的。讀起來會讓人饅頭問號（？）。不過它有一個優勢：中文網路用語認得比較多，一些最新的梗跟縮寫它跟得上，Claude 在這方面偶爾會落後幾個月。

Gemini 中文最讓人頭痛。文字對話可以用中文，品質也不差。但圖片生成碰到中文 prompt 常常出問題，每五次大概有一次會被莫名拒絕，理由是「可能違反使用政策」。換英文 prompt 就秒過。它的新功能通常也是英文先上線，中文要等幾週甚至幾個月。詳細的中文使用技巧整理在 Gemini 中文教學。

Grok 的中文堪用。打字模式回覆的語感蠻自然，偶爾會跑出簡體字，要在 prompt 裡面強調「請用繁體中文」才穩定。語音模式的中文就別提了，機器味很重。中文使用細節在 Grok 中文免費教學有更完整的整理。

Perplexity 的中文搜尋比預期的好。它能理解繁中查詢，回覆也是繁中。但引用的來源以英文居多，中文來源的覆蓋率還有進步空間。

場景推薦矩陣

不同事情用不同工具，這是試了一年多之後沉澱下來的分工。

場景	首選	備選	為什麼
寫作	Claude Opus	ChatGPT	Claude 指令遵守好、中文自然、字數控制精準
程式碼	Claude Code + Codex	Codex	Opus 做架構，Codex 執行修改，品質最穩
研究	Perplexity	ChatGPT	引用來源完整，事實核對最可靠
創意發想	ChatGPT	Claude	發散能力最強，點子多到爆炸
圖片生成	Gemini	ChatGPT	風格一致性好、速度快、品質高
即時資訊	Grok	Perplexity	綁 X 資料，反應速度最快
日常問答	Gemini 3.5 Flash	ChatGPT	免費、快速、簡單問題夠用
長文件整理	NotebookLM	Claude	可以對整份 PDF/影片做 QA，生成摘要

寫作場景

Claude Opus 一枝獨秀。所有的部落格文章、社群長文、SEO 內容都可以放心交給它。叫它不要寫結語，它真的不會寫。叫它控制在 800 字，它回 820 字，誤差在可接受範圍。

ChatGPT 呢？叫它寫 300 字，它回 800 字還附三個小標題。在 prompt 裡面寫「不要寫結語」，它在文章最後面加了一段「期待您的探索之旅」。改了三次，第三次它終於沒寫結語了，但偷偷加了一個「重點摘要」。

ChatGPT 寫出來的東西品質不差，有些角度甚至比 Claude 更有創意。但需要穩定輸出、品質可預測、格式精確控制的時候，Claude 目前沒有對手。

程式場景

這邊的分工比較複雜。比較順手的 pipeline 是：Opus 做 planning 和 code review，Codex 跑實際的程式碼修改，Sonnet 做機械性的前處理工作。

一開始讓 Opus 直接改 code 常常會出問題。Opus 的強項是理解系統架構、找出問題，但實際動手改 code 的時候偶爾會漏掉邊界情況，或者一直回頭改。把「想」跟「做」分開後，Opus 出計畫、Codex 執行，品質會穩定很多。詳細的開發工具搭配在 Claude Code 完整教學裡有更系統的整理。

ChatGPT 寫程式也行，但有一個讓人受不了的習慣：會自作主張幫你「改進」沒要求改的地方。請它修一個 bug，它修了 bug 順便幫你重構了三個函式。通常重構得也不差，但在 production 環境裡面，未經要求的改動就是風險。

研究場景

Perplexity 在這個場景的優勢太大了。它會告訴你資料從哪來，附上原始連結，可以自己去確認。寫文章需要引用數據的時候，第一站通常是 Perplexity。

ChatGPT/Claude Opus 的搜尋功能在 2026 年進步很多，且引用品質也相當好。使用深度研究能夠獲得品質相當好而且邏輯縝密的文章。

Grok 在即時性上面贏 Perplexity。問「今天美股市場發生什麼事」，Grok 能給最近一小時的 X 上面的討論。Perplexity 通常會晚一兩個小時。

圖片生成場景

2026 年的 Gemini 和 ChatGPT 圖片生成品質跳了一大級，風格一致性是它最大的賣點。生成一系列社群配圖，同一個 session 裡面的圖片風格會自動維持一致。對做內容的人來說省超多時間。

主流的做法是配圖開 Gemini 或 ChatGPT，用英文 prompt。完整的圖片工具比較整理在 AI 繪圖工具比較。

工具分工策略

每個工具做它最擅長的事，不期望一個工具解決所有問題。

ChatGPT 適合絕大部分需求：想新企劃、新內容方向，先丟 ChatGPT 一個模糊的想法讓它展開。想寫程式，能給方向和 Codex 能直接上場。想生圖，有 GPT Image 可以使用。ChatGPT 可以說是一個 AI 的瑞士刀。

Claude 適合擔任大腦，佔小企鵝每天 AI 使用時間大概九成。長文、系統設計、code review、每天的日記反思，全部交給它，它的「文風」真的是它的核心優勢。此外，守規則也是它一大特點，如果用一份 CLAUDE.md 設定檔寫上幾十條規則，從語氣、用詞、輸出格式到什麼情況要先確認再動，Claude 幾乎都能遵守。

Perplexity 方面，目前查資料已經很少用 Google 了，直接問 Perplexity。寫文章需要確認事實、查數據、找來源，全部丟 Perplexity。它回覆的每句話都有出處，可以點進去交叉比對。

Gemini 跟 Grok 則是特殊需求時候會用到。Gemini 負責圖片跟快速問答，Grok 負責追即時動態。Grok 的回覆品質算順，語感自然，不會像某些模型一樣每句話都在寫論文。語音模式就比較糟，僵硬到不行，問它一個問題它回答的語調像在念稿。

這個分工也不是一開始就這樣的。2025 年幾乎什麼都用 ChatGPT/Gemini，因為它功能最全。後來發現寫文章的品質一直不滿意，試了 Claude 之後就回不去了（很習慣高品質問答了）。

每個模型最常被吐槽的一面

這段是踩坑紀錄，列出來讓後面的人可以避開。

Claude：幻覺數據

有時候請它分析一份 30 頁的 PDF 研究報告，它會信心滿滿給出一堆數據分析，圖表位置都引用得頭頭是道。但回去翻原始 PDF 比對，會發現有些數字是它「補上去的」。PDF 裡根本沒有那些數據，它自己編了看起來合理的數字填進去。

最可怕的是它編的數字很合理。沒回去對照原文的話，一定會直接用。

合理的習慣是：Claude 給出來的任何數據，都丟 Perplexity 再查一次。特別是它給的數字帶到小數點的時候，就更要懷疑。

ChatGPT：管不住的字數

叫它寫一篇 SEO 文章，給很詳細的 outline 跟字數限制：六個章節、每章 200-300 字、全文 1500 字以內。它回一篇 2500 字的文章，六個章節它自己加到十個，還貼心地幫你寫了「總結」跟「常見問題」。

完全沒要求這些。改了三次，每次都提醒「請嚴格遵守 outline，不要新增章節」。第二次它砍到八個章節。第三次終於六個了，但字數還是 2000 字。

實務上的應對是 ChatGPT 的輸出預設要砍。反正它給的料多，砍比加容易。

Gemini：中文歧視

中文 prompt 生圖被拒絕的狀況很常見。「一隻企鵝坐在電腦前面」這種無害 prompt，Gemini 會說可能違反使用政策。

換成英文 “a penguin sitting in front of a computer”，三秒出圖。

X 上面有不少中文使用者都碰到一樣的問題。Google 的安全過濾對中文 prompt 過於保守。這個問題到 2026 年 4 月還是會偶爾遇到，比較穩的解法就是全部用英文 prompt。

Grok：語音模式

Grok 打字模式的體驗很順，但語音模式是另一回事。

回答內容沒問題，問題在語調。完全平板。像是有人把一篇文章用最基本的 TTS 念出來，沒有停頓、沒有語氣變化、沒有重點強調。每句話都是同一個節奏、同一個音調。

ChatGPT 的語音模式在這方面好太多了，有情緒、有節奏感、會因為內容不同調整語氣。Grok 的語音就像在聽機器人念稿。

Perplexity：來源正確但整合錯誤

查一個比較冷門的 DeFi 協議技術問題，Perplexity 給了一個看起來很完整的回答，引用了三個來源。點進去確認的時候會發現：三個來源都是真的網頁，都跟那個協議有關。但 Perplexity 整合出來的結論跟原始來源說的不一樣。它把 A 來源的數字配上 B 來源的情境，得出了一個兩邊都沒說過的結論。

來源是真的，整合是錯的。

合理的流程是 Perplexity 回覆裡面的關鍵事實，一定點進原始來源確認。特別是它把多個來源的資訊混在一起講的時候。

2026 年下半年值得觀察的變化

幾個可能改變分工的變化：

Claude 如果支援圖片生成，Gemini 在工具箱裡的地位會大幅下降。目前 Claude 什麼都好就是不能生圖，這是每天要切到 Gemini 的唯一原因。

ChatGPT 的文風與指令遵守如果改善，它可能搶回一些 Claude 的場景。ChatGPT 的功能覆蓋面是最廣的，如果它能學會聽話，威脅很大。

Grok 的語音如果追上 ChatGPT 的水準，它在日常互動場景的競爭力會大增。打字模式的品質已經很好了，語音是它最大的短板。

Perplexity 如果加強中文來源的覆蓋率，對中文使用者的價值會再上一個台階。

任務決策樹：哪種 AI 用在哪裡

先從任務型態判斷，不要從品牌偏好開始。

你要做的事	首選	何時換工具
長文、SEO、風格一致	Claude	需要發想很多角度時先丟 ChatGPT
腦力激盪、企劃、圖片、Codex	ChatGPT	需要嚴格文風時交給 Claude 收尾
查證、來源、研究報告	Perplexity / AI 搜尋	需要接著產出內容時轉 ChatGPT 或 Claude
圖片生成、Google 文件、大量 context	Gemini	中文風格不穩時改 Claude
即時新聞、X 風向	Grok	需要正式 citation 時回 Perplexity
個人多 agent workflow	OpenClaw	只偶爾問問題時不用上框架

怎麼選？

訂閱方案分層比較

只想用一個 → 選 ChatGPT。功能最全面、生態最完整、免費版也能做不少事。單項冠軍會輸給其他模型，但綜合最全能。

願意用兩個 → 加 Claude。寫作品質跟指令遵守的差距會立刻有感。特別是有大量文字輸出需求的話，Claude 省下的修改時間非常可觀。

需要做研究 → 加 Perplexity。查資料的效率跟可信度跟其他模型差一個級別。

做視覺內容 → 加 Gemini。圖片生成的品質跟一致性目前在主流工具裡表現特別突出。

重度使用 → 每個工具都開一個訂閱。聽起來花很多錢，但這些工具用來工作，省下來的時間換算成時薪很快就回本。

小企鵝的經驗

小企鵝每天實際在用的 AI 工具有 9 個：Claude Code、Codex、Perplexity、Grok、Gemini、ChatGPT、NotebookLM、OpenClaw。每個位置都是踩坑試出來的 😂 多玩就會這樣。

Claude 是主力，每天用最久。長文、CLAUDE.md 規則設定、寫程式的 planning 跟 review 都丟它。文字風格在所有工具裡最舒服，這個觀感後來也沒換過。其次則是萬用瑞士刀 ChatGPT，什麼都能做，主要我是讓它幫忙 Claude 寫程式，輸出品質好。Perplexity 則是搜尋見長，現在查資料的預設動作不再是 Google。Gemini 主要負責圖片，質感跟風格一致性夠用，限制偏多的部分也是真的。Grok 的打字模式回覆品質很滿意，語音功能太僵硬就直接放掉了。

棄用的工具也整理一下：NotebookLM 簡報生成功能中文扭曲嚴重，所以只用它的逐字稿輸出再丟其他大模型分析；Apple Intelligence 智力有限，日常用不上；Canva 一般版的設計感不足、奇怪色彩漸層多，現在只拿來排板用。

常見問題

Q: 2026 年哪個 AI 模型最好用？

沒有單一最好用的模型。把 9 個工具各司其職分工是比較實際的做法：Claude 寫長文、ChatGPT 發想、Perplexity 做研究、Gemini 生圖、Grok 看即時資訊。選模型要看用來做什麼。

Q: AI 模型免費版夠用嗎？

看需求。Gemini 免費版最大方，Grok 免費額度也不錯。ChatGPT 免費版限制多，Claude 免費版有訊息上限。如果每天要密集使用，付費版差異非常明顯。

Q: AI 模型的中文能力差很多嗎？

差很多。Claude 中文最自然，像朋友在說話。ChatGPT 也不錯但偶爾會出現翻譯腔。Gemini 中文限制最多，很多功能只支援英文。Grok 中文堪用但偶爾會跑出簡體。

Q: 寫文章該選 Claude 還是 ChatGPT？

需要穩定長文、風格控制、少改稿，選 Claude。需要發想、列很多角度、快速做草稿，ChatGPT 很好用。實務上最穩是 ChatGPT 發散、Claude 收斂。

Q: 做研究該用 Perplexity 還是 ChatGPT Deep Research？

需要快速查證和來源標註，Perplexity 最順。需要把研究結果接著改寫、整理、產出簡報或程式任務，ChatGPT Deep Research 的後續處理比較方便。重要內容仍要點原始來源確認。

Q: Gemini 適合什麼任務？

Gemini 適合圖片生成、大量資料整理、Google 生態工作流，以及需要長 context 的任務。中文寫作和嚴格風格控制不是它最強的地方。

Q: 預算有限該先訂哪兩個 AI 工具？

優先 Claude + ChatGPT。Claude 負責長文與規則遵守，ChatGPT 負責發想、多模態和 Codex 工作流。研究需求很重時再把 Perplexity 加進來。

整理：Penna｜小企鵝 Penchan