本系列文章

AI 繪圖與視覺創作教學（2026）｜生圖工具、Prompt、修圖、字幕完整指南

2026 AI 繪圖與視覺創作指南：比較 Midjourney、Gemini、ChatGPT、Canva 等工具，整理中文生圖 prompt、AI 去背、修圖、剪映字幕、品牌圖與商用注意事項，讓新手知道該從哪個工作流開始，也避免常見 AI 感與中文字渲染問題。

5/6 · Penchan

「AI 繪圖與視覺創作教學（2026）｜生圖工具、Prompt、修圖、字幕完整指南」主圖

本文目錄

AI 繪圖與視覺創作不是只有「生一張圖」。完整工作流通常是：先選工具 → 寫 prompt → 生成與挑圖 → 去背 / 修圖 → 放進簡報、社群或影片字幕流程。這篇用工具、prompt、修圖、影片四段來看，避免只學到單一工具名。

AI 視覺工具這兩年大幅進化，從「自己截圖配文字」的時代，走到「日常配圖大半交給 AI」的階段。這篇是 2026 年的 AI 視覺創作總覽：哪些工具值得花時間學、實際工作流長什麼樣、目前 AI 還做不到哪些事。

工具到成品的四段式導覽

階段	主要問題	優先工具 / 文章
選工具	要風格、速度、中文 prompt，還是免費？	AI 繪圖工具比較
寫 prompt	怎麼讓圖穩定、不像 AI？	AI 繪圖 Prompt 技巧
修圖 / 去背	背景、邊緣、產品照怎麼處理？	AI 去背教學
影片 / 字幕	圖片之外，影片後製哪裡最省時？	剪映 AI 字幕教學

如果你只是要部落格封面，Gemini / ChatGPT + 結構化 prompt + 最後 Figma 補字就夠。若要連影片一起做，剪映字幕和 AI 配音才會進 workflow。

2026 年 AI 繪圖工具：哪些值得花時間學

這個領域工具多到爆，但真正值得花時間學的只有幾個。下面這份短名單覆蓋目前主要的圖片生成工具和一個影片字幕工具。

AI 視覺創作工具全景

AI 繪圖工具比較：五大工具一覽

工具	操作方式	強項	弱項	價格
Midjourney	Discord / 網頁	藝術風格多、社群生態成熟	學習曲線陡	$10-60/月
Gemini（Nano Banana Pro / Nano Banana 2）	網頁 / API	品質高、指令理解力強、速度快	偶爾拒絕生成、風格偏寫實	免費 / 付費
ChatGPT 內建生圖（GPT Image 2.0）	ChatGPT 對話	跟 ChatGPT 整合方便	風格偏卡通、細節控制弱	ChatGPT Plus 內含
Canva AI	Canva 編輯器	門檻最低	品質差、色彩詭異	Canva Pro 內含（$12.99-15/月）
Stable Diffusion	本機 / 雲端	完全免費、可微調模型	要懂技術、吃顯卡	免費（硬體另計）

三個主流繪圖工具的深度比較整理在 AI 繪圖工具比較｜Midjourney vs Gemini vs ChatGPT 生圖。

順帶一提，Gemini 的生圖背後是 Google 的 Nano Banana 系列模型：2025 年 8 月推出 Nano Banana（Gemini 2.5 Flash Image），2025 年 11 月的 Nano Banana Pro（Gemini 3 Pro Image），到 2026 年 2 月 Google 官方 Blog 正式命名的 Nano Banana 2（Gemini 3.1 Flash Image）。在 Gemini 網頁上點生圖，底下跑的就是這串模型。所有 Google 生成的圖片會嵌入 SynthID 浮水印。

一個能跑的工作流程

從想圖到完成的標準流程：

第一步：想清楚要什麼。 打開 Gemini 直接亂試是最容易讓結果飄的做法。先在腦袋裡（或筆記裡）寫下：這張圖要放在哪、讀者看到會聯想什麼、風格要跟文章搭不搭。如果想快速生成，可以先跟 AI 對話再另外貼入 prompt 去生成。

第二步：寫 prompt + 附參考圖。 Prompt 的結構拆成四個部分：主體、風格、構圖、細節約束。參考圖非常重要，尤其是畫特定角色的時候。例如品牌企鵝角色如果不附參考圖，AI 很容易把嘴巴畫成黃色尖嘴（學習資料裡真企鵝大多如此）。

第三步：生成 + 挑選。 一次生 3-4 張，挑一張最接近的。

第四步：手修。 AI 產出的圖約八成會有小問題：文字模糊、某個元素歪掉、配色跟品牌色不搭。直接指示 AI 或用 Figma 等圖片編輯器做最後調整。

AI 視覺創作工作流程

整個流程一張圖大概 5-15 分鐘。比起以前去圖庫找免費素材再自己改快了很多。跟請設計師比品質還是有差距，特別是需要精準對齊品牌規範的場合。

AI 繪圖 Prompt 是成敗關鍵

「畫一隻企鵝在用電腦」這種隨性 prompt 出來的東西每次都不一樣，品質也不穩定。改成結構化 prompt 之後，成功率能大幅提升。

統計各大官方文件，可以歸類為是四個關鍵要素：

主體描述：要畫什麼，越具體越好
風格指定：水彩、3D、像素風、彩色鉛筆
構圖說明：鏡頭角度、留白位置、比例
反面約束：不要什麼（黃色嘴巴、過度飽和的顏色）

prompt 的寫法和 Gemini 的實際指令範例整理在 AI 圖片生成 Prompt 技巧。

延伸教學 TL;DR：工具 → prompt → 修圖 → 影片

工具比較：Gemini 快、Midjourney 風格強、ChatGPT 順手

AI 繪圖工具比較的結論不是排行榜，而是場景切換。Gemini 對中文 prompt 和日常配圖最省力，Midjourney 在強風格插畫與社群視覺仍有優勢，ChatGPT 適合已經在對話裡討論內容、順手生成與修改。Canva AI 不建議當主力生圖，但 Canva 本身仍是最後排版與社群格式轉換的好工具。

Prompt：四層結構比形容詞堆疊有用

AI 繪圖 Prompt 技巧把提示詞拆成主體、風格、構圖、約束。這比「高級感、科技感、專業感」穩得多。主體說清楚角色與場景，風格指定彩色鉛筆 / 水彩 / 平面插畫，構圖寫比例與留白，約束補上不要文字、不要過度飽和、不要黃色尖嘴。

修圖去背：不要每張圖都開 Photoshop

AI 去背教學補的是生成後處理。ChatGPT / Gemini 可直接對話式去背，日常社群圖和簡報插圖夠用；remove.bg 毛髮邊緣更穩，PhotoRoom 適合電商產品圖，Canva 適合已經在設計流程裡的人。

影片字幕：創作者最省時間的 AI 視覺環節

剪映 AI 字幕教學是圖片之外最值得放進視覺創作 hub 的工具。影片後製最耗時的不是濾鏡，而是字幕辨識、校對、時間軸。剪映能把中文、台語、中英夾雜音軌先轉成可改字幕，再匯出 SRT 交給大模型校對。

Canva AI：為什麼不推薦

「都有 Canva Pro 了，直接用它的 AI 不就好了」是常見的想法。但實際使用會碰到幾個問題：顏色會出現莫名其妙的漸層、人物的肢體比例經常崩壞、整體有一種很「AI 範本」的塑膠感。試一陣子之後，挑選和修圖的時間比直接用 Gemini/ChatGPT 重新生成還多。

Canva 的強項在快速生成與排版/設計範本，AI 圖片生成不是它的主場。

Logo 和品牌圖：AI 做不到的事

精確的品牌 logo 目前 AI 還做不好。用各種工具生成 logo，出來的東西看起來都「差不多但不對」：線條不夠乾淨、比例每次不一樣、顏色沒辦法精準指定到色號。

實務上的解法是 Figma 手動畫。logo 這種東西需要像素級的控制，AI 擅長的是「大方向對、氣氛對」，細節精準度還差得遠。社群配圖、部落格封面、簡報插圖，AI 夠用。名片、品牌識別系統、需要印刷的東西，建議用專業設計工具。

剪映 AI 字幕：影片創作者的隱藏神器

圖片以外，最值得提的 AI 視覺工具是剪映的自動字幕。它的音軌轉字幕準確度高到讓人意外，中文不用說，連台語都能辨識，中英夾雜的訪談音軌也能抓得七七八八。

操作很簡單：丟進音軌 → 按一下自動辨識 → 微調錯字 → 匯出。全程大概比手打字幕快十倍。

詳細的操作流程和台語辨識實測：剪映 AI 字幕教學｜連台語都能自動辨識。

AI 配音：剛起步的領域

ElevenLabs、Play.ht 這些工具品質已經接近真人。中文和日文的自然度還沒英文穩定，但持續在追上。

剪映本身有 AI 配音功能，但聲音偏機械感，跟 ElevenLabs 的 demo 比差了一截。對文字 + 圖片為主的內容創作，AI 配音不是必要工作流。對影片導向的內容生產，這是下一個值得關注的領域。

踩坑紀錄

品牌角色的五官問題

特徵跟訓練資料不同的角色，AI 容易畫錯。例如品牌企鵝有橘色圓嘴，但 AI 大概每三張就有一張會把嘴巴變成黃色尖嘴。原因是模型訓練資料裡企鵝的嘴巴大多是黃色尖的。解法是每次 prompt 都強調「orange rounded beak」，再附上參考圖。加了之後成功率明顯上升，但還是偶爾會跑掉。

風格一致性

做系列圖最頭痛的問題。同一個 prompt 跑兩次風格可能完全不一樣。在 prompt 裡指定非常詳細的風格參數效果有限。可行的做法是一次把同一批圖全部生完，靠同一個 session 內的一致性。隔天再補生，就要重新附參考圖。

文字渲染

AI 生圖的文字渲染到 2026 年還是不穩定。英文短文字勉強可以，中文幾乎必壞。可行做法是圖片上的文字全部在 Figma 後製加上去，不靠 AI 生成。

常見問題

Q: AI 繪圖工具哪個適合新手？

新手先用 Gemini 或 ChatGPT。Gemini 中文 prompt 理解好；ChatGPT 對話式修改方便；Midjourney 風格強但學習曲線高。

Q: Midjourney、Gemini、ChatGPT 生圖怎麼選？

強風格插畫選 Midjourney；中文指令與日常配圖選 Gemini；已在 ChatGPT 工作流裡、需要邊聊邊改選 ChatGPT。

Q: AI 圖片可以商用嗎？

要看各工具條款與方案。含真人肖像、品牌 logo、授權角色或商標元素時，要另外檢查風險。

Q: 中文 prompt 怎麼寫比較穩？

用主體、風格、構圖、約束四層寫，補上比例、留白、色調和不要什麼。Gemini / ChatGPT 可中文，Midjourney 建議英文。

Q: AI 去背和修圖適合用哪個工具？

日常去背用 ChatGPT / Gemini；毛髮或大量產品圖用 remove.bg / PhotoRoom；Canva 流程內就用 Canva 去背。

小企鵝的經驗

小企鵝最早接觸 AI 生圖是 Midjourney 的 Discord 介面時代。後來主力切到 Gemini/ChatGPT，原因是中文 prompt 直接通、可以上傳參考圖維持品牌角色一致性、單張生成速度快到能塞進日常內容生產。

中間試過 Canva 的 AI 一陣子。色彩漸層糟糕和比例崩壞讓修圖時間比重新生成還高，後來就回到 Gemini/ChatGPT。Stable Diffusion 不在小企鵝的工作流裡，本機 GPU 的設定成本對「部落格封面 + 社群圖」這類需求不划算。

Logo 和精密的品牌素材仍然走 Figma 手作。AI 擅長方向感和氣氛，像素級精準度還是另一回事。

剪映的自動字幕是意外的好用。台語辨識真的能跑，所以前端把音檔轉成文字、再交給其他大模型分析的流程，剪映就是固定的起點。

FAQ

AI 繪圖工具哪個適合新手？

新手先用 Gemini 或 ChatGPT 內建生圖。Gemini 中文 prompt 理解好，適合日常配圖；ChatGPT 對話式修改方便；Midjourney 風格強但學習曲線高；Stable Diffusion 免費但需要技術維護。

Midjourney、Gemini、ChatGPT 生圖怎麼選？

要強風格插畫與社群視覺 → Midjourney；要中文指令、快速日常配圖 → Gemini；已經在 ChatGPT 工作流裡、需要邊聊邊改 → ChatGPT。正式品牌圖與 logo 仍建議回 Figma 或設計工具。

AI 圖片可以商用嗎？

要看各工具條款與帳號方案。Midjourney 付費方案通常允許商用；Google / ChatGPT 生成圖也要依各自服務條款。含真人肖像、品牌 logo、授權角色或商標元素時，仍要另外檢查風險。

中文 prompt 怎麼寫比較穩？

用主體、風格、構圖、約束四層寫。不要只說「畫一張科技感圖片」，要補上比例、留白、色調、不要什麼。Gemini / ChatGPT 可直接中文；Midjourney 建議轉英文。

AI 去背和修圖適合用哪個工具？

日常去背直接用 ChatGPT / Gemini；毛髮細節或產品照大量處理用 remove.bg / PhotoRoom；本來就在 Canva 排版就用 Canva 去背。修完再進 Figma 或 Canva 做最後文字與版面。

免責聲明與利益揭露

本文僅供一般資訊與教育參考，不構成投資、法律、稅務或任何專業建議。市場與法規可能隨時變動，文中資訊僅反映撰寫當時狀況。

詳見本站法律聲明與利益揭露與隱私政策。