字幕是影片後製裡最費時的環節之一。手打 10 分鐘影片的字幕,加上對時間軸,輕鬆就要花一個多小時。
剪映(CapCut)內建的 AI 字幕辨識功能,把這個流程壓到 10-20 分鐘就能搞定,而且免費版就能用。對中文創作者來說,目前是 cost-performance 最高的字幕工具之一。
剪映 AI 字幕操作流程
剪映的 AI 字幕操作非常直覺,步驟不多:
匯入影片:把影片檔拖進剪映的時間軸。
開啟自動字幕:在頂部選單找「文字」,選「智慧字幕」裡的「辨識字幕」。系統會問影片的語言,選好之後按辨識。
等它跑完:10 分鐘的影片大概要跑 1-2 分鐘。跑完之後字幕會自動切好、對好時間軸,直接出現在時間軸上。
校對:這步不能省。AI 辨識再準確還是會有錯字,特別是專有名詞、人名、英文縮寫。花 10-15 分鐘過一遍,比手打省至少十倍時間。
調樣式:字體、大小、顏色、位置。剪映內建的字幕範本蠻多的,挑一個跟影片風格搭的就好。

整個流程下來,10 分鐘的影片大概 15-20 分鐘搞定字幕。手打加校對則至少要 70 分鐘起跳。
剪映台語辨識:實測表現
這是剪映字幕功能最讓人驚豔的部分。
對著台語口白選「中文(台灣)」辨識,台語段落大概有七八成是對的。不是完美,有些詞會辨識成發音相近的中文字,台語的語助詞「啦」「齁」偶爾會被跳過或變成其他字。整體意思能看懂,在這個基礎上手動修正比從零手打快太多。

幾個影響辨識準確度的因素:
說話速度:講太快辨識率會掉。
口音:偏泉州腔或偏漳州腔表現會有差異。通行腔辨識率較高。
背景噪音:有音樂或環境音干擾,辨識率明顯下降。建議在安靜環境錄或先做降噪處理。
中英夾雜怎麼辦
台灣人講話很常中英夾雜:「這個 API 的 response time 大概 200 毫秒」這種句子。
剪映處理這種情況算可以,中文部分幾乎不出錯,英文單字大概八成會拼對。常見詞(API、ChatGPT、iPhone)辨識率高,比較冷門的技術名詞(webhook、cron job 之類)偶爾會拼錯。
實用做法是辨識完之後集中修英文:把所有英文標記出來一次過一遍,比穿插在中文裡邊看邊改有效率。
搭配大模型做字幕後處理
剪映辨識完的字幕可以匯出成 SRT 檔。把 SRT 檔丟給 Claude 或 ChatGPT,請它幫你做幾件事:
- 校對錯字:特別是同音異字的問題,AI 很擅長根據上下文判斷
- 斷句最佳化:剪映的自動斷句偶爾會切在奇怪的地方,大模型可以幫你重新切到語意完整的位置
- 統一格式:英文大小寫、數字格式、標點符號
流程是:剪映辨識 → 匯出 SRT → 丟給大模型校對 → 匯回剪映。多了一步,但字幕品質會好很多。
比較正式的影片建議走這個流程;日常短影片直接在剪映裡手動改就夠了。
字幕工具比較:剪映 vs Taption vs 雅婷逐字稿
| 比較項目 | 剪映(CapCut) | Taption | 雅婷逐字稿 |
|---|---|---|---|
| 免費額度 | 基本功能免費 | 試用 15 分鐘 | 每月 60 分鐘免費 |
| 中文準確度 | 九成以上 | 九成以上 | 八成左右 |
| 台語辨識 | 支援(七八成) | 不支援 | 支援(六七成) |
| SRT 匯出 | 支援 | 支援 | 支援 |
| 影片剪輯 | 內建完整剪輯功能 | 無 | 無 |
| 適合誰 | 影片創作者、一站搞定 | 需要多語言轉錄 | 純文字逐字稿需求 |
本來就用剪映剪片的人,字幕功能直接在裡面搞定最省事。Taption 的優勢是支援的語言多、匯出格式也多,但要另外付費。
AI 配音:另一條路
剪映內建的 AI 配音功能聲音偏機械,跟 ElevenLabs 那種接近真人的水準比還有距離。斷句節奏、語氣變化、情緒表達都還不夠細膩。
需要 AI 配音功能的話,業界目前推薦度較高的是 ElevenLabs 或 Play.ht,跟剪映內建是兩個層級的產品,不要從剪映的內建功能入手會比較不失望。
FAQ
剪映的 AI 字幕準確度高嗎?
中文辨識準確度大概九成以上。台語辨識會看口音和語速,清楚的台語大概七八成準確。中英夾雜的部分英文單字偶爾會拼錯,需要手動校對。在辨識結果的基礎上修正,比手打字幕省至少十倍時間。
剪映免費版能用 AI 字幕功能嗎?
自從剪映 6.0 以後就不提供免費生成字幕了。需升級為 VIP,如果要購買可以去淘寶購買。
剪映的 AI 字幕可以匯出 SRT 檔嗎?
可以。辨識完成後,在字幕區域選擇匯出,支援 SRT 格式。匯出的 SRT 檔可以再丟給大模型做校對和斷句最佳化。
剪映跟 Taption 比哪個好?
看需求。剪映是影片剪輯軟體,字幕是附帶功能,操作直覺、免費就能用。Taption 專做語音轉文字,支援更多語言和匯出格式,但要付費。本來就用剪映剪片的人沒必要多開一個工具。
台語辨識準確度怎麼提高?
三個因素影響最大:說話速度(慢一點準確度高)、口音(通行腔辨識率最高)、背景噪音(安靜環境或先做降噪)。在這些條件都不錯的情況下,台語辨識大概能到七八成。
小企鵝的經驗
剪映的字幕功能是小企鵝目前固定在用的工具之一,蠻好用的。中文準確度高,連台語也能辨識,這在中文世界的字幕工具裡很少見。
實際工作流是:剪映 AI 辨識 → 匯出 SRT → 進大模型轉成台灣繁中 + 校對。中英夾雜或台語段落會多花一點時間人工修,但比起從零手打字幕,省下來的時間非常可觀。處理會議錄音類的逐字稿可以搭 NotebookLM 逐字稿教學,整體免費會議流程則看 免費 AI 會議記錄流程。
AI 配音不在小企鵝的日常工作流裡,剪映內建的 AI 配音也只當資訊性質知道。需要做 AI 配音的人,直接看專業的 ElevenLabs 或 Play.ht 比從剪映內建入手實在。
本文為 AI 工具功能介紹,不涉及證券或投資建議。實際定價以各平台官方最新公告為準,本文資訊可能已過時。
延伸閱讀
- 2026 AI 繪圖教學完整指南:從工具選擇到工作流程的總覽
- AI 繪圖工具比較|Midjourney、Gemini、ChatGPT 生圖:三大 AI 繪圖工具的深度比較
- AI 繪圖 Prompt 技巧:怎麼寫出讓 AI 精準生圖的指令
整理:Penna|小企鵝 Penchan