字幕は動画後処理で最も時間がかかる作業の一つです。10分動画の字幕を手打ちし、さらにタイムラインを合わせると、軽く1時間以上かかります。
剪映(CapCut)内蔵のAI字幕認識機能を使うと、この流れを10〜20分まで圧縮でき、無料版でも使えます。中文制作者にとっては、現時点でcost-performanceが最も高い字幕ツールの一つです。
CapCut AI字幕の操作フロー
CapCutのAI字幕操作はかなり直感的で、手順も多くありません。
動画を読み込む:動画ファイルをCapCutのタイムラインにドラッグします。
自動字幕を開く:上部メニューの「文字」を探し、「スマート字幕」の中の「字幕認識」を選びます。システムが動画の言語を聞いてくるので、選んでから認識を押します。
完了を待つ:10分の動画ならだいたい1〜2分で走ります。完了後、字幕は自動で切られ、タイムラインに揃って表示されます。
校正:このステップは省けません。AI認識がどれだけ正確でも、固有名詞、人名、英語略語では誤字が出ます。10〜15分かけて一度見るだけで、手打ちより少なくとも10倍は時間を節約できます。
スタイル調整:フォント、サイズ、色、位置。CapCut内蔵の字幕テンプレートは多いので、動画の雰囲気に合うものを選べば十分です。

全体として、10分動画の字幕は15〜20分ほどで完了します。手打ちと校正なら最低でも70分からです。
CapCut台湾語認識:実測の印象
これはCapCut字幕機能で最も驚いた部分です。
台湾語のナレーションに対して「中文(台湾)」を選んで認識すると、台湾語部分はだいたい7〜8割当たります。完璧ではありません。発音が近い中文字に変換されたり、台湾語の語気助詞「啦」「齁」が飛ばされたり別の字になることがあります。それでも全体の意味は理解でき、この状態から手で直すほうが、ゼロから打つよりはるかに速いです。

認識精度に影響する要素はいくつかあります。
話す速度:速すぎると認識率が落ちます。
アクセント:泉州腔寄りか漳州腔寄りかで差が出ます。通用腔の認識率が高めです。
背景ノイズ:音楽や環境音があると、認識率は明らかに下がります。静かな環境で録るか、先にノイズ除去するのがおすすめです。
中英混じりはどうするか
台湾の話し言葉では、「這個 API 的 response time 大概 200 毫秒」のように中英混じりがよく出ます。
CapCutはこの状況をそこそこ処理できます。中文部分はほぼ間違えず、英単語は8割ほど正しく綴られます。API、ChatGPT、iPhoneのような一般的な単語は認識率が高く、webhook、cron jobのような少し冷門な技術用語は時々間違えます。
実用上は、認識後に英語だけまとめて直すのが効率的です。すべての英語を一度マークし、一括で見直すほうが、中文の中に混ざったものを読みながら直すより速いです。
大型モデルと組み合わせて字幕後処理
CapCutで認識した字幕はSRTファイルとして書き出せます。SRTファイルをClaudeやChatGPTに渡し、以下を依頼します。
- 誤字校正:特に同音異字。AIは文脈から判断するのが得意です
- 改行最適化:CapCutの自動分割は時々変な場所で切れるので、大型モデルに意味が完結する位置へ切り直してもらう
- 形式統一:英語の大文字小文字、数字形式、句読点
流れは、CapCut認識 → SRT書き出し → 大型モデルで校正 → CapCutへ戻す、です。一手間増えますが、字幕品質はかなり上がります。
正式な動画ではこのworkflowがおすすめです。日常の短動画ならCapCut内で手動修正するだけでも十分です。
字幕ツール比較:CapCut vs Taption vs 雅婷逐字稿
| 比較項目 | CapCut | Taption | 雅婷逐字稿 |
|---|---|---|---|
| 無料枠 | 基本機能無料 | 15分試用 | 毎月60分無料 |
| 中文精度 | 9割以上 | 9割以上 | 8割前後 |
| 台湾語認識 | 対応(7〜8割) | 非対応 | 対応(6〜7割) |
| SRT書き出し | 対応 | 対応 | 対応 |
| 動画編集 | 完整な編集機能を内蔵 | なし | なし |
| 向いている人 | 動画制作者、ワンストップで完結したい人 | 多言語文字起こしが必要な人 | 純粋な文字起こしが必要な人 |
もともとCapCutで動画を編集している人は、字幕機能もその中で完結させるのが一番楽です。Taptionの強みは対応言語と書き出し形式が多いことですが、別途費用がかかります。
AI音声:別ルート
CapCut内蔵のAI音声は機械っぽさがあり、ElevenLabsのような真人に近い水準とはまだ距離があります。区切りのリズム、語気の変化、感情表現がまだ細かくありません。
AI音声が必要なら、業界では現時点でElevenLabsやPlay.htの推薦度が高いです。CapCut内蔵とは別レベルの製品なので、CapCutの内蔵機能から始めると期待外れになりやすいです。
FAQ
CapCutのAI字幕は正確ですか?
中文認識の精度はおおよそ9割以上です。台湾語認識はアクセントと話速に左右され、はっきりした台湾語なら7〜8割ほど正確です。中英混じりの部分では英単語が時々間違うので、手動校正が必要です。認識結果を土台に直すほうが、手打ち字幕より少なくとも10倍時間を節約できます。
CapCut無料版でAI字幕機能は使えますか?
剪映6.0以降、無料の字幕生成は提供されていません。VIPへのアップグレードが必要で、購入する場合は淘宝で購入できます。
CapCutのAI字幕はSRTファイルとして書き出せますか?
できます。認識完了後、字幕エリアで書き出しを選ぶとSRT形式に対応しています。書き出したSRTは大型モデルに渡して校正や改行最適化ができます。
CapCutとTaptionはどちらが良いですか?
用途次第です。CapCutは動画編集ソフトで、字幕は付属機能です。操作が直感的で無料でも使えます。Taptionは音声文字起こし専門で、より多くの言語と書き出し形式に対応しますが有料です。もともとCapCutで編集しているなら、別ツールを開く必要はありません。
台湾語認識の精度を上げるには?
最も影響が大きいのは3つです。話す速度(遅いほど精度が高い)、アクセント(通用腔の認識率が最も高い)、背景ノイズ(静かな環境または先にノイズ除去)。条件が良ければ、台湾語認識は7〜8割程度まで届きます。
こぺんぎんの体験談
CapCutの字幕機能は、こぺんぎんが現在固定で使っているツールの一つで、かなり便利です。中文の精度が高く、台湾語まで認識できます。これは中文圏の字幕ツールでは珍しいです。
実際のworkflowは、CapCut AI認識 → SRT書き出し → 大型モデルで台湾繁中に整える + 校正、です。中英混じりや台湾語の段落は少し手作業が増えますが、ゼロから手打ちする場合に比べると、節約できる時間はかなり大きいです。会議録音系の文字起こしはNotebookLM文字起こしチュートリアルと組み合わせられます。無料AI会議メモ全体の流れは無料AI会議記録workflowを参照してください。
AI音声はこぺんぎんの日常workflowには入っていません。CapCut内蔵のAI音声も情報として知っている程度です。AI音声が必要な人は、CapCut内蔵から入るより、ElevenLabsやPlay.htのような専門ツールを見るほうが実用的です。
本記事はAIツール機能の紹介であり、証券または投資助言ではありません。実際の料金は各プラットフォームの公式最新発表を基準にしてください。本記事の情報は古くなる可能性があります。
関連記事
- 2026 AI創作ツール完全ガイド:ツール選びからworkflowまでの総覧
- AI画像生成ツール比較|Midjourney、Gemini、ChatGPT画像生成:主要AI画像生成ツール3つの深掘り比較
- AI画像生成Promptテクニック:AIに狙った画像を作らせる指示の書き方
— Penchan