字幕是视频后期处理里最费时的环节之一。手打 10 分钟视频的字幕,加上对时间轴,轻松就要花一个多小时。
剪映(CapCut)内置的 AI 字幕识别功能,把这个流程压到 10-20 分钟就能搞定,而且免费版就能用。对中文创作者来说,目前是 cost-performance 最高的字幕工具之一。
剪映 AI 字幕操作流程
剪映的 AI 字幕操作非常直觉,步骤不多:
导入视频:把视频档拖进剪映的时间轴。
打开自动字幕:在顶部菜单找「文字」,选「智慧字幕」里的「识别字幕」。系统会问视频的语言,选好之后按识别。
等它跑完:10 分钟的视频大概要跑 1-2 分钟。跑完之后字幕会自动切好、对好时间轴,直接出现在时间轴上。
校对:这步不能省。AI 识别再准确还是会有错字,特别是专有名词、人名、英文缩写。花 10-15 分钟过一遍,比手打省至少十倍时间。
调样式:字体、大小、颜色、位置。剪映内置的字幕模板蛮多的,挑一个跟视频风格搭的就好。

整个流程下来,10 分钟的视频大概 15-20 分钟搞定字幕。手打加校对则至少要 70 分钟起跳。
剪映台语识别:实测表现
这是剪映字幕功能最让人惊艳的部分。
对着台语口白选「中文(台湾)」识别,台语段落大概有七八成是对的。不是完美,有些词会识别成发音相近的中文字,台语的语助词「啦」「齁」偶尔会被跳过或变成其他字。整体意思能看懂,在这个基础上手动修正比从零手打快太多。

几个影响识别准确度的因素:
说话速度:讲太快识别率会掉。
口音:偏泉州腔或偏漳州腔表现会有差异。通行腔识别率较高。
背景噪音:有音乐或环境音干扰,识别率明显下降。建议在安静环境录或先做降噪处理。
中英夹杂怎么办
台湾人讲话很常中英夹杂:「这个 API 的 response time 大概 200 毫秒」这种句子。
剪映处理这种情况算可以,中文部分几乎不出错,英文单字大概八成会拼对。常见词(API、ChatGPT、iPhone)识别率高,比较冷门的技术名词(webhook、cron job 之类)偶尔会拼错。
实用做法是识别完之后集中修英文:把所有英文标记出来一次过一遍,比穿插在中文里边看边改有效率。
搭配大模型做字幕后处理
剪映识别完的字幕可以导出成 SRT 文件。把 SRT 文件丢给 Claude 或 ChatGPT,请它帮你做几件事:
- 校对错字:特别是同音异字的问题,AI 很擅长根据上下文判断
- 断句优化:剪映的自动断句偶尔会切在奇怪的地方,大模型可以帮你重新切到语意完整的位置
- 统一格式:英文大小写、数字格式、标点符号
流程是:剪映识别 → 导出 SRT → 丢给大模型校对 → 汇回剪映。多了一步,但字幕质量会好很多。
比较正式的视频建议走这个流程;日常短视频直接在剪映里手动改就够了。
字幕工具比较:剪映 vs Taption vs 雅婷转录稿
| 比较项目 | 剪映(CapCut) | Taption | 雅婷转录稿 |
|---|---|---|---|
| 免费额度 | 基本功能免费 | 试用 15 分钟 | 每月 60 分钟免费 |
| 中文准确度 | 九成以上 | 九成以上 | 八成左右 |
| 台语识别 | 支持(七八成) | 不支持 | 支持(六七成) |
| SRT 导出 | 支持 | 支持 | 支持 |
| 视频剪辑 | 内置完整剪辑功能 | 无 | 无 |
| 适合谁 | 视频创作者、一站搞定 | 需要多语言转录 | 纯文字转录稿需求 |
本来就用剪映剪片的人,字幕功能直接在里面搞定最省事。Taption 的优势是支持的语言多、导出格式也多,但要另外付费。
AI 配音:另一条路
剪映内置的 AI 配音功能声音偏机械,跟 ElevenLabs 那种接近真人的水准比还有距离。断句节奏、语气变化、情绪表达都还不够细腻。
需要 AI 配音功能的话,业界目前推荐度较高的是 ElevenLabs 或 Play.ht,跟剪映内置是两个层级的产品,不要从剪映的内置功能入手会比较不失望。
FAQ
剪映的 AI 字幕准确度高吗?
中文识别准确度大概九成以上。台语识别会看口音和语速,清楚的台语大概七八成准确。中英夹杂的部分英文单字偶尔会拼错,需要手动校对。在识别结果的基础上修正,比手打字幕省至少十倍时间。
剪映免费版能用 AI 字幕功能吗?
自从剪映 6.0 以后就不提供免费生成字幕了。需升级为 VIP,如果要购买可以去淘宝购买。
剪映的 AI 字幕可以导出 SRT 文件吗?
可以。识别完成后,在字幕区域选择导出,支持 SRT 格式。导出的 SRT 文件可以再丢给大模型做校对和断句优化。
剪映跟 Taption 比哪个好?
看需求。剪映是视频剪辑软件,字幕是附带功能,操作直觉、免费就能用。Taption 专做语音转文字,支持更多语言和导出格式,但要付费。本来就用剪映剪片的人没必要多开一个工具。
台语识别准确度怎么提高?
三个因素影响最大:说话速度(慢一点准确度高)、口音(通行腔识别率最高)、背景噪音(安静环境或先做降噪)。在这些条件都不错的情况下,台语识别大概能到七八成。
小企鹅的经验
剪映的字幕功能是小企鹅目前固定在用的工具之一,蛮好用的。中文准确度高,连台语也能识别,这在中文世界的字幕工具里很少见。
实际工作流是:剪映 AI 识别 → 导出 SRT → 进大模型转成台湾繁中 + 校对。中英夹杂或台语段落会多花一点时间人工修,但比起从零手打字幕,省下来的时间非常可观。处理会议录音类的转录稿可以搭 NotebookLM 转录稿教程,整体免费会议流程则看 免费 AI 会议记录流程。
AI 配音不在小企鹅的日常工作流里,剪映内置的 AI 配音也只当信息性质知道。需要做 AI 配音的人,直接看专业的 ElevenLabs 或 Play.ht 比从剪映内置入手实在。
本文为 AI 工具功能介绍,不涉及证券或投资建议。实际定价以各平台官方最新公告为准,本文信息可能已过时。
延伸阅读
- 2026 AI 绘图教程完整指南:从工具选择到工作流程的总览
- AI 绘图工具比较|Midjourney、Gemini、ChatGPT 生图:三大 AI 绘图工具的深度比较
- AI 绘图 Prompt 技巧:怎么写出让 AI 精准生图的命令
整理:Penna|小企鹅 Penchan