iPhone 录音、NotebookLM 转转录稿、ChatGPTClaude 做摘要。三个免费工具串起来,从录音到拿到结构化的会议记录大约 15 分钟。这篇整理每一步的操作细节,包含半年使用累积的小技巧。

如果不想花钱买 Otter 或 Fireflies,这套流程基本够用。

附带一提,Whisper 也可以替代 NotebookLM 做转录,但要自己架 Python 环境,而且转完还是要另外跑摘要。NotebookLM 一站搞定转录 + 知识库,整合度高一些。重视隐私、不想把录音上传云的话,Whisper 本地方案值得考虑,详细比较在 工具比较

完整 SOP

Step 1:录音

工具:iPhone「语音备忘录」app。开会前打开 app,按下录音,手机放桌上。结束。

几个会影响识别质量的细节:

手机位置。放桌子中央最好,离最远的说话者不超过 2 公尺。放在自己面前的话,对面的人说的话识别率可能掉 20%。

环境噪音。这是影响最大的变量。安静的会议室识别率 95%,咖啡厅大约 75%。环境很吵时,考虑用有指向性的外接麦克风。

录音格式。iPhone 默认是 M4A 档,NotebookLM 吃得下,不用特别转档。

线上会议的做法不一样:用 macOS 的 QuickTime Player 录系统声音,质量比手机放在电脑旁边好很多。操作是 QuickTime → 添加音频录制 → 选系统声音输入(需要 BlackHole 或 Loopback 这类虚拟音频装置)。

Step 2:上传 NotebookLM

会后打开 NotebookLM,建一个新的笔记本,上传录音频文件。

NotebookLM 会自动开始转录。30 分钟的录音大约 3-5 分钟跑完,两小时的会议大约 10-15 分钟。

转录完成后可以看到完整的转录稿。中文识别准确率大约 90%,专有名词和人名是最常出错的地方。

实用做法是不校对,直接拿去跑摘要。AI 做摘要的时候会自动忽略识别错误:「机器学习」被识别成「机器雪习」,AI 照样知道在讲什么。除非要发布正式的会议转录稿,否则校对是浪费时间。

NotebookLM 还有一个额外好处:它会把这份录音纳入知识库。三个月后想查「那次跟客户讨论定价的会议」,直接在 NotebookLM 里问就好。详细的转录稿用法在 NotebookLM 转录稿教程

Step 3:AI 摘要

把转录稿复制出来,丢给 ChatGPT 或 Claude。常用 prompt:

以下是一场会议的转录稿。请整理出:

1. 三句话摘要(这场会议在讨论什么、得到什么结论、下一步是什么)
2. 每个人的待办事项(如果能从上下文判断谁负责什么)
3. 需要在下次会议前完成的事
4. 有争议或尚未达成共识的议题

转录稿:
[贴上转录稿]

通常 1-2 分钟就出结果。

如果会议比较长(超过 1 小时),转录稿可能超过 AI 的输入限制。这时候先在 NotebookLM 里用它的 AI 功能做一次初步摘要,再拿初步摘要去跑详细整理。两层压缩,效果很好。

Step 4:存档

拿到摘要后存两份:

  1. 原始转录稿留在 NotebookLM 里(当知识库用)
  2. 摘要存到 Notion 或 Google Docs(方便分享给与会者)

整个流程从录音结束到拿到摘要,大约 15 分钟。30 分钟以内的会议可能 10 分钟就完成。

免费流程 SOP

质量实测

拿同一段 45 分钟的会议录音,分别用 NotebookLM(免费)和 Otter.ai(Pro 版 $16.99/月)跑:

识别准确率(中文):

  • NotebookLM:约 90%
  • Otter.ai:约 78%

说话者识别

  • NotebookLM:无
  • Otter.ai:有,但中文准确率大约 70%

处理时间

  • NotebookLM:4 分钟
  • Otter.ai:实时(录的时候就在跑)

摘要质量

  • NotebookLM + Claude:结构清楚、重点明确
  • Otter.ai 内置摘要:比较简短,偶尔漏掉细节

根据社区整理的数字,Whisper(本地跑 large-v3 模型)和 Fireflies 的中文识别准确率分别约 90% 和 85%。Fireflies Pro $18/月,中文识别比 Otter 好但不如 NotebookLM。

结论:中文会议用 NotebookLM 的识别质量反而比付费工具好。Otter 赢在英文实时转录和说话者识别,但这两个功能在中文场景下都打了折。

转录稿质量测试

跟付费工具的差距

这套免费流程有三个明确的缺点。

不能实时转录。要等会后才能处理。付费工具像 Otter 和 Fireflies 可以边开会边转,对某些讨论场景有帮助。

没有自动识别说话者。NotebookLM 的转录稿是连续的文字,不会标记谁说了什么。会议有很多人时,回头找「谁讲了那句话」会比较麻烦。

多了手动步骤。上传录音、复制转录稿、贴到 ChatGPT,这些操作加起来大约多花 5 分钟。付费工具可以全自动完成。

这些差距值得每个月花 $17-18 吗?看使用频率。一周开 3-4 场会议的话,手动多花的时间加起来大约 20 分钟,多数人可以接受。每天开 5 场以上、需要实时转录和说话者识别,付费工具会合理很多。各工具的详细比较在 工具比较

免费付费差距

几个小技巧

录音前测一次。到了会议室先开录音讲几句话,回放听看看清不清楚。回音很大的空间录出来可能几乎没办法识别。

会议开始时让每个人说一句话。需要区分说话者时,开场让每个人做 10 秒的个人介绍。这段录音可以帮后续手动标记。

长会议中间暂停录音。休息时间暂停,回来再继续。这样转录稿不会有一大段沈默或闲聊。

建立固定的 prompt 模板。三个版本:正式会议用的(输出格式比较严谨)、脑力激荡用的(着重在点子收集)、客户会议用的(强调待办和承诺事项)。

会议整理技巧

这套流程适合谁

适合:一周开会不超过 5 场、会议语言以中文为主、不想花钱在工具上。

不适合:需要实时转录(边开会边看字幕)、需要自动串接 Zoom/Teams、团队有 5 人以上需要共用会议记录平台。

工具一直在进步。半年前 NotebookLM 的中文识别还没这么稳,现在已经比付费竞品高一截。这套流程也会跟着工具的更新继续调整。


适合用户分类

小企鹅的经验

iPhone 录音 + NotebookLM + 大模型摘要是小企鹅实际每周都在用的流程,每周开的 3-4 场会议都是这样处理。整套零成本,下游的摘要质量取决于选用的大模型:正式记录用 Claude(结构干净),快速扫重点用 ChatGPT(观点略多)。

开场让每个人说一句话这个习惯是踩坑后留下的。没做这步的会议,回去找「谁讲了那句话」会花掉 5-10 分钟。录音时让大家先自我介绍一轮,后面整理时靠语音特征就能对上。

Otter / Fireflies / Plaud / Tinrec / Vocol 这几家付费工具没有放进日常工作流。中文场景下 NotebookLM 的识别质量比 Otter 高一截,付费工具的实时转录和说话者识别在中文场景都打折,加上每月固定支出,目前对小企鹅来说 ROI 不如三件式免费组合。

剪映的台语识别是补上 NotebookLM 弱项的关键工具。混语会议或长辈语音先用剪映转文字,再丢回 NotebookLM 做问答。台语纯内容识别率到 7-8 成,比 NotebookLM 的 3-4 成稳定得多。

下个想观察的是台语场景的进化。等有更稳定的免费台语方案出来,这套流程会再做一轮更新。

延伸阅读

常见问题

Q: iPhone 录音的音质够用吗?

放在桌上 2 公尺内,质量足以识别。实测识别错误率大约 5-10%。真正影响质量的是环境噪音,不是麦克风。

Q: NotebookLM 转转录稿要多久?

看录音长度。30 分钟的录音大约 3-5 分钟就跑完。两小时的会议大约 10-15 分钟。上传完可以先去做别的事。

Q: 转录稿有错字怎么办?

正常。AI 识别不可能 100% 准确,专有名词和人名最容易出错。实际做法是不逐字校对,直接丢给 AI 跑摘要。摘要阶段 AI 会自动忽略识别错误,抓到正确的意思。

Q: 能识别不同说话者吗?

NotebookLM 目前没有自动识别说话者的功能。如果需要区分谁说了什么,有两个办法:一是在录音开始时让每个人先自我介绍,二是会后自己手动标记。

Q: 线上会议怎么录?

开 Zoom/Meet 的时候,用电脑的屏幕录制功能录系统声音。macOS 用 QuickTime Player,Windows 用内置的 Xbox Game Bar。录出来的音质比手机放旁边好很多。

Q: 这个流程跟付费工具比差在哪?

三个差距:没有实时转录(要会后才能处理)、没有自动识别说话者、多了手动上传和跑摘要的步骤。一天开不超过两场会议的话,这些差距可以忍受。

Q: ChatGPT 跟 Claude 做摘要,哪个比较好?

Claude 的摘要比较有条理、格式比较干净。ChatGPT 的摘要比较活泼,偶尔会多补充一些观点。正式场合用 Claude,快速看重点用 ChatGPT。


整理:Penna|小企鹅 Penchan