iPhone 录音、NotebookLM 转转录稿、ChatGPT 或 Claude 做摘要。三个免费工具串起来,从录音到拿到结构化的会议记录大约 15 分钟。这篇整理每一步的操作细节,包含半年使用累积的小技巧。
如果不想花钱买 Otter 或 Fireflies,这套流程基本够用。
附带一提,Whisper 也可以替代 NotebookLM 做转录,但要自己架 Python 环境,而且转完还是要另外跑摘要。NotebookLM 一站搞定转录 + 知识库,整合度高一些。重视隐私、不想把录音上传云的话,Whisper 本地方案值得考虑,详细比较在 工具比较。
完整 SOP
Step 1:录音
工具:iPhone「语音备忘录」app。开会前打开 app,按下录音,手机放桌上。结束。
几个会影响识别质量的细节:
手机位置。放桌子中央最好,离最远的说话者不超过 2 公尺。放在自己面前的话,对面的人说的话识别率可能掉 20%。
环境噪音。这是影响最大的变量。安静的会议室识别率 95%,咖啡厅大约 75%。环境很吵时,考虑用有指向性的外接麦克风。
录音格式。iPhone 默认是 M4A 档,NotebookLM 吃得下,不用特别转档。
线上会议的做法不一样:用 macOS 的 QuickTime Player 录系统声音,质量比手机放在电脑旁边好很多。操作是 QuickTime → 添加音频录制 → 选系统声音输入(需要 BlackHole 或 Loopback 这类虚拟音频装置)。
Step 2:上传 NotebookLM
会后打开 NotebookLM,建一个新的笔记本,上传录音频文件。
NotebookLM 会自动开始转录。30 分钟的录音大约 3-5 分钟跑完,两小时的会议大约 10-15 分钟。
转录完成后可以看到完整的转录稿。中文识别准确率大约 90%,专有名词和人名是最常出错的地方。
实用做法是不校对,直接拿去跑摘要。AI 做摘要的时候会自动忽略识别错误:「机器学习」被识别成「机器雪习」,AI 照样知道在讲什么。除非要发布正式的会议转录稿,否则校对是浪费时间。
NotebookLM 还有一个额外好处:它会把这份录音纳入知识库。三个月后想查「那次跟客户讨论定价的会议」,直接在 NotebookLM 里问就好。详细的转录稿用法在 NotebookLM 转录稿教程。
Step 3:AI 摘要
把转录稿复制出来,丢给 ChatGPT 或 Claude。常用 prompt:
以下是一场会议的转录稿。请整理出:
1. 三句话摘要(这场会议在讨论什么、得到什么结论、下一步是什么)
2. 每个人的待办事项(如果能从上下文判断谁负责什么)
3. 需要在下次会议前完成的事
4. 有争议或尚未达成共识的议题
转录稿:
[贴上转录稿]
通常 1-2 分钟就出结果。
如果会议比较长(超过 1 小时),转录稿可能超过 AI 的输入限制。这时候先在 NotebookLM 里用它的 AI 功能做一次初步摘要,再拿初步摘要去跑详细整理。两层压缩,效果很好。
Step 4:存档
拿到摘要后存两份:
- 原始转录稿留在 NotebookLM 里(当知识库用)
- 摘要存到 Notion 或 Google Docs(方便分享给与会者)
整个流程从录音结束到拿到摘要,大约 15 分钟。30 分钟以内的会议可能 10 分钟就完成。

质量实测
拿同一段 45 分钟的会议录音,分别用 NotebookLM(免费)和 Otter.ai(Pro 版 $16.99/月)跑:
识别准确率(中文):
- NotebookLM:约 90%
- Otter.ai:约 78%
说话者识别:
- NotebookLM:无
- Otter.ai:有,但中文准确率大约 70%
处理时间:
- NotebookLM:4 分钟
- Otter.ai:实时(录的时候就在跑)
摘要质量:
- NotebookLM + Claude:结构清楚、重点明确
- Otter.ai 内置摘要:比较简短,偶尔漏掉细节
根据社区整理的数字,Whisper(本地跑 large-v3 模型)和 Fireflies 的中文识别准确率分别约 90% 和 85%。Fireflies Pro $18/月,中文识别比 Otter 好但不如 NotebookLM。
结论:中文会议用 NotebookLM 的识别质量反而比付费工具好。Otter 赢在英文实时转录和说话者识别,但这两个功能在中文场景下都打了折。

跟付费工具的差距
这套免费流程有三个明确的缺点。
不能实时转录。要等会后才能处理。付费工具像 Otter 和 Fireflies 可以边开会边转,对某些讨论场景有帮助。
没有自动识别说话者。NotebookLM 的转录稿是连续的文字,不会标记谁说了什么。会议有很多人时,回头找「谁讲了那句话」会比较麻烦。
多了手动步骤。上传录音、复制转录稿、贴到 ChatGPT,这些操作加起来大约多花 5 分钟。付费工具可以全自动完成。
这些差距值得每个月花 $17-18 吗?看使用频率。一周开 3-4 场会议的话,手动多花的时间加起来大约 20 分钟,多数人可以接受。每天开 5 场以上、需要实时转录和说话者识别,付费工具会合理很多。各工具的详细比较在 工具比较。

几个小技巧
录音前测一次。到了会议室先开录音讲几句话,回放听看看清不清楚。回音很大的空间录出来可能几乎没办法识别。
会议开始时让每个人说一句话。需要区分说话者时,开场让每个人做 10 秒的个人介绍。这段录音可以帮后续手动标记。
长会议中间暂停录音。休息时间暂停,回来再继续。这样转录稿不会有一大段沈默或闲聊。
建立固定的 prompt 模板。三个版本:正式会议用的(输出格式比较严谨)、脑力激荡用的(着重在点子收集)、客户会议用的(强调待办和承诺事项)。

这套流程适合谁
适合:一周开会不超过 5 场、会议语言以中文为主、不想花钱在工具上。
不适合:需要实时转录(边开会边看字幕)、需要自动串接 Zoom/Teams、团队有 5 人以上需要共用会议记录平台。
工具一直在进步。半年前 NotebookLM 的中文识别还没这么稳,现在已经比付费竞品高一截。这套流程也会跟着工具的更新继续调整。

小企鹅的经验
iPhone 录音 + NotebookLM + 大模型摘要是小企鹅实际每周都在用的流程,每周开的 3-4 场会议都是这样处理。整套零成本,下游的摘要质量取决于选用的大模型:正式记录用 Claude(结构干净),快速扫重点用 ChatGPT(观点略多)。
开场让每个人说一句话这个习惯是踩坑后留下的。没做这步的会议,回去找「谁讲了那句话」会花掉 5-10 分钟。录音时让大家先自我介绍一轮,后面整理时靠语音特征就能对上。
Otter / Fireflies / Plaud / Tinrec / Vocol 这几家付费工具没有放进日常工作流。中文场景下 NotebookLM 的识别质量比 Otter 高一截,付费工具的实时转录和说话者识别在中文场景都打折,加上每月固定支出,目前对小企鹅来说 ROI 不如三件式免费组合。
剪映的台语识别是补上 NotebookLM 弱项的关键工具。混语会议或长辈语音先用剪映转文字,再丢回 NotebookLM 做问答。台语纯内容识别率到 7-8 成,比 NotebookLM 的 3-4 成稳定得多。
下个想观察的是台语场景的进化。等有更稳定的免费台语方案出来,这套流程会再做一轮更新。
延伸阅读
常见问题
Q: iPhone 录音的音质够用吗?
放在桌上 2 公尺内,质量足以识别。实测识别错误率大约 5-10%。真正影响质量的是环境噪音,不是麦克风。
Q: NotebookLM 转转录稿要多久?
看录音长度。30 分钟的录音大约 3-5 分钟就跑完。两小时的会议大约 10-15 分钟。上传完可以先去做别的事。
Q: 转录稿有错字怎么办?
正常。AI 识别不可能 100% 准确,专有名词和人名最容易出错。实际做法是不逐字校对,直接丢给 AI 跑摘要。摘要阶段 AI 会自动忽略识别错误,抓到正确的意思。
Q: 能识别不同说话者吗?
NotebookLM 目前没有自动识别说话者的功能。如果需要区分谁说了什么,有两个办法:一是在录音开始时让每个人先自我介绍,二是会后自己手动标记。
Q: 线上会议怎么录?
开 Zoom/Meet 的时候,用电脑的屏幕录制功能录系统声音。macOS 用 QuickTime Player,Windows 用内置的 Xbox Game Bar。录出来的音质比手机放旁边好很多。
Q: 这个流程跟付费工具比差在哪?
三个差距:没有实时转录(要会后才能处理)、没有自动识别说话者、多了手动上传和跑摘要的步骤。一天开不超过两场会议的话,这些差距可以忍受。
Q: ChatGPT 跟 Claude 做摘要,哪个比较好?
Claude 的摘要比较有条理、格式比较干净。ChatGPT 的摘要比较活泼,偶尔会多补充一些观点。正式场合用 Claude,快速看重点用 ChatGPT。
整理:Penna|小企鹅 Penchan