免费 AI 会议记录流程（2026）｜iPhone + NotebookLM 零成本方案

iPhone 录音、NotebookLM 转转录稿、ChatGPT 或 Claude 做摘要。三个免费工具串起来，从录音到拿到结构化的会议记录大约 15 分钟。这篇整理每一步的操作细节，包含半年使用累积的小技巧。

如果不想花钱买 Otter 或 Fireflies，这套流程基本够用。

附带一提，Whisper 也可以替代 NotebookLM 做转录，但要自己架 Python 环境，而且转完还是要另外跑摘要。NotebookLM 一站搞定转录 + 知识库，整合度高一些。重视隐私、不想把录音上传云的话，Whisper 本地方案值得考虑，详细比较在工具比较。

完整 SOP

Step 1：录音

工具：iPhone「语音备忘录」app。开会前打开 app，按下录音，手机放桌上。结束。

几个会影响识别质量的细节：

手机位置。放桌子中央最好，离最远的说话者不超过 2 公尺。放在自己面前的话，对面的人说的话识别率可能掉 20%。

环境噪音。这是影响最大的变量。安静的会议室识别率 95%，咖啡厅大约 75%。环境很吵时，考虑用有指向性的外接麦克风。

录音格式。iPhone 默认是 M4A 档，NotebookLM 吃得下，不用特别转档。

线上会议的做法不一样：用 macOS 的 QuickTime Player 录系统声音，质量比手机放在电脑旁边好很多。操作是 QuickTime → 添加音频录制 → 选系统声音输入（需要 BlackHole 或 Loopback 这类虚拟音频装置）。

Step 2：上传 NotebookLM

会后打开 NotebookLM，建一个新的笔记本，上传录音频文件。

NotebookLM 会自动开始转录。30 分钟的录音大约 3-5 分钟跑完，两小时的会议大约 10-15 分钟。

转录完成后可以看到完整的转录稿。中文识别准确率大约 90%，专有名词和人名是最常出错的地方。

实用做法是不校对，直接拿去跑摘要。AI 做摘要的时候会自动忽略识别错误：「机器学习」被识别成「机器雪习」，AI 照样知道在讲什么。除非要发布正式的会议转录稿，否则校对是浪费时间。

NotebookLM 还有一个额外好处：它会把这份录音纳入知识库。三个月后想查「那次跟客户讨论定价的会议」，直接在 NotebookLM 里问就好。详细的转录稿用法在 NotebookLM 转录稿教程。

Step 3：AI 摘要

把转录稿复制出来，丢给 ChatGPT 或 Claude。常用 prompt：

以下是一场会议的转录稿。请整理出：

1. 三句话摘要（这场会议在讨论什么、得到什么结论、下一步是什么）
2. 每个人的待办事项（如果能从上下文判断谁负责什么）
3. 需要在下次会议前完成的事
4. 有争议或尚未达成共识的议题

转录稿：
[贴上转录稿]

通常 1-2 分钟就出结果。

如果会议比较长（超过 1 小时），转录稿可能超过 AI 的输入限制。这时候先在 NotebookLM 里用它的 AI 功能做一次初步摘要，再拿初步摘要去跑详细整理。两层压缩，效果很好。

Step 4：存档

拿到摘要后存两份：

原始转录稿留在 NotebookLM 里（当知识库用）
摘要存到 Notion 或 Google Docs（方便分享给与会者）

整个流程从录音结束到拿到摘要，大约 15 分钟。30 分钟以内的会议可能 10 分钟就完成。

免费流程 SOP

质量实测

拿同一段 45 分钟的会议录音，分别用 NotebookLM（免费）和 Otter.ai（Pro 版 $16.99/月）跑：

识别准确率（中文）：

NotebookLM：约 90%
Otter.ai：约 78%

说话者识别：

NotebookLM：无
Otter.ai：有，但中文准确率大约 70%

处理时间：

NotebookLM：4 分钟
Otter.ai：实时（录的时候就在跑）

摘要质量：

NotebookLM + Claude：结构清楚、重点明确
Otter.ai 内置摘要：比较简短，偶尔漏掉细节

根据社区整理的数字，Whisper（本地跑 large-v3 模型）和 Fireflies 的中文识别准确率分别约 90% 和 85%。Fireflies Pro $18/月，中文识别比 Otter 好但不如 NotebookLM。

结论：中文会议用 NotebookLM 的识别质量反而比付费工具好。Otter 赢在英文实时转录和说话者识别，但这两个功能在中文场景下都打了折。

转录稿质量测试

跟付费工具的差距

这套免费流程有三个明确的缺点。

不能实时转录。要等会后才能处理。付费工具像 Otter 和 Fireflies 可以边开会边转，对某些讨论场景有帮助。

没有自动识别说话者。NotebookLM 的转录稿是连续的文字，不会标记谁说了什么。会议有很多人时，回头找「谁讲了那句话」会比较麻烦。

多了手动步骤。上传录音、复制转录稿、贴到 ChatGPT，这些操作加起来大约多花 5 分钟。付费工具可以全自动完成。

这些差距值得每个月花 $17-18 吗？看使用频率。一周开 3-4 场会议的话，手动多花的时间加起来大约 20 分钟，多数人可以接受。每天开 5 场以上、需要实时转录和说话者识别，付费工具会合理很多。各工具的详细比较在工具比较。

免费付费差距

几个小技巧

录音前测一次。到了会议室先开录音讲几句话，回放听看看清不清楚。回音很大的空间录出来可能几乎没办法识别。

会议开始时让每个人说一句话。需要区分说话者时，开场让每个人做 10 秒的个人介绍。这段录音可以帮后续手动标记。

长会议中间暂停录音。休息时间暂停，回来再继续。这样转录稿不会有一大段沈默或闲聊。

建立固定的 prompt 模板。三个版本：正式会议用的（输出格式比较严谨）、脑力激荡用的（着重在点子收集）、客户会议用的（强调待办和承诺事项）。

会议整理技巧

这套流程适合谁

适合：一周开会不超过 5 场、会议语言以中文为主、不想花钱在工具上。

不适合：需要实时转录（边开会边看字幕）、需要自动串接 Zoom/Teams、团队有 5 人以上需要共用会议记录平台。

工具一直在进步。半年前 NotebookLM 的中文识别还没这么稳，现在已经比付费竞品高一截。这套流程也会跟着工具的更新继续调整。

适合用户分类

小企鹅的经验

iPhone 录音 + NotebookLM + 大模型摘要是小企鹅实际每周都在用的流程，每周开的 3-4 场会议都是这样处理。整套零成本，下游的摘要质量取决于选用的大模型：正式记录用 Claude（结构干净），快速扫重点用 ChatGPT（观点略多）。

开场让每个人说一句话这个习惯是踩坑后留下的。没做这步的会议，回去找「谁讲了那句话」会花掉 5-10 分钟。录音时让大家先自我介绍一轮，后面整理时靠语音特征就能对上。

Otter / Fireflies / Plaud / Tinrec / Vocol 这几家付费工具没有放进日常工作流。中文场景下 NotebookLM 的识别质量比 Otter 高一截，付费工具的实时转录和说话者识别在中文场景都打折，加上每月固定支出，目前对小企鹅来说 ROI 不如三件式免费组合。

剪映的台语识别是补上 NotebookLM 弱项的关键工具。混语会议或长辈语音先用剪映转文字，再丢回 NotebookLM 做问答。台语纯内容识别率到 7-8 成，比 NotebookLM 的 3-4 成稳定得多。

下个想观察的是台语场景的进化。等有更稳定的免费台语方案出来，这套流程会再做一轮更新。

常见问题

Q: iPhone 录音的音质够用吗？

放在桌上 2 公尺内，质量足以识别。实测识别错误率大约 5-10%。真正影响质量的是环境噪音，不是麦克风。

Q: NotebookLM 转转录稿要多久？

看录音长度。30 分钟的录音大约 3-5 分钟就跑完。两小时的会议大约 10-15 分钟。上传完可以先去做别的事。

Q: 转录稿有错字怎么办？

正常。AI 识别不可能 100% 准确，专有名词和人名最容易出错。实际做法是不逐字校对，直接丢给 AI 跑摘要。摘要阶段 AI 会自动忽略识别错误，抓到正确的意思。

Q: 能识别不同说话者吗？

NotebookLM 目前没有自动识别说话者的功能。如果需要区分谁说了什么，有两个办法：一是在录音开始时让每个人先自我介绍，二是会后自己手动标记。

Q: 线上会议怎么录？

开 Zoom/Meet 的时候，用电脑的屏幕录制功能录系统声音。macOS 用 QuickTime Player，Windows 用内置的 Xbox Game Bar。录出来的音质比手机放旁边好很多。

Q: 这个流程跟付费工具比差在哪？

三个差距：没有实时转录（要会后才能处理）、没有自动识别说话者、多了手动上传和跑摘要的步骤。一天开不超过两场会议的话，这些差距可以忍受。

Q: ChatGPT 跟 Claude 做摘要，哪个比较好？

Claude 的摘要比较有条理、格式比较干净。ChatGPT 的摘要比较活泼，偶尔会多补充一些观点。正式场合用 Claude，快速看重点用 ChatGPT。

整理：Penna｜小企鹅 Penchan