iPhone 錄音、NotebookLM 轉逐字稿、ChatGPT 或 Claude 做摘要。三個免費工具串起來,從錄音到拿到結構化的會議紀錄大約 15 分鐘。這篇整理每一步的操作細節,包含半年使用累積的小技巧。
如果不想花錢買 Otter 或 Fireflies,這套流程基本夠用。
附帶一提,Whisper 也可以替代 NotebookLM 做轉錄,但要自己架 Python 環境,而且轉完還是要另外跑摘要。NotebookLM 一站搞定轉錄 + 知識庫,整合度高一些。重視隱私、不想把錄音上傳雲端的話,Whisper 本機方案值得考慮,詳細比較在 工具比較。
完整 SOP
Step 1:錄音
工具:iPhone「語音備忘錄」app。開會前打開 app,按下錄音,手機放桌上。結束。
幾個會影響辨識品質的細節:
手機位置。放桌子中央最好,離最遠的說話者不超過 2 公尺。放在自己面前的話,對面的人說的話辨識率可能掉 20%。
環境噪音。這是影響最大的變數。安靜的會議室辨識率 95%,咖啡廳大約 75%。環境很吵時,考慮用有指向性的外接麥克風。
錄音格式。iPhone 預設是 M4A 檔,NotebookLM 吃得下,不用特別轉檔。
線上會議的做法不一樣:用 macOS 的 QuickTime Player 錄系統聲音,品質比手機放在電腦旁邊好很多。操作是 QuickTime → 新增音訊錄製 → 選系統聲音輸入(需要 BlackHole 或 Loopback 這類虛擬音訊裝置)。
Step 2:上傳 NotebookLM
會後打開 NotebookLM,建一個新的筆記本,上傳錄音檔。
NotebookLM 會自動開始轉錄。30 分鐘的錄音大約 3-5 分鐘跑完,兩小時的會議大約 10-15 分鐘。
轉錄完成後可以看到完整的逐字稿。中文辨識準確率大約 90%,專有名詞和人名是最常出錯的地方。
實用做法是不校對,直接拿去跑摘要。AI 做摘要的時候會自動忽略辨識錯誤:「機器學習」被辨識成「機器雪習」,AI 照樣知道在講什麼。除非要發布正式的會議逐字稿,否則校對是浪費時間。
NotebookLM 還有一個額外好處:它會把這份錄音納入知識庫。三個月後想查「那次跟客戶討論定價的會議」,直接在 NotebookLM 裡問就好。詳細的逐字稿用法在 NotebookLM 逐字稿教學。
Step 3:AI 摘要
把逐字稿複製出來,丟給 ChatGPT 或 Claude。常用 prompt:
以下是一場會議的逐字稿。請整理出:
1. 三句話摘要(這場會議在討論什麼、得到什麼結論、下一步是什麼)
2. 每個人的待辦事項(如果能從上下文判斷誰負責什麼)
3. 需要在下次會議前完成的事
4. 有爭議或尚未達成共識的議題
逐字稿:
[貼上逐字稿]
通常 1-2 分鐘就出結果。
如果會議比較長(超過 1 小時),逐字稿可能超過 AI 的輸入限制。這時候先在 NotebookLM 裡用它的 AI 功能做一次初步摘要,再拿初步摘要去跑詳細整理。兩層壓縮,效果很好。
Step 4:存檔
拿到摘要後存兩份:
- 原始逐字稿留在 NotebookLM 裡(當知識庫用)
- 摘要存到 Notion 或 Google Docs(方便分享給與會者)
整個流程從錄音結束到拿到摘要,大約 15 分鐘。30 分鐘以內的會議可能 10 分鐘就完成。

品質實測
拿同一段 45 分鐘的會議錄音,分別用 NotebookLM(免費)和 Otter.ai(Pro 版 $16.99/月)跑:
辨識準確率(中文):
- NotebookLM:約 90%
- Otter.ai:約 78%
說話者辨識:
- NotebookLM:無
- Otter.ai:有,但中文準確率大約 70%
處理時間:
- NotebookLM:4 分鐘
- Otter.ai:即時(錄的時候就在跑)
摘要品質:
- NotebookLM + Claude:結構清楚、重點明確
- Otter.ai 內建摘要:比較簡短,偶爾漏掉細節
根據社群整理的數字,Whisper(本機跑 large-v3 模型)和 Fireflies 的中文辨識準確率分別約 90% 和 85%。Fireflies Pro $18/月,中文辨識比 Otter 好但不如 NotebookLM。
結論:中文會議用 NotebookLM 的辨識品質反而比付費工具好。Otter 贏在英文即時轉錄和說話者辨識,但這兩個功能在中文場景下都打了折。

跟付費工具的差距
這套免費流程有三個明確的缺點。
不能即時轉錄。要等會後才能處理。付費工具像 Otter 和 Fireflies 可以邊開會邊轉,對某些討論場景有幫助。
沒有自動辨識說話者。NotebookLM 的逐字稿是連續的文字,不會標記誰說了什麼。會議有很多人時,回頭找「誰講了那句話」會比較麻煩。
多了手動步驟。上傳錄音、複製逐字稿、貼到 ChatGPT,這些操作加起來大約多花 5 分鐘。付費工具可以全自動完成。
這些差距值得每個月花 $17-18 嗎?看使用頻率。一週開 3-4 場會議的話,手動多花的時間加起來大約 20 分鐘,多數人可以接受。每天開 5 場以上、需要即時轉錄和說話者辨識,付費工具會合理很多。各工具的詳細比較在 工具比較。

幾個小技巧
錄音前測一次。到了會議室先開錄音講幾句話,回放聽看看清不清楚。回音很大的空間錄出來可能幾乎沒辦法辨識。
會議開始時讓每個人說一句話。需要區分說話者時,開場讓每個人做 10 秒的個人介紹。這段錄音可以幫後續手動標記。
長會議中間暫停錄音。休息時間暫停,回來再繼續。這樣逐字稿不會有一大段沈默或閒聊。
建立固定的 prompt 範本。三個版本:正式會議用的(輸出格式比較嚴謹)、腦力激盪用的(著重在點子收集)、客戶會議用的(強調待辦和承諾事項)。

這套流程適合誰
適合:一週開會不超過 5 場、會議語言以中文為主、不想花錢在工具上。
不適合:需要即時轉錄(邊開會邊看字幕)、需要自動串接 Zoom/Teams、團隊有 5 人以上需要共用會議記錄平台。
工具一直在進步。半年前 NotebookLM 的中文辨識還沒這麼穩,現在已經比付費競品高一截。這套流程也會跟著工具的更新繼續調整。

小企鵝的經驗
iPhone 錄音 + NotebookLM + 大模型摘要是小企鵝實際每週都在用的流程,每週開的 3-4 場會議都是這樣處理。整套零成本,下游的摘要品質取決於選用的大模型:正式紀錄用 Claude(結構乾淨),快速掃重點用 ChatGPT(觀點略多)。
開場讓每個人說一句話這個習慣是踩坑後留下的。沒做這步的會議,回去找「誰講了那句話」會花掉 5-10 分鐘。錄音時讓大家先自我介紹一輪,後面整理時靠語音特徵就能對上。
Otter / Fireflies / Plaud / Tinrec / Vocol 這幾家付費工具沒有放進日常工作流。中文場景下 NotebookLM 的辨識品質比 Otter 高一截,付費工具的即時轉錄和說話者辨識在中文場景都打折,加上每月固定支出,目前對小企鵝來說 ROI 不如三件式免費組合。
剪映的台語辨識是補上 NotebookLM 弱項的關鍵工具。混語會議或長輩語音先用剪映轉文字,再丟回 NotebookLM 做問答。台語純內容辨識率到 7-8 成,比 NotebookLM 的 3-4 成穩定得多。
下個想觀察的是台語場景的進化。等有更穩定的免費台語方案出來,這套流程會再做一輪更新。
延伸閱讀
常見問題
Q: iPhone 錄音的音質夠用嗎?
放在桌上 2 公尺內,品質足以辨識。實測辨識錯誤率大約 5-10%。真正影響品質的是環境噪音,不是麥克風。
Q: NotebookLM 轉逐字稿要多久?
看錄音長度。30 分鐘的錄音大約 3-5 分鐘就跑完。兩小時的會議大約 10-15 分鐘。上傳完可以先去做別的事。
Q: 逐字稿有錯字怎麼辦?
正常。AI 辨識不可能 100% 準確,專有名詞和人名最容易出錯。實際做法是不逐字校對,直接丟給 AI 跑摘要。摘要階段 AI 會自動忽略辨識錯誤,抓到正確的意思。
Q: 能辨識不同說話者嗎?
NotebookLM 目前沒有自動辨識說話者的功能。如果需要區分誰說了什麼,有兩個辦法:一是在錄音開始時讓每個人先自我介紹,二是會後自己手動標記。
Q: 線上會議怎麼錄?
開 Zoom/Meet 的時候,用電腦的螢幕錄影功能錄系統聲音。macOS 用 QuickTime Player,Windows 用內建的 Xbox Game Bar。錄出來的音質比手機放旁邊好很多。
Q: 這個流程跟付費工具比差在哪?
三個差距:沒有即時轉錄(要會後才能處理)、沒有自動辨識說話者、多了手動上傳和跑摘要的步驟。一天開不超過兩場會議的話,這些差距可以忍受。
Q: ChatGPT 跟 Claude 做摘要,哪個比較好?
Claude 的摘要比較有條理、格式比較乾淨。ChatGPT 的摘要比較活潑,偶爾會多補充一些觀點。正式場合用 Claude,快速看重點用 ChatGPT。
整理:Penna|小企鵝 Penchan