免費 AI 會議記錄流程（2026）｜iPhone + NotebookLM 零成本方案

iPhone 錄音、NotebookLM 轉逐字稿、ChatGPT 或 Claude 做摘要。三個免費工具串起來，從錄音到拿到結構化的會議紀錄大約 15 分鐘。這篇整理每一步的操作細節，包含半年使用累積的小技巧。

如果不想花錢買 Otter 或 Fireflies，這套流程基本夠用。

附帶一提，Whisper 也可以替代 NotebookLM 做轉錄，但要自己架 Python 環境，而且轉完還是要另外跑摘要。NotebookLM 一站搞定轉錄 + 知識庫，整合度高一些。重視隱私、不想把錄音上傳雲端的話，Whisper 本機方案值得考慮，詳細比較在工具比較。

完整 SOP

Step 1：錄音

工具：iPhone「語音備忘錄」app。開會前打開 app，按下錄音，手機放桌上。結束。

幾個會影響辨識品質的細節：

手機位置。放桌子中央最好，離最遠的說話者不超過 2 公尺。放在自己面前的話，對面的人說的話辨識率可能掉 20%。

環境噪音。這是影響最大的變數。安靜的會議室辨識率 95%，咖啡廳大約 75%。環境很吵時，考慮用有指向性的外接麥克風。

錄音格式。iPhone 預設是 M4A 檔，NotebookLM 吃得下，不用特別轉檔。

線上會議的做法不一樣：用 macOS 的 QuickTime Player 錄系統聲音，品質比手機放在電腦旁邊好很多。操作是 QuickTime → 新增音訊錄製 → 選系統聲音輸入（需要 BlackHole 或 Loopback 這類虛擬音訊裝置）。

Step 2：上傳 NotebookLM

會後打開 NotebookLM，建一個新的筆記本，上傳錄音檔。

NotebookLM 會自動開始轉錄。30 分鐘的錄音大約 3-5 分鐘跑完，兩小時的會議大約 10-15 分鐘。

轉錄完成後可以看到完整的逐字稿。中文辨識準確率大約 90%，專有名詞和人名是最常出錯的地方。

實用做法是不校對，直接拿去跑摘要。AI 做摘要的時候會自動忽略辨識錯誤：「機器學習」被辨識成「機器雪習」，AI 照樣知道在講什麼。除非要發布正式的會議逐字稿，否則校對是浪費時間。

NotebookLM 還有一個額外好處：它會把這份錄音納入知識庫。三個月後想查「那次跟客戶討論定價的會議」，直接在 NotebookLM 裡問就好。詳細的逐字稿用法在 NotebookLM 逐字稿教學。

Step 3：AI 摘要

把逐字稿複製出來，丟給 ChatGPT 或 Claude。常用 prompt：

以下是一場會議的逐字稿。請整理出：

1. 三句話摘要（這場會議在討論什麼、得到什麼結論、下一步是什麼）
2. 每個人的待辦事項（如果能從上下文判斷誰負責什麼）
3. 需要在下次會議前完成的事
4. 有爭議或尚未達成共識的議題

逐字稿：
[貼上逐字稿]

通常 1-2 分鐘就出結果。

如果會議比較長（超過 1 小時），逐字稿可能超過 AI 的輸入限制。這時候先在 NotebookLM 裡用它的 AI 功能做一次初步摘要，再拿初步摘要去跑詳細整理。兩層壓縮，效果很好。

Step 4：存檔

拿到摘要後存兩份：

原始逐字稿留在 NotebookLM 裡（當知識庫用）
摘要存到 Notion 或 Google Docs（方便分享給與會者）

整個流程從錄音結束到拿到摘要，大約 15 分鐘。30 分鐘以內的會議可能 10 分鐘就完成。

免費流程 SOP

品質實測

拿同一段 45 分鐘的會議錄音，分別用 NotebookLM（免費）和 Otter.ai（Pro 版 $16.99/月）跑：

辨識準確率（中文）：

NotebookLM：約 90%
Otter.ai：約 78%

說話者辨識：

NotebookLM：無
Otter.ai：有，但中文準確率大約 70%

處理時間：

NotebookLM：4 分鐘
Otter.ai：即時（錄的時候就在跑）

摘要品質：

NotebookLM + Claude：結構清楚、重點明確
Otter.ai 內建摘要：比較簡短，偶爾漏掉細節

根據社群整理的數字，Whisper（本機跑 large-v3 模型）和 Fireflies 的中文辨識準確率分別約 90% 和 85%。Fireflies Pro $18/月，中文辨識比 Otter 好但不如 NotebookLM。

結論：中文會議用 NotebookLM 的辨識品質反而比付費工具好。Otter 贏在英文即時轉錄和說話者辨識，但這兩個功能在中文場景下都打了折。

逐字稿品質測試

跟付費工具的差距

這套免費流程有三個明確的缺點。

不能即時轉錄。要等會後才能處理。付費工具像 Otter 和 Fireflies 可以邊開會邊轉，對某些討論場景有幫助。

沒有自動辨識說話者。NotebookLM 的逐字稿是連續的文字，不會標記誰說了什麼。會議有很多人時，回頭找「誰講了那句話」會比較麻煩。

多了手動步驟。上傳錄音、複製逐字稿、貼到 ChatGPT，這些操作加起來大約多花 5 分鐘。付費工具可以全自動完成。

這些差距值得每個月花 $17-18 嗎？看使用頻率。一週開 3-4 場會議的話，手動多花的時間加起來大約 20 分鐘，多數人可以接受。每天開 5 場以上、需要即時轉錄和說話者辨識，付費工具會合理很多。各工具的詳細比較在工具比較。

免費付費差距

幾個小技巧

錄音前測一次。到了會議室先開錄音講幾句話，回放聽看看清不清楚。回音很大的空間錄出來可能幾乎沒辦法辨識。

會議開始時讓每個人說一句話。需要區分說話者時，開場讓每個人做 10 秒的個人介紹。這段錄音可以幫後續手動標記。

長會議中間暫停錄音。休息時間暫停，回來再繼續。這樣逐字稿不會有一大段沈默或閒聊。

建立固定的 prompt 範本。三個版本：正式會議用的（輸出格式比較嚴謹）、腦力激盪用的（著重在點子收集）、客戶會議用的（強調待辦和承諾事項）。

會議整理技巧

這套流程適合誰

適合：一週開會不超過 5 場、會議語言以中文為主、不想花錢在工具上。

不適合：需要即時轉錄（邊開會邊看字幕）、需要自動串接 Zoom/Teams、團隊有 5 人以上需要共用會議記錄平台。

工具一直在進步。半年前 NotebookLM 的中文辨識還沒這麼穩，現在已經比付費競品高一截。這套流程也會跟著工具的更新繼續調整。

適合使用者分類

小企鵝的經驗

iPhone 錄音 + NotebookLM + 大模型摘要是小企鵝實際每週都在用的流程，每週開的 3-4 場會議都是這樣處理。整套零成本，下游的摘要品質取決於選用的大模型：正式紀錄用 Claude（結構乾淨），快速掃重點用 ChatGPT（觀點略多）。

開場讓每個人說一句話這個習慣是踩坑後留下的。沒做這步的會議，回去找「誰講了那句話」會花掉 5-10 分鐘。錄音時讓大家先自我介紹一輪，後面整理時靠語音特徵就能對上。

Otter / Fireflies / Plaud / Tinrec / Vocol 這幾家付費工具沒有放進日常工作流。中文場景下 NotebookLM 的辨識品質比 Otter 高一截，付費工具的即時轉錄和說話者辨識在中文場景都打折，加上每月固定支出，目前對小企鵝來說 ROI 不如三件式免費組合。

剪映的台語辨識是補上 NotebookLM 弱項的關鍵工具。混語會議或長輩語音先用剪映轉文字，再丟回 NotebookLM 做問答。台語純內容辨識率到 7-8 成，比 NotebookLM 的 3-4 成穩定得多。

下個想觀察的是台語場景的進化。等有更穩定的免費台語方案出來，這套流程會再做一輪更新。

常見問題

Q: iPhone 錄音的音質夠用嗎？

放在桌上 2 公尺內，品質足以辨識。實測辨識錯誤率大約 5-10%。真正影響品質的是環境噪音，不是麥克風。

Q: NotebookLM 轉逐字稿要多久？

看錄音長度。30 分鐘的錄音大約 3-5 分鐘就跑完。兩小時的會議大約 10-15 分鐘。上傳完可以先去做別的事。

Q: 逐字稿有錯字怎麼辦？

正常。AI 辨識不可能 100% 準確，專有名詞和人名最容易出錯。實際做法是不逐字校對，直接丟給 AI 跑摘要。摘要階段 AI 會自動忽略辨識錯誤，抓到正確的意思。

Q: 能辨識不同說話者嗎？

NotebookLM 目前沒有自動辨識說話者的功能。如果需要區分誰說了什麼，有兩個辦法：一是在錄音開始時讓每個人先自我介紹，二是會後自己手動標記。

Q: 線上會議怎麼錄？

開 Zoom/Meet 的時候，用電腦的螢幕錄影功能錄系統聲音。macOS 用 QuickTime Player，Windows 用內建的 Xbox Game Bar。錄出來的音質比手機放旁邊好很多。

Q: 這個流程跟付費工具比差在哪？

三個差距：沒有即時轉錄（要會後才能處理）、沒有自動辨識說話者、多了手動上傳和跑摘要的步驟。一天開不超過兩場會議的話，這些差距可以忍受。

Q: ChatGPT 跟 Claude 做摘要，哪個比較好？

Claude 的摘要比較有條理、格式比較乾淨。ChatGPT 的摘要比較活潑，偶爾會多補充一些觀點。正式場合用 Claude，快速看重點用 ChatGPT。

整理：Penna｜小企鵝 Penchan