iPhoneで録音し、NotebookLMで文字起こしし、ChatGPTまたはClaudeで要約する。3つの無料ツールをつなぐだけで、録音から構造化された会議記録までだいたい15分です。この記事では各ステップの操作と、半年使って蓄積した小さなコツをまとめます。

OtterやFirefliesにお金を払いたくないなら、このフローで基本的には足ります。

ちなみに、WhisperもNotebookLMの代わりに文字起こしへ使えます。ただしPython環境を自分で用意する必要があり、文字起こし後の要約も別途走らせる必要があります。NotebookLMは文字起こし + ナレッジベースを一か所で扱えるので、統合度は少し高いです。プライバシー重視で録音をクラウドへアップロードしたくない場合は、Whisperのローカル案も検討する価値があります。詳しい比較はツール比較にあります。

完全SOP

Step 1:録音

ツールはiPhoneの「ボイスメモ」アプリです。会議前にアプリを開き、録音ボタンを押し、スマホを机に置きます。これで終わりです。

認識品質に影響する細かい点がいくつかあります。

スマホの位置。机の中央に置くのが一番で、一番遠い話者まで2メートル以内にします。自分の前だけに置くと、向かい側の人の発話認識率が20%ほど落ちることがあります。

周囲のノイズ。ここが最大の変数です。静かな会議室なら認識率は95%、カフェなら75%前後です。かなり騒がしい環境では、指向性のある外付けマイクを検討します。

録音形式。iPhoneの標準はM4Aで、NotebookLMはそのまま読み込めます。わざわざ変換しなくて大丈夫です。

オンライン会議ではやり方が違います。macOSのQuickTime Playerでシステム音声を録ると、パソコンの横にスマホを置くよりずっと品質が良くなります。操作は QuickTime → 新規オーディオ収録 → システム音声入力を選択(BlackHoleやLoopbackのような仮想オーディオデバイスが必要)です。

Step 2:NotebookLMへアップロード

会議後にNotebookLMを開き、新しいノートブックを作って録音ファイルをアップロードします。

NotebookLMは自動で文字起こしを始めます。30分の録音ならだいたい3〜5分で終わり、2時間の会議なら10〜15分ほどです。

文字起こしが終わると、全文の文字起こしを確認できます。中国語の認識精度はだいたい90%で、専門用語と人名が最も間違いやすい部分です。

実用上は校正せず、そのまま要約へ回します。AIが要約するときは認識ミスを自動的に無視してくれます。「機械学習」が「機械雪習」と認識されても、AIは何の話か分かります。正式な会議全文を公開するのでなければ、校正は時間の無駄になりやすいです。

NotebookLMにはもう1つ利点があります。この録音をナレッジベースに入れてくれることです。3か月後に「あの顧客と価格を話した会議」を探したくなったら、NotebookLMでそのまま尋ねれば大丈夫です。詳しい文字起こしの使い方はNotebookLM文字起こしガイドにまとめています。

Step 3:AI要約

文字起こしをコピーして、ChatGPTまたはClaudeに投げます。よく使うプロンプトはこちらです。

以下は会議の文字起こしです。次の内容を整理してください:

1. 3文の要約(この会議で何を議論したか、どんな結論になったか、次に何をするか)
2. 各参加者のタスク(文脈から誰が何を担当するか判断できる場合)
3. 次回会議までに完了すべきこと
4. 意見が分かれている、またはまだ合意できていない議題

文字起こし:
[文字起こしを貼り付け]

通常は1〜2分で結果が出ます。

会議が長い場合(1時間超)、文字起こしがAIの入力制限を超えることがあります。その場合は、まずNotebookLM内のAI機能で一次要約を作り、その要約を使って詳しい整理をかけます。2段階で圧縮すると、かなりうまくいきます。

Step 4:保存

要約を受け取ったら、2つ保存します。

  1. 元の文字起こしはNotebookLMに残す(ナレッジベースとして使う)
  2. 要約はNotionまたはGoogle Docsに保存する(参加者に共有しやすい)

録音終了から要約取得まで、全体で約15分です。30分以内の会議なら10分で終わることもあります。

暖色の廊下をノートパソコンを持って歩くPenchan。パソコンの横から紙がふわりと飛び出している

品質テスト

同じ45分の会議録音を、NotebookLM(無料)とOtter.ai(Pro版 $16.99/月)でそれぞれ処理しました。

認識精度(中国語):

  • NotebookLM:約90%
  • Otter.ai:約78%

話者識別

  • NotebookLM:なし
  • Otter.ai:あり。ただし中国語の精度は約70%

処理時間

  • NotebookLM:4分
  • Otter.ai:リアルタイム(録音中に処理)

要約品質

  • NotebookLM + Claude:構造が明確で、要点もはっきりしている
  • Otter.ai内蔵要約:やや短めで、ときどき細部が抜ける

コミュニティで整理されている数字では、Whisper(ローカルでlarge-v3モデルを実行)とFirefliesの中国語認識精度は、それぞれ約90%と85%です。Fireflies Proは$18/月で、中国語認識はOtterより良いものの、NotebookLMには届きません。

結論として、中国語会議ではNotebookLMの認識品質が有料ツールより良いことがあります。Otterは英語のリアルタイム文字起こしと話者識別で勝ちますが、この2つの機能は中国語の場面ではどちらも弱くなります。

ヘッドホンをつけて机で録音を注意深く聞くPenchan。そばにマイクが置かれている

有料ツールとの差

この無料フローには、明確な弱点が3つあります。

リアルタイム文字起こしができない。会議後まで処理を待つ必要があります。OtterやFirefliesのような有料ツールは、会議中に文字起こしできるので、議論の場面によっては役立ちます。

話者の自動識別がない。NotebookLMの文字起こしは連続したテキストで、誰が何を言ったかを記録しません。人数が多い会議では、後から「あの一言は誰が言ったのか」を探すのが少し面倒です。

手作業が増える。録音のアップロード、文字起こしのコピー、ChatGPTへの貼り付け。これらの操作で合計5分ほど余分にかかります。有料ツールなら全自動にできます。

この差に毎月$17〜18を払う価値があるか。使用頻度次第です。週3〜4回の会議なら、手作業で増える時間は合計20分ほどで、多くの人は許容できます。毎日5回以上会議があり、リアルタイム文字起こしと話者識別が必要なら、有料ツールの方がかなり合理的です。各ツールの詳しい比較はツール比較にあります。

夕日の分かれ道に立ち、素朴な小道と金色の大通りを見つめるPenchan

いくつかの小さなコツ

録音前に一度テストする。会議室に着いたら、先に録音して数文話し、再生して聞き取りやすいか確認します。反響が強い部屋では、ほとんど認識できない録音になることがあります。

会議開始時に全員が一言話す。話者を分けたい場合は、冒頭で全員に10秒ほど自己紹介してもらいます。この部分の録音が、後から手動で話者を付けるときに役立ちます。

長い会議では休憩中に録音を一時停止する。休憩中は一時停止し、戻ってから再開します。そうすると文字起こしに長い無音や雑談が入りません。

固定のpromptテンプレートを作る。3種類用意します。正式会議用(出力形式を厳しめに)、ブレインストーミング用(アイデア収集重視)、顧客会議用(タスクと約束事項を重視)です。

机の前で小さくOKサインを出すPenchan。横にホットココアとノートが置かれている

このフローが合う人

合う人:週5回以下の会議、中国語中心の会議、ツールにお金をかけたくない人。

合わない人:リアルタイム文字起こし(会議中に字幕を見る)が必要、自動でZoom/Teamsと連携したい、5人以上のチームで会議記録プラットフォームを共有したい人。

ツールは常に進化しています。半年前のNotebookLMは、中国語認識がここまで安定していませんでした。今では有料競合より一段高いところまで来ています。このフローも、ツールの更新に合わせて調整していきます。

「合う人」と書かれた表紙の本を真剣に開くPenchan


私の体験談

iPhone録音 + NotebookLM + 大モデル要約は、私が実際に毎週使っているフローです。週3〜4回の会議はこの方法で処理しています。全体はゼロコストで、下流の要約品質は選ぶ大モデルによって変わります。正式記録にはClaude(構造がきれい)、要点を素早く見るときはChatGPT(観点が少し多め)です。

冒頭で全員に一言話してもらう習慣は、失敗を踏んだあとに残りました。これをやらなかった会議では、後から「あの一言は誰が言ったのか」を探すだけで5〜10分かかることがあります。録音時に全員が一度自己紹介しておけば、後で整理するときに声の特徴でだいたい合わせられます。

Otter / Fireflies / Plaud / Tinrec / Vocolは、日常ワークフローには入れていません。中国語の場面ではNotebookLMの認識品質がOtterより明らかに高く、有料ツールのリアルタイム文字起こしと話者識別は中国語だと弱くなります。毎月の固定費もあるので、今の私にとっては3つの無料ツールの組み合わせの方がROIは高いです。

CapCutの台湾語認識は、NotebookLMの弱点を補う重要なツールです。混合言語の会議や年配者の音声は、まずCapCutでテキスト化してから、NotebookLMに戻してQ&Aします。台湾語単独の内容で認識率は7〜8割に達し、NotebookLMの3〜4割よりかなり安定しています。

次に見たいのは、台湾語の場面がどう進化するかです。より安定した無料の台湾語案が出てきたら、このフローをもう一度更新します。

関連記事

よくある質問

Q: iPhone録音の音質で足りますか?

机の上で2メートル以内なら、認識には十分です。私の実測では認識エラー率はだいたい5〜10%でした。本当に品質を左右するのはマイクではなく、周囲のノイズです。

Q: NotebookLMの文字起こしにはどれくらい時間がかかりますか?

録音の長さによります。30分の録音ならだいたい3〜5分で終わります。2時間の会議なら10〜15分ほどです。アップロードしたら、先に別のことをしていて大丈夫です。

Q: 文字起こしに誤字がある場合はどうしますか?

普通に起きます。AI認識は100%正確にはなりませんし、専門用語と人名が一番間違いやすいです。実務では一字一句校正せず、そのままAIに要約させます。要約段階でAIは認識ミスを自然に無視し、正しい意味を拾ってくれます。

Q: 話者を区別できますか?

NotebookLMには現時点で話者を自動識別する機能がありません。誰が何を言ったかを分けたい場合は、録音開始時に全員に自己紹介してもらうか、会議後に自分で手動タグ付けします。

Q: オンライン会議はどう録音しますか?

Zoom/Meetを使うときは、パソコンの画面収録機能でシステム音声を録ります。macOSならQuickTime Player、Windowsなら標準のXbox Game Barを使います。パソコンの横にスマホを置くより、録音品質はかなり良くなります。

Q: このフローは有料ツールと何が違いますか?

差は3つです。リアルタイム文字起こしがなく会議後に処理すること、話者の自動識別がないこと、アップロードと要約の手作業が増えることです。1日2回以下の会議なら、この差は十分許容できます。

Q: ChatGPTとClaudeでは、どちらの要約が良いですか?

Claudeの要約は整理されていて、形式もきれいです。ChatGPTの要約は少し軽やかで、たまに追加の観点も出してくれます。正式な場ではClaude、要点だけ素早く見たいときはChatGPTを使います。


— Penchan