NotebookLMの文字起こし機能は、音声を使える議事録に変える効率的なツール。標準フローは、iPhoneで会議を録音し、NotebookLMにアップロードし、Studioパネルが1-2分で完全な文字起こしを出し、それを大規模モデルに渡して議事録に整理する。全体で約15分。手動整理よりかなり速い。

なぜNotebookLMで文字起こしするのか

音声をテキスト化するツールは多い:Whisper、CapCut、Otter.ai、macOS内蔵の音声入力。その中でNotebookLMの違いは、文字起こしがAIで整理され、出力品質が通常の音声認識より一段上になること。

一般的な音声認識ツールは、「えー」「うん」「つまり」「それであの」といった贅詞まで忠実に出力する。NotebookLMは贅詞を自動で削り、段落分けも入れるので、出力された文章はすでに議事録として読める状態に近い。

さらに無料で、追加ソフトも不要で、Googleアカウントでログインすれば使える。日常会議の利用者にとって、乗り換える理由はあまりない。

NotebookLMで録音を文字起こしにする方法

文字起こしフロー図

Step 1:iPhoneで録音する

会議前にiPhone標準の「ボイスメモ」Appを開いて録音を開始する。できるだけスマホを机の中央に置き、話す人に近づける。

環境ノイズが大きい場面(カフェ、コワーキングスペース)では、録音品質がそのまま認識精度に影響する。実測では、騒がしいレストランの録音は6割程度しか使えず、残りは誤認識になりやすい。静かな会議室なら基本的に問題ない。

Step 2:NotebookLMにアップロードする

録音が終わったら、M4AファイルをAirDropでPCに送る(またはiPhoneから直接NotebookLMを開いてアップロードする)。NotebookLMで新しいNotebookを作り、音声ファイルをsourceとして追加する。MP3、M4A、WAVに対応し、iPhoneのM4Aは変換不要でそのままアップロードできる。

Step 3:Studioパネルの文字起こし生成を待つ

アップロード後、テキストボックスにこう入力する:

輸出逐字稿到 Studio 介面內 輸出逐字稿到 Studio 介面內


NotebookLMのStudioパネルが自動で処理を開始する。30分の録音なら約1-2分で文字起こしが手に入る。60分の録音ならだいたい3-4分。

生成された文字起こしにはすでに段落分けがあり、各段落はおおよそ1つの話題または1人の話者の連続発話に対応する。Whisperのような段落なしの長い塊とは違う。

### Step 4:大規模モデルで後処理する

文字起こしを取得したら、全文をコピーしてClaudeのような大規模モデルに入れ、次のpromptを添える:

請整理這份會議逐字稿,輸出格式:

  1. 會議摘要(3-5 句)
  2. 關鍵決策(條列)
  3. 待辦事項(誰、做什麼、deadline)
  4. 需要後續討論的議題

Claudeなら30秒ほどで整理できる。出てきた議事録をNotionに貼れば完了。

## YouTube動画文字起こし:最速の方法

iPhone → 音声アップロードの流れは、自分で会議を録音するときのもの。素材がYouTube動画なら、そんな長い道を通らずURLを直接貼る。

### 操作手順

1. YouTubeで対象の動画URLをコピー
2. NotebookLMで新しいNotebookを開き、Sourcesパネルで「YouTube」を選ぶ
3. リンクを貼って送信。動画サムネイルが表示されれば字幕取得成功
4. 対話ボックスにこのpromptを入れる:

請根據上傳的 YouTube 影片,輸出:

  1. 完整逐字稿(依時間軸分段,每段標上時間戳)
  2. 影片結構大綱(章節標題 + 每章 3-5 個重點)
  3. 關鍵引述(最值得記下的 3 句話,附出現時間)
  4. 最後給一段 150 字以內的總結

NotebookLMは文字起こし、構造、引用をまとめて出力する。そのままNotionやObsidianに貼れば学習ノートになる。

### 実戦例:AIニュース分析動画1本を5分で消化する

「10分で要点整理」と書かれているが実際は45分あるOpenAI発表会動画なら、こう処理できる:

1. 動画URLをNotebookLMに貼り、30秒で字幕が入る
2. 上のpromptを実行し、2分でタイムスタンプ付き文字起こし + 章ごとの要点 + 重要引用を取得
3. 大綱を素早く読み、詳しく見る価値がある章を絞る
4. YouTubeに戻って、その時間にジャンプして5分だけ見る

開始から見たい部分を見終わるまで、全体で10分未満。1.5倍速で動画全体を見るよりはるかに効率的。

### 字幕がない場合

すべての動画に字幕があるわけではない。投稿者が字幕を開いていない、または自動字幕がオフの場合、リンクを貼ってもそのまま失敗する。

代替案はyt-dlpで音声トラックを取得する(またはYouTube to MP3のオンラインツールを使う)こと。その後「音声ファイルアップロード」の流れに進む。この道は2分ほど余計にかかるが、NotebookLMのStudioパネルが自分で音声認識を走らせるので、品質の良い文字起こしは得られる。

![NotebookLM YouTube文字起こしフロー](/img/ai/notebooklm/transcript-youtube-flow.webp)

YouTubeリンク機能はGoogle AI Proサブスクリプション(台湾 NT$650/月、プラン内にNotebookLM Pro枠を含む)で使うのが最もスムーズ。無料版は1日50回の対話クエリ上限があり、週末に動画を大量に追うと当たりやすい。予算を抑えるなら、先にGoogle AI Plus(NT$260/月)を検討してもよい。対話枠とAudio Overview回数が少し広がる。

## NotebookLMはどの音声形式に対応しているか

- **MP3**:最も汎用的。録音ソフトの書き出しはたいていこれ
- **M4A**:iPhoneボイスメモの標準形式。変換せず直接アップロードできる
- **WAV**:ロスレス形式。ファイルは大きいが品質は最良
- **YouTube動画URL**:リンクを貼ると、システムが字幕を自動取得して文字起こしを生成する

Google MeetとZoomの録画ファイルも使える。Meet録画はGoogle Driveに保存されるので、MP4をダウンロードしてアップロードすればよい。Zoomのローカル録画はaudio-onlyのM4Aも同時に保存されるため、そのファイルを直接使うほうが速い。

## NotebookLM文字起こし品質の実測

同じ25分の会議録音(標準中国語、3名の話者、会議室環境)を、[NotebookLM](/ja/ai/notebooklm/)、CapCut、Whisperでそれぞれ文字起こしした。

### 認識精度

3つのツールの基礎認識率は近く、どれも90-95%程度。差が出るのは主に固有名詞と人名。NotebookLMは技術用語の認識がCapCutより少し良いが、三者の差は大きくない。

### 出力の使いやすさ

ここが重要な違い。

- **NotebookLM**:段落分けあり、贅詞除去あり、文が自然。受け取ってすぐ読め、軽く校正すれば正式記録として使える
- **Whisper**:生の認識精度は最も高いが、出力は整理されていない文字の塊。「うん」「そう」「それで」が全部残る。手動整理に10-15分かかる
- **CapCut**:時間軸マーカーがあり、動画と合わせて使うのに向く。純テキスト品質は前二者の中間

### 処理速度

NotebookLMとWhisperはどちらも2分以内に完了する。CapCutは先に動画を読み込む必要があり、音声だけでも工程が1つ増える。

## NotebookLM vs CapCut:台湾語はどうするか

![文字起こしツール比較](/img/ai/notebooklm/transcript-compare.webp)

純台湾語コンテンツ、台湾語番組の録音、標準中国語と台湾語が混ざる会議では、NotebookLMはまだ十分安定しない。

NotebookLMの台湾語認識能力は弱い。純台湾語コンテンツの認識率は3-4割ほどで、基本的には使えない。標準中国語と台湾語が混ざる場合は少し良く、標準中国語部分は正常に認識するが、台湾語部分はよく誤認識する。

意外なのは、**CapCutがここでかなり勝つ**こと。台湾語音声認識の認識率は7-8割ほどまで出せて、時間軸も付くため原音に戻って修正しやすい。

実用的な方法:

- 純標準中国語コンテンツ → NotebookLMで一気通貫
- 台湾語が入るコンテンツ → CapCutで先に文字化 → 文字起こしをNotebookLMにsourceとして入れる → NotebookLMのQ&Aでさらに分析

一手間増えるが、2つのツールがそれぞれ強いところを担当する。

## 大規模モデルと組み合わせる完全なWorkflow

文字起こし自体は素材にすぎない。本当に時間を節約するのは、その後の大規模モデル処理。

繰り返し使える流れ:

**日常会議** → NotebookLM文字起こし → Claudeが構造化議事録に整理 → Notion

**顧客インタビュー** → NotebookLM文字起こし → Claudeが顧客ニーズと痛点を抽出 → user story化

**講演 / 講座** → NotebookLM文字起こし → Claudeが記事大綱に整理 → ブログ記事に書き換え

**Podcast内容** → NotebookLM文字起こし → Claudeが5つのkey takeawaysを抽出 → SNS投稿化

場面ごとのpromptは違うが、核心ロジックは同じ。NotebookLMが音声を文字にし、Claudeが文字を有用なものに変える。

<div class="pitfall" data-nosnippet>

## 失敗メモ

### ファイルが大きすぎるとアップロードに失敗する

2時間の録音(約150 MB)は、アップロード途中で切れやすい。1時間を超える録音は、先にQuickTimeで30-40分の段落に切ってからアップロードするのがおすすめ。

### 複数人が同時に話すと認識に失敗する

3人が順番に話すなら問題ないが、誰かが割り込んだり2人が同時に話したりすると、その部分の認識結果はほぼ乱れる。すべての音声文字起こしツールがここで詰まる。

実用的な解法は、原録音を聞き直し、その数段落を手動で補うこと。通常30分の会議で手修正が必要なのは2-3箇所ほどで、5分もかからない。

### 贅詞を削りすぎて情報が落ちる、または意味を取り違えることがある

NotebookLMの自動贅詞除去は利点だが、たまに削りすぎる。たとえば「この案は『まあまあ』」の「まあまあ」が贅詞扱いで削られ、「この案は」だけになると意味が完全に変わる。重要な会議では、5分かけて文字起こしをざっと確認し、過剰に掃除された段落がないか見る価値がある。

</div>

## FAQ

**Q:NotebookLMの文字起こし機能は無料?**

無料版で使える。音声ファイルをアップロードすると、Studioパネルが自動で文字起こしを生成する。1日50回の対話クエリ上限はあるが、文字起こし生成には独立した回数制限はない。

**Q:NotebookLMはどの音声形式に対応している?**

MP3、M4A、WAVに対応している。iPhone録音のM4Aは変換不要で直接アップロードできる。

**Q:NotebookLMの文字起こしは中国語を認識できる?**

標準中国語の認識品質は良く、固有名詞は時々間違うが全体として使える。台湾語対応は限定的なので、台湾語コンテンツは先にCapCutで文字化してからNotebookLMに入れるのがおすすめ。

**Q:NotebookLMの文字起こしとWhisperはどちらが良い?**

NotebookLMはAI後処理があり、段落分けと贅詞除去がある。Whisperは生の認識精度がやや高いが、出力は未整理。文字起こしを直接使いたいならNotebookLMのほうが便利。

**Q:Google MeetやZoomの録画ファイルはアップロードできる?**

できる。Meet録画はMP4をダウンロードしてアップロードし、Zoomローカル録画のaudio-only M4Aはそのままアップロードすればよい。

**Q:1時間を超える長い録音はどう処理する?**

30-40分の段落に分けてアップロードする。150MBを超えるファイルはアップロード失敗の可能性がある。

**Q:YouTube動画を直接文字起こしにできる?**

できる。YouTube URLをSourcesに貼ると、システムが字幕をsourceとして自動取得し、NotebookLMに文字起こし、章立て、タイムラインを出力させられる。自分で録音をアップロードするより速い。字幕がない動画は音声トラックをダウンロードしてアップロードする流れに切り替える。

---

## こぺんぎんの体験談

NotebookLMの文字起こしは、こぺんぎんが実際に毎週使っている機能。固定フローは、iPhone録音 → AirDropでPCへ → NotebookLMにアップロード → Studioで文字起こし → ほかの大規模モデルに渡して後続分析(議事録、顧客インタビュー整理、podcast文字化)。一連の流れは15分で終わり、以前の手動整理1時間以上よりかなり速い。

CapCutの台湾語認識は、NotebookLMの弱点を補う重要なツール。年長者の音声メッセージ、台湾語番組、混語会議は先にCapCutで一度文字化し、その文字起こしをNotebookLMに入れてQ&Aと要約を行う。この2ツールの経路は一手間増えるが、それぞれのツールが最も強いことをする。

YouTubeリンクを貼るだけで直接文字起こしを取れる機能は、長い動画の消化方法を変えた。以前は45分の動画を1.5倍速で見ても要点が残りにくかったが、今は5分で本当に見たい章を選べる。大量の動画を追うworkflowでは、Google AI Proに含まれるNotebookLM Pro枠のROIは高い。

全体の経験はこう:文字起こし自体は中間生成物で、価値はその後に大規模モデルを接続して構造化処理をするところにある。NotebookLMの役割は、このpipelineの最初の部分をきれいにすること。そこがきれいだと後段をつなぎやすい。

## 関連記事

- [NotebookLM 完全ガイド|無料使用方法 + Plusアップグレードガイド](/ja/ai/notebooklm/)
- [NotebookLM Podcast日本語ガイド|3ステップで無料AI音声番組を生成](/ja/ai/notebooklm/notebooklm-podcast-tutorial/)
- [NotebookLM 上級テクニック|研究からプレゼンまで、11の実戦workflow](/ja/ai/notebooklm/notebooklm-advanced-tips/)
- [CapCut AI字幕ガイド|台湾語自動認識](/ja/ai/creative/capcut-ai-subtitle-guide/)
- [AI議事録workflow|無料プラン](/ja/ai/meeting/meeting-free-workflow/)

---

*本記事はAIツールの機能紹介およびサブスクリプションプランの消費比較であり、証券または投資助言ではありません。実際の料金は各プラットフォームの公式最新発表を基準にしてください。本記事の情報は古くなっている可能性があります。*

*— Penchan*