100万tokenの甘い罠：AIが1M contextをくれるのに、なぜ上級者は20万で止めるのか

💡 急いでいる人は 👉 かんたんprompt集へ

ChatGPT、Claude、Geminiは最近どれも「100万token context」に対応しました。聞こえはかなり強いです。本を丸ごと入れる、project全体のcodeを一度に読む、半年分の会話履歴をそのまま残す。

ただし実戦では落とし穴があります。Claude Codeで1つのタスクを走らせ、会話がだいたい40万tokenを超えると、変なことがよく起きます。3時間前に明確に伝えたruleを忘れる。10分前に答えた質問をもう一度聞く。同じ指示について、前後でまったく違うversionを書く。

コミュニティの経験を調べると、みんな同じでした。以下では、コミュニティと公式資料から積み上がった経験を整理します。

特に読むべき人は2種類です。(a) 毎日ChatGPTで会話していて、「会話が長すぎると壊れる」ことを知らない一般ユーザー。(b) agentic codingをしていて、Claude Code sessionが長くなるほどなぜ鈍るのか知りたい深いユーザー。

先に結論

主要3社の現在の対応specは次の通りです。

Claude Opus 4.7：1M token context
Gemini 3.1 Pro：1M token context
ChatGPT 5.5：1M token context

1M tokenは、おおよそ80万字の中国語に相当します。『紅楼夢』を丸ごと入れてもまだ余ります。

ただし、この1Mは容量の上限であって、最適な作業領域ではありません。モデルは本当に読み込めるので、AIメーカーが嘘をついているわけではありません。ただ、読み込んだあと、contextが埋まるほど処理品質が落ちることを、ユーザーに大きくは伝えていません。

コミュニティで積み上がった実戦上の共通認識は明確です。高い品質を保てる実質的な上限は200Kから300Kの間で、250Kを超えると明らかに鈍り始める領域に入ります。この数字の出どころはReddit、Hacker News、Claude Codeコミュニティであり、どのメーカーのspecにも書かれていません。8か月分の使用経験から拾われたものです。

sweet spotはどう見積もられたのか

3つの調査軸：Reddit forumを見る、メーカー技術資料を読む、学術論文を読む

確認できる手がかりは3種類あります。(a) コミュニティで高評価の投稿10件以上、(b) 3社の公式技術資料、(c) 学術benchmark論文です。

コミュニティ側

sweet spotを具体的な数字として最初に見つけられるのは、2025年8月7日のReddit r/OpenAIのthreadにあったcommentです。「I find 200 to 300k to be the sweetspot」（20万から30万がちょうどよい）という内容でした。

その後、この言い方はrelayのように広がりました。「20万を超えると下り坂になる」「120Kあたりから忘れ始める」と書く人もいました。2026年4月のHacker Newsでは、「250k未満に保つ」はすでに暗黙の運用ruleになっており、強い反論は見当たりませんでした。

9か月、いくつかの投稿を経て、現在のAI利用における経験則が1つ形になりました。

メーカー側

3社はどれも退化の問題を静かに認めています。ただし技術資料の中に埋もれています。

AnthropicのClaude Code公式best practicesには、「context windowが埋まるほどperformanceは悪くなる」という趣旨の記述があります。長いタスクでは会話をresetすることまで勧めており、最後まで転がし続けることは推奨していません。

OpenAIも以前、ChatGPTのprompting guideで、タスクが「context全体の状態」を把握して複雑に推論する必要がある場合、長いcontextではperformanceが落ちると書いていました。

Googleはもっと控えめですが、Vertex AI資料で教えている重点は実質的に「1Mをどう無駄にしないか」であって、「全部詰め込め」ではありません。

3社に共通するmessageはこうです。1Mは使える。ただし実戦では自分から管理する必要があります。

学術benchmark側

最も衝撃的な数字は、Google自身が公開したGemini 3.1 Proの技術資料にあります。同じモデル、同じtest（MRCR。ざっくり言うと「似た段落の山から正しい段落を見つける」test）で、context長だけを変えています。

context長 128K：score 84.9%
context長 1M：score 26.3%

同じモデルです。contextを128Kから1Mへ伸ばしただけで、scoreが約60 percentage points落ちています。

Gemini 3.1 ProのMRCR testは128Kの84.9%から1Mの26.3%へ落ちる

これはGoogle公式技術資料の数字です。メーカー自身が退化を書いています。ただ、headlineにはしていないだけです。

sweet spotを超えると何が起きるのか

contextが長すぎると起きる3症状：忘れる、混同する、自信過剰になる

1つ目：AIが「忘れ」始める ❓

よくある症状は次の通りです。

3時間前に明確に伝えたruleを忘れ、禁止したことを実行する
すでに前で聞いた質問を、もう一度聞く
Aの話題へ誘導しても、しばらくすると自分でBへ戻る
同じ指示を2回書き、前後のversionが一致しない

根本原因はattentionの希薄化です。AIが「壊れた」わけではありません。contextが長すぎると、すべての情報を同時に保つのが難しくなります。Chrome tabを20個開くとPCが重くなるのに似ています。

2つ目：AIが混同し始める ☁️

「忘れる」より厄介なのが「混同」です。似ているが完全には同じではない段落を大量に渡します。たとえば契約書version 5つ、同じ概念を違って定義する論文5本、3時間以内のtool output 10個などです。すると、AIはそれらを混ぜ始めます。

本人は「区別できていません」とは言いません。自信を持って答えます。ただし、その答えは2番目の契約条項と4番目の数字を組み合わせたものかもしれません。

GoogleのMRCR scoreが84.9%から26.3%へ落ちた理由はここです。128Kでは、8つの似た断片のうち5番目をまだ区別できます。1Mになると、だいたい4分の1しか正しく取れません。注：MRCR scoreは、モデルが長いcontext内の情報を「まだ覚えている / 理解しているか」を見る指標です。

3つ目：AIが自信過剰になる（幻覚）

ここがいちばん陰険です。Contextが長すぎて、モデルが細部をつかみきれていないとき、たいてい「不確かです」とは言いません。もっともらしいが実際には間違っている答えを生成します。

深く使う人にとって、これは最も危険な場面です。できたと思っていたのに、1M contextの奥のどこかで違うものを拾っている可能性があります。

一般ユーザー向け：持ち帰る3つのこと

一般ユーザー向け3つ：長ければよいわけではない、鈍ったら新規会話、重要タスクはきれいに始める

毎日ChatGPT / Claude / Geminiで会話するが、agentic codingのような重い作業はしない人は、3つだけ覚えれば十分です。

1つ目、会話windowは長ければ長いほどよいわけではありません。

同じ会話でずっと話すほど、AIが自分を理解してくれると思う人は多いです。実際は逆です。長く話すほど、忘れやすくなり、混同も増えます。

2つ目、鈍くなったと感じたら、新しい会話を開く。

「鈍い」とは何か。上で挙げた症状です。質問を繰り返す、ruleを忘れる、話題が飛ぶ。こうなったら無理に続けません。今の質問をcopyし、きれいな新規会話に貼ります。10秒の動作で品質が戻ります。

3つ目、重要タスクは最初からきれいなcontextで始める。

AIに長い記事を書かせる、重要な意思決定を分析させる、契約書をreviewさせる。そのようなときは、30分前に雑談していた会話を引き継がせません。新しく開き、関連資料をまとめて貼り、きれいな状態から始めます。

追加：AIに「handoff prompt」を書いてもらう

新しい会話を開きたいけれど、contextを失うのが怖い場合があります。最善の解法は、今のAIにhandoff promptを書かせ、それを新しい会話に貼ることです。具体的なtemplateは下の「かんたんprompt集」にあります。copy buttonでChatGPT / Claude / Geminiへ貼れば使えます。

深く使う人向け：見るべきはtoken数

Claude Code、ChatGPT Codex、または任意のagentic loopを走らせる人は、「context管理」を能動的なskillとして扱う必要があります。

具体的な動きは次の通りです。

token使用量を見る。 Claude Codeは現在のsessionのtoken進捗を表示します。statuslineを使ってreal-time monitoringすることもできます。200Kを超えたら警戒します。300Kを超えたら、compactionまたは新しい会話をかなり真剣に考えるべきです。

compactionする。 Anthropic公式資料が勧める/compact commandは、現在の会話を要約へ圧縮します。1M近くまで待つ必要はありません。200K前後でも十分に実行候補です。

構造化handoffを使う。 長いタスクは複数sessionへ分けます。各sessionの終わりに、何をしたか、次に何をするかを短いhandoff fileへ記録します。私はproject内にcontext.mdとstatus.mdを置き、それぞれprojectの基本情報と進捗を保存します。次のsessionはhandoff file + 最小限の必要情報から続けられます。

大きく安定した背景はcacheする。 codebase全体を毎回送り直しません。prompt cachingで安定部分をprefix cacheにし、動的な質問はその場のpromptに残します。

公式の「1M NIAH 99%」主張を見るときは、まずどんなtestかを聞く。 NIAH（single-needle retrieval）は1Mで非常にきれいな数字が出ます。ただし日常作業はMRCR（multi-needle discrimination）に近いです。宣伝は宣伝として見て、実戦は200-300Kで管理します。

4つの実用prompt template：起手、handoff、self-check、summary

かんたんprompt集：4つのtemplate

次の4つは、そのまま任意のAI会話に貼れます。[xxx]を自分の内容に置き換えて使ってください。

1. 重要タスクをきれいに始めるprompt

新しい重要タスクを始める前に、このpromptでAIを作業に集中させます。前の会話内容による干渉を避けるためです。

これから重要なタスクを始めます：[このタスクを一文で説明]

背景：[必要な文脈を2-3行]
目標：[期待する成果を1-2行]
返答の希望：[1-2個の制約。例：日本語で返答、箇条書きを多くしすぎない]

開始前に、まずこのタスクの理解を言い直してください。確認後に続けます。不確かな点があれば、推測せず「不確かです」と直接言ってください。

2. AIに「handoff prompt」を書いてもらう

会話がcontext上限に近づき、鈍り始めている。でも手元のcontextを捨てたくない。そんなときは、今のAIにhandoff fileを書かせます。

この会話はcontext上限に近づいている可能性があります。新しい会話に貼って続けられるよう、handoff promptを書いてください。含める内容：

1. 核心結論：すでに決めたこと、その理由
2. 進行中の問題：未解決、詰まっている点、確認待ちの部分
3. ユーザー理解：好み、現在取り組んでいること、文体や進め方の傾向

目標は300-500字です。できるだけ正確にしてください。

3. AIに「鈍っていないか」を自己確認させる

今の会話状態がまだ大丈夫か分からないときは、直接聞きます。

この会話の状態を正直に評価してください：

- だいたいどれくらい話しましたか？（推定token数で十分です）
- 以前に伝えたruleやdataは、今も明確につかめていますか？すでに曖昧なものがあれば、何が曖昧ですか？
- このまま続けるほうがよいですか。それとも新しい会話を開くことを勧めますか？

状態がまだよいなら「明確です。続けられます」と言ってください。

4. 会話を要約へ圧縮する

会話の要点だけ残し、noiseを捨てたいときに使います。「handoff prompt」より短く、保存や共有に向いています。

ここまでの会話を要約へ圧縮してください。残すもの：

- すべての決定と主な理由
- 進行中、まだ解決していない問題
- 重要なdataと数字

残さないもの：雑談、重複した議論、すでに却下した案。目標は200-400字です。

この4つは毎日手元に置く価値があります。Prompt 1は最もよく使うものです。作業開始前に使います。Prompt 2は救命用です。contextが膨らみすぎたが、最初からやり直したくないときに使います。Prompt 3はdebug用です。AIが変だと感じたら聞きます。Prompt 4は締め用です。保存や共有に使います。

作業ロジックの小まとめ

1M contextを冷蔵庫として扱う：分類整理、よく使うもの vs 現在使うもの vs 捨てられるもの

実戦で品質を決める本当の鍵は、要件を明確かつ簡潔に表現できるかです。どれだけ書けるかはモデルが与える容量です。どう並べるか、どの順序にするか、いつ掃除するかが、作業の考え方を表します。

1Mを冷蔵庫だと思ってください。大きい冷蔵庫を買うことはできます。でも買ったあとに学ぶべきなのは、どう分類するか、よく使うものをどこに置くか、期限切れをいつ片づけるかです。詰め込みすぎた冷蔵庫は、小さい冷蔵庫と同じように、食べたいヨーグルトを見つけにくくします。

AIも同じです。容量が増えることはよいことです。ただし、うまく使えて初めて本当に時間を節約できます。

非coding場面での経験則は、まだ積み上げの途中です。法律文書分析、長い財務reportの読解、複数論文の横断比較などは、実戦例もコミュニティ議論もまだ少なめです。今後さらに経験が増えることを期待しています。

情報源

Gemini 3.1 Pro Model Card（2026-02-19）：https://deepmind.google/models/model-cards/gemini-3-1-pro/
Claude Sonnet 4.6 System Card（2026-02-17）：https://www.anthropic.com/claude-sonnet-4-6-system-card
Claude Code Best Practices：https://code.claude.com/docs/en/best-practices
Effective Context Engineering for AI Agents（Anthropic）：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
GPT-4.1 Prompting Guide：https://developers.openai.com/cookbook/examples/gpt4-1_prompting_guide
Gemini Long Context Docs：https://ai.google.dev/gemini-api/docs/long-context
r/OpenAI GPT-5 Is Underwhelming.（2025-08-07）：https://www.reddit.com/r/OpenAI/comments/1mk8hqd/
r/LocalLLaMA 1 million context is the scam...（2025-08-14）：https://www.reddit.com/r/LocalLLaMA/comments/1mq19x6/
r/ClaudeAI My Claude Code Context Window Strategy（2025-11）：https://www.reddit.com/r/ClaudeAI/comments/1p05r7p/
HN 47768517（2026-04-14）：https://news.ycombinator.com/item?id=47768517

こぺんぎんの体験談

こぺんぎんの毎日の主力はClaude CodeとCodexで、長いsessionでは200Kの線を本当に感じます。Claude Codeのtoken進捗barが200Kを超えると、前に伝えたruleを明らかに忘れ始めます。300Kを超えたら、基本的には自分から/compactするか、新しいsessionを開いてhandoff fileで続けます。Claudeの返答styleはいまでも全モデルの中で一番好きですが、長い会話では同じように鈍ります。使いやすいからといって最後まで転がし続けてはいけません。日常のChatGPT / Gemini / Perplexity会話でも同じです。重要タスクは必ずきれいなwindowで始めます。例外はありません。

よくある質問

Q: contextが長すぎると、なぜAIは鈍るのですか？

モデルのattentionが薄まるためです。contextが長すぎると、すべての情報を同時に保つのが難しくなります。Chrome tabを20個開くとPCが重くなるのに似ています。Google自身が公開したGemini 3.1 Proのtest dataでも、同じモデルでcontextを128Kから1Mへ伸ばすと、scoreは84.9%から26.3%へ落ちています。

Q: 200-300Kのsweet spotはメーカーが教えてくれた数字ですか？

違います。この数字はどのメーカーのspecにも出ていません。Reddit、Hacker News、Claude Codeコミュニティで8か月ほど積み上がった実戦経験から出た経験則です。最初に明確な表現として見つかるのは、2025年8月7日のr/OpenAIのcommentです。

Q: 一般ユーザーは何をすればいいですか？

3つです。1つ目、会話windowは長ければ長いほどよいわけではありません。2つ目、AIが鈍ったと感じたら新しい会話を開きます。3つ目、重要タスクは日常雑談の会話を引き継がず、きれいなcontextから始めます。

— Penchan