💡 急いでいる人は 👉 かんたんprompt集へ
ChatGPT、Claude、Geminiは最近どれも「100万token context」に対応しました。聞こえはかなり強いです。本を丸ごと入れる、project全体のcodeを一度に読む、半年分の会話履歴をそのまま残す。
ただし実戦では落とし穴があります。Claude Codeで1つのタスクを走らせ、会話がだいたい40万tokenを超えると、変なことがよく起きます。3時間前に明確に伝えたruleを忘れる。10分前に答えた質問をもう一度聞く。同じ指示について、前後でまったく違うversionを書く。
コミュニティの経験を調べると、みんな同じでした。以下では、コミュニティと公式資料から積み上がった経験を整理します。
特に読むべき人は2種類です。(a) 毎日ChatGPTで会話していて、「会話が長すぎると壊れる」ことを知らない一般ユーザー。(b) agentic codingをしていて、Claude Code sessionが長くなるほどなぜ鈍るのか知りたい深いユーザー。
先に結論
主要3社の現在の対応specは次の通りです。
- Claude Opus 4.7:1M token context
- Gemini 3.1 Pro:1M token context
- ChatGPT 5.5:1M token context
1M tokenは、おおよそ80万字の中国語に相当します。『紅楼夢』を丸ごと入れてもまだ余ります。
ただし、この1Mは容量の上限であって、最適な作業領域ではありません。モデルは本当に読み込めるので、AIメーカーが嘘をついているわけではありません。ただ、読み込んだあと、contextが埋まるほど処理品質が落ちることを、ユーザーに大きくは伝えていません。
コミュニティで積み上がった実戦上の共通認識は明確です。高い品質を保てる実質的な上限は200Kから300Kの間で、250Kを超えると明らかに鈍り始める領域に入ります。この数字の出どころはReddit、Hacker News、Claude Codeコミュニティであり、どのメーカーのspecにも書かれていません。8か月分の使用経験から拾われたものです。
sweet spotはどう見積もられたのか

確認できる手がかりは3種類あります。(a) コミュニティで高評価の投稿10件以上、(b) 3社の公式技術資料、(c) 学術benchmark論文です。
コミュニティ側
sweet spotを具体的な数字として最初に見つけられるのは、2025年8月7日のReddit r/OpenAIのthreadにあったcommentです。「I find 200 to 300k to be the sweetspot」(20万から30万がちょうどよい)という内容でした。
その後、この言い方はrelayのように広がりました。「20万を超えると下り坂になる」「120Kあたりから忘れ始める」と書く人もいました。2026年4月のHacker Newsでは、「250k未満に保つ」はすでに暗黙の運用ruleになっており、強い反論は見当たりませんでした。
9か月、いくつかの投稿を経て、現在のAI利用における経験則が1つ形になりました。
メーカー側
3社はどれも退化の問題を静かに認めています。ただし技術資料の中に埋もれています。
AnthropicのClaude Code公式best practicesには、「context windowが埋まるほどperformanceは悪くなる」という趣旨の記述があります。長いタスクでは会話をresetすることまで勧めており、最後まで転がし続けることは推奨していません。
OpenAIも以前、ChatGPTのprompting guideで、タスクが「context全体の状態」を把握して複雑に推論する必要がある場合、長いcontextではperformanceが落ちると書いていました。
Googleはもっと控えめですが、Vertex AI資料で教えている重点は実質的に「1Mをどう無駄にしないか」であって、「全部詰め込め」ではありません。
3社に共通するmessageはこうです。1Mは使える。ただし実戦では自分から管理する必要があります。
学術benchmark側
最も衝撃的な数字は、Google自身が公開したGemini 3.1 Proの技術資料にあります。同じモデル、同じtest(MRCR。ざっくり言うと「似た段落の山から正しい段落を見つける」test)で、context長だけを変えています。
- context長 128K:score 84.9%
- context長 1M:score 26.3%
同じモデルです。contextを128Kから1Mへ伸ばしただけで、scoreが約60 percentage points落ちています。

これはGoogle公式技術資料の数字です。メーカー自身が退化を書いています。ただ、headlineにはしていないだけです。
sweet spotを超えると何が起きるのか

1つ目:AIが「忘れ」始める ❓
よくある症状は次の通りです。
- 3時間前に明確に伝えたruleを忘れ、禁止したことを実行する
- すでに前で聞いた質問を、もう一度聞く
- Aの話題へ誘導しても、しばらくすると自分でBへ戻る
- 同じ指示を2回書き、前後のversionが一致しない
根本原因はattentionの希薄化です。AIが「壊れた」わけではありません。contextが長すぎると、すべての情報を同時に保つのが難しくなります。Chrome tabを20個開くとPCが重くなるのに似ています。
2つ目:AIが混同し始める ☁️
「忘れる」より厄介なのが「混同」です。似ているが完全には同じではない段落を大量に渡します。たとえば契約書version 5つ、同じ概念を違って定義する論文5本、3時間以内のtool output 10個などです。すると、AIはそれらを混ぜ始めます。
本人は「区別できていません」とは言いません。自信を持って答えます。ただし、その答えは2番目の契約条項と4番目の数字を組み合わせたものかもしれません。
GoogleのMRCR scoreが84.9%から26.3%へ落ちた理由はここです。128Kでは、8つの似た断片のうち5番目をまだ区別できます。1Mになると、だいたい4分の1しか正しく取れません。注:MRCR scoreは、モデルが長いcontext内の情報を「まだ覚えている / 理解しているか」を見る指標です。
3つ目:AIが自信過剰になる(幻覚)
ここがいちばん陰険です。Contextが長すぎて、モデルが細部をつかみきれていないとき、たいてい「不確かです」とは言いません。もっともらしいが実際には間違っている答えを生成します。
深く使う人にとって、これは最も危険な場面です。できたと思っていたのに、1M contextの奥のどこかで違うものを拾っている可能性があります。
一般ユーザー向け:持ち帰る3つのこと

毎日ChatGPT / Claude / Geminiで会話するが、agentic codingのような重い作業はしない人は、3つだけ覚えれば十分です。
1つ目、会話windowは長ければ長いほどよいわけではありません。
同じ会話でずっと話すほど、AIが自分を理解してくれると思う人は多いです。実際は逆です。長く話すほど、忘れやすくなり、混同も増えます。
2つ目、鈍くなったと感じたら、新しい会話を開く。
「鈍い」とは何か。上で挙げた症状です。質問を繰り返す、ruleを忘れる、話題が飛ぶ。こうなったら無理に続けません。今の質問をcopyし、きれいな新規会話に貼ります。10秒の動作で品質が戻ります。
3つ目、重要タスクは最初からきれいなcontextで始める。
AIに長い記事を書かせる、重要な意思決定を分析させる、契約書をreviewさせる。そのようなときは、30分前に雑談していた会話を引き継がせません。新しく開き、関連資料をまとめて貼り、きれいな状態から始めます。
追加:AIに「handoff prompt」を書いてもらう
新しい会話を開きたいけれど、contextを失うのが怖い場合があります。最善の解法は、今のAIにhandoff promptを書かせ、それを新しい会話に貼ることです。具体的なtemplateは下の「かんたんprompt集」にあります。copy buttonでChatGPT / Claude / Geminiへ貼れば使えます。
深く使う人向け:見るべきはtoken数
Claude Code、ChatGPT Codex、または任意のagentic loopを走らせる人は、「context管理」を能動的なskillとして扱う必要があります。
具体的な動きは次の通りです。
token使用量を見る。 Claude Codeは現在のsessionのtoken進捗を表示します。statuslineを使ってreal-time monitoringすることもできます。200Kを超えたら警戒します。300Kを超えたら、compactionまたは新しい会話をかなり真剣に考えるべきです。
compactionする。 Anthropic公式資料が勧める/compact commandは、現在の会話を要約へ圧縮します。1M近くまで待つ必要はありません。200K前後でも十分に実行候補です。
構造化handoffを使う。 長いタスクは複数sessionへ分けます。各sessionの終わりに、何をしたか、次に何をするかを短いhandoff fileへ記録します。私はproject内にcontext.mdとstatus.mdを置き、それぞれprojectの基本情報と進捗を保存します。次のsessionはhandoff file + 最小限の必要情報から続けられます。
大きく安定した背景はcacheする。 codebase全体を毎回送り直しません。prompt cachingで安定部分をprefix cacheにし、動的な質問はその場のpromptに残します。
公式の「1M NIAH 99%」主張を見るときは、まずどんなtestかを聞く。 NIAH(single-needle retrieval)は1Mで非常にきれいな数字が出ます。ただし日常作業はMRCR(multi-needle discrimination)に近いです。宣伝は宣伝として見て、実戦は200-300Kで管理します。

かんたんprompt集:4つのtemplate
次の4つは、そのまま任意のAI会話に貼れます。[xxx]を自分の内容に置き換えて使ってください。
1. 重要タスクをきれいに始めるprompt
新しい重要タスクを始める前に、このpromptでAIを作業に集中させます。前の会話内容による干渉を避けるためです。
これから重要なタスクを始めます:[このタスクを一文で説明]
背景:[必要な文脈を2-3行]
目標:[期待する成果を1-2行]
返答の希望:[1-2個の制約。例:日本語で返答、箇条書きを多くしすぎない]
開始前に、まずこのタスクの理解を言い直してください。確認後に続けます。不確かな点があれば、推測せず「不確かです」と直接言ってください。
2. AIに「handoff prompt」を書いてもらう
会話がcontext上限に近づき、鈍り始めている。でも手元のcontextを捨てたくない。そんなときは、今のAIにhandoff fileを書かせます。
この会話はcontext上限に近づいている可能性があります。新しい会話に貼って続けられるよう、handoff promptを書いてください。含める内容:
1. 核心結論:すでに決めたこと、その理由
2. 進行中の問題:未解決、詰まっている点、確認待ちの部分
3. ユーザー理解:好み、現在取り組んでいること、文体や進め方の傾向
目標は300-500字です。できるだけ正確にしてください。
3. AIに「鈍っていないか」を自己確認させる
今の会話状態がまだ大丈夫か分からないときは、直接聞きます。
この会話の状態を正直に評価してください:
- だいたいどれくらい話しましたか?(推定token数で十分です)
- 以前に伝えたruleやdataは、今も明確につかめていますか?すでに曖昧なものがあれば、何が曖昧ですか?
- このまま続けるほうがよいですか。それとも新しい会話を開くことを勧めますか?
状態がまだよいなら「明確です。続けられます」と言ってください。
4. 会話を要約へ圧縮する
会話の要点だけ残し、noiseを捨てたいときに使います。「handoff prompt」より短く、保存や共有に向いています。
ここまでの会話を要約へ圧縮してください。残すもの:
- すべての決定と主な理由
- 進行中、まだ解決していない問題
- 重要なdataと数字
残さないもの:雑談、重複した議論、すでに却下した案。目標は200-400字です。
この4つは毎日手元に置く価値があります。Prompt 1は最もよく使うものです。作業開始前に使います。Prompt 2は救命用です。contextが膨らみすぎたが、最初からやり直したくないときに使います。Prompt 3はdebug用です。AIが変だと感じたら聞きます。Prompt 4は締め用です。保存や共有に使います。
作業ロジックの小まとめ

実戦で品質を決める本当の鍵は、要件を明確かつ簡潔に表現できるかです。どれだけ書けるかはモデルが与える容量です。どう並べるか、どの順序にするか、いつ掃除するかが、作業の考え方を表します。
1Mを冷蔵庫だと思ってください。大きい冷蔵庫を買うことはできます。でも買ったあとに学ぶべきなのは、どう分類するか、よく使うものをどこに置くか、期限切れをいつ片づけるかです。詰め込みすぎた冷蔵庫は、小さい冷蔵庫と同じように、食べたいヨーグルトを見つけにくくします。
AIも同じです。容量が増えることはよいことです。ただし、うまく使えて初めて本当に時間を節約できます。
非coding場面での経験則は、まだ積み上げの途中です。法律文書分析、長い財務reportの読解、複数論文の横断比較などは、実戦例もコミュニティ議論もまだ少なめです。今後さらに経験が増えることを期待しています。
関連記事
- Claude Code + Codex共同作業playbook
- Prompt Engineering完全ガイド
- Claude Opus vs Sonnet
- Gemini 3.1 Pro完全チュートリアル
情報源
- Gemini 3.1 Pro Model Card(2026-02-19):https://deepmind.google/models/model-cards/gemini-3-1-pro/
- Claude Sonnet 4.6 System Card(2026-02-17):https://www.anthropic.com/claude-sonnet-4-6-system-card
- Claude Code Best Practices:https://code.claude.com/docs/en/best-practices
- Effective Context Engineering for AI Agents(Anthropic):https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- GPT-4.1 Prompting Guide:https://developers.openai.com/cookbook/examples/gpt4-1_prompting_guide
- Gemini Long Context Docs:https://ai.google.dev/gemini-api/docs/long-context
- r/OpenAI
GPT-5 Is Underwhelming.(2025-08-07):https://www.reddit.com/r/OpenAI/comments/1mk8hqd/ - r/LocalLLaMA
1 million context is the scam...(2025-08-14):https://www.reddit.com/r/LocalLLaMA/comments/1mq19x6/ - r/ClaudeAI
My Claude Code Context Window Strategy(2025-11):https://www.reddit.com/r/ClaudeAI/comments/1p05r7p/ - HN 47768517(2026-04-14):https://news.ycombinator.com/item?id=47768517
こぺんぎんの体験談
こぺんぎんの毎日の主力はClaude CodeとCodexで、長いsessionでは200Kの線を本当に感じます。Claude Codeのtoken進捗barが200Kを超えると、前に伝えたruleを明らかに忘れ始めます。300Kを超えたら、基本的には自分から/compactするか、新しいsessionを開いてhandoff fileで続けます。Claudeの返答styleはいまでも全モデルの中で一番好きですが、長い会話では同じように鈍ります。使いやすいからといって最後まで転がし続けてはいけません。日常のChatGPT / Gemini / Perplexity会話でも同じです。重要タスクは必ずきれいなwindowで始めます。例外はありません。
よくある質問
Q: contextが長すぎると、なぜAIは鈍るのですか?
モデルのattentionが薄まるためです。contextが長すぎると、すべての情報を同時に保つのが難しくなります。Chrome tabを20個開くとPCが重くなるのに似ています。Google自身が公開したGemini 3.1 Proのtest dataでも、同じモデルでcontextを128Kから1Mへ伸ばすと、scoreは84.9%から26.3%へ落ちています。
Q: 200-300Kのsweet spotはメーカーが教えてくれた数字ですか?
違います。この数字はどのメーカーのspecにも出ていません。Reddit、Hacker News、Claude Codeコミュニティで8か月ほど積み上がった実戦経験から出た経験則です。最初に明確な表現として見つかるのは、2025年8月7日のr/OpenAIのcommentです。
Q: 一般ユーザーは何をすればいいですか?
3つです。1つ目、会話windowは長ければ長いほどよいわけではありません。2つ目、AIが鈍ったと感じたら新しい会話を開きます。3つ目、重要タスクは日常雑談の会話を引き継がず、きれいなcontextから始めます。
— Penchan