一百万 token 的甜蜜陷阱：AI 给你 1M 上下文，为什么高手都只用 20 万

💡 赶时间？ 👉 点我前往懒人包

ChatGPT、Claude、Gemini 最近都支持「一百万 token 上下文」。听起来很猛：整本书丢进去、整个项目的代码一次读完、半年的对话纪录完整保留。

问题是实战会踩到坑。Claude Code 跑一个任务，对话延伸到大概四十万 token 后，常会出现怪事：三小时前明确交代的规则，它忘光了；十分钟前刚回答的问题，它又问一次；同一段命令前后写了两个完全不一样的版本。

我去调查了一下社区上的心得，发现大家都一样。下面把社区与官方文档累积出来的经验整理清楚。

两种人最该读：(a) 每天用 ChatGPT 对话、不知道「对话太长会出事」的一般用户；(b) 在做 agentic coding、想搞清楚为什么 Claude Code session 越聊越笨的深度用户。

先讲结论

三家主流大模型目前的支持规格：

Claude Opus 4.7：1M token 上下文
Gemini 3.1 Pro：1M token 上下文
ChatGPT 5.5：1M token 上下文

1M token 大约是八十万个中文字。整本《红楼梦》塞进去还有剩。

但这个 1M 是容量上限，不是最佳工作区。模型确实能读进去，没说谎；AI 厂商没告诉用户的是：读进去之后，处理质量会随着 context 塞得越满而下降。

社区累积出来的实战共识很明确：真正能维持高质量的区间天花板是介于 200K 到 300K 之间，超过 250K 就进入明显变钝的区域。这个数字的源头纯粹在 Reddit、HackerNews、Claude Code 社区，没有任何一家厂商的规格表写过。累积八个月的使用经验捞出来的。

甜蜜点怎么算出来的

三轨调查：浏览 Reddit 论坛、翻厂商技术文档、读学术论文

可查到的线索分三类：(a) 社区高赞帖子 10 篇以上、(b) 三家厂商官方技术文档、(c) 学术 benchmark 论文。

社区这边

最早把甜蜜点讲成具体数字的帖子，是 2025 年 8 月 7 日 Reddit 上 r/OpenAI 一个讨论串底下的评论：「I find 200 to 300k to be the sweetspot」（二十万到三十万最刚好）。

之后这个讲法像接力一样传开，有人加码写「过二十万以后就开始下坡」、「120K 左右就开始会忘」。到 2026 年 4 月的 HackerNews，「维持 250k 以下」已经变成大家默认的行规，没人反驳。

九个月、几个帖子，累积出一条现行 AI 使用的经验法则。

厂商这边

三家厂商自己都默默承认了退化问题，只是藏在技术文档里。

Anthropic 的 Claude Code 官方最佳实践有这样一句：「context 窗口填得越满，表现越差。」他们甚至建议长任务要主动「重置对话」，别让它一路滚到底。

OpenAI 过去在 ChatGPT 的 prompting guide 里写，当任务需要「掌握整个 context 的状态」做复杂推理，长 context 的表现会退化。

Google 最含蓄，但他们在 Vertex AI 文档里教用户的重点其实是「怎么不浪费 1M」，而非把它塞满。

三家的共同消息：1M 能用，但实战上必须主动管理。

学术这边

最震撼的数字来自 Google 自己公布的 Gemini 3.1 Pro 技术文档。同一个模型、同一个测试（叫做 MRCR，简单说就是「在一堆相似的段落里找出正确那一段」），两个不同的 context 长度：

context 长度 128K：得分 84.9%
context 长度 1M：得分 26.3%

同一个模型。只是 context 从 128K 拉到 1M，分数掉了将近六十个百分点。

Gemini 3.1 Pro 在 MRCR 测试从 128K 的 84.9% 掉到 1M 的 26.3%

这是 Google 官方技术文档里的数字，厂商自己把退化写出来了，只是没放在头条。

超过甜蜜点会发生什么

context 过长的三种症状：忘了、搞混、太自信

一：AI 会开始「忘」❓

常见症状：

三小时前明确交代的规则，它忘了，又做了明明禁止的事
前面问过的问题，它现在问第二次
把它导向 A 话题，聊一会儿又自己飘回 B
同一段命令写了两次，前后版本不一样

这些症状的根源是注意力被稀释（不是 AI「坏掉」）。context 太长，它很难同时记住所有消息，就像同时开二十个 Chrome 分页电脑会卡一样。

二：AI 会开始搞混 ☁️

比「忘」更麻烦的是「搞混」。给它一堆相似但不完全一样的段落（例如五份合约不同版本、五篇论文对同个概念的不同定义、或三小时内的十次工具输出），它会开始把这些段落搞混。

它不会明说自己分不清楚。它会自信地给一个答案，但那个答案可能是把第二版的合约条款跟第四版的数字配在一起。

这就是为什么 Google 的 MRCR 分数从 84.9% 掉到 26.3%。128K 时还能分清楚 8 个相似片段中的第 5 个；到了 1M，差不多只能分对四分之一。（按：MRCR 分数指测试模型在长上下文中是否「还记得/理解」的分数）

三：AI 会变得过度自信（幻觉）

这点最阴险。Context 太长、模型其实抓不准细节时，它不会表明不确定，而是会生成一个听起来很合理但实际错误的答案。

对深度用户来说，这是最危险的情境：以为它做对了，其实它在 1M 的深处某个角落抓错了。

对一般用户：能带走的三件事

一般用户三件事：不越长越好、感觉钝就开新、重要任务干净起手

每天用 ChatGPT / Claude / Gemini 对话、不做 agentic coding 这类重度任务的人，记住三件事就够了。

第一、对话窗口不是越长越好。

很多人觉得一路跟它聊它就会越来越懂自己。实际上相反：聊得越长，它忘得越多、搞混得越严重。

第二、感觉它开始变笨了，就开新对话。

什么是「钝」？就是上面列的那些症状：重复问、忘规则、跳话题。一出现这些，别硬撑。复制当前问题，另开一个干净的对话窗口贴进去。十秒的动作，换回质量。

第三、重要任务一开始就给干净的 context。

要 AI 写一篇长文、做一个重要决策的分析、审一份合约，别让它继承半小时前聊日常的那个对话。开新的，把相关数据集中贴过去，从干净状态开始。

加码：请 AI 帮你写「接手 prompt」

要开新对话但又怕失去 context？最佳解法：叫目前这个 AI 帮你写一份接手 prompt，拿到后贴到新对话继续。具体模板在下面「懒人包」那一节，点复制按钮贴到 ChatGPT / Claude / Gemini 都通用。

对深度用户：要关注的就是 token 数

跑 Claude Code、ChatGPT Codex、或任何 agentic loop 的人，必须把「context 管理」当成一项主动技能。

几个具体动作：

关注 token 使用量。 Claude Code 会显示当前 session 的 token 进度，你也可以使用 statusline 去进行实时监控。超过 200K 就要警觉，而超过 300K 基本上该考虑 compaction 或新的对话。

做 compaction。 Anthropic 官方文档推荐的 /compact 命令会把当前对话压缩成摘要。不要等到 1M 接近满才做，200K 左右就可以做了。

结构化交接（handoff）。 长任务拆成多个 session，每个 session 结束写一个简短的「交接文件」记录做了什么、下一步要做什么。我自己是会在项目内开 context.md & status.md，分别保存项目的基本信息与进度，如此也能让下个 session 从交接文件 + 最小必要信息中继续工作。

大而稳定的背景做 cache。 整个 code base 不要每次重传，用 prompt caching 把稳定的部分做成 prefix 快取，动态的问题留在当下 prompt。

看官方「1M NIAH 99%」宣称要先问：是哪种测试。 NIAH（单针检索）在 1M 很漂亮，但日常工作更像 MRCR（多针识别）。宣传看看就好，实战照 200-300K 管理。

四个实用 prompt 模板：起手、接手、自检、摘要

懒人包：4 个 prompt 模板

下面这 4 段可以直接点复制按钮，贴到任何 AI 对话里。把 [xxx] 换成自己的内容就能用。

1. 重要任务干净起手 prompt

开始一个新的重要任务之前，先用这段让 AI 「专注」到要做的事上，避免被前面聊过的东西干扰。

现在要开始一个重要任务：[一句话描述这个任务]

背景：[2-3 行必要脉络]
目标：[1-2 行期待的成果]
回复偏好：[1-2 个 constraint，例如：用简中回复、不要列太多条]

在开始前，请先重述你对这任务的理解，确认后再往下。有任何不确定的地方，直接说「不确定」，不要猜。

2. 叫 AI 帮你写「接手 prompt」

对话快到上限、感觉开始钝了，但手上的 context 又舍不得丢？用这段让目前这个 AI 自己整理交接文件。

这轮对话可能快到 context 上限了。请写一段接手 prompt，让接手者能贴到新的对话继续。需要包含：

1. 核心结论：已经决定了什么、为什么
2. 进行中的问题：还没解决、卡住、等确认的部分
3. 对用户的理解：偏好、正在做的事、风格倾向

目标 300-500 字，越精准越好。

3. 请 AI 自检「有没有变笨」

不确定目前对话状态还好不好，直接问它。

请诚实评估这轮对话：

- 大概聊多长了？（估 token 数就好）
- 之前交代的规则或数据，现在还抓得住吗？如果已经模糊，哪些模糊？
- 现在直接继续比较好，还是建议开新对话？

如果状态还好就说「清楚，可以继续」。

4. 把对话压成摘要

想保留对话精华但丢掉杂讯。这个比「接手 prompt」更精简，适合收尾存档或转贴给朋友。

请把目前为止的对话压缩成一段摘要，保留：

- 所有决定和主要理由
- 进行中、还没解决的问题
- 关键数据和数字

不需要保留：闲聊、重复的讨论、已经否决的想法。目标 200-400 字。

这 4 段值得每天备在手边。Prompt 1 是最常用的（开始做事前）；Prompt 2 是救命用的（快爆了但不想重来）；Prompt 3 是侦错用的（觉得 AI 变怪就问）；Prompt 4 是收尾用的（要存档或分享）。

工作逻辑小结

把 1M context 当冰箱：分类整理、常用 vs 当前 vs 可丢弃

实战下来真正决定质量的关键是能不能清晰简洁地表达需求。写多少是模型提供的容量许可，怎么排、什么顺序、什么时候清，才是工作思维的体现。

把 1M 当冰箱：可以买一台大的，但买了之后更该学的是怎么分类、哪些常用放前面、过期的定期清理。塞满的冰箱跟小冰箱一样，都会让人找不到想吃的那罐优格。

AI 也是一样。容量变大是好事，但用得好才是真的省时间。

非 coding 场景的经验法则仍在累积中。法律文档分析、长篇财报解读、多篇论文跨比较，这些场景的实战经验较少、社区讨论也相对少，期待社区继续累积。

小企鹅的经验

小企鹅每天主力是 Claude Code 和 Codex，跑长 session 时 200K 那条线真的有感。Claude Code 的 token 进度条过 200K 之后，明显会开始忘前面交代的规则；过 300K 基本上就会主动 /compact 或开新 session 用交接文件接续。Claude 的回复风格在所有模型里最喜欢，但长对话一样会钝，不能因为它好用就一路滚到底。日常 ChatGPT / Gemini / Perplexity 对话也是同样道理，重要任务一定开干净的窗口，没例外。

常见问题

Q: 为什么 context 太长 AI 会变笨？

模型的注意力会被稀释。context 太长，它很难同时记住所有消息，就像同时开二十个分页电脑会卡一样。Google 自己公布的 Gemini 3.1 Pro 测试数据显示，同一个模型 context 从 128K 拉到 1M，分数从 84.9% 掉到 26.3%。

Q: 200-300K 的甜蜜点是厂商告诉我的吗？

不是。这个数字没有出现在任何一家厂商的规格表。它是 Reddit、Hacker News、Claude Code 社区累积八个月的实战经验累积出来的经验法则，最早出现在 2025 年 8 月 7 日 r/OpenAI 的一个评论。

Q: 一般用户需要做什么？

三件事。第一、对话窗口不是越长越好。第二、感觉 AI 开始钝就开新对话。第三、重要任务一开始就给干净的 context，别让它继承日常闲聊的对话。

整理：Penna｜小企鹅 Penchan