💡 赶时间? 👉 点我前往懒人包
ChatGPT、Claude、Gemini 最近都支持「一百万 token 上下文」。听起来很猛:整本书丢进去、整个项目的代码一次读完、半年的对话纪录完整保留。
问题是实战会踩到坑。Claude Code 跑一个任务,对话延伸到大概四十万 token 后,常会出现怪事:三小时前明确交代的规则,它忘光了;十分钟前刚回答的问题,它又问一次;同一段命令前后写了两个完全不一样的版本。
我去调查了一下社区上的心得,发现大家都一样。下面把社区与官方文档累积出来的经验整理清楚。
两种人最该读:(a) 每天用 ChatGPT 对话、不知道「对话太长会出事」的一般用户;(b) 在做 agentic coding、想搞清楚为什么 Claude Code session 越聊越笨的深度用户。
先讲结论
三家主流大模型目前的支持规格:
- Claude Opus 4.7:1M token 上下文
- Gemini 3.1 Pro:1M token 上下文
- ChatGPT 5.5:1M token 上下文
1M token 大约是八十万个中文字。整本《红楼梦》塞进去还有剩。
但这个 1M 是容量上限,不是最佳工作区。模型确实能读进去,没说谎;AI 厂商没告诉用户的是:读进去之后,处理质量会随着 context 塞得越满而下降。
社区累积出来的实战共识很明确:真正能维持高质量的区间天花板是介于 200K 到 300K 之间,超过 250K 就进入明显变钝的区域。这个数字的源头纯粹在 Reddit、HackerNews、Claude Code 社区,没有任何一家厂商的规格表写过。累积八个月的使用经验捞出来的。
甜蜜点怎么算出来的

可查到的线索分三类:(a) 社区高赞帖子 10 篇以上、(b) 三家厂商官方技术文档、(c) 学术 benchmark 论文。
社区这边
最早把甜蜜点讲成具体数字的帖子,是 2025 年 8 月 7 日 Reddit 上 r/OpenAI 一个讨论串底下的评论:「I find 200 to 300k to be the sweetspot」(二十万到三十万最刚好)。
之后这个讲法像接力一样传开,有人加码写「过二十万以后就开始下坡」、「120K 左右就开始会忘」。到 2026 年 4 月的 HackerNews,「维持 250k 以下」已经变成大家默认的行规,没人反驳。
九个月、几个帖子,累积出一条现行 AI 使用的经验法则。
厂商这边
三家厂商自己都默默承认了退化问题,只是藏在技术文档里。
Anthropic 的 Claude Code 官方最佳实践有这样一句:「context 窗口填得越满,表现越差。」他们甚至建议长任务要主动「重置对话」,别让它一路滚到底。
OpenAI 过去在 ChatGPT 的 prompting guide 里写,当任务需要「掌握整个 context 的状态」做复杂推理,长 context 的表现会退化。
Google 最含蓄,但他们在 Vertex AI 文档里教用户的重点其实是「怎么不浪费 1M」,而非把它塞满。
三家的共同消息:1M 能用,但实战上必须主动管理。
学术这边
最震撼的数字来自 Google 自己公布的 Gemini 3.1 Pro 技术文档。同一个模型、同一个测试(叫做 MRCR,简单说就是「在一堆相似的段落里找出正确那一段」),两个不同的 context 长度:
- context 长度 128K:得分 84.9%
- context 长度 1M:得分 26.3%
同一个模型。只是 context 从 128K 拉到 1M,分数掉了将近六十个百分点。

这是 Google 官方技术文档里的数字,厂商自己把退化写出来了,只是没放在头条。
超过甜蜜点会发生什么

一:AI 会开始「忘」❓
常见症状:
- 三小时前明确交代的规则,它忘了,又做了明明禁止的事
- 前面问过的问题,它现在问第二次
- 把它导向 A 话题,聊一会儿又自己飘回 B
- 同一段命令写了两次,前后版本不一样
这些症状的根源是注意力被稀释(不是 AI「坏掉」)。context 太长,它很难同时记住所有消息,就像同时开二十个 Chrome 分页电脑会卡一样。
二:AI 会开始搞混 ☁️
比「忘」更麻烦的是「搞混」。给它一堆相似但不完全一样的段落(例如五份合约不同版本、五篇论文对同个概念的不同定义、或三小时内的十次工具输出),它会开始把这些段落搞混。
它不会明说自己分不清楚。它会自信地给一个答案,但那个答案可能是把第二版的合约条款跟第四版的数字配在一起。
这就是为什么 Google 的 MRCR 分数从 84.9% 掉到 26.3%。128K 时还能分清楚 8 个相似片段中的第 5 个;到了 1M,差不多只能分对四分之一。(按:MRCR 分数指测试模型在长上下文中是否「还记得/理解」的分数)
三:AI 会变得过度自信(幻觉)
这点最阴险。Context 太长、模型其实抓不准细节时,它不会表明不确定,而是会生成一个听起来很合理但实际错误的答案。
对深度用户来说,这是最危险的情境:以为它做对了,其实它在 1M 的深处某个角落抓错了。
对一般用户:能带走的三件事

每天用 ChatGPT / Claude / Gemini 对话、不做 agentic coding 这类重度任务的人,记住三件事就够了。
第一、对话窗口不是越长越好。
很多人觉得一路跟它聊它就会越来越懂自己。实际上相反:聊得越长,它忘得越多、搞混得越严重。
第二、感觉它开始变笨了,就开新对话。
什么是「钝」?就是上面列的那些症状:重复问、忘规则、跳话题。一出现这些,别硬撑。复制当前问题,另开一个干净的对话窗口贴进去。十秒的动作,换回质量。
第三、重要任务一开始就给干净的 context。
要 AI 写一篇长文、做一个重要决策的分析、审一份合约,别让它继承半小时前聊日常的那个对话。开新的,把相关数据集中贴过去,从干净状态开始。
加码:请 AI 帮你写「接手 prompt」
要开新对话但又怕失去 context?最佳解法:叫目前这个 AI 帮你写一份接手 prompt,拿到后贴到新对话继续。具体模板在下面「懒人包」那一节,点复制按钮贴到 ChatGPT / Claude / Gemini 都通用。
对深度用户:要关注的就是 token 数
跑 Claude Code、ChatGPT Codex、或任何 agentic loop 的人,必须把「context 管理」当成一项主动技能。
几个具体动作:
关注 token 使用量。 Claude Code 会显示当前 session 的 token 进度,你也可以使用 statusline 去进行实时监控。超过 200K 就要警觉,而超过 300K 基本上该考虑 compaction 或新的对话。
做 compaction。 Anthropic 官方文档推荐的 /compact 命令会把当前对话压缩成摘要。不要等到 1M 接近满才做,200K 左右就可以做了。
结构化交接(handoff)。 长任务拆成多个 session,每个 session 结束写一个简短的「交接文件」记录做了什么、下一步要做什么。我自己是会在项目内开 context.md & status.md,分别保存项目的基本信息与进度,如此也能让下个 session 从交接文件 + 最小必要信息中继续工作。
大而稳定的背景做 cache。 整个 code base 不要每次重传,用 prompt caching 把稳定的部分做成 prefix 快取,动态的问题留在当下 prompt。
看官方「1M NIAH 99%」宣称要先问:是哪种测试。 NIAH(单针检索)在 1M 很漂亮,但日常工作更像 MRCR(多针识别)。宣传看看就好,实战照 200-300K 管理。

懒人包:4 个 prompt 模板
下面这 4 段可以直接点复制按钮,贴到任何 AI 对话里。把 [xxx] 换成自己的内容就能用。
1. 重要任务干净起手 prompt
开始一个新的重要任务之前,先用这段让 AI 「专注」到要做的事上,避免被前面聊过的东西干扰。
现在要开始一个重要任务:[一句话描述这个任务]
背景:[2-3 行必要脉络]
目标:[1-2 行期待的成果]
回复偏好:[1-2 个 constraint,例如:用简中回复、不要列太多条]
在开始前,请先重述你对这任务的理解,确认后再往下。有任何不确定的地方,直接说「不确定」,不要猜。
2. 叫 AI 帮你写「接手 prompt」
对话快到上限、感觉开始钝了,但手上的 context 又舍不得丢?用这段让目前这个 AI 自己整理交接文件。
这轮对话可能快到 context 上限了。请写一段接手 prompt,让接手者能贴到新的对话继续。需要包含:
1. 核心结论:已经决定了什么、为什么
2. 进行中的问题:还没解决、卡住、等确认的部分
3. 对用户的理解:偏好、正在做的事、风格倾向
目标 300-500 字,越精准越好。
3. 请 AI 自检「有没有变笨」
不确定目前对话状态还好不好,直接问它。
请诚实评估这轮对话:
- 大概聊多长了?(估 token 数就好)
- 之前交代的规则或数据,现在还抓得住吗?如果已经模糊,哪些模糊?
- 现在直接继续比较好,还是建议开新对话?
如果状态还好就说「清楚,可以继续」。
4. 把对话压成摘要
想保留对话精华但丢掉杂讯。这个比「接手 prompt」更精简,适合收尾存档或转贴给朋友。
请把目前为止的对话压缩成一段摘要,保留:
- 所有决定和主要理由
- 进行中、还没解决的问题
- 关键数据和数字
不需要保留:闲聊、重复的讨论、已经否决的想法。目标 200-400 字。
这 4 段值得每天备在手边。Prompt 1 是最常用的(开始做事前);Prompt 2 是救命用的(快爆了但不想重来);Prompt 3 是侦错用的(觉得 AI 变怪就问);Prompt 4 是收尾用的(要存档或分享)。
工作逻辑小结

实战下来真正决定质量的关键是能不能清晰简洁地表达需求。写多少是模型提供的容量许可,怎么排、什么顺序、什么时候清,才是工作思维的体现。
把 1M 当冰箱:可以买一台大的,但买了之后更该学的是怎么分类、哪些常用放前面、过期的定期清理。塞满的冰箱跟小冰箱一样,都会让人找不到想吃的那罐优格。
AI 也是一样。容量变大是好事,但用得好才是真的省时间。
非 coding 场景的经验法则仍在累积中。法律文档分析、长篇财报解读、多篇论文跨比较,这些场景的实战经验较少、社区讨论也相对少,期待社区继续累积。
延伸阅读
数据来源
- Gemini 3.1 Pro Model Card(2026-02-19):https://deepmind.google/models/model-cards/gemini-3-1-pro/
- Claude Sonnet 4.6 System Card(2026-02-17):https://www.anthropic.com/claude-sonnet-4-6-system-card
- Claude Code Best Practices:https://code.claude.com/docs/en/best-practices
- Effective Context Engineering for AI Agents(Anthropic):https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
- GPT-4.1 Prompting Guide:https://developers.openai.com/cookbook/examples/gpt4-1_prompting_guide
- Gemini Long Context Docs:https://ai.google.dev/gemini-api/docs/long-context
- r/OpenAI
GPT-5 Is Underwhelming.(2025-08-07):https://www.reddit.com/r/OpenAI/comments/1mk8hqd/ - r/LocalLLaMA
1 million context is the scam...(2025-08-14):https://www.reddit.com/r/LocalLLaMA/comments/1mq19x6/ - r/ClaudeAI
My Claude Code Context Window Strategy(2025-11):https://www.reddit.com/r/ClaudeAI/comments/1p05r7p/ - HN 47768517(2026-04-14):https://news.ycombinator.com/item?id=47768517
小企鹅的经验
小企鹅每天主力是 Claude Code 和 Codex,跑长 session 时 200K 那条线真的有感。Claude Code 的 token 进度条过 200K 之后,明显会开始忘前面交代的规则;过 300K 基本上就会主动 /compact 或开新 session 用交接文件接续。Claude 的回复风格在所有模型里最喜欢,但长对话一样会钝,不能因为它好用就一路滚到底。日常 ChatGPT / Gemini / Perplexity 对话也是同样道理,重要任务一定开干净的窗口,没例外。
常见问题
Q: 为什么 context 太长 AI 会变笨?
模型的注意力会被稀释。context 太长,它很难同时记住所有消息,就像同时开二十个分页电脑会卡一样。Google 自己公布的 Gemini 3.1 Pro 测试数据显示,同一个模型 context 从 128K 拉到 1M,分数从 84.9% 掉到 26.3%。
Q: 200-300K 的甜蜜点是厂商告诉我的吗?
不是。这个数字没有出现在任何一家厂商的规格表。它是 Reddit、Hacker News、Claude Code 社区累积八个月的实战经验累积出来的经验法则,最早出现在 2025 年 8 月 7 日 r/OpenAI 的一个评论。
Q: 一般用户需要做什么?
三件事。第一、对话窗口不是越长越好。第二、感觉 AI 开始钝就开新对话。第三、重要任务一开始就给干净的 context,别让它继承日常闲聊的对话。
整理:Penna|小企鹅 Penchan