💡 赶时间? 👉 点我前往懒人包

ChatGPT、Claude、Gemini 最近都支持「一百万 token 上下文」。听起来很猛:整本书丢进去、整个项目的代码一次读完、半年的对话纪录完整保留。

问题是实战会踩到坑。Claude Code 跑一个任务,对话延伸到大概四十万 token 后,常会出现怪事:三小时前明确交代的规则,它忘光了;十分钟前刚回答的问题,它又问一次;同一段命令前后写了两个完全不一样的版本。

我去调查了一下社区上的心得,发现大家都一样。下面把社区与官方文档累积出来的经验整理清楚。

两种人最该读:(a) 每天用 ChatGPT 对话、不知道「对话太长会出事」的一般用户;(b) 在做 agentic coding、想搞清楚为什么 Claude Code session 越聊越笨的深度用户。

先讲结论

三家主流大模型目前的支持规格:

  • Claude Opus 4.7:1M token 上下文
  • Gemini 3.1 Pro:1M token 上下文
  • ChatGPT 5.5:1M token 上下文

1M token 大约是八十万个中文字。整本《红楼梦》塞进去还有剩。

但这个 1M 是容量上限,不是最佳工作区。模型确实能读进去,没说谎;AI 厂商没告诉用户的是:读进去之后,处理质量会随着 context 塞得越满而下降。

社区累积出来的实战共识很明确:真正能维持高质量的区间天花板是介于 200K 到 300K 之间,超过 250K 就进入明显变钝的区域。这个数字的源头纯粹在 Reddit、HackerNews、Claude Code 社区,没有任何一家厂商的规格表写过。累积八个月的使用经验捞出来的。

甜蜜点怎么算出来的

三轨调查:浏览 Reddit 论坛、翻厂商技术文档、读学术论文

可查到的线索分三类:(a) 社区高赞帖子 10 篇以上、(b) 三家厂商官方技术文档、(c) 学术 benchmark 论文。

社区这边

最早把甜蜜点讲成具体数字的帖子,是 2025 年 8 月 7 日 Reddit 上 r/OpenAI 一个讨论串底下的评论:「I find 200 to 300k to be the sweetspot」(二十万到三十万最刚好)。

之后这个讲法像接力一样传开,有人加码写「过二十万以后就开始下坡」、「120K 左右就开始会忘」。到 2026 年 4 月的 HackerNews,「维持 250k 以下」已经变成大家默认的行规,没人反驳。

九个月、几个帖子,累积出一条现行 AI 使用的经验法则。

厂商这边

三家厂商自己都默默承认了退化问题,只是藏在技术文档里。

Anthropic 的 Claude Code 官方最佳实践有这样一句:「context 窗口填得越满,表现越差。」他们甚至建议长任务要主动「重置对话」,别让它一路滚到底。

OpenAI 过去在 ChatGPT 的 prompting guide 里写,当任务需要「掌握整个 context 的状态」做复杂推理,长 context 的表现会退化。

Google 最含蓄,但他们在 Vertex AI 文档里教用户的重点其实是「怎么不浪费 1M」,而非把它塞满。

三家的共同消息:1M 能用,但实战上必须主动管理。

学术这边

最震撼的数字来自 Google 自己公布的 Gemini 3.1 Pro 技术文档。同一个模型、同一个测试(叫做 MRCR,简单说就是「在一堆相似的段落里找出正确那一段」),两个不同的 context 长度:

  • context 长度 128K:得分 84.9%
  • context 长度 1M:得分 26.3%

同一个模型。只是 context 从 128K 拉到 1M,分数掉了将近六十个百分点。

Gemini 3.1 Pro 在 MRCR 测试从 128K 的 84.9% 掉到 1M 的 26.3%

这是 Google 官方技术文档里的数字,厂商自己把退化写出来了,只是没放在头条。

超过甜蜜点会发生什么

context 过长的三种症状:忘了、搞混、太自信

一:AI 会开始「忘」❓

常见症状:

  • 三小时前明确交代的规则,它忘了,又做了明明禁止的事
  • 前面问过的问题,它现在问第二次
  • 把它导向 A 话题,聊一会儿又自己飘回 B
  • 同一段命令写了两次,前后版本不一样

这些症状的根源是注意力被稀释(不是 AI「坏掉」)。context 太长,它很难同时记住所有消息,就像同时开二十个 Chrome 分页电脑会卡一样。

二:AI 会开始搞混 ☁️

比「忘」更麻烦的是「搞混」。给它一堆相似但不完全一样的段落(例如五份合约不同版本、五篇论文对同个概念的不同定义、或三小时内的十次工具输出),它会开始把这些段落搞混。

它不会明说自己分不清楚。它会自信地给一个答案,但那个答案可能是把第二版的合约条款跟第四版的数字配在一起。

这就是为什么 Google 的 MRCR 分数从 84.9% 掉到 26.3%。128K 时还能分清楚 8 个相似片段中的第 5 个;到了 1M,差不多只能分对四分之一。(按:MRCR 分数指测试模型在长上下文中是否「还记得/理解」的分数)

三:AI 会变得过度自信(幻觉)

这点最阴险。Context 太长、模型其实抓不准细节时,它不会表明不确定,而是会生成一个听起来很合理但实际错误的答案。

对深度用户来说,这是最危险的情境:以为它做对了,其实它在 1M 的深处某个角落抓错了。

对一般用户:能带走的三件事

一般用户三件事:不越长越好、感觉钝就开新、重要任务干净起手

每天用 ChatGPT / Claude / Gemini 对话、不做 agentic coding 这类重度任务的人,记住三件事就够了。

第一、对话窗口不是越长越好。

很多人觉得一路跟它聊它就会越来越懂自己。实际上相反:聊得越长,它忘得越多、搞混得越严重。

第二、感觉它开始变笨了,就开新对话。

什么是「钝」?就是上面列的那些症状:重复问、忘规则、跳话题。一出现这些,别硬撑。复制当前问题,另开一个干净的对话窗口贴进去。十秒的动作,换回质量。

第三、重要任务一开始就给干净的 context。

要 AI 写一篇长文、做一个重要决策的分析、审一份合约,别让它继承半小时前聊日常的那个对话。开新的,把相关数据集中贴过去,从干净状态开始。

加码:请 AI 帮你写「接手 prompt」

要开新对话但又怕失去 context?最佳解法:叫目前这个 AI 帮你写一份接手 prompt,拿到后贴到新对话继续。具体模板在下面「懒人包」那一节,点复制按钮贴到 ChatGPT / Claude / Gemini 都通用。

对深度用户:要关注的就是 token 数

跑 Claude Code、ChatGPT Codex、或任何 agentic loop 的人,必须把「context 管理」当成一项主动技能。

几个具体动作:

关注 token 使用量。 Claude Code 会显示当前 session 的 token 进度,你也可以使用 statusline 去进行实时监控。超过 200K 就要警觉,而超过 300K 基本上该考虑 compaction 或新的对话。

做 compaction。 Anthropic 官方文档推荐的 /compact 命令会把当前对话压缩成摘要。不要等到 1M 接近满才做,200K 左右就可以做了。

结构化交接(handoff)。 长任务拆成多个 session,每个 session 结束写一个简短的「交接文件」记录做了什么、下一步要做什么。我自己是会在项目内开 context.md & status.md,分别保存项目的基本信息与进度,如此也能让下个 session 从交接文件 + 最小必要信息中继续工作。

大而稳定的背景做 cache。 整个 code base 不要每次重传,用 prompt caching 把稳定的部分做成 prefix 快取,动态的问题留在当下 prompt。

看官方「1M NIAH 99%」宣称要先问:是哪种测试。 NIAH(单针检索)在 1M 很漂亮,但日常工作更像 MRCR(多针识别)。宣传看看就好,实战照 200-300K 管理。

四个实用 prompt 模板:起手、接手、自检、摘要

懒人包:4 个 prompt 模板

下面这 4 段可以直接点复制按钮,贴到任何 AI 对话里。把 [xxx] 换成自己的内容就能用。

1. 重要任务干净起手 prompt

开始一个新的重要任务之前,先用这段让 AI 「专注」到要做的事上,避免被前面聊过的东西干扰。

现在要开始一个重要任务:[一句话描述这个任务]

背景:[2-3 行必要脉络]
目标:[1-2 行期待的成果]
回复偏好:[1-2 个 constraint,例如:用简中回复、不要列太多条]

在开始前,请先重述你对这任务的理解,确认后再往下。有任何不确定的地方,直接说「不确定」,不要猜。

2. 叫 AI 帮你写「接手 prompt」

对话快到上限、感觉开始钝了,但手上的 context 又舍不得丢?用这段让目前这个 AI 自己整理交接文件。

这轮对话可能快到 context 上限了。请写一段接手 prompt,让接手者能贴到新的对话继续。需要包含:

1. 核心结论:已经决定了什么、为什么
2. 进行中的问题:还没解决、卡住、等确认的部分
3. 对用户的理解:偏好、正在做的事、风格倾向

目标 300-500 字,越精准越好。

3. 请 AI 自检「有没有变笨」

不确定目前对话状态还好不好,直接问它。

请诚实评估这轮对话:

- 大概聊多长了?(估 token 数就好)
- 之前交代的规则或数据,现在还抓得住吗?如果已经模糊,哪些模糊?
- 现在直接继续比较好,还是建议开新对话?

如果状态还好就说「清楚,可以继续」。

4. 把对话压成摘要

想保留对话精华但丢掉杂讯。这个比「接手 prompt」更精简,适合收尾存档或转贴给朋友。

请把目前为止的对话压缩成一段摘要,保留:

- 所有决定和主要理由
- 进行中、还没解决的问题
- 关键数据和数字

不需要保留:闲聊、重复的讨论、已经否决的想法。目标 200-400 字。

这 4 段值得每天备在手边。Prompt 1 是最常用的(开始做事前);Prompt 2 是救命用的(快爆了但不想重来);Prompt 3 是侦错用的(觉得 AI 变怪就问);Prompt 4 是收尾用的(要存档或分享)。

工作逻辑小结

把 1M context 当冰箱:分类整理、常用 vs 当前 vs 可丢弃

实战下来真正决定质量的关键是能不能清晰简洁地表达需求。写多少是模型提供的容量许可,怎么排、什么顺序、什么时候清,才是工作思维的体现。

把 1M 当冰箱:可以买一台大的,但买了之后更该学的是怎么分类、哪些常用放前面、过期的定期清理。塞满的冰箱跟小冰箱一样,都会让人找不到想吃的那罐优格。

AI 也是一样。容量变大是好事,但用得好才是真的省时间。

非 coding 场景的经验法则仍在累积中。法律文档分析、长篇财报解读、多篇论文跨比较,这些场景的实战经验较少、社区讨论也相对少,期待社区继续累积。

延伸阅读


数据来源

小企鹅的经验

小企鹅每天主力是 Claude Code 和 Codex,跑长 session 时 200K 那条线真的有感。Claude Code 的 token 进度条过 200K 之后,明显会开始忘前面交代的规则;过 300K 基本上就会主动 /compact 或开新 session 用交接文件接续。Claude 的回复风格在所有模型里最喜欢,但长对话一样会钝,不能因为它好用就一路滚到底。日常 ChatGPT / Gemini / Perplexity 对话也是同样道理,重要任务一定开干净的窗口,没例外。

常见问题

Q: 为什么 context 太长 AI 会变笨?

模型的注意力会被稀释。context 太长,它很难同时记住所有消息,就像同时开二十个分页电脑会卡一样。Google 自己公布的 Gemini 3.1 Pro 测试数据显示,同一个模型 context 从 128K 拉到 1M,分数从 84.9% 掉到 26.3%。

Q: 200-300K 的甜蜜点是厂商告诉我的吗?

不是。这个数字没有出现在任何一家厂商的规格表。它是 Reddit、Hacker News、Claude Code 社区累积八个月的实战经验累积出来的经验法则,最早出现在 2025 年 8 月 7 日 r/OpenAI 的一个评论。

Q: 一般用户需要做什么?

三件事。第一、对话窗口不是越长越好。第二、感觉 AI 开始钝就开新对话。第三、重要任务一开始就给干净的 context,别让它继承日常闲聊的对话。


整理:Penna|小企鹅 Penchan