💡 趕時間? 👉 點我前往懶人包

ChatGPT、Claude、Gemini 最近都支援「一百萬 token 上下文」。聽起來很猛:整本書丟進去、整個專案的程式碼一次讀完、半年的對話紀錄完整保留。

問題是實戰會踩到坑。Claude Code 跑一個任務,對話延伸到大概四十萬 token 後,常會出現怪事:三小時前明確交代的規則,它忘光了;十分鐘前剛回答的問題,它又問一次;同一段指令前後寫了兩個完全不一樣的版本。

我去調查了一下社群上的心得,發現大家都一樣。下面把社群與官方文件累積出來的經驗整理清楚。

兩種人最該讀:(a) 每天用 ChatGPT 對話、不知道「對話太長會出事」的一般使用者;(b) 在做 agentic coding、想搞清楚為什麼 Claude Code session 越聊越笨的深度使用者。

先講結論

三家主流大模型目前的支援規格:

  • Claude Opus 4.7:1M token 上下文
  • Gemini 3.1 Pro:1M token 上下文
  • ChatGPT 5.5:1M token 上下文

1M token 大約是八十萬個中文字。整本《紅樓夢》塞進去還有剩。

但這個 1M 是容量上限,不是最佳工作區。模型確實能讀進去,沒說謊;AI 廠商沒告訴使用者的是:讀進去之後,處理品質會隨著 context 塞得越滿而下降。

社群累積出來的實戰共識很明確:真正能維持高品質的區間天花板是介於 200K 到 300K 之間,超過 250K 就進入明顯變鈍的區域。這個數字的源頭純粹在 Reddit、HackerNews、Claude Code 社群,沒有任何一家廠商的規格表寫過。累積八個月的使用經驗撈出來的。

甜蜜點怎麼算出來的

三軌調查:瀏覽 Reddit 論壇、翻廠商技術文件、讀學術論文

可查到的線索分三類:(a) 社群高讚貼文 10 篇以上、(b) 三家廠商官方技術文件、(c) 學術 benchmark 論文。

社群這邊

最早把甜蜜點講成具體數字的貼文,是 2025 年 8 月 7 日 Reddit 上 r/OpenAI 一個討論串底下的留言:「I find 200 to 300k to be the sweetspot」(二十萬到三十萬最剛好)。

之後這個講法像接力一樣傳開,有人加碼寫「過二十萬以後就開始下坡」、「120K 左右就開始會忘」。到 2026 年 4 月的 HackerNews,「維持 250k 以下」已經變成大家默認的行規,沒人反駁。

九個月、幾個貼文,累積出一條現行 AI 使用的經驗法則。

廠商這邊

三家廠商自己都默默承認了退化問題,只是藏在技術文件裡。

Anthropic 的 Claude Code 官方最佳實踐有這樣一句:「context 視窗填得越滿,表現越差。」他們甚至建議長任務要主動「重置對話」,別讓它一路滾到底。

OpenAI 過去在 ChatGPT 的 prompting guide 裡寫,當任務需要「掌握整個 context 的狀態」做複雜推理,長 context 的表現會退化。

Google 最含蓄,但他們在 Vertex AI 文件裡教使用者的重點其實是「怎麼不浪費 1M」,而非把它塞滿。

三家的共同訊息:1M 能用,但實戰上必須主動管理。

學術這邊

最震撼的數字來自 Google 自己公布的 Gemini 3.1 Pro 技術文件。同一個模型、同一個測試(叫做 MRCR,簡單說就是「在一堆相似的段落裡找出正確那一段」),兩個不同的 context 長度:

  • context 長度 128K:得分 84.9%
  • context 長度 1M:得分 26.3%

同一個模型。只是 context 從 128K 拉到 1M,分數掉了將近六十個百分點。

Gemini 3.1 Pro 在 MRCR 測試從 128K 的 84.9% 掉到 1M 的 26.3%

這是 Google 官方技術文件裡的數字,廠商自己把退化寫出來了,只是沒放在頭條。

超過甜蜜點會發生什麼

context 過長的三種症狀:忘了、搞混、太自信

一:AI 會開始「忘」❓

常見症狀:

  • 三小時前明確交代的規則,它忘了,又做了明明禁止的事
  • 前面問過的問題,它現在問第二次
  • 把它導向 A 話題,聊一會兒又自己飄回 B
  • 同一段指令寫了兩次,前後版本不一樣

這些症狀的根源是注意力被稀釋(不是 AI「壞掉」)。context 太長,它很難同時記住所有訊息,就像同時開二十個 Chrome 分頁電腦會卡一樣。

二:AI 會開始搞混 ☁️

比「忘」更麻煩的是「搞混」。給它一堆相似但不完全一樣的段落(例如五份合約不同版本、五篇論文對同個概念的不同定義、或三小時內的十次工具輸出),它會開始把這些段落搞混。

它不會明說自己分不清楚。它會自信地給一個答案,但那個答案可能是把第二版的合約條款跟第四版的數字配在一起。

這就是為什麼 Google 的 MRCR 分數從 84.9% 掉到 26.3%。128K 時還能分清楚 8 個相似片段中的第 5 個;到了 1M,差不多只能分對四分之一。(按:MRCR 分數指測試模型在長上下文中是否「還記得/理解」的分數)

三:AI 會變得過度自信(幻覺)

這點最陰險。Context 太長、模型其實抓不準細節時,它不會表明不確定,而是會生成一個聽起來很合理但實際錯誤的答案。

對深度使用者來說,這是最危險的情境:以為它做對了,其實它在 1M 的深處某個角落抓錯了。

對一般使用者:能帶走的三件事

一般使用者三件事:不越長越好、感覺鈍就開新、重要任務乾淨起手

每天用 ChatGPT / Claude / Gemini 對話、不做 agentic coding 這類重度任務的人,記住三件事就夠了。

第一、對話視窗不是越長越好。

很多人覺得一路跟它聊它就會越來越懂自己。實際上相反:聊得越長,它忘得越多、搞混得越嚴重。

第二、感覺它開始變笨了,就開新對話。

什麼是「鈍」?就是上面列的那些症狀:重複問、忘規則、跳話題。一出現這些,別硬撐。複製當前問題,另開一個乾淨的對話視窗貼進去。十秒的動作,換回品質。

第三、重要任務一開始就給乾淨的 context。

要 AI 寫一篇長文、做一個重要決策的分析、審一份合約,別讓它繼承半小時前聊日常的那個對話。開新的,把相關資料集中貼過去,從乾淨狀態開始。

加碼:請 AI 幫你寫「接手 prompt」

要開新對話但又怕失去 context?最佳解法:叫目前這個 AI 幫你寫一份接手 prompt,拿到後貼到新對話繼續。具體範本在下面「懶人包」那一節,點複製按鈕貼到 ChatGPT / Claude / Gemini 都通用。

對深度使用者:要關注的就是 token 數

跑 Claude Code、ChatGPT Codex、或任何 agentic loop 的人,必須把「context 管理」當成一項主動技能。

幾個具體動作:

關注 token 使用量。 Claude Code 會顯示當前 session 的 token 進度,你也可以使用 statusline 去進行即時監控。超過 200K 就要警覺,而超過 300K 基本上該考慮 compaction 或新的對話。

做 compaction。 Anthropic 官方文件推薦的 /compact 指令會把當前對話壓縮成摘要。不要等到 1M 接近滿才做,200K 左右就可以做了。

結構化交接(handoff)。 長任務拆成多個 session,每個 session 結束寫一個簡短的「交接檔」記錄做了什麼、下一步要做什麼。我自己是會在專案內開 context.md & status.md,分別儲存專案的基本資訊與進度,如此也能讓下個 session 從交接檔 + 最小必要資訊中繼續工作。

大而穩定的背景做 cache。 整個 code base 不要每次重傳,用 prompt caching 把穩定的部分做成 prefix 快取,動態的問題留在當下 prompt。

看官方「1M NIAH 99%」宣稱要先問:是哪種測試。 NIAH(單針檢索)在 1M 很漂亮,但日常工作更像 MRCR(多針辨識)。宣傳看看就好,實戰照 200-300K 管理。

四個實用 prompt 範本:起手、接手、自檢、摘要

懶人包:4 個 prompt 範本

下面這 4 段可以直接點複製按鈕,貼到任何 AI 對話裡。把 [xxx] 換成自己的內容就能用。

1. 重要任務乾淨起手 prompt

開始一個新的重要任務之前,先用這段讓 AI 「專注」到要做的事上,避免被前面聊過的東西干擾。

現在要開始一個重要任務:[一句話描述這個任務]

背景:[2-3 行必要脈絡]
目標:[1-2 行期待的成果]
回覆偏好:[1-2 個 constraint,例如:用繁中回覆、不要列太多條]

在開始前,請先重述你對這任務的理解,確認後再往下。有任何不確定的地方,直接說「不確定」,不要猜。

2. 叫 AI 幫你寫「接手 prompt」

對話快到上限、感覺開始鈍了,但手上的 context 又捨不得丟?用這段讓目前這個 AI 自己整理交接檔。

這輪對話可能快到 context 上限了。請寫一段接手 prompt,讓接手者能貼到新的對話繼續。需要包含:

1. 核心結論:已經決定了什麼、為什麼
2. 進行中的問題:還沒解決、卡住、等確認的部分
3. 對使用者的理解:偏好、正在做的事、風格傾向

目標 300-500 字,越精準越好。

3. 請 AI 自檢「有沒有變笨」

不確定目前對話狀態還好不好,直接問它。

請誠實評估這輪對話:

- 大概聊多長了?(估 token 數就好)
- 之前交代的規則或資料,現在還抓得住嗎?如果已經模糊,哪些模糊?
- 現在直接繼續比較好,還是建議開新對話?

如果狀態還好就說「清楚,可以繼續」。

4. 把對話壓成摘要

想保留對話精華但丟掉雜訊。這個比「接手 prompt」更精簡,適合收尾存檔或轉貼給朋友。

請把目前為止的對話壓縮成一段摘要,保留:

- 所有決定和主要理由
- 進行中、還沒解決的問題
- 關鍵資料和數字

不需要保留:閒聊、重複的討論、已經否決的想法。目標 200-400 字。

這 4 段值得每天備在手邊。Prompt 1 是最常用的(開始做事前);Prompt 2 是救命用的(快爆了但不想重來);Prompt 3 是偵錯用的(覺得 AI 變怪就問);Prompt 4 是收尾用的(要存檔或分享)。

工作邏輯小結

把 1M context 當冰箱:分類整理、常用 vs 當前 vs 可丟棄

實戰下來真正決定品質的關鍵是能不能清晰簡潔地表達需求。寫多少是模型提供的容量許可,怎麼排、什麼順序、什麼時候清,才是工作思維的體現。

把 1M 當冰箱:可以買一台大的,但買了之後更該學的是怎麼分類、哪些常用放前面、過期的定期清理。塞滿的冰箱跟小冰箱一樣,都會讓人找不到想吃的那罐優格。

AI 也是一樣。容量變大是好事,但用得好才是真的省時間。

非 coding 場景的經驗法則仍在累積中。法律文件分析、長篇財報解讀、多篇論文跨比較,這些場景的實戰經驗較少、社群討論也相對少,期待社群繼續累積。

延伸閱讀


資料來源

小企鵝的經驗

小企鵝每天主力是 Claude Code 和 Codex,跑長 session 時 200K 那條線真的有感。Claude Code 的 token 進度條過 200K 之後,明顯會開始忘前面交代的規則;過 300K 基本上就會主動 /compact 或開新 session 用交接檔接續。Claude 的回覆風格在所有模型裡最喜歡,但長對話一樣會鈍,不能因為它好用就一路滾到底。日常 ChatGPT / Gemini / Perplexity 對話也是同樣道理,重要任務一定開乾淨的視窗,沒例外。

常見問題

Q: 為什麼 context 太長 AI 會變笨?

模型的注意力會被稀釋。context 太長,它很難同時記住所有訊息,就像同時開二十個分頁電腦會卡一樣。Google 自己公布的 Gemini 3.1 Pro 測試數據顯示,同一個模型 context 從 128K 拉到 1M,分數從 84.9% 掉到 26.3%。

Q: 200-300K 的甜蜜點是廠商告訴我的嗎?

不是。這個數字沒有出現在任何一家廠商的規格表。它是 Reddit、Hacker News、Claude Code 社群累積八個月的實戰經驗累積出來的經驗法則,最早出現在 2025 年 8 月 7 日 r/OpenAI 的一個留言。

Q: 一般使用者需要做什麼?

三件事。第一、對話視窗不是越長越好。第二、感覺 AI 開始鈍就開新對話。第三、重要任務一開始就給乾淨的 context,別讓它繼承日常閒聊的對話。


整理:Penna|小企鵝 Penchan