一百萬 token 的甜蜜陷阱：AI 給你 1M 上下文，為什麼高手都只用 20 萬

💡 趕時間？ 👉 點我前往懶人包

ChatGPT、Claude、Gemini 最近都支援「一百萬 token 上下文」。聽起來很猛：整本書丟進去、整個專案的程式碼一次讀完、半年的對話紀錄完整保留。

問題是實戰會踩到坑。Claude Code 跑一個任務，對話延伸到大概四十萬 token 後，常會出現怪事：三小時前明確交代的規則，它忘光了；十分鐘前剛回答的問題，它又問一次；同一段指令前後寫了兩個完全不一樣的版本。

我去調查了一下社群上的心得，發現大家都一樣。下面把社群與官方文件累積出來的經驗整理清楚。

兩種人最該讀：(a) 每天用 ChatGPT 對話、不知道「對話太長會出事」的一般使用者；(b) 在做 agentic coding、想搞清楚為什麼 Claude Code session 越聊越笨的深度使用者。

先講結論

三家主流大模型目前的支援規格：

Claude Opus 4.7：1M token 上下文
Gemini 3.1 Pro：1M token 上下文
ChatGPT 5.5：1M token 上下文

1M token 大約是八十萬個中文字。整本《紅樓夢》塞進去還有剩。

但這個 1M 是容量上限，不是最佳工作區。模型確實能讀進去，沒說謊；AI 廠商沒告訴使用者的是：讀進去之後，處理品質會隨著 context 塞得越滿而下降。

社群累積出來的實戰共識很明確：真正能維持高品質的區間天花板是介於 200K 到 300K 之間，超過 250K 就進入明顯變鈍的區域。這個數字的源頭純粹在 Reddit、HackerNews、Claude Code 社群，沒有任何一家廠商的規格表寫過。累積八個月的使用經驗撈出來的。

甜蜜點怎麼算出來的

三軌調查：瀏覽 Reddit 論壇、翻廠商技術文件、讀學術論文

可查到的線索分三類：(a) 社群高讚貼文 10 篇以上、(b) 三家廠商官方技術文件、(c) 學術 benchmark 論文。

社群這邊

最早把甜蜜點講成具體數字的貼文，是 2025 年 8 月 7 日 Reddit 上 r/OpenAI 一個討論串底下的留言：「I find 200 to 300k to be the sweetspot」（二十萬到三十萬最剛好）。

之後這個講法像接力一樣傳開，有人加碼寫「過二十萬以後就開始下坡」、「120K 左右就開始會忘」。到 2026 年 4 月的 HackerNews，「維持 250k 以下」已經變成大家默認的行規，沒人反駁。

九個月、幾個貼文，累積出一條現行 AI 使用的經驗法則。

廠商這邊

三家廠商自己都默默承認了退化問題，只是藏在技術文件裡。

Anthropic 的 Claude Code 官方最佳實踐有這樣一句：「context 視窗填得越滿，表現越差。」他們甚至建議長任務要主動「重置對話」，別讓它一路滾到底。

OpenAI 過去在 ChatGPT 的 prompting guide 裡寫，當任務需要「掌握整個 context 的狀態」做複雜推理，長 context 的表現會退化。

Google 最含蓄，但他們在 Vertex AI 文件裡教使用者的重點其實是「怎麼不浪費 1M」，而非把它塞滿。

三家的共同訊息：1M 能用，但實戰上必須主動管理。

學術這邊

最震撼的數字來自 Google 自己公布的 Gemini 3.1 Pro 技術文件。同一個模型、同一個測試（叫做 MRCR，簡單說就是「在一堆相似的段落裡找出正確那一段」），兩個不同的 context 長度：

context 長度 128K：得分 84.9%
context 長度 1M：得分 26.3%

同一個模型。只是 context 從 128K 拉到 1M，分數掉了將近六十個百分點。

Gemini 3.1 Pro 在 MRCR 測試從 128K 的 84.9% 掉到 1M 的 26.3%

這是 Google 官方技術文件裡的數字，廠商自己把退化寫出來了，只是沒放在頭條。

超過甜蜜點會發生什麼

context 過長的三種症狀：忘了、搞混、太自信

一：AI 會開始「忘」❓

常見症狀：

三小時前明確交代的規則，它忘了，又做了明明禁止的事
前面問過的問題，它現在問第二次
把它導向 A 話題，聊一會兒又自己飄回 B
同一段指令寫了兩次，前後版本不一樣

這些症狀的根源是注意力被稀釋（不是 AI「壞掉」）。context 太長，它很難同時記住所有訊息，就像同時開二十個 Chrome 分頁電腦會卡一樣。

二：AI 會開始搞混 ☁️

比「忘」更麻煩的是「搞混」。給它一堆相似但不完全一樣的段落（例如五份合約不同版本、五篇論文對同個概念的不同定義、或三小時內的十次工具輸出），它會開始把這些段落搞混。

它不會明說自己分不清楚。它會自信地給一個答案，但那個答案可能是把第二版的合約條款跟第四版的數字配在一起。

這就是為什麼 Google 的 MRCR 分數從 84.9% 掉到 26.3%。128K 時還能分清楚 8 個相似片段中的第 5 個；到了 1M，差不多只能分對四分之一。（按：MRCR 分數指測試模型在長上下文中是否「還記得/理解」的分數）

三：AI 會變得過度自信（幻覺）

這點最陰險。Context 太長、模型其實抓不準細節時，它不會表明不確定，而是會生成一個聽起來很合理但實際錯誤的答案。

對深度使用者來說，這是最危險的情境：以為它做對了，其實它在 1M 的深處某個角落抓錯了。

對一般使用者：能帶走的三件事

一般使用者三件事：不越長越好、感覺鈍就開新、重要任務乾淨起手

每天用 ChatGPT / Claude / Gemini 對話、不做 agentic coding 這類重度任務的人，記住三件事就夠了。

第一、對話視窗不是越長越好。

很多人覺得一路跟它聊它就會越來越懂自己。實際上相反：聊得越長，它忘得越多、搞混得越嚴重。

第二、感覺它開始變笨了，就開新對話。

什麼是「鈍」？就是上面列的那些症狀：重複問、忘規則、跳話題。一出現這些，別硬撐。複製當前問題，另開一個乾淨的對話視窗貼進去。十秒的動作，換回品質。

第三、重要任務一開始就給乾淨的 context。

要 AI 寫一篇長文、做一個重要決策的分析、審一份合約，別讓它繼承半小時前聊日常的那個對話。開新的，把相關資料集中貼過去，從乾淨狀態開始。

加碼：請 AI 幫你寫「接手 prompt」

要開新對話但又怕失去 context？最佳解法：叫目前這個 AI 幫你寫一份接手 prompt，拿到後貼到新對話繼續。具體範本在下面「懶人包」那一節，點複製按鈕貼到 ChatGPT / Claude / Gemini 都通用。

對深度使用者：要關注的就是 token 數

跑 Claude Code、ChatGPT Codex、或任何 agentic loop 的人，必須把「context 管理」當成一項主動技能。

幾個具體動作：

關注 token 使用量。 Claude Code 會顯示當前 session 的 token 進度，你也可以使用 statusline 去進行即時監控。超過 200K 就要警覺，而超過 300K 基本上該考慮 compaction 或新的對話。

做 compaction。 Anthropic 官方文件推薦的 /compact 指令會把當前對話壓縮成摘要。不要等到 1M 接近滿才做，200K 左右就可以做了。

結構化交接（handoff）。 長任務拆成多個 session，每個 session 結束寫一個簡短的「交接檔」記錄做了什麼、下一步要做什麼。我自己是會在專案內開 context.md & status.md，分別儲存專案的基本資訊與進度，如此也能讓下個 session 從交接檔 + 最小必要資訊中繼續工作。

大而穩定的背景做 cache。 整個 code base 不要每次重傳，用 prompt caching 把穩定的部分做成 prefix 快取，動態的問題留在當下 prompt。

看官方「1M NIAH 99%」宣稱要先問：是哪種測試。 NIAH（單針檢索）在 1M 很漂亮，但日常工作更像 MRCR（多針辨識）。宣傳看看就好，實戰照 200-300K 管理。

四個實用 prompt 範本：起手、接手、自檢、摘要

懶人包：4 個 prompt 範本

下面這 4 段可以直接點複製按鈕，貼到任何 AI 對話裡。把 [xxx] 換成自己的內容就能用。

1. 重要任務乾淨起手 prompt

開始一個新的重要任務之前，先用這段讓 AI 「專注」到要做的事上，避免被前面聊過的東西干擾。

現在要開始一個重要任務：[一句話描述這個任務]

背景：[2-3 行必要脈絡]
目標：[1-2 行期待的成果]
回覆偏好：[1-2 個 constraint，例如：用繁中回覆、不要列太多條]

在開始前，請先重述你對這任務的理解，確認後再往下。有任何不確定的地方，直接說「不確定」，不要猜。

2. 叫 AI 幫你寫「接手 prompt」

對話快到上限、感覺開始鈍了，但手上的 context 又捨不得丟？用這段讓目前這個 AI 自己整理交接檔。

這輪對話可能快到 context 上限了。請寫一段接手 prompt，讓接手者能貼到新的對話繼續。需要包含：

1. 核心結論：已經決定了什麼、為什麼
2. 進行中的問題：還沒解決、卡住、等確認的部分
3. 對使用者的理解：偏好、正在做的事、風格傾向

目標 300-500 字，越精準越好。

3. 請 AI 自檢「有沒有變笨」

不確定目前對話狀態還好不好，直接問它。

請誠實評估這輪對話：

- 大概聊多長了？（估 token 數就好）
- 之前交代的規則或資料，現在還抓得住嗎？如果已經模糊，哪些模糊？
- 現在直接繼續比較好，還是建議開新對話？

如果狀態還好就說「清楚，可以繼續」。

4. 把對話壓成摘要

想保留對話精華但丟掉雜訊。這個比「接手 prompt」更精簡，適合收尾存檔或轉貼給朋友。

請把目前為止的對話壓縮成一段摘要，保留：

- 所有決定和主要理由
- 進行中、還沒解決的問題
- 關鍵資料和數字

不需要保留：閒聊、重複的討論、已經否決的想法。目標 200-400 字。

這 4 段值得每天備在手邊。Prompt 1 是最常用的（開始做事前）；Prompt 2 是救命用的（快爆了但不想重來）；Prompt 3 是偵錯用的（覺得 AI 變怪就問）；Prompt 4 是收尾用的（要存檔或分享）。

工作邏輯小結

把 1M context 當冰箱：分類整理、常用 vs 當前 vs 可丟棄

實戰下來真正決定品質的關鍵是能不能清晰簡潔地表達需求。寫多少是模型提供的容量許可，怎麼排、什麼順序、什麼時候清，才是工作思維的體現。

把 1M 當冰箱：可以買一台大的，但買了之後更該學的是怎麼分類、哪些常用放前面、過期的定期清理。塞滿的冰箱跟小冰箱一樣，都會讓人找不到想吃的那罐優格。

AI 也是一樣。容量變大是好事，但用得好才是真的省時間。

非 coding 場景的經驗法則仍在累積中。法律文件分析、長篇財報解讀、多篇論文跨比較，這些場景的實戰經驗較少、社群討論也相對少，期待社群繼續累積。

小企鵝的經驗

小企鵝每天主力是 Claude Code 和 Codex，跑長 session 時 200K 那條線真的有感。Claude Code 的 token 進度條過 200K 之後，明顯會開始忘前面交代的規則；過 300K 基本上就會主動 /compact 或開新 session 用交接檔接續。Claude 的回覆風格在所有模型裡最喜歡，但長對話一樣會鈍，不能因為它好用就一路滾到底。日常 ChatGPT / Gemini / Perplexity 對話也是同樣道理，重要任務一定開乾淨的視窗，沒例外。

常見問題

Q: 為什麼 context 太長 AI 會變笨？

模型的注意力會被稀釋。context 太長，它很難同時記住所有訊息，就像同時開二十個分頁電腦會卡一樣。Google 自己公布的 Gemini 3.1 Pro 測試數據顯示，同一個模型 context 從 128K 拉到 1M，分數從 84.9% 掉到 26.3%。

Q: 200-300K 的甜蜜點是廠商告訴我的嗎？

不是。這個數字沒有出現在任何一家廠商的規格表。它是 Reddit、Hacker News、Claude Code 社群累積八個月的實戰經驗累積出來的經驗法則，最早出現在 2025 年 8 月 7 日 r/OpenAI 的一個留言。

Q: 一般使用者需要做什麼？

三件事。第一、對話視窗不是越長越好。第二、感覺 AI 開始鈍就開新對話。第三、重要任務一開始就給乾淨的 context，別讓它繼承日常閒聊的對話。

整理：Penna｜小企鵝 Penchan