AI 聊着聊着就＂变笨＂了?——上下文窗口深度解析

本文是「AI 基础设施科普」系列第 4 篇。上一篇我们聊了 Prompt 工程，学会怎么"跟 AI 说清楚"。但还有一个隐藏因素在悄悄影响 AI 的表现——它的工作台大小，也就是今天的主角：上下文窗口。

一、AI 的"工作台"有多大？

想象你面前有一张桌子。你跟 AI 的每一轮对话，都是往桌上放一张纸条——你说的、它回的、你贴上去的参考文档、它生成的代码，全都在桌上。

桌子的大小，就是上下文窗口（Context Window）。

刚开始聊天时，桌上空空荡荡，你说的每一句话 AI 都看得见、记得住。但随着对话越来越长，桌上的纸条越堆越多——终于有一天，桌面满了。新的纸条放上去，最旧的就被推到地上，再也找不回来。

这就是为什么你会经历这种事：

前面聊了半小时 Docker，后面问"回到刚才那个问题"，AI 一脸懵：“哪个问题？”

不是 AI 故意忘，是最早的对话已经被挤出了窗口，它真的看不见了。

二、Token：AI 眼中的"字数"

上下文窗口的大小，用 Token 来衡量。Token 不是字，更像是"语义片段"：

你看到的	AI 看到的（Token 数）
“你好”	1-2 个 Token
“Artificial Intelligence”	2-3 个 Token
“通货膨胀”	2-4 个 Token（中文拆分不固定）

经验换算：

• 1 个 Token 约 0.75 个英文单词
• 1 个汉字约 1.5-2 个 Token（中文比英文"贵"）

所以一个 128K Token 的窗口，大约能装 6 万汉字。2026 年主流模型的窗口动辄 1M（百万 Token），能装下约 50 万汉字——听起来很多，但你要知道，一部长篇小说也就 30-50 万字，你跟 AI 来回聊 50 轮，加上它每次生成 500 字的回答，很快也能填满。

三、各家模型的窗口到底有多大？

2026 年二季度，上下文窗口的竞争已经白热化，形成了清晰的四个梯队：

梯队	海外模型	国产模型	窗口大小
10M 级	Llama 4 Scout	—	10M
2M 级	Gemini 3.1 Pro、Grok 4.20 Beta	—	2M
1M 级	GPT-5.5 Pro、Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.4、Gemini 3.5 Flash、Gemini 3 Flash、Grok 4.3	DeepSeek V4 Pro/Flash、Qwen3.7 Max	1M~1.05M+
256K 级	Grok 4、Mistral Large 3	Kimi K2、混元 Hy3	256K
200K 级	—	GLM-5	200K

数据截至 2026.05.24。1M ≈ 50 万汉字，10M ≈ 500 万汉字（一个书架）。

几个值得注意的细节：

海外阵营

• GPT-5.5 Pro 已正式上线（4 月 23 日发布），1M 上下文，接棒 GPT-5.4 成为 OpenAI 最新旗舰；另有 GPT-5.5（标准版）和 GPT-5.5 Instant（ChatGPT 默认模型）
• Claude Opus 4.7 / Sonnet 4.6 双线 1M 窗口，均已稳定可用，无长上下文溢价
• Gemini 3.1 Pro 2M 窗口已正式 GA（基于 Ring Attention），1M 以内完全稳定，1.5M 以上检索性能有衰减；Gemini 3.5 Flash（5 月 20 日发布）速度达同类 4 倍，也是 1M 窗口
• Grok 4.3（4 月 30 日发布）1M 窗口，输入成本降约 40%；Grok 4 标准版仍为 256K
• Llama 4 Scout 10M 仍是当前公开最长上下文

国产阵营

• DeepSeek V4（4 月 24 日发布）分 Pro 和 Flash 两线，都支持 1M，推理成本较 V3.2 降 90%+，已开源
• Qwen3.7 Max（5 月 20 日发布）1M 上下文，Arena 盲测国产第一，支持 35 小时超长程任务
• Kimi K2（4 月 20 日发布）256K 上下文，但 13 小时不间断编码 + 300 子 Agent 并行的能力让人侧目，已开源
• 混元 Hy3（4 月 23 日发布）256K 上下文，295B 参数/21B 激活，效率提升 40%
• GLM-5（2 月 11 日发布）200K 上下文，744B 参数（A40B 激活），MIT 开源

两三年前，GPT-4 的窗口只有 8K（约 4000 字），现在 1M 成了"标配"，最大的到了 1000 万——涨了上千倍。而且国产模型已经不只是在追赶，DeepSeek V4 和 Qwen3.7 Max 都在 1M 梯队站稳了。

但数字大就一定好吗？ 这里有个很多厂商不会主动告诉你的概念——

宣称 vs 实际有效

厂商公布的叫 Advertised Context（宣称窗口），但社区实测发现，真正能稳定利用的范围叫 Effective Context（实际有效区间），两者经常差距明显：

模型	宣称窗口	实际有效区间
GPT-5.5 Pro	1M	社区实测中
GPT-5.4	1.05M	500K~700K
Claude Opus 4.7	1M	600K 左右较稳
Gemini 3.1 Pro	2M（GA）	1.5M 以内稳定，超过 1.5M 检索衰减
DeepSeek V4	1M	社区实测中
Qwen3.7 Max	1M	Arena 盲测表现优异，超长场景实测中
Llama 4 Scout	10M	更偏检索式长上下文

这就像买了个 1000 平的仓库，但只有中间 600 平能正常存取，角落的东西经常找不到。窗口越大，这个"有效区"和"宣称值"的差距往往也越大。宣称窗口通常是实际有效区间的 1.5-2 倍。

所以现在行业里真正比拼的，已经不是"谁窗口更大"，而是谁能在超长上下文里还能保持推理稳定。

四、冷知识：窗口中间的信息，AI 看得最差

2023 年斯坦福大学的研究发现了一个反直觉的现象，叫做 “Lost in the Middle”（迷失在中间）：

如果你把关键信息放在上下文的最开头或最末尾，AI 能准确找到；但如果放在中间，准确率会骤降到接近 0。

类比一下：你让一个人读一篇 3 万字的文章，然后问他"第 1.7 万字附近写了什么"——大概率答不上来。AI 也一样，它的"注意力"分布不是均匀的，开头和结尾最清晰，中间是盲区。

这给我们的启示：

• 最重要的指令放在开头——系统提示词、核心需求，别藏着掖着
• 最关键的信息也放在开头——"请基于以下背景回答"的背景，放在最前面
• 中间放次要细节——示例、补充说明等
• 结尾再强调一次关键要求——“记住，不要超过 300 字”

这个"开头-结尾强、中间弱"的模式，在所有主流模型上都成立，只是程度不同。

五、窗口用满了会怎样？

当对话长度逼近上下文窗口上限时，通常有三种处理方式（取决于你用的平台）：

处理方式	怎么做的	你会感受到
滑动窗口	自动丢弃最早的对话	AI 忘了前面说过什么
截断	超出部分直接不读	AI 可能漏掉你的最新输入
报错	直接告诉你"太长了"	对话被迫中断

大多数产品用的是滑动窗口——你看不出异常，但 AI 已经"失忆"了。最危险的情况是你以为它还记得，它其实已经忘了。

六、四招省下你的上下文窗口

既然窗口是有限资源，那就要精打细算。以下四个方法，按"省心程度"从高到低排列：

1. 及时开新对话

聊完一个话题就新建对话，别在一个窗口里聊一天。这是最简单也最彻底的——窗口直接清零，AI 重新开始。

2. 用摘要代替原文

让 AI 先把前文压缩成一段摘要，然后把摘要贴到新对话里继续。10 页原文变成 3 行要点，窗口瞬间释放。

实操：“请把我们刚才的讨论总结为 3-5 条关键结论，我需要在新对话中继续使用。”

3. 结构化输入

同样一件事，散文式描述和结构化描述的 Token 消耗差很多：

散文版（约 200 Token）： “我希望你帮我写一个用户注册功能，用户需要填写用户名、邮箱和密码，用户名要 3-20 个字符，邮箱要验证格式，密码至少 8 位包含大小写和数字，注册成功后发一封确认邮件”

结构化版（约 80 Token）：

功能：用户注册
字段：用户名(3-20字符) | 邮箱(格式校验) | 密码(8位+大小写+数字)
后置：发确认邮件

同样的信息量，结构化写法省 60% Token。

4. 把记忆存到外部

如果你用的平台支持 Memory 功能（比如 MEMORY.md 文件），把项目背景、个人偏好、常用规则写进去。这样即使开新对话，AI 也能通过读取 Memory 文件恢复关键信息，不用每次都重新说一遍。

七、一个被忽视的真相：窗口越大，费用越高

如果你用的是按 Token 计费的 API（而不是包月订阅），上下文窗口的消耗直接跟钱挂钩：

• 每次对话，你发送的全部历史 + AI 的最新回复，都要重新计费
• 第 1 轮：100 Token 计费
• 第 10 轮：前面 9 轮 + 第 10 轮，可能 5000 Token 计费
• 第 50 轮：累积可能到 5 万 Token，每一轮都在为全部历史买单

所以，开新对话不只是"省窗口"，也是在省钱。

一句话总结

上下文窗口是 AI 的短期工作台——有限、会满、中间容易丢东西。用好它的关键是：重要的放两头，中间放次要的，满了就开新对话，长期记忆存到外面。

下期预告：AI 怎么做到"上网搜索"、“写文件”、"查数据库"的？答案是一个叫 Tool Use（工具调用） 的机制——下一篇我们拆开看看，AI 是怎么长出"手"来的。

本文是「AI 基础设施科普」系列第 4 篇1. Skills 全解析 | 2. Memory 机制 | 3. Prompt 工程 | 4. 上下文窗口 ← 你在这里系列文章

第1期：AI 时代的「插件革命」—— Skills 全解析
第2期：AI 的「记忆」是怎么工作的？——Memory 机制全解析
第3期：同一个问题，为什么 AI 每次回答都不一样？——Prompt 工程入门