3 分钟 AI 学院 | 百万上下文到齐了,然后呢?

2026年3月，三大模型厂终于都喊出了"1M上下文"。但真正用过的人都知道——能装和能用是两码事。

前几天AI圈有个挺有意思的现象：OpenAI的GPT-5.4、Anthropic的Claude Opus 4.6、Google的Gemini 3.1 Pro，这三个当红模型在同一个月全部支持了100万token的上下文窗口。

媒体标题一出来，群里一片欢呼。

然后很快就有实操的人回来泼冷水。

用Claude Code的开发者说，context变成1M之后反而觉得体验下降了——因为系统很少自动压缩历史对话，聊着聊着context就越来越乱。

另一位搞coding agent的朋友更直接："GPT-5.4的1M上下文真的赶鸭子上架，犯了好多超级低级的指令不遵循错误。"

说白了：能塞进去的东西，不代表模型真的记得住。

一把尺子量三家

谁家长上下文更好用，得拿数据说话。目前业内最认的测试叫MRCR v2（Multi-Round Coreference Resolution，多轮指代消解）。

这个测试的名字听起来很学术，实际套路很简单：给模型扔一堆干扰文本，里面藏了8条需要记住的信息，然后让模型把第几条信息对应什么内容答出来。

8条信息同时追踪，对模型记忆力是个硬考验。

分数出来了，差距相当大：

模型	上下文长度	MRCR v2 得分
Claude Opus 4.6	1M	76.0%
GPT-5.4	1.1M（付费模式）	36.6%
Gemini 3.1 Pro	1M	26.3%

数据来自各家官方文档和第三方评测平台 1[3]。

你看，同样是号称1M上下文，Claude拿到的分数是Gemini的近3倍。

更值得注意的是另一组数据：在128K（只有1M的八分之一）的范围内，三家的分数其实差不多，都在85%左右 [4]。

这说明了一个事实——短上下文大家都能打，拉开差距的是超长距离的记忆可靠性。

为什么1M这么难

很多人以为context window大就是一个数字游戏：我把序列长度从128K加到1M，模型自然就能读更多内容。

问题没这么简单。

核心瓶颈在于attention机制的计算方式。Transformer模型在处理每个token时，需要跟它前面出现过的所有token做相似度计算。序列越长，这个计算的复杂度越高，模型越容易在海量信息中"走丢"。

打个比方：

想象你在图书馆找一本书。128K上下文相当于你在一个中型书架间里找书——虽然不算容易，但至少你知道大概在哪一排。到了1M，相当于整个大学城的所有图书馆的书全摊在你面前，而你只能靠模糊的印象去找某一本特定的书。

Google最早（2024年初）就实现了1M上下文，一度是行业唯一。但他们家模型在1M场景下的表现一直不尽如人意，从2.5 Pro的16.4%到3.1 Pro的26.3%，几年时间只涨了不到10个百分点 [5]。

而Anthropic保守了整整两年，直到2026年2月才在Opus 4.6上放出1M beta，第一次就跑出了76%的成绩——比Google同期的1M性能好4倍。

Anthropic的工程团队后来在博客里解释了他们的思路：

"等待更大的上下文窗口看起来显然是一个好策略。但很可能在未来很长一段时间内，无论多大的context window都会面临上下文污染和信息相关性的问题。解决方案不是增加容量，而是更好地管理现有容量。"

这句话翻译成大白话就是：与其拼命堆窗户面积，不如先把窗户擦干净。

OpenAI的取舍：宁可不要1M

还有一个值得注意的选择：OpenAI的GPT-5.2版本主动把上下文收缩回了256K。

也就是说，GPT-5.2根本不支持1M。

这看起来像退缩，但实际上是一种战略选择。GPT-5.2的设计哲学是：与其做一个1M但可用性很差的模型，不如把256K以内的性能做到极致。在4K到256K的范围内，GPT-5.2的表现非常稳定，大部分日常任务完全够用 [6]。

到了GPT-5.4，OpenAI又回到了1M，但这个1M变成了付费功能——你需要花双倍的钱才能使用1M上下文，标准模式只给到272K。

这其实是另一个信号：大厂也在试探市场的真实需求。到底有多少人真正需要1M上下文？愿意为这部分能力付多少溢价？答案还在收集过程中。

短期记忆 vs 长期记忆

我们日常跟AI对话时积累的对话历史，严格来说不算是"长期记忆"。它更像是聊天过程中的短期工作记忆——用完就没了。

真正的长期记忆场景是这样的：你希望模型能跨会话记住你的项目结构、偏好、历史决策。这需要不同的技术方案，比如RAG（检索增强生成）、向量数据库、知识图谱等。

但现在长上下文能力的进步，正在模糊这两者的边界。

有一个叫MSA（Memory Sparse Attention）的研究方向就在尝试把部分记忆能力直接内化到模型内部——让模型自己学会在超长历史中选择性地访问相关信息，而不是把所有东西一股脑地塞进attention窗口里 [7]。

这条路还远，离生产可用有距离。但它指向了一个清晰的趋势：

未来AI系统的记忆架构，很可能是模型内部记忆和外部记忆系统的混合体。

哪些记忆需要保持在模型内部（推理连续性优先），哪些应该留在外部（更新和审计优先）？

给普通用户的几个建议

聊完技术层面的东西，回到实际应用层面。对大部分用AI的人来说，有几点可以留意：

第一，别被"最大支持xxx token"这个数字迷惑。标称100万和实际能在100万里可靠地找到你要的信息，中间差了十万八千里。如果必须处理超长文本，现阶段Claude Opus系列相对更靠谱一些。

第二，对于大多数日常任务，128K已经足够了。一篇论文加几段代码再加半小时的对话记录，通常不会超过这个量级。在这个范围内，各家模型的性能差异很小。

第三，如果你在用AI写代码或者做研究，好好维护你的上下文质量。同样一个工具，同样的模型，不同人用起来效果差很多。差距往往不在模型本身，而在你给模型提供了什么样的"上下文脚手架"——你的规则文档、领域知识沉淀、项目说明文件，这些才是决定AI输出质量的杠杆点 [8]。

写这些上下文文档的动作本身，会迫使你把脑子里那些说不清楚的隐性经验变成显式的文字规则。这个"显式化"的过程，才是真正的价值所在。

最后

去年这个时候，大家都在争论"context窗口的尽头是多少"。今年的讨论已经转向了"context reliability"——即模型在给定上下文中真正可用的程度。

学术界有人总结得挺到位：

"把一个百万token塞进窗口只是工程问题。让模型真正用上存在第60万token位置上的信息，那才是科学问题。" [9]

工程问题总有上限。科学问题没有尽头。

下次再看到谁家发布了更大的上下文窗口，你可以先问一句：那又怎样？

参考资料

[1] Anthropic, "Sonnet 4.6 System Card," system performance benchmark. https://docs.anthropic.com/en/docs/system-card-sonnet-4-6

[2] OpenAI, "GPT-5.4 technical report and benchmarks." https://openai.com/research/gpt-5-4

[3] contextarena.ai, "Long Context Leaderboard." https://contextarena.ai

[4] Google, "Gemini 3.1 Pro model card and technical report." https://storage.googleapis.com/deepmind-media/gemini/gemini_v3_1_report.pdf

[5] The March 2026 Frontier, "The context-window arms race is over." https://www.themarch2026frontier.com/context-race-over

[6] OpenAI Blog, "Introducing GPT-5.2." https://openai.com/blog/gpt-5-2

[7] EverMind-AI, "MSA: Memory Sparse Attention." https://github.com/EverMind-AI/MSA

[8] Morph research, "SWE-Bench Pro scaffold comparison study," 2026.

[9] Michelangelo evaluation (arXiv 2409.12640), "Crossing the long-context valley." https://arxiv.org/abs/2409.12640