用过 Claude Code 的人大概率都有过这个瞬间:聊了半小时,AI 突然忘了你十分钟前说过什么;调个 Playwright 抓个网页,56KB 原始数据直接糊进上下文;一次查二十条 GitHub issue,又吃掉 59KB。
这是 AI 编程工具的「上下文陷阱」——每个工具调用都在往 200K 的窗口里塞数据,塞满了 AI 就开始「失忆」。结果就是:跑 30 分钟,对话就崩。
GitHub 上一个叫 context-mode 的开源项目,把这个问题直接干到 98% 压缩。它登顶了 Hacker News,被 Anthropic 官方 Claude Code 仓库 issue #34391 收录,过去一个月 GitHub 涨了上千星。
一个数字:98%
context-mode 是个 MCP server,挂在 Claude Code 和工具输出之间当「中间人」。官方实测数据:原本 315KB 的工具输出,经过它只剩 5.4KB。最极端情况下,56KB 的网页快照直接压到 299 字节,99% 砍掉。
数字是亮眼,但更关键的是它解决了三个具体问题:
第一,工具输出爆炸。Playwright 抓个网页 56KB、GitHub 二十条 issue 59KB、access log 一条 45KB。这些「原始数据」全塞进 200K 上下文,等于刚跑半小时就把窗口烧掉 40%。
第二,会话时长断崖。原本 AI 编程能持续 30 分钟不崩,装上之后实测 3 小时——6 倍。窗口还是 200K,只是每个 token 都被「精打细算」地用。
第三,决策记忆丢失。AI 犯过的错,重置上下文之后就忘了,下次还会再犯。context-mode 做了个「决策追踪」,把每次失败的尝试都记下来,下次重启还能记得「这条路径走过,堵了」。
它怎么做到的
原理是「沙箱 + 索引」:工具返回的原始数据先扔进本地 SQLite 数据库,做全文本索引;需要用的时候再按需查回,不是一股脑全塞进 AI 脑子里。
有点像搜索引擎——你不希望浏览器把全网都下载下来,AI 也不希望把工具的原始输出都收进上下文。
具体的压缩链路分三步:
拦截:工具调用结果不进 200K 主上下文,先落本地 SQLite 索引:原始数据全文索引,保留关键字 + 摘要 注入:只把「这一轮 AI 真正需要的部分」按需注入回上下文(默认 299 字节一个引用)
作者 Mert Köseoğlu 本人是做 MCP Directory 的,100K+ 每日请求,他观察到的现象是:所有 MCP server 都在「往上下文里倒数据」,没人解决「输出端」的浪费。Cloudflare 之前发过一篇 Code Mode 博客,压缩的是工具「定义」;context-mode 压缩的是工具「输出」。同一思路,方向相反。
同类工具生态一览
context-mode 不是唯一做这件事的,过去半年冒出来一批:
mksglu/context-mode | ||||
rtk | ||||
8v | ||||
headroom | ||||
mnemon | ||||
snip | ||||
ultracontext |
context-mode 的差异点是「Hook 自动触发」+「支持 15 个主流平台」+「MIT/Elastic 协议可商用」。HN 评论里有人评价「比 rtk/v8 走得更远,但不如 headroom 通用」——大致是中肯的。
HN 评论区里大佬怎么评
登顶 Hacker News 那天(v1.0.0 发布帖),3 个小时内有三十多条评论,几个核心观点:
esperent:「这种站点的信息密度低得发指,但 GitHub 仓库做得很扎实。」 技术评测者:「压缩比 98% 是 56KB → 299 字节这种'快照式'压缩,主对话 200K 实际省下的没这么夸张,60-80% 是更真实的预期。」 怀疑者:「每个工具 hook 都得自己维护,平台一升级就可能挂。」 支持者:「如果它真能稳定把 token 砍一半,企业愿意为它付钱。」
评论区最中肯的一条总结:「RTK 和 8v 是类似的工具,headroom 是互补的。但 context-mode 走得更远——它是第一个明确把 'AI 编程的 token 成本' 作为头号问题来解的。」
15 个平台都支持
context-mode 通过三种方式接入:Hooks(自动)、Plugin(手动)、Instruction File(指令文件)。支持列表:
主流的 AI 编程工具基本都接得上。
三分钟上手指南
如果你用 Claude Code,安装就一行命令:
/plugin install context-mode装完之后不需要额外配置,所有工具调用自动走 context-mode 的沙箱。如果想看效果,可以在 Claude Code 里跑一个稍微复杂的任务(比如「帮我把这个 repo 的 50 个 issue 按优先级排个序」),看 5 分钟后的 token 用量。
GitHub 仓库 mksglu/claude-context-mode,MIT/Elastic 双协议——前者允许随便用,后者禁止拿代码去做竞品 SaaS。
这事背后更大的趋势
context-mode 这类工具的爆火,暴露了一个被掩盖的事实:AI Agent 时代最稀缺的资源不是算力,是上下文。
模型厂商卷参数、卷速度、卷价格,但没人在卷「如何让一个 200K 窗口跑得久一点」。原因也简单——给窗口扩到 1000K 是「卖更贵的 API」,而把 200K 用到极致是「省客户的 token」。前者赚钱,后者不赚钱。
所以这类「上下文压缩层」才会是开源 + 工具层的机会:厂商不做的,社区做;商业 SaaS 不会主动优化 token 消耗的(多赚的钱就少了),开源工具会。
对普通用户的间接影响:当 token 成本被打到原来的 1/50 时,意味着原来 Plus 套餐干得起的活,未来可能免费套餐就能干。AI 编程的门槛正在被这类工具悄悄拉低。
对企业的连锁反应:Agent 平台、SaaS 公司、自己跑 Agent 的团队——所有按 token 计费的业务都会重新算账。context-mode 这种工具如果普及,「单位 token 的有效产出」会变成新的竞争维度。
AI 编程的下半场,比的不是「谁家模型更聪明」,是「谁家工具链更省 token」。
夜雨聆风