AI编程30分钟就废?这个开源神器让我Claude Code干到3小时

用过 Claude Code 的人大概率都有过这个瞬间：聊了半小时，AI 突然忘了你十分钟前说过什么；调个 Playwright 抓个网页，56KB 原始数据直接糊进上下文；一次查二十条 GitHub issue，又吃掉 59KB。

这是 AI 编程工具的「上下文陷阱」——每个工具调用都在往 200K 的窗口里塞数据，塞满了 AI 就开始「失忆」。结果就是：跑 30 分钟，对话就崩。

GitHub 上一个叫 context-mode 的开源项目，把这个问题直接干到 98% 压缩。它登顶了 Hacker News，被 Anthropic 官方 Claude Code 仓库 issue #34391 收录，过去一个月 GitHub 涨了上千星。

一个数字：98%

context-mode 是个 MCP server，挂在 Claude Code 和工具输出之间当「中间人」。官方实测数据：原本 315KB 的工具输出，经过它只剩 5.4KB。最极端情况下，56KB 的网页快照直接压到 299 字节，99% 砍掉。

数字是亮眼，但更关键的是它解决了三个具体问题：

第一，工具输出爆炸。Playwright 抓个网页 56KB、GitHub 二十条 issue 59KB、access log 一条 45KB。这些「原始数据」全塞进 200K 上下文，等于刚跑半小时就把窗口烧掉 40%。

第二，会话时长断崖。原本 AI 编程能持续 30 分钟不崩，装上之后实测 3 小时——6 倍。窗口还是 200K，只是每个 token 都被「精打细算」地用。

第三，决策记忆丢失。AI 犯过的错，重置上下文之后就忘了，下次还会再犯。context-mode 做了个「决策追踪」，把每次失败的尝试都记下来，下次重启还能记得「这条路径走过，堵了」。

它怎么做到的

原理是「沙箱 + 索引」：工具返回的原始数据先扔进本地 SQLite 数据库，做全文本索引；需要用的时候再按需查回，不是一股脑全塞进 AI 脑子里。

有点像搜索引擎——你不希望浏览器把全网都下载下来，AI 也不希望把工具的原始输出都收进上下文。

具体的压缩链路分三步：

拦截：工具调用结果不进 200K 主上下文，先落本地 SQLite
索引：原始数据全文索引，保留关键字 + 摘要
注入：只把「这一轮 AI 真正需要的部分」按需注入回上下文（默认 299 字节一个引用）

作者 Mert Köseoğlu 本人是做 MCP Directory 的，100K+ 每日请求，他观察到的现象是：所有 MCP server 都在「往上下文里倒数据」，没人解决「输出端」的浪费。Cloudflare 之前发过一篇 Code Mode 博客，压缩的是工具「定义」；context-mode 压缩的是工具「输出」。同一思路，方向相反。

工具	类型	节省	平台	定位
`mksglu/context-mode`	MCP server	60-98%	15 个	通用 + Hooks
`rtk`	CLI 代理	60-90%	多	命令输出压缩
`8v`	CLI 调度	—	多	AI Agent 路由
`headroom`	优化层	—	多	上下文质量提升
`mnemon`	持久化记忆	—	多	跨会话记忆图
`snip`	YAML 过滤	60-90%	多	声明式压缩
`ultracontext`	共享基础设施	—	多	Agent 协作

HN 评论区里大佬怎么评

登顶 Hacker News 那天（v1.0.0 发布帖），3 个小时内有三十多条评论，几个核心观点：

esperent：「这种站点的信息密度低得发指，但 GitHub 仓库做得很扎实。」
技术评测者：「压缩比 98% 是 56KB → 299 字节这种'快照式'压缩，主对话 200K 实际省下的没这么夸张，60-80% 是更真实的预期。」
怀疑者：「每个工具 hook 都得自己维护，平台一升级就可能挂。」
支持者：「如果它真能稳定把 token 砍一半，企业愿意为它付钱。」

评论区最中肯的一条总结：「RTK 和 8v 是类似的工具，headroom 是互补的。但 context-mode 走得更远——它是第一个明确把 'AI 编程的 token 成本' 作为头号问题来解的。」

15 个平台都支持

context-mode 通过三种方式接入：Hooks（自动）、Plugin（手动）、Instruction File（指令文件）。支持列表：

平台	Hooks	指令文件	带 Hooks	不带 Hooks
Claude Code	✅	CLAUDE.md	98%	60%
Gemini CLI	✅	GEMINI.md	98%	60%
VS Code Copilot	✅	copilot-instructions.md	98%	60%
JetBrains Copilot	✅	copilot-instructions.md	98%	60%
Cursor	✅	context-mode.mdc	98%	60%
OpenCode	Plugin	AGENTS.md	98%	60%
OpenClaw	Plugin	AGENTS.md	98%	60%
Codex CLI	✅	AGENTS.md	98%	60%
Kiro	✅	KIRO.md	98%	60%
OMP	Plugin	SYSTEM.md	98%	60%
Pi	✅	AGENTS.md	98%	60%
Zed	—	AGENTS.md	60%	60%
Antigravity	—	GEMINI.md	60%	60%

主流的 AI 编程工具基本都接得上。

三分钟上手指南

如果你用 Claude Code，安装就一行命令：

/plugin install context-mode

装完之后不需要额外配置，所有工具调用自动走 context-mode 的沙箱。如果想看效果，可以在 Claude Code 里跑一个稍微复杂的任务（比如「帮我把这个 repo 的 50 个 issue 按优先级排个序」），看 5 分钟后的 token 用量。

GitHub 仓库 mksglu/claude-context-mode，MIT/Elastic 双协议——前者允许随便用，后者禁止拿代码去做竞品 SaaS。

这事背后更大的趋势

context-mode 这类工具的爆火，暴露了一个被掩盖的事实：AI Agent 时代最稀缺的资源不是算力，是上下文。

模型厂商卷参数、卷速度、卷价格，但没人在卷「如何让一个 200K 窗口跑得久一点」。原因也简单——给窗口扩到 1000K 是「卖更贵的 API」，而把 200K 用到极致是「省客户的 token」。前者赚钱，后者不赚钱。

所以这类「上下文压缩层」才会是开源 + 工具层的机会：厂商不做的，社区做；商业 SaaS 不会主动优化 token 消耗的（多赚的钱就少了），开源工具会。

对普通用户的间接影响：当 token 成本被打到原来的 1/50 时，意味着原来 Plus 套餐干得起的活，未来可能免费套餐就能干。AI 编程的门槛正在被这类工具悄悄拉低。

对企业的连锁反应：Agent 平台、SaaS 公司、自己跑 Agent 的团队——所有按 token 计费的业务都会重新算账。context-mode 这种工具如果普及，「单位 token 的有效产出」会变成新的竞争维度。

AI 编程的下半场，比的不是「谁家模型更聪明」，是「谁家工具链更省 token」。