让 Token 消耗暴跌 60-95%
做 AI 编程时最痛的是什么?Token 费用爆炸、上下文窗口不够用、代码片段塞不进去。一个叫 headroom 的开源工具刚刚冲到 GitHub Trending 第一名,今天新增 2,503 颗星,5 个月积累 13,909 stars。它做的事很简单粗暴:把你给 LLM 的所有输入压缩 60-95%,答案质量不变。
1 它是什么
headroom 是一个上下文压缩层(context compression layer),运行在本地,数据永不离开你的机器。它以三种形态存在:
• Python/TypeScript— compress(messages) 直接集成
• 本地代理模式(Proxy) — headroom proxy --port 8787,零代码改动
• MCP 服务器 — headroom_compress / headroom_retrieve / headroom_stats
2 数字说话:压缩效果有多猛
官方在真实工作负载上做了测试:
代码搜索(100条结果)92%
17,765 → 1,408 tokens
SRE 故障调试92%
65,694 → 5,118 tokens
GitHub Issue 分类73%
54,174 → 14,761 tokens
代码库探索47%
78,502 → 41,254 tokens
官方 Demo 演示:10,144 → 1,260 tokens,LLM 同样找到了 FATAL 错误。Live 验证,零剪辑。
精度验证(官方 Benchmark):
GSM8K(数学)Benchmark±0.000
基准 0.870 → 压缩后 0.870,精度完全不掉
TruthfulQA(事实性)Benchmark+0.030
基准 0.530 → 压缩后 0.560,事实性反而提升
BFCL(工具调用)Benchmark97%
32% 压缩下达到 97% 准确率
3 核心原理:三层压缩架构
headroom 内部有一条清晰的处理流水线:
你的 Agent(Claude Code / Cursor / LangChain / 自有代码) │ ▼ ┌─────────────────────────────────────┐ │ Headroom(本地运行,数据不外传) │ │ CacheAligner → ContentRouter │ │ ├ SmartCrusher(JSON) │ │ ├ CodeCompressor(AST) │ │ └ Kompress-base(文本) │ │ CCR(可逆压缩) · 跨Agent记忆 │ └─────────────────────────────────────┘ │ ▼ LLM(Anthropic / OpenAI / Bedrock…)
CacheAligner — 稳定压缩前缀,让 KV Cache 真正命中,对速度提升很关键。
ContentRouter — 自动识别内容类型,JSON 用 SmartCrusher、代码用 CodeCompressor、普通文本用 Kompress-base 模型。
CCR(可逆压缩) — 原文不会被删除,LLM 需要时调用 headroom_retrieve 取回原始内容。压缩 ≠ 丢失。
4 谁在用、怎么用
目前已支持的主流 Agent 一键包装:
Claude Code ✅
--memory / --code-graph
Codex ✅
与 Claude 共享记忆
Cursor ✅
输出配置,一键粘贴
Aider ✅
启动 Proxy 并运行
Copilot CLI ✅
订阅模式 / Token 注入
OpenClaw ✅
ContextEngine 插件
安装只需要一行命令:
pip install "headroom-ai[all]" npm install headroom-ai headroom wrap claude headroom proxy --port 8787 headroom perf
还支持跨 Agent 记忆共享:Claude Code、Codex、Gemini 的上下文可以写到同一个压缩 store,自动去重。
5 为什么它突然爆了
2026 年,AI 编程工具已经普及,但 Token 成本和控制上下文长度始终是痛点。几个原因让 headroom 在近期爆发:
• 多 Agent 协作成为主流:Claude Code + Cursor + Copilot 同时跑,Token 消耗叠加,压缩价值成倍放大
• MCP 协议普及:headroom 作为 MCP Server 接入成本极低
• 本地优先,数据不外传:企业级用户对数据隐私要求高
• 可逆压缩(CCR):不是有损压缩,LLM 随时能取回原文,用户信任度高
6 适合你吗
适合的场景:
• 日常跑 AI 编程工具,想省 Token 的开发者
• 多 Agent 协作,需要共享上下文的团队
• RAG 场景,chunks 太大塞不进窗口
• 需要 reversible compression(压缩可还原)的合规场景
⚠️ 如果你只用单一 Provider 的自带压缩,且不需要跨 Agent 记忆,可能感受不到明显差异。
怎么上手?
GitHub:chopratejas/headroom
文档:headroom-docs.vercel.app
⭐ 13,909 · Fork 880 · Apache 2.0
创建时间 2026-01-07 · 仍在活跃维护
关注我,持续分享 GitHub 开源 AI 项目深度调研 👇
夜雨聆风