GitHub Trending 周榜第一
AI聊天太烧钱?这个开源工具帮你砍掉90%的Token
14k Star,一周暴涨9400星,Headroom能压缩AI Agent的一切输入——工具输出、日志、代码、RAG文档——砍掉60-95%的Token,答案不变。
云峥AI Lab · 2026.06.06
用Claude Code写一天代码,Token消耗随随便便几十万。用Cursor调个bug,上下文窗口塞满又开始新一轮计费。AI编程确实爽,但月底一看账单——心在滴血。
这周GitHub Trending上冲出一个项目,专门解决这个问题:把AI看到的所有内容先压缩一遍再发出去,同样的问题,同样准确的答案,Token消耗直接砍掉60-95%。
它叫Headroom,14k Star,Apache 2.0开源,支持Python和TypeScript,让我来拆解一下它到底怎么做到的。
💡 原理篇
AI的Token都花在哪了?
你跟AI对话时,真正有用的信息可能只占20%,剩下80%都是冗余
Token消耗的真相
让AI帮你搜代码,返回100条结果——17000多Token,但你可能只需要其中3条。
让AI排查线上故障,塞进去6万Token的日志——92%是无关信息。
让AI做代码仓库探索,灌进去78000Token——近一半是样板代码和空行。
Headroom的逻辑很简单:在内容到达AI之前,先把"水分"挤掉,只留精华。
⚙️ 怎么做到的
6种压缩算法,按内容类型自动选择
不是暴力截断,而是智能识别内容类型后对症下药
三大核心压缩引擎
SmartCrusher — 专治JSON。API返回的一大坨JSON,把重复字段名、空值、默认值干掉,只保留有效载荷。
CodeCompressor — AST级别压缩代码。不是简单去注释去空行,而是基于语法树理解代码结构,保留逻辑、去掉样板。
Kompress-base — 自训练的HuggingFace模型,处理自然语言文本。专门在AI Agent的对话轨迹上训练过,知道哪些词在LLM上下文里是冗余的。
还有:CacheAligner(稳定前缀让KV缓存命中)+ IntelligentContext(重要性打分)+ 图像压缩(40-90%压缩率)
📊 数据说话
官方实测:Token少了,答案没变
在标准基准测试上跑了完整对比
真实场景压缩效果
代码搜索100条结果:17,765 → 1,408 Token,砍掉92%
SRE故障排查:65,694 → 5,118 Token,砍掉92%
GitHub Issue分类:54,174 → 14,761 Token,砍掉73%
代码仓库探索:78,502 → 41,254 Token,砍掉47%
准确率呢?几乎无损
GSM8K数学题:压缩前后准确率完全一致 0.870
TruthfulQA事实问答:压缩后反而从0.530涨到0.560
SQuAD/BFCL工具调用:压缩后仍有97%的检索准确率
🎯 能力一
一行命令包裹你的AI工具
不改代码,不换工具,加个"套子"就省Token
Headroom最香的一点:你不需要改任何现有代码。它用代理模式拦截所有发给LLM的请求,自动压缩后再转发。
支持的AI工具全覆盖:
· Claude Code — 一键wrap
· Cursor — 粘贴一次配置搞定
· Codex — 共享压缩记忆
· Aider / Copilot CLI — 代理启动
· 任何OpenAI兼容客户端 — 走proxy端口
· 任何MCP客户端 — headroom mcp install
🎯 能力二
可逆压缩:删了还能找回来
叫CCR机制,压缩不丢原件
普通的压缩=删信息,但AI有时候确实需要看完整内容怎么办?
Headroom用了一个叫CCR(Compress-Compress-Retrieve)的机制:原始内容存在本地,AI如果发现压缩后的信息不够用,可以通过检索工具自动调取原始内容。
通俗理解:你给AI看了摘要,但原件就放在旁边桌上,AI随时可以拿起来细看。这就是为什么准确率能做到几乎无损。
🎯 能力三
跨Agent共享记忆 + 失败学习
两个很实用的附加能力
跨Agent共享记忆
你同时用Claude Code和Cursor?Headroom在两者之间共享压缩后的上下文记忆,自动去重。不用两个工具重复理解同一份代码。
headroom learn
这个功能很巧:自动挖掘你AI Agent失败的对话记录,把"哪里出错了、该怎么改"写进CLAUDE.md或AGENTS.md。等于AI每次犯错都在自动写笔记,下次不再犯。
⚡ 硬核细节
5个值得关注的点
为什么说这不是个玩具项目
全本地运行:压缩过程全在本地完成,你的代码、日志不会发送到任何第三方服务器。对商业项目友好。
6种接入方式:Python库、TypeScript库、命令行代理、SDK中间件、MCP服务器、Docker镜像。总有一种适合你的技术栈。
自训练模型:Kompress-base是专门在AI Agent对话轨迹上训练的压缩模型,不是通用摘要模型微调,对Agent场景的压缩质量更高。
KV缓存优化:CacheAligner稳定请求前缀,让Anthropic/OpenAI的服务端KV缓存实际命中,这招直接省钱。
图像压缩:支持图像输入的压缩,40-90%压缩率,多模态Agent也能省。
🛠️ 安装
# Python安装(推荐)
pip install "headroom-ai[all]"
# Node / TypeScript
npm install headroom-ai
# 包裹Claude Code(一行命令启用压缩)
headroom wrap claude
# 或者启动代理服务器(所有工具通用)
headroom proxy --port 8787
# 查看省了多少Token
headroom perf
github.com/chopratejas/headroom · Apache 2.0 · Python 3.10+
📝 个人观点
我每天用Claude Code写代码,一个月Token费确实不便宜。Headroom这种"在中间加一层压缩"的思路其实很聪明——你不需要改变使用习惯,不需要换工具,加一个wrap就完事。
CCR可逆压缩机制是核心亮点,这也是为什么敢说"答案不变"。粗暴截断谁都会,但截断了还能随时拿回原件,这才是工程上的正确解法。
适合谁:重度AI编程用户、团队多人用不同Agent的场景、每月Token账单超过100块的。轻度用户暂时不需要,但这个项目值得关注——后面AI工具只会越用越多,Token只会越烧越狠。
觉得有用?转发给也在被Token账单折磨的朋友 😂
云峥AI Lab · 每周分享好用的开源AI工具
关注我,获取更多AI编程实战内容
夜雨聆风