8.9K Star!这个开源工具能让你的 AI 编程成本暴降 79%,还不用改一行代码

本地运行、零代码改动、实测 48%-79% token 压缩率，同事实测后惊呼"这不就是 AI 界的 gzip 吗"

每个月给 Claude/Cursor/Codex 充几百美金，却发现一大半 token 都浪费在了工具输出的重复 JSON 、废话日志、冗余代码片段上——这种感觉，用过 AI 编程的人应该都懂。

Headroom 就是来解决这个问题的。它在你的 AI Agent 和 LLM 之间加了一层压缩，把那些"模型看了也白看"的信息直接压掉。关键是：答案质量不变， token 立减 60%-95%。

先看一眼硬数据 👇

🏆 成绩单

指标	数据
GitHub Stars	8,900+
语言	Python （ 76.8%）+ Rust （ 18.4%）
许可证	Apache 2.0
PyPI 版本	v0.22.4
核心能力	JSON/AST/文本/图片六种压缩算法
部署方式	库 / 代理 / CLI / MCP 四种
实测压缩率	48.5% - 79.4%
基准测试精度保持	GSM8K ±0.000 ， TruthfulQA +0.030

🎯 一句话：它是一个跑在你本地的 AI 上下文压缩层，数据不出机器， token 直接打骨折。

🤔 它到底干了什么？

简单说：把你的 prompt 里那些"模型不需要全看"的东西，智能瘦身。

你让 Claude 帮你 debug 一个 SRE 事故，它调用了日志搜索工具，工具哗啦啦返回了 100 条日志。其中 80 条是 INFO 级别的正常日志， 15 条 WARN， 5 条 ERROR。

Headroom 会怎么做？它用 SmartCrusher 智能识别出：保留所有 ERROR 、保留跟你的问题相关的 WARN 、保留首尾几条 INFO 作为上下文，中间的 INFO 直接压缩。结果：6,113 token → 3,146 token ，砍掉 48.5%，错误日志一条没丢。

更狠的是电商订单数据测试： 80 条订单， 5,534 token → 1,139 token ，一刀下去砍了 79.4%。

🏗️ 怎么做到的？

Headroom 的核心架构就三层：

层级	组件	干什么
前置	CacheAligner	稳定前缀结构，提高 Anthropic/OpenAI KV 缓存命中率
核心路由	ContentRouter	识别内容类型（ JSON/代码/文本/图片），分发给对应压缩器
压缩引擎	SmartCrusher	通用 JSON 压缩：保留异常项、采样正常项、识别时间序列
	CodeCompressor	AST 感知的代码压缩（支持 Python/JS/Go/Rust/Java/C++）
	Kompress-base	基于 HuggingFace 训练的文本压缩模型
兜底	CCR 可逆压缩	原始数据存本地， LLM 需要时随时 `headroom_retrieve` 拿回来

而且它的设计特别聪明——用户消息默认保护，只压缩工具输出。毕竟你的问题不能乱动，但工具返回的几千行 JSON ？该压就压。

还有一个让人眼前一亮的东西：headroom learn。它能分析你历史上那些失败的 Agent 会话，自动总结教训写到 CLAUDE.md 或 AGENTS.md 里。相当于 AI 帮你管教 AI 😂

🧪 实战演练

我在本地装了 Headroom ，跑了几组真实场景的压缩测试。先看安装有多简单：

安装

pip install "headroom-ai[all]"

实测 1 ： SRE 日志分析

模拟支付网关的 100 条日志（含 10 条 ERROR 、 14 条 WARN 、 76 条 INFO ）：

指标	Before	After	变化
Token 数	6,113	3,146	-48.5%
处理耗时	—	46ms	几乎无感
压缩器	—	SmartCrusher	自动选择
ERROR 保留	10 条	10 条	100%

⚡ 所有错误日志原封不动保留，砍掉的都是重复的 INFO 日志。

实测 2 ：代码仓库文件列表

50 个文件的目录结构压缩：

指标	Before	After	变化
Token 数	1,872	1,192	-36.3%
处理耗时	—	14ms	瞬发

虽然文件列表本身不算大，但 CodeCompressor 的 AST 感知能力在真实代码场景中能发挥更大作用——README 里的数据是代码搜索场景 92% 的压缩率（ 17,765 → 1,408 token ）。

实测 3 ：电商订单数据

80 条订单记录（含客户信息、 SKU 、支付方式）：

指标	Before	After	变化
Token 数	5,534	1,139	-79.4% 🔥
处理耗时	—	35ms	瞬发

这是最夸张的一组。 SmartCrusher 自动识别了重复的订单结构，只保留了关键差异信息。

实测汇总

场景	压缩前	压缩后	压缩率	耗时
SRE 日志（ 100 条）	6,113	3,146	48.5%	46ms
文件列表（ 50 个）	1,872	1,192	36.3%	14ms
电商订单（ 80 条）	5,534	1,139	79.4%	35ms

而且这还只是默认配置。官方 README 里的数据更炸：代码搜索 92%、 SRE 调试 92%、 GitHub Issue 分类 73%。

🎯 怎么接入？四种姿势任选

方式	适合谁	代码改动
Proxy 代理	所有人，最简单	零改动，设个环境变量就行
Library 库	Python/TS 开发者	一行 `compress(messages)`
CLI wrap	Claude Code / Codex / Cursor 用户	`headroom wrap claude`
MCP Server	MCP 客户端	`headroom mcp install`

最推荐的方式是 Proxy ：

headroom proxy --port 8787ANTHROPIC_BASE_URL=http://localhost:8787 claude

一行环境变量，所有工具输出自动压缩。真正零侵入。

而且 Headroom 有一个神奇的 跨 Agent 共享记忆：你在 Claude Code 里学到的东西，切换到 Codex 或 Cursor 时还在。一次踩坑，处处免疫。

🆚 跟同类比一下

工具	覆盖范围	部署方式	本地运行	可逆压缩
Headroom	全上下文（工具/RAG/日志/文件）	代理·库·中间件·MCP	✅	✅
RTK	CLI 命令输出	CLI wrapper	✅	❌
lean-ctx	CLI 命令/MCP 工具	CLI wrapper·MCP	✅	❌
Compresr / Token Co.	文本（需上传到他们 API ）	云端 API	❌	❌
OpenAI 原生 Compaction	对话历史	提供商原生	❌	❌

差距很明显： Headroom 是唯一一个 本地运行 + 全内容类型覆盖 + 可逆压缩 的方案。数据不出机器，这对企业用户来说是个硬需求。

🎯 谁该用？

你……	推荐度	理由
每天用 Claude Code / Cursor 写代码	⭐⭐⭐⭐⭐	一行命令接入， token 立减
团队共用多个 AI Agent	⭐⭐⭐⭐⭐	跨 Agent 共享记忆是杀手功能
在用 LangChain / Vercel AI SDK 做应用	⭐⭐⭐⭐⭐	内置 SDK 集成，一行 middleware
企业自建 Agent ，数据不能出内网	⭐⭐⭐⭐⭐	全本地运行， CCR 可逆压缩
偶尔用 ChatGPT 聊聊天	⭐⭐	杀鸡用牛刀，没必要

总结

Headroom 就像一个给 AI Agent 装的「智能过滤器」——你的数据不离开本地， token 直接打骨折，答案质量完全不变，还能跨 Agent 共享记忆。

8.9K star 、 Apache 2.0 开源、 pip install 一行搞定、 Proxy 模式零代码改动。如果你每个月在 AI 编程工具上的开销超过 20 美金，花 5 分钟装一个 Headroom ，可能比你换一个更便宜的模型效果还好。

毕竟，省下来的 token 就是省下来的钱 💸

项目地址： https://github.com/chopratejas/headroom文档： https://headroom-docs.vercel.app许可证： Apache 2.0Discord： https://discord.gg/yRmaUNpsPJ

觉得有用？点赞转发让更多人看到 💪