AI聊天太烧钱?这个开源工具帮你砍掉90%的Token

GitHub Trending 周榜第一

AI聊天太烧钱？这个开源工具帮你砍掉90%的Token

14k Star，一周暴涨9400星，Headroom能压缩AI Agent的一切输入——工具输出、日志、代码、RAG文档——砍掉60-95%的Token，答案不变。

云峥AI Lab · 2026.06.06

用Claude Code写一天代码，Token消耗随随便便几十万。用Cursor调个bug，上下文窗口塞满又开始新一轮计费。AI编程确实爽，但月底一看账单——心在滴血。

这周GitHub Trending上冲出一个项目，专门解决这个问题：把AI看到的所有内容先压缩一遍再发出去，同样的问题，同样准确的答案，Token消耗直接砍掉60-95%。

它叫Headroom，14k Star，Apache 2.0开源，支持Python和TypeScript，让我来拆解一下它到底怎么做到的。

💡 原理篇

AI的Token都花在哪了？

你跟AI对话时，真正有用的信息可能只占20%，剩下80%都是冗余

Token消耗的真相

让AI帮你搜代码，返回100条结果——17000多Token，但你可能只需要其中3条。

让AI排查线上故障，塞进去6万Token的日志——92%是无关信息。

让AI做代码仓库探索，灌进去78000Token——近一半是样板代码和空行。

Headroom的逻辑很简单：在内容到达AI之前，先把"水分"挤掉，只留精华。

⚙️ 怎么做到的

6种压缩算法，按内容类型自动选择

不是暴力截断，而是智能识别内容类型后对症下药

三大核心压缩引擎

SmartCrusher — 专治JSON。API返回的一大坨JSON，把重复字段名、空值、默认值干掉，只保留有效载荷。

CodeCompressor — AST级别压缩代码。不是简单去注释去空行，而是基于语法树理解代码结构，保留逻辑、去掉样板。

Kompress-base — 自训练的HuggingFace模型，处理自然语言文本。专门在AI Agent的对话轨迹上训练过，知道哪些词在LLM上下文里是冗余的。

还有：CacheAligner（稳定前缀让KV缓存命中）+ IntelligentContext（重要性打分）+ 图像压缩（40-90%压缩率）

📊 数据说话

官方实测：Token少了，答案没变

在标准基准测试上跑了完整对比

真实场景压缩效果

代码搜索100条结果：17,765 → 1,408 Token，砍掉92%

SRE故障排查：65,694 → 5,118 Token，砍掉92%

GitHub Issue分类：54,174 → 14,761 Token，砍掉73%

代码仓库探索：78,502 → 41,254 Token，砍掉47%

准确率呢？几乎无损

GSM8K数学题：压缩前后准确率完全一致 0.870

TruthfulQA事实问答：压缩后反而从0.530涨到0.560

SQuAD/BFCL工具调用：压缩后仍有97%的检索准确率

🎯 能力一

一行命令包裹你的AI工具

不改代码，不换工具，加个"套子"就省Token

Headroom最香的一点：你不需要改任何现有代码。它用代理模式拦截所有发给LLM的请求，自动压缩后再转发。

支持的AI工具全覆盖：

· Claude Code — 一键wrap

· Cursor — 粘贴一次配置搞定

· Codex — 共享压缩记忆

· Aider / Copilot CLI — 代理启动

· 任何OpenAI兼容客户端 — 走proxy端口

· 任何MCP客户端 — headroom mcp install

🎯 能力二

可逆压缩：删了还能找回来

叫CCR机制，压缩不丢原件

普通的压缩=删信息，但AI有时候确实需要看完整内容怎么办？

Headroom用了一个叫CCR（Compress-Compress-Retrieve）的机制：原始内容存在本地，AI如果发现压缩后的信息不够用，可以通过检索工具自动调取原始内容。

通俗理解：你给AI看了摘要，但原件就放在旁边桌上，AI随时可以拿起来细看。这就是为什么准确率能做到几乎无损。

🎯 能力三

跨Agent共享记忆 + 失败学习

两个很实用的附加能力

跨Agent共享记忆

你同时用Claude Code和Cursor？Headroom在两者之间共享压缩后的上下文记忆，自动去重。不用两个工具重复理解同一份代码。

headroom learn

这个功能很巧：自动挖掘你AI Agent失败的对话记录，把"哪里出错了、该怎么改"写进CLAUDE.md或AGENTS.md。等于AI每次犯错都在自动写笔记，下次不再犯。

⚡ 硬核细节

5个值得关注的点

为什么说这不是个玩具项目

全本地运行：压缩过程全在本地完成，你的代码、日志不会发送到任何第三方服务器。对商业项目友好。

6种接入方式：Python库、TypeScript库、命令行代理、SDK中间件、MCP服务器、Docker镜像。总有一种适合你的技术栈。

自训练模型：Kompress-base是专门在AI Agent对话轨迹上训练的压缩模型，不是通用摘要模型微调，对Agent场景的压缩质量更高。

KV缓存优化：CacheAligner稳定请求前缀，让Anthropic/OpenAI的服务端KV缓存实际命中，这招直接省钱。

图像压缩：支持图像输入的压缩，40-90%压缩率，多模态Agent也能省。

🛠️ 安装

# Python安装（推荐）

pip install "headroom-ai[all]"

# Node / TypeScript

npm install headroom-ai

# 包裹Claude Code（一行命令启用压缩）

headroom wrap claude

# 或者启动代理服务器（所有工具通用）

headroom proxy --port 8787

# 查看省了多少Token

headroom perf

github.com/chopratejas/headroom · Apache 2.0 · Python 3.10+

📝 个人观点

我每天用Claude Code写代码，一个月Token费确实不便宜。Headroom这种"在中间加一层压缩"的思路其实很聪明——你不需要改变使用习惯，不需要换工具，加一个wrap就完事。

CCR可逆压缩机制是核心亮点，这也是为什么敢说"答案不变"。粗暴截断谁都会，但截断了还能随时拿回原件，这才是工程上的正确解法。

适合谁：重度AI编程用户、团队多人用不同Agent的场景、每月Token账单超过100块的。轻度用户暂时不需要，但这个项目值得关注——后面AI工具只会越用越多，Token只会越烧越狠。

觉得有用？转发给也在被Token账单折磨的朋友 😂

云峥AI Lab · 每周分享好用的开源AI工具

关注我，获取更多AI编程实战内容