AI太烧钱?这个工具帮你节省60%

AI 的成本，很多时候不是花在“不会做事”，而是花在“说得太多”。

一次回答几百、上千个 token 很常见；如果再叠加多轮沟通、上下文回灌、多人协作，成本会继续往上叠。

今天这个工具：Caveman，做的事很直接，让 AI 少说废话，但别少说重点。它不改模型脑子，主要压缩表达层。按项目公开 benchmark 来看，输出 token 在不少场景里能明显下降，平均大约能省60%左右。

先看效果：同样一句话，为什么成本会差这么多

普通模式下，AI 可能会这样解释一个 React 组件为什么反复重渲染：

引用：你的 React 组件之所以重渲染，很可能是因为你在每次渲染时都创建了一个新的对象引用。当你把内联对象作为 prop 传递时，React 的浅比较会认为它每次都是新对象，于是触发重新渲染。建议你使用useMemo来缓存这个对象。

而在Caveman模式下，同样的意思会被压成这样：

引用：每次 render 都新对象。inline object prop = new ref = re-render。用useMemo。

看起来只是“说短了”，但对按 token 计费的系统来说，差别很实际。项目 README 里给出的一个对比是：同类说明从69 token压到19 token。信息没丢，废话少了。

随着沟通轮次增加，省钱效果会更明显

很多人以为 AI 成本是“问一轮，付一轮”。但真实情况更像是：每一轮长回答都会被后续轮次继续带进上下文，轮次越多，历史包袱越重。

Caveman的价值就在这里：它先把每一轮里的冗余压掉，所以轮次越多，累计节省越明显。它省的不只是当前输出，还包括后续上下文膨胀之前那部分本可以不发生的成本。

更多官方数据对比：项目 README 里公开了什么

根据Caveman项目 README 公开的 benchmark，作者列出了 10 组任务对比。结论很直接：平均输出压缩约 65%，不同任务的节省幅度在22%到87%之间。

下面是其中几组代表性数据：

这些数据说明三件事：Caveman的节省可以量化；解释型、分析型、复述型任务压缩更明显；它压的主要是输出 token，不是 reasoning token。也就是说，它不是削思考能力，而是压表达层。

Caveman 到底是什么

Caveman可以理解成一个给 AI coding agent 用的“高密度表达工具”。

它解决的是一个很现实的问题：

自然语言对人类很友好，但对高频 agent 协作来说，往往太啰嗦。

所以它会做几件事：

去掉客套话
去掉填充词
去掉不必要的过渡
压缩完整句包装
保留技术关键词
保留因果关系
保留行动指令
保留代码、函数名、接口名、错误信息这些硬信息

它压掉的不是语义骨架，而是语言包装层。看起来像“说话变糙了”，但在工程协作里反而更高效。

它的核心模式有哪些

Caveman的核心模式可以理解成 4 条主线。

1.lite

轻压缩模式。会去掉明显的废话和客套，但整体还保留比较自然的句子结构。

适合：

日常使用
刚开始上手
还希望回答对人类读者更友好一点

2.full

默认核心模式。压缩更明显，表达更紧凑，更像“工程协作语言”。

适合：

调试
review
方案拆解
高频多轮对话

3.ultra

极限压缩模式。能缩则缩，甚至会大量使用片段句、缩写和箭头表达因果。

适合：

重度技术协作
多 agent 工作流
追求极致 token 效率的场景

4.wenyan

中文压缩路线。它还有更细的分支，比如wenyan-lite、wenyan-full、wenyan-ultra，会往更高密度的中文表达去走。

适合：

中文技术语境
想把输出再进一步压缩
对中文极简表达有兴趣的用户

简单说：

lite比较稳
full最通用
ultra最狠
wenyan最有中文特色

能力版图与前景：它不只是“把回答变短”

如果只把Caveman理解成“让 AI 说话更短”，其实有点低估它了。

从当前项目已经公开出来的能力结构看，它更像是一套面向 agent 的压缩基础设施。能力版图大致可以分成 4 层。

1. 对话层：压缩回答本身

这是最直观的一层。也就是/caveman最核心的工作：减少冗长输出，保留关键语义。

2. 工作流层：压缩 commit、review、状态反馈

项目里不只是主模式，还有像：

caveman-commit
caveman-review
caveman-stats

这意味着它不只是“压回答”，而是在压缩整个技术协作流程里的常见文本环节。

3. 记忆层：压缩长期上下文

像caveman-compress这类能力，针对的是CLAUDE.md、项目笔记、待办列表、长期记忆文件。

这层能力很关键，因为很多 token 不是浪费在“当前回答”里，而是浪费在每次开局都要重新带上的长背景里。项目 README 里给出的数据是，这类记忆文件平均还能压掉约46%。

4. 工具层：压缩 agent 与工具之间的描述成本

像caveman-shrink这类能力，会往 MCP middleware 的方向延伸，去压缩工具描述本身。

这件事很重要。agent 不只是和人说话，还和工具、子 agent、规则文件说话；这些地方一旦都变短，长期节省会更扎实。

所以它真正有意思的地方在于：它不是在优化一条回答，而是在优化整个 agent 工作流里的语言成本。

它为什么真能省：底层逻辑是什么

Caveman的逻辑其实并不神秘。

第一层：LLM 按 token 计费

字越多，token 越多。token 越多，成本越高。

第二层：自然语言本来就有大量冗余

尤其是面向人的自然语言，天然带很多润滑层：

礼貌、过渡、复述、修辞、防冒犯包装、完整句连接词等

这些东西对人类交流有价值，但在高频技术协作里，很多时候并不是必要信息。

第三层：技术任务真正需要的是信息骨架

大多数技术协作，真正有价值的是这些东西：

对象是什么
问题是什么
原因可能在哪
要改什么
怎么验证

只要这些骨架还在，信息就没塌。

第四层：多轮协作里，冗余会复利放大

一条长回答，不只是这一轮贵。它还会成为后面很多轮的历史负担。

所以Caveman节省的不只是当前输出，还包括后续上下文越来越厚之前那部分本可以不发生的膨胀。它做的其实是两件事：

降低单轮表达成本
降低多轮历史负债

这比单纯“让回复简短一点”要值钱得多。

如何安装

如果你只是想先跑起来，最简单的方式是一键安装。

Windows（PowerShell 5.1+）

irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex

macOS / Linux / WSL / Git Bash

curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

项目文档说明，这个安装流程会自动检测你机器上支持的 agent，并尝试走各自的原生安装路径。整个过程大约几十秒，前提是本机已经安装Node >= 18。

如果你是Codex CLI用户，对应的安装方式是：

npx skills add JuliusBrussee/caveman -a codex

从项目公开文档来看，它支持的 agent 范围很广，包括：

Claude Code
Gemini CLI
Codex CLI
Cursor
Windsurf
Cline
Copilot
OpenClaw
opencode

以及其他一批工具链。

不同 agent 的接入方式略有差异，但总体上无非三类：

插件 / extension 安装
skills add安装
规则文件或初始化文件接入

如何使用

安装完成之后，最基本的用法就是：

/caveman

如果你想切换模式，可以这样用：

/caveman lite

/caveman full

/caveman ultra

/caveman wenyan

想退出时，用：

normal mode

如果你是Codex CLI这类环境，通常更接近“每个 session 手动触发一次”。而像 Claude Code、Gemini CLI、OpenClaw 这类支持更深集成的环境，可以做到更接近自动激活。

除此之外，README 里还特别强调了几类值得配合使用的能力：

caveman-stats：看节省了多少
caveman-review：压缩 review 反馈
caveman-commit：压缩 commit message
caveman-compress：压缩记忆文件和长期上下文
caveman-shrink：进一步压缩工具描述成本

如果你只是轻度用户，先从/caveman开始就够了。如果你已经进入多 agent、长上下文、重协作阶段，那后面这些能力会更有味道。

使用时要注意什么

Caveman很有用，但也不是所有场景都适合一路开到底。

1. 它不适合直接拿来写最终对外文案

它的目标是高密度协作，不是面向大众的最终表达。用它做内部协作层很合适，直接拿去做对外成品通常不合适。

2. 安全警告、不可逆操作，不要压得太狠

像删库、迁移、权限改动这类事情，清楚比短更重要。顺序被压糊了，省下来的 token 不一定够你补锅。

3. 它省的是很多输出浪费，不是所有成本

如果你的主要账单来自超长输入、超大上下文或者高额 reasoning 开销，那它不会神奇地把所有费用都砍掉。

更准确地说，它最擅长的是：

压缩输出侧成本
降低由冗长输出引发的后续上下文膨胀

4. 不同任务的节省幅度不一样

项目公开 benchmark 里，最低节省是22%，最高可以到87%。所以最合理的预期不是“永远固定省 60%”，而是“很多高频场景下，平均能省下一大块”。

最后

Caveman真正聪明的地方，不是把 AI 变得像原始人，而是看透了一件事：今天很多 AI 成本，并不是花在“不会做事”，而是花在“说了太多没必要的话”。当你开始高频使用 AI、长时间协作、多人协同，甚至多 agent 并行时，表达冗余就会变成持续吞预算的问题。

它压缩的不只是 token，更是 AI 工作流里的语言摩擦。很多时候，最有效的优化不是换更贵的模型，而是先让它别那么能说。

——

参考资料

Caveman README: https://github.com/JuliusBrussee/caveman/blob/main/README.md
Caveman INSTALL: https://github.com/JuliusBrussee/caveman/blob/main/INSTALL.md