2款AI编程省Token工具:RTK砍噪音,Caveman砍废话,组合拳省掉90%

2款AI编程省Token工具：RTK砍噪音，Caveman砍废话，组合拳省掉90%

你有没有算过，用 Claude Code 干一天活，到底烧掉多少 Token？

Anthropic 官方数据：$6/开发者/天，月均 $100–$200。这还是平均线——一个中等规模的新功能开发，1–2 小时就能吃掉 ~120K 输入 Token + ~20K 输出 Token。如果你跑的是代理团队模式，并行子代理各自维护独立上下文，Token 消耗直接飙到标准会话的 7 倍。

钱还是小事。更致命的是，上下文窗口被垃圾信息塞满后，模型的推理质量会肉眼可见地下降——它要在 10 万字符的测试日志里翻找一行报错，然后在 2000 字的回复里绕三圈才说到重点。

Token 消耗链路上有两个最狠的杀手：输入端的命令输出噪音和输出端的模型客套废话。今天横评的两款工具——RTK 和 Caveman——分别从这两端精准下刀，组合使用可实现 90%–99% 的总 Token 缩减。评测标准很简单：省了多少 Token、信息丢了没、接入多省事。

一、RTK：掐住输入端的噪音源头

一句话定位：Rust 写的 CLI 代理，在命令输出进入 LLM 上下文之前，先过一遍筛子。

核心引擎：四层组合过滤

RTK 不是暴力截断，而是针对 100+ 种常见开发命令（git、cargo、docker、kubectl、pnpm、vitest 等）做结构化压缩。四层策略层层递进：

Smart Filtering（智能过滤）：直接剔除注释、空行、ANSI 颜色码、进度条、无关警告——从源头干掉最肥的噪音。
Grouping（分组聚合）：搜索结果按文件分组，错误信息按类型归类，日志按模块收拢。同类合并，拒绝重复铺开。
Truncation（智能截断）：按信息密度取样，保留代码关键片段和错误核心原因，砍掉长尾和重复片段。不是"截到 N 行"，而是"挑最有价值的 N 行"。
Deduplication（去重合并）：反复出现的相同行自动折叠并标注次数——"连接超时"重复 10 次变成"连接超时（×10）"，频率信息不丢，篇幅砍 90%。

实测数据说话

来自 T3 Stack 生产项目的真实测试：

命令	原始输出	RTK 输出	压缩率
vitest run	102,199 字符	377 字符	-99.6%
pnpm outdated	~12,000 Token	~1,200 Token	-90%
pnpm list	~8,000 Token	~2,400 Token	-70%
git status	529 字符	217 字符	-59%

30 分钟典型开发会话：Token 消耗从 ~150,000 直降到 ~16,850，节省 88.9%。

这不是魔术，是数学——终端工具生来就是给人眼看的，不是给 LLM 看的。一条 cargo test 跑完，成千上万行日志里真正有用的失败信息不到 5%。RTK 做的就是：让 LLM 一开始就只看到干净的信息，而不是靠它自己去垃圾堆里翻。

接入：5 分钟，零侵入

# macOS（Homebrew）brew install rtk# Linux / WSLcurl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/master/install.sh | sh# 一键启用全局 Hookrtk init -g

重启 Claude Code，Hook 即生效。你还是输 git status，但进入 AI 上下文的已经是净化版，整个过程对开发者完全透明。

⚠️ 避坑：crates.io 上有另一个叫 rtk 的项目（Rust Type Kit），装完用 rtk gain 验证——显示 Token 节省统计就对了，报 "command not found" 就是装错了。

边界：Hook 只拦 Bash 调用

RTK 的 Hook 只拦截 Bash 工具执行的命令。Claude 内置的 Read、Grep、Glob 工具不会自动经过 RTK。如果需要压缩这些操作的输出，需手动让 Claude 使用 shell 命令（如 rtk read main.rs 或 rtk grep "pattern" .）。

如果你需要逐行分析完整日志，建议用 tee 把日志存到临时文件，再 tail 截取关键片段给 Claude——这时候不需要 RTK，你需要的是精准投喂。

二、Caveman：堵住输出端的客套废话

一句话定位：让 AI 像原始人一样说话的技能插件，强制模型用极简风格表达同等技术内涵。

为什么"请简洁回答"没用？

你试过在 Claude 里加一句"请简洁回答"吗？效果约等于零。因为模型的训练偏好（尤其 RLHF 对长度的奖励机制）会把它拉回啰嗦模式——先铺垫、再展开、最后总结，三段论一顿操作，有效信息被包裹在一堆填充词里。

Caveman 的解法更狠：不给模糊指令，直接给定一个**"原始人"人设**。人设约束的力量远大于指令约束——模型不再是"选择简洁"，而是"角色设定就是简洁"，压缩效果立竿见影。

六级压缩档位

Caveman 提供渐进式压缩，从温和到极致，按需切换：

档位	触发指令	效果
🪶 Lite	`/caveman lite`	去冗余填充，保留完整语法，适合正式沟通与日常编码
🪨 Full	`/caveman full`	去冠词，碎片化表达，经典"电报体"，默认档位
🔥 Ultra	`/caveman ultra`	极限压缩，大量缩写和因果箭头（→），只看结论
文言文-Lite	`/caveman wenyan-lite`	半文言，语法完整，去填充
文言文-Full	`/caveman wenyan`	完整文言文风格，古典极简
文言文-Ultra	`/caveman wenyan-ultra`	极致压缩，如预算有限的古代学者

文言文模式是极具巧思的设计——中文文言文是人类历史上面信息密度最高的文字系统之一，且每个中文字的 Token 消耗远低于英文，等于在"语义压缩"之上又叠加了一层"编码压缩"，双重省 Token。

实测数据：输出端省多少

基于 Claude API 的实测数据：

任务	正常模式 Token	原始人模式 Token	节省率
解释 React 重渲染 bug	1,180	159	87%
实现 React 错误边界	3,454	456	87%
调试 PostgreSQL 竞态条件	1,200	232	81%
配置 PostgreSQL 连接池	2,347	380	84%
修复认证中间件 token 过期	704	121	83%
Docker 多阶段构建	1,042	290	72%
解释 git rebase 和 merge 区别	702	292	58%
审查 PR 安全问题	678	398	41%
架构：微服务 vs 单体	446	310	30%
重构回调为 async/await	387	301	22%
平均	1,214	294	65%

规律很清楚：解释和调试类任务压缩率最高（80%+），架构讨论和代码重构类最低（20%–40%）——后者确实需要更多语境，不能暴力压缩。

省了 Token，准确率反而涨了？

这不是玄学，有论文撑腰。2026 年 arxiv:2604.00025《Brevity Constraints Reverse Performance Hierarchies in Language Models》对 31 个模型做了因果干预实验：对大型模型施加简洁约束后，准确率平均提升 26.3 个百分点，逆向扩展差距缩小 67%。

原因不复杂——啰嗦是对冲不确定性的逃避。当模型被迫简短，它会给出更明确的答案，而不是用一堆限定词和铺垫来"对冲风险"。在 GSM8K 和 MMLU-STEM 上，简洁约束甚至完全反转了性能层级，大型模型的表现反超了小型模型。

三大子技能：不只是"少说话"

Caveman 三个子技能直击高频场景，都是干活利器：

① /caveman-commit：生成符合 Conventional Commits 规范的极简提交信息，主题行 ≤50 字符，侧重说原因而非操作。告别"update stuff"和三行废话 commit message。

② /caveman-review：单行式代码审查，格式如 L42: 🔴 bug: user null. Add guard.——行号 + 红绿灯标记 + 问题 + 修复建议，一个不落，废话一个没有。

③ /caveman:compress：对 CLAUDE.md 等每次会话必加载的记忆文件进行压缩，将自然语言转为高密度机器友好格式，平均节省 45% 的输入 Token。原始文件自动备份为 CLAUDE.original.md，压缩仅动 prose，代码块、URL、命令等技术细节原样保留。

文件	原始大小	压缩后	节省率
claude-md-preferences.md	706	285	59.6%
project-notes.md	1,145	535	53.3%
claude-md-project.md	1,122	687	38.8%
todo-list.md	627	388	38.1%
mixed-with-code.md	888	574	35.4%

接入与安全阀

# Claude Code（推荐，含 hooks 自动激活）claude plugin marketplace add JuliusBrussee/cavemanclaude plugin install caveman@caveman# Cursor / Copilot / Windsurf / Cline 等通用安装npx skills add JuliusBrussee/caveman

Caveman 内置 auto-clarity 安全阀：遇到安全警告、不可逆操作确认、多步骤序列时，自动退出原始人模式恢复正常回复。只压缩自然语言，代码块、命令、URL 等技术细节原样保留——不会把 rm -rf / 压缩成 rm /。

三、灵魂表格：RTK vs Caveman 全维度对比

维度	RTK	Caveman
定位	输入端 CLI 代理	输出端技能插件
解决什么	命令输出噪音	模型回复啰嗦
平均节省	~89%（30 分钟会话）	~65%（输出 Token）
极限节省	99.6%（vitest run）	87%（解释型任务）
核心策略	4 层过滤（过滤→分组→截断→去重）	6 级人设约束（Lite→Ultra + 文言文）
覆盖范围	100+ 常见开发命令	40+ AI 编码助手
接入成本	5 分钟，一条命令装 Hook	2 分钟，一行命令装插件
侵入性	零侵入，透明代理	仅改回复风格，不动代码
安全机制	只压缩输出，不修改命令	auto-clarity 安全阀，遇风险自动退出
GitHub Stars	~20K ⭐	~16K ⭐（7 天达成）
致命边界	Hook 只拦 Bash，不拦 Read/Grep/Glob	架构讨论类任务压缩率低（20%–30%）
性价比	💰💰💰💰💰	💰💰💰💰

四、组合拳：RTK + Caveman = 90%–99% 总缩减

RTK 和 Caveman 解决的是 Token 消耗链路的不同环节，互不冲突，可以完美串联：

命令输出 → [RTK 剔除噪音] → 干净输入 → [Claude 处理] → 原始人风格输出 → [Caveman 压缩] → 极简回复

在 Hermes Agent 等高级配置框架中，已经将二者打通形成流水线：命令输出先经过 RTK 过滤，再由 Caveman 通过紧凑文本模板渲染，官方数据显示可实现 90%–99% 的总 Token 缩减率。

实战选型指南

日常开发：全局开启 RTK Hook 过滤 Bash 输出 + Caveman Lite 模式。兼顾舒适度与性价比，Token 账单直接砍半。

快速调试 / 高频短任务：Caveman 切 Full 或 Ultra 模式。只要你拿到根因和修复建议，不需要 Claude 陪你聊人生。

复杂架构设计 / 代码评审：关掉 Caveman，恢复正常模式。让 Claude 提供完整的上下文与语境探讨，这时候压缩反而丢信息。

记忆文件瘦身：定期跑 /caveman:compress 压缩项目规范文件。CLAUDE.md 每次会话必加载，压缩一次，次次省钱。

一句话总结：RTK 让 Claude 少看废话，Caveman 让 Claude 少说废话——两头掐，Token 消耗直接打一折。

智宇AI工坊：拆解AI工具的每一颗螺丝。关注我，省下90%的Token账单。