2款AI编程省Token工具:RTK砍噪音,Caveman砍废话,组合拳省掉90%
你有没有算过,用 Claude Code 干一天活,到底烧掉多少 Token?
Anthropic 官方数据:$6/开发者/天,月均 $100–$200。这还是平均线——一个中等规模的新功能开发,1–2 小时就能吃掉 ~120K 输入 Token + ~20K 输出 Token。如果你跑的是代理团队模式,并行子代理各自维护独立上下文,Token 消耗直接飙到标准会话的 7 倍。
钱还是小事。更致命的是,上下文窗口被垃圾信息塞满后,模型的推理质量会肉眼可见地下降——它要在 10 万字符的测试日志里翻找一行报错,然后在 2000 字的回复里绕三圈才说到重点。
Token 消耗链路上有两个最狠的杀手:输入端的命令输出噪音和输出端的模型客套废话。今天横评的两款工具——RTK 和 Caveman——分别从这两端精准下刀,组合使用可实现 90%–99% 的总 Token 缩减。评测标准很简单:省了多少 Token、信息丢了没、接入多省事。

一、RTK:掐住输入端的噪音源头
一句话定位:Rust 写的 CLI 代理,在命令输出进入 LLM 上下文之前,先过一遍筛子。
核心引擎:四层组合过滤
RTK 不是暴力截断,而是针对 100+ 种常见开发命令(git、cargo、docker、kubectl、pnpm、vitest 等)做结构化压缩。四层策略层层递进:
Smart Filtering(智能过滤):直接剔除注释、空行、ANSI 颜色码、进度条、无关警告——从源头干掉最肥的噪音。 Grouping(分组聚合):搜索结果按文件分组,错误信息按类型归类,日志按模块收拢。同类合并,拒绝重复铺开。 Truncation(智能截断):按信息密度取样,保留代码关键片段和错误核心原因,砍掉长尾和重复片段。不是"截到 N 行",而是"挑最有价值的 N 行"。 Deduplication(去重合并):反复出现的相同行自动折叠并标注次数——"连接超时"重复 10 次变成"连接超时(×10)",频率信息不丢,篇幅砍 90%。

实测数据说话
来自 T3 Stack 生产项目的真实测试:
| -99.6% | |||
| -90% | |||
| -70% | |||
| -59% |
30 分钟典型开发会话:Token 消耗从 ~150,000 直降到 ~16,850,节省 88.9%。
这不是魔术,是数学——终端工具生来就是给人眼看的,不是给 LLM 看的。一条 cargo test 跑完,成千上万行日志里真正有用的失败信息不到 5%。RTK 做的就是:让 LLM 一开始就只看到干净的信息,而不是靠它自己去垃圾堆里翻。
接入:5 分钟,零侵入
# macOS(Homebrew)brew install rtk# Linux / WSLcurl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/master/install.sh | sh# 一键启用全局 Hookrtk init -g重启 Claude Code,Hook 即生效。你还是输 git status,但进入 AI 上下文的已经是净化版,整个过程对开发者完全透明。
⚠️ 避坑:crates.io 上有另一个叫 rtk 的项目(Rust Type Kit),装完用 rtk gain 验证——显示 Token 节省统计就对了,报 "command not found" 就是装错了。
边界:Hook 只拦 Bash 调用
RTK 的 Hook 只拦截 Bash 工具执行的命令。Claude 内置的 Read、Grep、Glob 工具不会自动经过 RTK。如果需要压缩这些操作的输出,需手动让 Claude 使用 shell 命令(如 rtk read main.rs 或 rtk grep "pattern" .)。
如果你需要逐行分析完整日志,建议用 tee 把日志存到临时文件,再 tail 截取关键片段给 Claude——这时候不需要 RTK,你需要的是精准投喂。
二、Caveman:堵住输出端的客套废话
一句话定位:让 AI 像原始人一样说话的技能插件,强制模型用极简风格表达同等技术内涵。
为什么"请简洁回答"没用?
你试过在 Claude 里加一句"请简洁回答"吗?效果约等于零。因为模型的训练偏好(尤其 RLHF 对长度的奖励机制)会把它拉回啰嗦模式——先铺垫、再展开、最后总结,三段论一顿操作,有效信息被包裹在一堆填充词里。
Caveman 的解法更狠:不给模糊指令,直接给定一个**"原始人"人设**。人设约束的力量远大于指令约束——模型不再是"选择简洁",而是"角色设定就是简洁",压缩效果立竿见影。
六级压缩档位
Caveman 提供渐进式压缩,从温和到极致,按需切换:
/caveman lite | ||
/caveman full | ||
/caveman ultra | ||
/caveman wenyan-lite | ||
/caveman wenyan | ||
/caveman wenyan-ultra |

文言文模式是极具巧思的设计——中文文言文是人类历史上面信息密度最高的文字系统之一,且每个中文字的 Token 消耗远低于英文,等于在"语义压缩"之上又叠加了一层"编码压缩",双重省 Token。
实测数据:输出端省多少
基于 Claude API 的实测数据:
| 87% | |||
| 87% | |||
| 81% | |||
| 84% | |||
| 83% | |||
| 72% | |||
| 平均 | 1,214 | 294 | 65% |
规律很清楚:解释和调试类任务压缩率最高(80%+),架构讨论和代码重构类最低(20%–40%)——后者确实需要更多语境,不能暴力压缩。
省了 Token,准确率反而涨了?
这不是玄学,有论文撑腰。2026 年 arxiv:2604.00025《Brevity Constraints Reverse Performance Hierarchies in Language Models》对 31 个模型做了因果干预实验:对大型模型施加简洁约束后,准确率平均提升 26.3 个百分点,逆向扩展差距缩小 67%。
原因不复杂——啰嗦是对冲不确定性的逃避。当模型被迫简短,它会给出更明确的答案,而不是用一堆限定词和铺垫来"对冲风险"。在 GSM8K 和 MMLU-STEM 上,简洁约束甚至完全反转了性能层级,大型模型的表现反超了小型模型。
三大子技能:不只是"少说话"
Caveman 三个子技能直击高频场景,都是干活利器:
① /caveman-commit:生成符合 Conventional Commits 规范的极简提交信息,主题行 ≤50 字符,侧重说原因而非操作。告别"update stuff"和三行废话 commit message。
② /caveman-review:单行式代码审查,格式如 L42: 🔴 bug: user null. Add guard.——行号 + 红绿灯标记 + 问题 + 修复建议,一个不落,废话一个没有。
③ /caveman:compress:对 CLAUDE.md 等每次会话必加载的记忆文件进行压缩,将自然语言转为高密度机器友好格式,平均节省 45% 的输入 Token。原始文件自动备份为 CLAUDE.original.md,压缩仅动 prose,代码块、URL、命令等技术细节原样保留。
接入与安全阀
# Claude Code(推荐,含 hooks 自动激活)claude plugin marketplace add JuliusBrussee/cavemanclaude plugin install caveman@caveman# Cursor / Copilot / Windsurf / Cline 等通用安装npx skills add JuliusBrussee/caveman
Caveman 内置 auto-clarity 安全阀:遇到安全警告、不可逆操作确认、多步骤序列时,自动退出原始人模式恢复正常回复。只压缩自然语言,代码块、命令、URL 等技术细节原样保留——不会把 rm -rf / 压缩成 rm /。
三、灵魂表格:RTK vs Caveman 全维度对比
| 定位 | ||
| 解决什么 | ||
| 平均节省 | ||
| 极限节省 | ||
| 核心策略 | ||
| 覆盖范围 | ||
| 接入成本 | ||
| 侵入性 | ||
| 安全机制 | ||
| GitHub Stars | ||
| 致命边界 | ||
| 性价比 |

四、组合拳:RTK + Caveman = 90%–99% 总缩减
RTK 和 Caveman 解决的是 Token 消耗链路的不同环节,互不冲突,可以完美串联:
命令输出 → [RTK 剔除噪音] → 干净输入 → [Claude 处理] → 原始人风格输出 → [Caveman 压缩] → 极简回复
在 Hermes Agent 等高级配置框架中,已经将二者打通形成流水线:命令输出先经过 RTK 过滤,再由 Caveman 通过紧凑文本模板渲染,官方数据显示可实现 90%–99% 的总 Token 缩减率。
实战选型指南
日常开发:全局开启 RTK Hook 过滤 Bash 输出 + Caveman Lite 模式。兼顾舒适度与性价比,Token 账单直接砍半。
快速调试 / 高频短任务:Caveman 切 Full 或 Ultra 模式。只要你拿到根因和修复建议,不需要 Claude 陪你聊人生。
复杂架构设计 / 代码评审:关掉 Caveman,恢复正常模式。让 Claude 提供完整的上下文与语境探讨,这时候压缩反而丢信息。
记忆文件瘦身:定期跑 /caveman:compress 压缩项目规范文件。CLAUDE.md 每次会话必加载,压缩一次,次次省钱。
一句话总结:RTK 让 Claude 少看废话,Caveman 让 Claude 少说废话——两头掐,Token 消耗直接打一折。
智宇AI工坊:拆解AI工具的每一颗螺丝。关注我,省下90%的Token账单。
夜雨聆风