AI编程token省钱指南

烧钱只在一瞬间

上周我打开 Claude Code 的用量统计，差点没把水喷屏幕上。

三天，几十万 Token，其中接近一半浪费在重复加载和无效上下文上。换句话说，我烧掉的那些 Token 里，有将近一半是可以不花的。

不是 API 贵，是我用得蠢。

如果你也在用 Claude Code、Cursor、Copilot 这类 AI 编程工具，下面这 5 个心法可能会帮你每个月省下一顿饭钱——或者一顿火锅钱。

CLAUDE.md 是 Claude Code 每次启动都会加载的上下文文件。我之前的版本有 111 行——目录树画了两遍，插件列表列了一张表，光是"关键文件"就占了 7 行。

问题是：这些东西 Claude 真的每次都需要吗？

我把 111 行砍到 60 行。砍掉了：

保留了：

一句话：CLAUDE.md 不是项目文档，是 Cheatsheet。只留每次必用的。

这个改动让每次新会话的启动成本从 5000+ Token 降到 2000 左右。每天开 5 次会话，就是省 15000 Token。

Claude Code 的上下文管理有一个"自动压缩"机制——当对话太长，系统会把历史聊天总结成一段摘要。

问题在于：等到触发自动压缩时，Token 已经吃满了。

正确做法是感觉对话变长了就主动敲 /compact。主动压缩的成本大约是自动压缩的 60%。

类比：主动压缩像自己定期扔垃圾，自动压缩像保洁阿姨来帮你清一个月的量——她累你也贵。

很多人有"旗舰依赖症"——不管什么任务都用最贵的模型。

不同模型的价格大概是 100:20:1 的比例（Opus : Sonnet : Haiku）。问一个简单问题用 Opus，跟用摩托车送一张明信片差不多。

实操建议：
| 任务 | 推荐模型 |
|------|----------|
| 简单问答 / 查资料 | Haiku |
| 写代码 / 重构 | Sonnet |
| 复杂架构 / 多文件修改 | Opus |

原则：任务复杂度决定模型等级。杀鸡可以用牛刀，但鸡不会因此更好吃。

我见过太多这样的场景：为了查一个 CSS 类的定义，把 800 行的 CSS 文件从头读到尾。

Claude Code 的 Read 工具支持 offset 和 limit——只看需要的 30 行，别把 800 行全吞进来。

同样的逻辑适用于：

每次指定读取范围，约省 60-80% 的读取成本。

这是很多人忽略的一点：在 AI 工具里，同样的任务在长对话里执行比在新对话里执行消耗更多 Token。因为每次请求都要带上全部历史。

所以：

用人类开会来类比：每次开会只讨论一个议题，叫对了人就行了，不相关的人别坐那儿听俩小时。

月省 Token = 精简 CLAUDE.md（日省 15000） + 主动压缩（省 40%） + 按任务选模型（省 50-80%） + 按范围读文件（省 60-80%） + 独立任务独立会话

五个都做，综合下来能省 40-60% 的月 Token 消耗。

这些心法不只适用于 Claude Code——Cursor、Copilot、Windsurf 这些工具的底层逻辑是一样的：上下文是你最贵的资产，别往里面塞垃圾。

你今天烧了多少 Token？