AI助手token账单失控?6招实操优化,让我的周消耗从$11降到$4.Hermes Agent 深度优化实录

AI助手token账单失控?6招实操优化,让我的周消耗从$11降到$4.Hermes Agent 深度优化实录 · 所有命令可直接复制使用

我用 OpenClaw 几个月，也用了 Hermes Agent 一个多月。说实话，AI 助手越用越顺手，但心里始终有个疙瘩——token 到底烧到哪儿去了？

今天上午我决定不猜了。直接动手盘账。

先跑了一把 hermes insights --days 7。过去 7 天，我跑了 11 个 session，总共烧了 749 万 token。kimi-k2.6 独占 62%（463 万），deepseek-v4-pro 占 38%（286 万），terminal 工具调用占了 55%。

数字有了——但翻遍整份报告，没有一毛钱的成本数字。

于是我打开 SQLite 直接查 ~/.hermes/state.db。数据库里 estimated_cost_usd、cache_read_tokens 这些字段一应俱全，但定价只配了 moonshotai 一家，DeepSeek 和 Kimi 都不计费。

我自己写了定价逻辑，拉出真实账单：过去 7 天，deepseek-v4-pro 花了 $0.17，kimi-k2.6 花了 $4.94，moonshotai/kimi-k2.6 花了 $4.30，glm-5.1 花了 $1.87。合计 $11.28，月度预测 $48.36。

差距最大的发现：DeepSeek 的缓存命中率高达 94.8%，所以 313 万 cache_read token 只按 1 折计费。kimi-k2.6 虽然也有 91.5% 的缓存命中率，但因为没有配置缓存定价，实际省了多少无从得知。

搞清楚账单之后，我针对六个消耗热点逐一优化。以下是每一步的具体操作——命令直接复制就能用。

第一招：三级模型路由（省 40-60%）

Hermes 支持四级独立路由：主模型 / 压缩模型 / 辅助任务模型 / 委派子代理模型。我之前的主模型是 GLM-5.1，压缩用 DeepSeek V4，辅助用 Kimi 国内直连——已经比单一模型省了不少。但还能更省。

关键思路：把上下文压缩这种高频、固定提示的任务，交给最便宜的模型。

# 主模型：日常对话用 DeepSeek V4（吃缓存红利，见第五招）hermes config set model deepseek/deepseek-chat-v4# 压缩模型：上下文压缩用最便宜的hermes config set auxiliary.compression.provider openaihermes config set auxiliary.compression.model gpt-4.1-nano# 其余辅助任务（视觉、网页提取、标题生成等）统一跟进for task in vision web_extract session_search skills_hub approval mcp title_generation curator; do  hermes config set auxiliary.$task.provider openai  hermes config set auxiliary.$task.model gpt-4.1-nanodone

配完后 /reset 生效。压缩任务从主力模型切到 nano，光这一项预期省 40-60%。

第二招：懒加载技能 + 禁用不用的工具集（每请求省 ~18%）

Hermes 每次请求都会把系统提示和工具定义一起发送。工具越多，固定开销越大。

我之前开着大量工具集——homeassistant、spotify、image_gen、tts、browser——这些我日常写文章和跑命令根本用不上，但每次请求都在消耗 token。

# 先看当前开了哪些hermes tools list# 关掉不用的hermes tools disable homeassistanthermes tools disable spotifyhermes tools disable image_genhermes tools disable ttshermes tools disable browserhermes tools disable messaging

技能也一样——hermes skills config 可以按平台开关。工具集变更需要 /reset 生效。每个禁用的工具集从系统提示里砍掉几百到上千 token，积少成多。

第三招：/compress 主动压缩长会话（大幅削减）

我的 compression 配置本来是自动触发的——阈值 50%，保留 20%。但自动压缩要等到上下文快满了才动手，在此之前 token 已经在线性增长了。

主动压缩：跑完一个大任务，趁早手动触发。

# 在会话里直接敲/compress

它调用压缩模型（就是第一招里设的 gpt-4.1-nano），把前面几十轮对话精炼成摘要。还可以把自动压缩调得更激进：

# 阈值从 50% 降到 40%，更早触发hermes config set compression.threshold 0.40# 压缩比例从 20% 降到 15%，保留更少hermes config set compression.target_ratio 0.15

第四招：精简系统提示词（省 30-50% 固定开销）

每次会话启动，Hermes 会注入 memory、user profile、AGENTS.md、预加载的 skill 等。这些很有用——但占体积。

我今天做了一次 memory 瘦身：memory 之前已经接近 2200 字符上限（使用率 95%），任何新增都会失败。我合并了两条重复的 Windows 配置信息，释放出空间，再把最重要的 DeepSeek 缓存策略写进去。最终保持在 8 条高质量笔记、使用率 90%。

需要更激进时，还可以：

# 启动时跳过项目级规则文件hermes --ignore-rules# 检查 skills config，确保没用的 skill 不自动加载hermes skills config

核心原则：系统提示里每条信息都问自己——下周还会用上吗？用不上就删。

第五招：DeepSeek V4 缓存命中（输入 token 打 1 折）

这是今天最大的发现。

我从 state.db 拉出最近 5 条 DeepSeek session 的缓存数据：

时间	Input Token	Cache Read	缓存命中率
5/5 10:57	25,091	431,232	94.5%
5/5 10:43	43,637	968,832	95.7%
5/5 10:40	20,373	95,744	82.5%
5/5 10:27	50,099	1,142,144	95.8%
5/5 10:13	29,801	309,376	91.2%

平均命中率 94.8%。DeepSeek V4 的 prompt caching 机制：系统提示和工具配置保持稳定 → 缓存命中率超 80% → 输入 token 价格打 1 折。

按实际定价（input $0.27/百万 token，cache hit $0.027/百万 token），这 5 条 session 的合计费用是 $0.17。同一时段 kimi-k2.6 花了 $4.94。差距 29 倍。

实操：

# 1. 把主模型或压缩模型设成 DeepSeekhermes config set model deepseek/deepseek-chat-v4# 2. 验证缓存是否在工作（直接用 Python 查 SQLite）python3 -c "import sqlite3db = sqlite3.connect('$HOME/.hermes/state.db')for r in db.execute('''SELECT model, input_tokens, cache_read_tokens,    ROUND(cache_read_tokens*100.0/(input_tokens+cache_read_tokens),1)    FROM sessions WHERE model LIKE '%deepseek%'    ORDER BY started_at DESC LIMIT 5'''):    print(f'{r[0]}: cache hit {r[3]}%')"

⚠️ 注意：缓存依赖于系统提示的稳定性。换 personality、加新 skill、改工具集——任何系统提示层面的变动都会清空缓存。所以第一、二、四招优化完之后，就尽量别再动了。

第六招：/usage 定期检查（防止不知不觉反弹）

前五招是”省”，这一招是”看着别反弹”。

我写了一个自动监控脚本，放在 /root/.hermes/scripts/usage_monitor.py。核心逻辑：直接查 state.db，自己维护定价表，算出每模型、每条 session 的实际成本，然后标出异常。

跑一次的效果：

═══ Hermes Usage Report: Last 7 Days ═══📊 By ModelModel                          Sess      Input     CacheR     Output    EstCost  Cache%kimi-k2.6                        12    650,752  7,000,739    140,284 $   4.9416   91.5%moonshotai/kimi-k2.6              7  4,811,447  2,142,554     52,255 $   4.3030   30.8%glm-5.1                           3    967,635  2,722,112     12,426 $   1.8697   73.8%deepseek-v4-pro                   5    173,886  3,139,328     34,341 $   0.1695   94.8%💰 Total estimated cost: $11.2839⚠️  Monthly projection: $48.36🧊 DeepSeek cache hit: 94.8%   ✅ Above 80% — 1折 pricing active on cache reads

然后设了个定时任务（ID: 448cea2c6aaa），每周一上午 9 点自动跑一次，结果直接推送过来。

从此不需要记得查账。系统会主动告诉我这周花了多少钱、哪个模型有异常、DeepSeek 缓存有没有跌破 80%。

# 手动随时看/usage/insights 7# 设定时任务（需要先在 hermes 里执行）hermes cron create "0 9 * * 1" \  --prompt "跑 hermes insights --days 7，告诉我这周花了多少，哪个模型占比最高，有没有异常"

六招总结

招数	实际操作	预期省
三级路由	压缩/辅助切 gpt-4.1-nano	40-60%
工具集瘦身	禁用 5-6 个不用的工具集	每请求 ~18%
主动压缩	/compress + 调低阈值	长会话大幅削减
精简提示	合并重复 memory + 删无用条目	固定开销 30-50%
缓存命中	主模型用 DeepSeek + 保持提示稳定	输入 token 打 1 折
定期监控	/usage + cron 脚本自动报账	防止反弹

六招全上之后，按 40-60% 的综合节省率估算，我的周消耗从 $11.28 有望压到 $4-6 区间。具体省多少，下周一 cron 报告见分晓。

你在用 AI 助手的话，今天就跑一下 /usage。看看你的 token 都去哪儿了。如果有更好的省钱招数，评论区告诉我。

OpenClaw 用户可以直接套用这套思路——检查 provider routing、工具加载策略、系统提示体积，原理完全一致。