
我最近被Token账单吓了一跳,Hermes助手用得好好的,突然发现火山引擎的余额噌噌往下掉,算了一下照这个速度下去撑不了几天了,我没有那么多钱买Token,火山引擎也不便宜,必须想办法。
先说明一下我的情况,我的Hermes Agent配了三十多个技能文件,系统保留400轮对话才触发压缩,辅助服务全部走火山引擎付费通道,这个配置跑起来确实顺,但Token消耗也顺得吓人。
当时我的第一反应是不是火山引擎故意抬价,查了一圈发现不是,问题出在我的配置太豪华了,拆开看才发现三大黑洞,压缩阈值设得太高,消息不攒到400条不压缩,等于每次会话把前面三百多轮对话的原始内容全扛在上下文里,技能文件自动匹配到的完整文档每次都要塞进上下文,系统记忆也积到81%了,每条消息都带一大堆过时内容。
我说不行得改,但我不想随便改,万一改完助手变笨了那更亏,我先做了诊断,找出收益最大风险最小的改动,然后一次性执行完。

第一步,压缩策略调优
我原来设的阈值是0.5,意思是上下文超过平时的一半才触发压缩,太晚了,改成0.3后压缩启动早了很多,而且压缩比率从20%调到15%,压得更狠,但要保证最近的消息不被压缩,我把保护条数设为20条,最前面的3条也保留完整,只压缩那些已经翻篇的中间消息。
消息上限也从400条降到了150条,原来每次会话要积到401条消息才触发压缩,改成151条就触发,频率翻了一倍多,风险不大,因为每次压缩掉的消息反而更少,从4到381变成了4到61,近期的对话永远完整保留,压缩的那些都是早就不需要看的内容了。
第二步,工具输出截断
之前每条工具输出上限50KB,一个网页抓取就三四十KB全塞进上下文,改成30KB后大部分正常输出不受影响,只有超大输出才截断,截断的内容反正也会被压缩,不会丢失。
第三步,技能归档
三十多个技能文件里有大部分是以前安装的第三方技能,早就用不到了但一直挂着,我挨个检查了一遍,把所有不需要的技能全部移到了归档目录,只保留二十几个活跃技能,启动时的系统提示词直接缩小了将近八成,每次会话省了一大截上下文。
第四步,清理系统记忆
系统记忆文件积到一千七百多个字符,占81%容量,里面很多是过时的任务记录和已经解决的问题,我把过时的全部剪掉,只保留当前有用的配置事实和工程原则,缩减到34%容量,每次注入的上下文少了一半。
第五步,取消不必要的定时扫描
系统原来每周跑一次技能扫描,每次调用一次付费模型,把这个定时扫描关掉之后,不再每周白烧Token了,同时我把Headroom这个压缩工具装好配成了系统服务,以后如果需要更猛的压缩,可以直接把主模型流量走它过一遍再发到API,还能再省一层。
效果
五件事做完后,效果比我想象的好,Token消耗大约降了50%到60%,助手该快的时候还是快,该聪明的时候还是聪明,之前担心的改完会变笨这件事完全没有发生。
回头想这件事,我做对的一个判断是先诊断再动手,没有盲目换方案,而是拆开每个环节看哪里的Token浪费最大,然后按收益从大到小排序改,改完一个就验证一个,确认不影响使用效果再改下一个。
如果你的AI助手也在烧Token,你不需要做我全部五件事,先把压缩阈值和消息上限调整一下,这一步零成本零风险,收益却是最大的,如果还不够,再一步步往下走,别急着加新东西,先把已有的东西优化好。
省Token这件事,最贵的一个改动是免费的那一个。
如果你的系统跑得好好的但费用很高,先别急着骂供应商。
夜雨聆风