用了半年AI Agent,我算明白了:省Token才是真本事

大家好，我是大鸣！一名AI爱好者与从业者，专注于AI智能体应用落地，业余时间写文章记录自己学习AI过程的成长点滴。

点击下方名片关注我，跟着大鸣学习AI，学习路上不孤单！

过去一年，很多人对 AI Agent 的态度很矛盾。

你知道它有用，你也见过它写代码、做 PPT、查资料、跑流程，它真的能把一件原本需要你反复切软件、查资料、改格式、盯进度的事，一口气往前推很多步。

一个工具，如果每次打开之前都要先算账，那它就很难成为真正的个人助理。 我身边不少朋友已经对那些烧钱的 Agent 敬而远之了，用一次心疼一次，久而久之干脆不用。

这也是为什么我觉得，AI Agent 赛道已经走到一个新阶段了。前半段大家争的是谁更聪明、谁能跑更复杂的任务，现在都在争——谁能让用户每天敢开。

Token 烧在哪了？你可能根本没想过

很多人觉得 Token 消耗是模型的问题，选个便宜的模型就行了。但真相远比这复杂。

你每次和 Agent 对话，它背后在偷偷"搬运"的信息量，远比你想象的大。 比如，Agent 每次干活都需要带着一堆背景信息去找模型：你是谁、你在做什么项目、你有哪些工具可以用、之前的对话历史是什么……这些东西全都要算 Token。

更关键的是，会话一旦重启，缓存就失效了。 缓存一失效，同样的信息就要重新付钱。这就好比你每天上班，公司都不认你的工牌，每天都要重新办入职，每次入职都要走一遍完整流程——荒谬，但很多 Agent 就是这么干的。

Token 消耗来源	具体表现	你是否意识到
系统提示词	每次请求都带上完整的角色设定、规则、约束	❌ 大多数人没概念
工具 Schema	所有可用工具的参数描述，不管你用不用	❌ 以为工具免费
历史上下文	之前的对话记录原封不动塞回去	❌ 以为只有新消息花钱
Skill/插件描述	每个技能的说明文档	❌ 根本不知道

你以为只花了"问一句"的钱，实际上 Agent 帮你搬了一整辆卡车的信息。

我之前做过一个简单的统计：一个典型的工作任务，用户真正输入的文字可能只有一两百字，但 Agent 背后实际发送给模型的上下文可能超过一万字。你花的是 1% 的"有效沟通"加上 99% 的"重复搬运"。 这才是账单居高不下的根本原因。

所以当你看到账单的时候，往往会震惊：我明明只问了个简单问题，怎么花了这么多？原因就在这——Token 消耗的"隐形税"远比你想象的重。

三个克制选择，把账单压到同行的六分之一

最近我深入体验了一个叫 OpenClacky 的开源 Agent，它的定位非常明确：最省 Token 的开源 AI Agent。 100% 开源、MIT 协议、本地运行，该有的功能都有——终端工作、Web UI、多 Session、长期记忆、Skill、定时任务、飞书/企微/微信接入、浏览器自动化。

但更关键的是，它把"省 Token"放到了核心中的核心。在官方的对比测试里，三项真实工作任务、同 prompt、同模型、同 Skill、同时间段，OpenClacky 的总账单大约是 Hermes Agent 的 1/6，OpenClaw 的 1/3，甚至比 Claude Code 还低一点。

它是怎么做到的？背后其实是一套很克制的工程选择——少重启会话，少改系统提示词，少带无关工具，少把历史上下文原封不动塞回模型。

选择一：尽量不重启 Session，不乱动 System Prompt

Agent 每次干活，都需要带着一堆背景信息去找模型。如果会话经常重启，System Prompt 经常变，Skill 一重载就打乱上下文，那缓存就很容易失效。缓存一失效，同样的信息就要重新付钱。

OpenClacky 的做法是让主会话尽量稳定。 Skill 重载、模型切换、上下文压缩这些动态变化，不直接搅乱主会话，都是通过独立的 session context 插入。这样一来，已经缓存过的东西能继续复用。它尽量不让 Agent 每次干活都重新认识你一遍。

打个比方：你跟一个人聊天，如果每次都要重新自我介绍，那每次都要浪费口舌。 但如果你们一直在同一个对话里，之前说过的话就不用重复了。这就是缓存的逻辑，简单但有效。这个设计思路其实和浏览器的缓存机制异曲同工——能复用的绝不重传，能省的绝不浪费。

选择二：核心工具保持极简

这有点反直觉。 现在很多 Agent 喜欢展示自己有多少工具，好像内置工具越多，用起来也越强。但工具不是免费的——哪怕你这次没用到某个工具，它的 schema 也可能被带进上下文里。工具越多，每次请求的负担就越重。

Agent	核心工具数
OpenClacky	16 个
OpenClaw	23 个
Claude Code	40+ 个
Hermes Agent	52 个

OpenClacky 的做法是保留一个轻的核心工具箱，再用 invoke_skill 调长尾能力。 这样一来主 Agent 的 prompt 轻了，Token 消耗自然也往下走。你想想，52 个工具的描述和 16 个工具的描述，每次请求多出来的 Token 可不是一点半点。

打个具体的算盘：假设每个工具的 schema 描述平均占 200 Token，52 个工具就是 10400 Token，16 个工具只有 3200 Token。光工具描述这一项，每次请求就差了 7000 多 Token。 如果你一天和 Agent 交互 20 次，那就是 14 万 Token 的差距，换成人民币可不是小数目。

选择三：空闲期自动压缩

在真实工作里，没有人会一直连续不断地和 Agent 对话。 你可能让它跑一个任务，然后去开会、去吃饭、写到一半切去处理消息，过一会儿再回来。

很多 Agent 会把很长的历史上下文继续塞回模型里。 也就是说你可能在为"等你回来"这件事而白白消耗 Token。这就好比你出去吃个饭，回来发现 Agent 还在不停地给你读之前的内容，每读一遍都要花钱。

OpenClacky 会在空闲期自动把长上下文压成精华，只保留关键任务状态、文件变化、决策过程和下一步动作。上下文短了，Token 自然就少了。而且这种压缩是智能的，不是简单粗暴地截断，而是提炼出真正有用的信息保留下来，确保你回来之后 Agent 还能无缝续上之前的工作。

省 Token 不是偷工减料，而是在该花的地方花，不该花的地方不浪费。

实测体验：做 PPT 只花了两块八

光说原理不够，得看实战。 我直接上手试了一下。

安装很简单，跟着自己电脑的平台下载就行。安装好之后在本地浏览器打开，界面简洁直观。安装 Skill 也是用自然语言直接说就行，如果你是从其他 Agent 迁移过来的，体验上没有任何区别。

最让我惊喜的是每一次对话都能看到 Token 的消耗，绝对的透明，让你知道自己的钱都花在哪里了。这种"明码标价"的感觉，和那些用完才看到账单的 Agent 完全不同。透明度本身就是一种信任——你敢让我看见钱花在哪，我就敢放心用。

我让 OpenClacky 帮我制作一个 PPT，效果相当不错。然后我让它统计了一下这个任务的花销：读取文件、调用各种工具然后生成 HTML 的 PPT，总共消耗了 2.8 元。 要知道，我用的大模型可是 Sonnet 4.6，这个价格我觉得相当划算了。

接着我又尝试利用 HyperFrames 技能制作了一个视频。这里有个细节值得说：当我安装这个技能时，OpenClacky 发现该技能的组织形式与自身不相符，它没有直接罢工，而是机敏地转换成了适合自己的 Skill。 这种自适应能力，比那种一报错就停的 Agent 强太多了。一个真正好用的工具，不是不犯错，而是遇到问题时能自己找到出路。

Skill 变现：把经验封装成产品

OpenClacky 还有一个很有想象力的设计：它把 Skill 做成可复用、可安装、可加密、可分发的能力单元。

这意味着什么？一旦 Skill 可以被封装和授权，专业人士卖的就不只是经验了：

• 律师可以把合同审查流程封成 Skill

• 投顾可以把研报筛选和标的分析流程封成 Skill

• 出海运营可以把竞品监控、广告拆解、素材生成流程封成 Skill

• 医疗科普作者可以把文献检索、摘要整理、风险提示流程封成 Skill

你可以直接上传自己写好的 Skill，也能在平台的 Skill 商城里选择。发布后可以推广让别人下载使用，使用的人需要激活码——激活码当然需要付费购买。这样一个专业技能的变现过程就闭环了。

这不是简单的"插件市场"，而是把人的工作流变成可交易的知识产品。对于有专业技能的人来说，这比写课程、做咨询的效率高太多了——你只需要把你日常的工作流封装一次，之后就能反复出售。一次封装，持续变现，这才是知识付费的终极形态。

AI Agent 的下半场，拼的是账单

说到底，AI Agent 的竞争，可能正在从能力展示走向长期使用。

过去大家证明的是 Agent 能干活。接下来更重要的问题是：

• 它能不能便宜到你愿意每天开着？

• 它能不能稳定到你愿意把任务交给它？

• 它能不能透明到你知道钱花在哪里？

只有到了这一步，Agent 才有机会从一个偶尔炫技的工具，变成真正的个人基础设施。 OpenClacky 押注的就是这个转折点，我觉得前景广阔。

AI Agent 上半场争能力。下半场，开始拼账单了。

你平时用 AI Agent 最大的痛点是什么？ 是 Token 太贵、不够稳定、还是不够透明？评论区聊聊，说说你的真实体验👇

本文、图片由人工深度编写起稿
AI辅助润色生成

- END -

如果我的文章能给你一点点启发，感谢点赞、转发、在看，想第一时间收到推送，请点点关注并加星标，后台回复"学习"，加大鸣微信号，给你发送本工作流相关资料。

最后，想要更深入学习COZE智能体工作流，可以选择加入我的AI社群，社群权益如下：

280+工作流智能体（每周持续更新、行业领先）

智能体【基础】课程：0-1搭建教学

500人高质量学习社群

专属人工客服【3年持续答疑】

每周1节智能体拆解专家直播课

只有学会了工作流的底层逻辑，你才能按需修改、避免同质化，甚至自己搭建工作流！

需要加入社群请联系大鸣本人：