大家好,我是大鸣!一名AI爱好者与从业者,专注于AI智能体应用落地,业余时间写文章记录自己学习AI过程的成长点滴。
点击下方名片关注我,跟着大鸣学习AI,学习路上不孤单!
过去一年,很多人对 AI Agent 的态度很矛盾。
你知道它有用,你也见过它写代码、做 PPT、查资料、跑流程,它真的能把一件原本需要你反复切软件、查资料、改格式、盯进度的事,一口气往前推很多步。
一个工具,如果每次打开之前都要先算账,那它就很难成为真正的个人助理。 我身边不少朋友已经对那些烧钱的 Agent 敬而远之了,用一次心疼一次,久而久之干脆不用。
这也是为什么我觉得,AI Agent 赛道已经走到一个新阶段了。前半段大家争的是谁更聪明、谁能跑更复杂的任务,现在都在争——谁能让用户每天敢开。
Token 烧在哪了?你可能根本没想过
很多人觉得 Token 消耗是模型的问题,选个便宜的模型就行了。但真相远比这复杂。
你每次和 Agent 对话,它背后在偷偷"搬运"的信息量,远比你想象的大。 比如,Agent 每次干活都需要带着一堆背景信息去找模型:你是谁、你在做什么项目、你有哪些工具可以用、之前的对话历史是什么……这些东西全都要算 Token。
更关键的是,会话一旦重启,缓存就失效了。 缓存一失效,同样的信息就要重新付钱。这就好比你每天上班,公司都不认你的工牌,每天都要重新办入职,每次入职都要走一遍完整流程——荒谬,但很多 Agent 就是这么干的。
| Token 消耗来源 | 具体表现 | 你是否意识到 |
|---|---|---|
| 系统提示词 | 每次请求都带上完整的角色设定、规则、约束 | ❌ 大多数人没概念 |
| 工具 Schema | 所有可用工具的参数描述,不管你用不用 | ❌ 以为工具免费 |
| 历史上下文 | 之前的对话记录原封不动塞回去 | ❌ 以为只有新消息花钱 |
| Skill/插件描述 | 每个技能的说明文档 | ❌ 根本不知道 |
你以为只花了"问一句"的钱,实际上 Agent 帮你搬了一整辆卡车的信息。
我之前做过一个简单的统计:一个典型的工作任务,用户真正输入的文字可能只有一两百字,但 Agent 背后实际发送给模型的上下文可能超过一万字。你花的是 1% 的"有效沟通"加上 99% 的"重复搬运"。 这才是账单居高不下的根本原因。
所以当你看到账单的时候,往往会震惊:我明明只问了个简单问题,怎么花了这么多?原因就在这——Token 消耗的"隐形税"远比你想象的重。
三个克制选择,把账单压到同行的六分之一
最近我深入体验了一个叫 OpenClacky 的开源 Agent,它的定位非常明确:最省 Token 的开源 AI Agent。 100% 开源、MIT 协议、本地运行,该有的功能都有——终端工作、Web UI、多 Session、长期记忆、Skill、定时任务、飞书/企微/微信接入、浏览器自动化。
但更关键的是,它把"省 Token"放到了核心中的核心。在官方的对比测试里,三项真实工作任务、同 prompt、同模型、同 Skill、同时间段,OpenClacky 的总账单大约是 Hermes Agent 的 1/6,OpenClaw 的 1/3,甚至比 Claude Code 还低一点。
它是怎么做到的?背后其实是一套很克制的工程选择——少重启会话,少改系统提示词,少带无关工具,少把历史上下文原封不动塞回模型。
选择一:尽量不重启 Session,不乱动 System Prompt
Agent 每次干活,都需要带着一堆背景信息去找模型。如果会话经常重启,System Prompt 经常变,Skill 一重载就打乱上下文,那缓存就很容易失效。缓存一失效,同样的信息就要重新付钱。
OpenClacky 的做法是让主会话尽量稳定。 Skill 重载、模型切换、上下文压缩这些动态变化,不直接搅乱主会话,都是通过独立的 session context 插入。这样一来,已经缓存过的东西能继续复用。它尽量不让 Agent 每次干活都重新认识你一遍。
打个比方:你跟一个人聊天,如果每次都要重新自我介绍,那每次都要浪费口舌。 但如果你们一直在同一个对话里,之前说过的话就不用重复了。这就是缓存的逻辑,简单但有效。这个设计思路其实和浏览器的缓存机制异曲同工——能复用的绝不重传,能省的绝不浪费。
选择二:核心工具保持极简
这有点反直觉。 现在很多 Agent 喜欢展示自己有多少工具,好像内置工具越多,用起来也越强。但工具不是免费的——哪怕你这次没用到某个工具,它的 schema 也可能被带进上下文里。工具越多,每次请求的负担就越重。
| Agent | 核心工具数 |
|---|---|
| OpenClacky | 16 个 |
| OpenClaw | 23 个 |
| Claude Code | 40+ 个 |
| Hermes Agent | 52 个 |
OpenClacky 的做法是保留一个轻的核心工具箱,再用 invoke_skill 调长尾能力。 这样一来主 Agent 的 prompt 轻了,Token 消耗自然也往下走。你想想,52 个工具的描述和 16 个工具的描述,每次请求多出来的 Token 可不是一点半点。
打个具体的算盘:假设每个工具的 schema 描述平均占 200 Token,52 个工具就是 10400 Token,16 个工具只有 3200 Token。光工具描述这一项,每次请求就差了 7000 多 Token。 如果你一天和 Agent 交互 20 次,那就是 14 万 Token 的差距,换成人民币可不是小数目。
选择三:空闲期自动压缩
在真实工作里,没有人会一直连续不断地和 Agent 对话。 你可能让它跑一个任务,然后去开会、去吃饭、写到一半切去处理消息,过一会儿再回来。
很多 Agent 会把很长的历史上下文继续塞回模型里。 也就是说你可能在为"等你回来"这件事而白白消耗 Token。这就好比你出去吃个饭,回来发现 Agent 还在不停地给你读之前的内容,每读一遍都要花钱。
OpenClacky 会在空闲期自动把长上下文压成精华,只保留关键任务状态、文件变化、决策过程和下一步动作。上下文短了,Token 自然就少了。而且这种压缩是智能的,不是简单粗暴地截断,而是提炼出真正有用的信息保留下来,确保你回来之后 Agent 还能无缝续上之前的工作。
省 Token 不是偷工减料,而是在该花的地方花,不该花的地方不浪费。
实测体验:做 PPT 只花了两块八
光说原理不够,得看实战。 我直接上手试了一下。
安装很简单,跟着自己电脑的平台下载就行。安装好之后在本地浏览器打开,界面简洁直观。安装 Skill 也是用自然语言直接说就行,如果你是从其他 Agent 迁移过来的,体验上没有任何区别。

最让我惊喜的是每一次对话都能看到 Token 的消耗,绝对的透明,让你知道自己的钱都花在哪里了。这种"明码标价"的感觉,和那些用完才看到账单的 Agent 完全不同。透明度本身就是一种信任——你敢让我看见钱花在哪,我就敢放心用。
我让 OpenClacky 帮我制作一个 PPT,效果相当不错。然后我让它统计了一下这个任务的花销:读取文件、调用各种工具然后生成 HTML 的 PPT,总共消耗了 2.8 元。 要知道,我用的大模型可是 Sonnet 4.6,这个价格我觉得相当划算了。

接着我又尝试利用 HyperFrames 技能制作了一个视频。这里有个细节值得说:当我安装这个技能时,OpenClacky 发现该技能的组织形式与自身不相符,它没有直接罢工,而是机敏地转换成了适合自己的 Skill。 这种自适应能力,比那种一报错就停的 Agent 强太多了。一个真正好用的工具,不是不犯错,而是遇到问题时能自己找到出路。

Skill 变现:把经验封装成产品
OpenClacky 还有一个很有想象力的设计:它把 Skill 做成可复用、可安装、可加密、可分发的能力单元。
这意味着什么?一旦 Skill 可以被封装和授权,专业人士卖的就不只是经验了:

你可以直接上传自己写好的 Skill,也能在平台的 Skill 商城里选择。发布后可以推广让别人下载使用,使用的人需要激活码——激活码当然需要付费购买。这样一个专业技能的变现过程就闭环了。
这不是简单的"插件市场",而是把人的工作流变成可交易的知识产品。对于有专业技能的人来说,这比写课程、做咨询的效率高太多了——你只需要把你日常的工作流封装一次,之后就能反复出售。一次封装,持续变现,这才是知识付费的终极形态。
AI Agent 的下半场,拼的是账单
说到底,AI Agent 的竞争,可能正在从能力展示走向长期使用。
过去大家证明的是 Agent 能干活。接下来更重要的问题是:
只有到了这一步,Agent 才有机会从一个偶尔炫技的工具,变成真正的个人基础设施。 OpenClacky 押注的就是这个转折点,我觉得前景广阔。
AI Agent 上半场争能力。下半场,开始拼账单了。
你平时用 AI Agent 最大的痛点是什么? 是 Token 太贵、不够稳定、还是不够透明?评论区聊聊,说说你的真实体验👇
AI辅助润色生成

夜雨聆风