很多朋友反馈说,各种 AI 工具 token 消耗太快了,搞懂 Token,AI 账单至少省一半!
1、Token 到底是什么?
Token 不是字,不是词,而是 AI 的最小阅读单位。
人类读文章,眼睛不是一笔一划扫的,而是以词组为单位跳着看。AI 也一样,它不逐字处理,而是把文本切成一块一块的「Token」来理解。
这个切法,用的是一种叫 BPE(字节对编码)的算法。你不需要记这个名字,只需要知道它的核心逻辑:
出现频率越高的词,越倾向于整个作为一个 Token;越罕见的内容,越会被拆成碎片。
中文基本一个字一个 Token,偶尔两个字合成一个。
很多人会问一个问题:中文是不是比英文更费 Token?
确实更贵,但没有想象中那么夸张。
同样一句「我很喜欢这个应用」,英文 4 个 Token,简体中文 5 个,繁体中文直接飙到 8 个。
核心原因是训练数据中的词频——出现越多的词越容易被合并成一个 Token,出现越少的就越碎。
同样的语义,表达方式不同,Token 数量可以差好几倍。 这直接决定了你花多少钱。
还有一个反直觉的事实:代码里的空格、换行、括号,全都是 Token。
一个格式优美但缩进层级很深的代码文件,Token 数可能比压缩版多出 30-40%。
Token 的计费逻辑——不是按你说了多少话,而是按 AI 需要处理多少碎片。
2、Token 背后的经济学
为什么 AI 按 Token 收费?
因为每一个 Token,都要经过模型全部参数的计算。
你发给它的每一个 Token,都会在这些参数之间「走」一遍。Token 越多,计算量越大,GPU 烧的时间越长,成本就越高。
所以 Token 就是算力的代名词。按 Token 收费,本质上就是按算力收费。
输入贵还是输出贵?
答案是输出贵得多。
输出价格是输入的 5 倍。
原因很简单:输入 Token 可以并行处理(一次性全看完),但输出 Token 必须逐个生成——每生成一个字,都要基于前面所有已生成的内容来推算下一个字。这个串行过程,计算量比并行大得多。
所以一个原则:让 AI 少说废话,比你少打几个字更省钱。
上下文窗口:不是记忆力,是视野
很多人以为「200K 上下文窗口」意味着 AI 能「记住」20 万 Token 的内容。
更准确的理解是:它一次能「看到」多少内容。
就像你桌上摊开一本书,上下文窗口就是你桌子的大小。桌子越大,你能同时翻开的页数越多,但处理每一页的工作量也越大。
这意味着:上下文越长,单次请求的计算量越大,成本也越高。
你看不见的隐性 Token
这是大多数人忽略的盲区。
你以为自己只发了一句「hello」只消耗一个 token 么?实际上 AI 处理的远不止这些:
• 系统提示词:每次对话都会带上,通常几千 Token
• 对话历史:你和 AI 聊了 20 轮,每一轮的内容都在
• 工具描述:如果 AI 能调用搜索、代码执行等工具,这些工具的定义也会带上
• 项目文件:在 AI 编程工具里,你打开的文件、项目配置都可能被塞进上下文
一条简单的消息,背后可能附带了几万 Token 的「隐形行李」。而这些,全部要付费。
3、Agent 时代,Token 消耗变了
如果说传统的 AI 聊天是「你问一句、它答一句」,那 AI Agent 就是「你下一个指令、它自己干一整套」。
这带来了 Token 消耗逻辑的根本变化。
传统聊天 vs Agent
传统聊天:你发 100 Token → AI 回 500 Token → 花了 600 Token,完事。
Agent 模式:你发 100 Token → Agent 先思考要怎么做 → 读了 5 个文件(花 12000 Token) → 分析代码结构(思考花 8000 Token) → 写了一版代码 → 跑测试发现有错 → 修改代码 → 再跑测试 → 通过 → 回复你结果。
一个简单的指令,Agent 内部可能转了十几轮,每一轮都带着完整上下文。
这就是为什么很多人第一次用 Claude Code 时吓一跳:「我就让它改个 bug,怎么烧了几十万 Token?」
滚雪球效应
Agent 的 Token 消耗有一个显著特征:滚雪球。
第 1 轮:系统提示 + 你的指令 = 5000 Token
第 2 轮:上面 5000 + AI 的回复 + 读取的文件 = 15000 Token
第 3 轮:上面 15000 + 新的操作和结果 = 30000 Token……
每一轮都要把前面所有内容再处理一遍。这就是为什么一次长会话下来,Token 消耗可以轻松到几十万甚至上百万。
有个开发者分享了一个极端案例:49 个子任务并行跑了 2.5 小时,估计花了 8000 到 15000 美金。
不理解 Token,你就不理解账单。
4、所有 AI 用户都该知道的基础优化
不管你用什么 AI 工具,以下这几条建议都适用。
1.让 AI 少说废话
在提示词里加一句「不要解释,直接给结果」或「Skip the preamble」,可以减少 30-50% 的输出 Token。
2.精准表达,避免模糊提问
一次说清楚,一次出结果。 模糊提问导致的来回纠错,是最隐蔽的 Token 浪费。
3.同类需求,整合一次输入
比如:帮我查询下 xxx 数据,整合成一份报表,以 pdf 形式保存在我桌面。
这三个需求比你聊天式问 AI 三次节省很大 token。
4.结构化输出限制
最简单的方式:告诉 AI 你要什么格式、多长。
同样的信息量,表格可能只有 200 Token,长文要 1500 Token。输出格式不同,成本差几倍。
常用的限制技巧:
• 「用表格输出」——比自然语言省 3-5 倍
• 「每条不超过两句话」——防止 AI 展开论述
• 「只列要点,不要解释」——砍掉最占 Token 的部分
• 「回复控制在 200 字以内」——直接设上限
5、选对模型比什么都重要
很多人上来就用最贵的模型,觉得「反正要用就用最好的」。
数据会让你清醒一下:Claude Opus 在 SWE-bench 上的得分是 80.8%,Sonnet 是 79.6%。差距只有 1.2 个百分点,但 Opus 贵了约 67%。
处理文本信息,用 DeepSeek 完全够用,而且非常便宜。
日常对话、写文章、改改代码,Sonnet 甚至 Haiku 就够了。
Opus 留给真正需要深度推理的复杂任务。
6、学会和一些免费工具结合
Google 的很多工具和产品免费基本都够用了。
chatGPT免费版的也够日常聊天查询资料使用了。
7、不要上来就让 AI 去写代码
很多人在用 AI 做项目的时候,很快就让 AI 开始写代码了,其实代码是极其耗费 token 的。
所以每个人在做项目之前,一定要先做个项目整体规划,一步步做好 plan,都确定之后再让 AI 写代码。
8、要 diff 不要全文
改代码时,告诉 AI「只给我修改的部分,用 diff 格式」。
一个 500 行的文件,可能只改了 10 行,但如果你不说,AI 会把整个文件重新输出一遍。
差距是 50 倍。
9、先要最小实现
「先给一个能跑通基本场景的最简版本,不要处理边界情况。」
然后再逐步迭代。这比一次让 AI 生成一个「完善」的大块代码,总 Token 消耗反而更少——因为你避免了生成大量你可能不需要的代码。
10、方向错了立刻停
跟 AI 来回扯了三四轮还没解决?停下来,重开一个对话。
继续在错误的方向上追加,每一轮都在为之前所有的错误上下文买单。重新开始反而更省。
11、不要安装过多的 skills 和插件
每个 Skill 和插件安装之后,它的完整定义会被注入到系统提示词里——也就是我们前面说的那些「隐性 Token」。
这些 Token 每一轮对话都要带上,不管你这轮用不用得到这个 Skill。
你问一个简单的问题,后台照样把你装的所有 Skill 定义全部塞进上下文。
所以建议是:
• 定期清理不再使用的 Skill 和插件,别让僵尸工具吃你的 Token
• 功能重叠的只留一个,不要同时装三个类似功能的插件
• 用的时候再搜索安装,你放心,用的时候你一定找得到
• 只有部分项目单独用到的就不要全局安装
少即是多。装得越少,每轮对话的底座消耗越低,留给真正有用内容的空间就越大。
AI 时代的核心能力,不只是会写提示词,还包括理解你用的工具是怎么计费的。
Token,就是你和 AI 之间的货币。花得明白,才用得值。
欢迎在评论区留下你的看法!
夜雨聆风