2026 年 5 月,一个叫 Ronin 的开发者在社交平台上晒了自己的账单。
AI 编程工具,一个月,$4,200。折合人民币三万块。评论区有人问他是不是养了一个团队,他说不是,就他一个人,每天用 AI 辅助写代码。
然后他做了一些事。没换工具,没降低交付质量,同一个人的同一个工作流。下个月的账单,$312。
从三万块砍到两千出头。降了 92.5%。
这件事在开发者圈子里炸了,接近 50 万人看了他的分享。不是因为大家不知道 AI 编程烧钱。是因为所有人都隐约觉得自己的账单不对,但说不清楚哪里不对。他说明白了。
你可能会想,三万块的月账单跟我有什么关系,我又不是专业程序员。
有关系。因为那 $3,888 的差额里,只有极小一部分是「他用得比我多」。绝大部分是「他用得跟我一样多,但我不小心白烧掉的钱」。这个白烧的逻辑,不限于写代码。你用任何 AI 工具到一定深度,都会撞上同一堵墙。
AI 的汽油,一种你每天都在烧但看不见的东西
你用 AI 的时候,其实在做一件事。把信息送给 AI,AI 处理完再送回来。Token 就是这个过程的计费单位。
把它想成汽油。你开车去一个地方,烧的不是距离,是汽油。你用 AI 完成一个任务,花的不是问题数量,是 Token。
但 Token 不像汽油那么好理解。它不是按「个」算的,也不是一个字一句话。一个 Token 大概等于英文里四分之三个单词,或者中文里半个到一个字。你打一句「帮我写个函数」,发过去,几个 Token。AI 回你一段代码,几百个 Token。
到这里还简单。真正让事情变复杂的是,Token 不止一种。
现代 AI 的账单上躺着四种东西。输入 Token,你发给 AI 的所有内容。输出 Token,AI 返回给你的答案。缓存 Token,你最近发过的内容被 AI 标记了,下次再发同样的东西时只收十分之一的价格。还有推理 Token,AI 在回答你之前内部有一个「思考过程」,你看不见,但一样要付钱。而且通常比你能看见的部分更贵。
四种 Token 的单价还差很多。输入大概几美元一百万 Token,输出通常是输入的三到五倍。模型越强,单价越高。一个叫 Claude Opus 4.6 的顶级模型,输入 25。
但这些绝对数字其实不是问题的核心。核心是,很多人一个月烧掉几千万 Token 而浑然不觉,直到月底看见账单。
99% 的钱花在了你根本没想到的地方
Gyro,另一个研究这个问题的开发者,给了一个数据。他统计了 AI 编程工具 Claude Code 上超过一千次真实请求,发现 99% 的 Token 消耗在输入上。输出,也就是 AI 真正帮你写出来的代码,连 1% 都不到。
翻译一下。你花的钱里,一百块有九十九块是让 AI「读东西」,只有一块钱是让 AI「写东西」。
这不合理。你雇一个人帮你干活,付的是他干活的时间,不是他把你家所有文件翻一遍的时间。但 AI 不是这么计费的。它读的每一行都算钱。
那 AI 到底在读什么,要读这么多?
这里有一个关键的类比。
你用 AI 编程工具的时候,每问一个问题,AI 会把你的「上下文」全部读一遍。上下文是啥?是你当前项目打开的所有文件、你跟它之前的全部对话记录、你写的项目说明。你问「帮我修一下这个 bug」,AI 不会只看那个有 bug 的函数。它会把你整个项目的几十个文件从头扫到尾,把你们过去一小时的聊天记录重新看一遍,然后再回答你。
你一天问五十次,它就扫五十遍。那些文件根本没变过,但每次你都要为同一批内容的「阅读费」买单。
Ronin 算过一笔账。一个包含五十个文件的上下文,大概八万 Token。用 Opus 4.6 跑,每问一次的输入成本是一块二。一天问五十次,六十美元。一个月光输入就 1,800 买来的,只是让 AI 反反复复读同一批从来没变过的文件。
五十个文件可能都算少的。很多人开着自动上下文没关过,项目里几百个文件每次都打包送进去。
而更隐蔽的问题还在后面。AI 编程工具现在大多是智能体模式,AI 会自己调工具、搜文件、跑命令、看结果、再调下一个工具。每一步都是一次完整的上下文重读。你看到的是 AI 在「帮你修 bug」,你看不到的是它内部跑了五轮工具调用,每一轮都重新读了一遍你那八万 Token 的上下文。你以为你只付了一次钱,实际上付了五次。
还有一件事很多人不知道。ChatGPT 这类聊天产品会在后台偷偷帮你把旧消息丢掉,保持上下文不会无限膨胀。但 Claude Code 这类专业编程工具不会。它默认把全部对话历史都留着。Gyro 的数据,第三十轮对话的成本是第一轮的三十一倍。越聊越贵,而你完全感觉不到。
你不是在付模型费,你是在付懒惰税
Ronin 在分享里说了一句很狠的话。你不是在付 Token 费,你是在付懒惰税。
他的意思是,账单里的大头不是模型太贵,是习惯太差。下面这五个习惯,挨个检查一下。
第一个,每次都把整个项目塞给 AI。工具默认的「自动上下文」功能会把项目里几十个文件一起打包发给模型,而你其实只想让它改一个函数。这些文件跟你当下的问题毫无关系,但每一行都收了钱。修复方式简单到有点过分,关掉自动上下文,用到哪个文件就手动指定哪个。
第二个,让 AI 自己去找文件而不是直接告诉它路径。你说「读一下那个配置文件」,AI 就开始搜索,搜错了再搜,搜到了再确认。搜索过程的每一步都会进入上下文,且对后续任务没有任何价值。直接告诉它文件在哪,省掉的不只是时间。
第三个,用最贵的模型做最小的事。修拼写、格式化、重命名变量,这些活没有任何智力含量,但如果你默认在顶级模型上跑,AI 会认真思考十二秒,烧掉八千推理 Token,收你六毛钱。换个最基础的模型,两分钱搞定。不是在说贵的不好,是在说你用跑车送外卖。
一个更隐蔽的版本是,用中档模型 Sonnet 做日常编码,认为这样最稳妥。但 Ronin 自己跑了一组实测,同样重构一个五百行的文件,Sonnet 花了 0.04,质量分 9.2。代码都能跑,测试都能过,质量没区别,价格差三倍。构建接口端点,差九倍。调试堆栈错误,差八倍。Ronin 的原话是,「大多数默认用 Sonnet 的人,是在为质量等价的输出多付六倍价格」。
第四个,一条条发消息而不是一次说完。你需要 AI 做三件事,总结一段话、列几个要点、再起个标题。很多人分三条消息发。每多一轮对话,AI 就要重新读一遍之前的全部历史。三条消息等于交三次门票钱。合在一起一次说完,只交一次。
第五个,发现错了追加纠正而不是直接编辑。你的上一个问题没说清楚,或者 AI 跑偏了,于是你追发一条去纠正。那段错误的输出会永远留在上下文里,后面每一轮都在为它买单。Claude Code 的用户可以按两次 Esc 进入回溯模式,直接把上一条消息编辑成正确的版本。干净,不留垃圾。
这五个习惯加在一起,Ronin 估算能占到账单的 50% 到 70%。好消息是,修复它们不需要学新技术,只需要改变一个小小的默认行为。
贵的不一定好,这条常识在 AI 身上也成立
这里有一个挺反直觉、但我认为值得单独讲的事。
大多数人用 AI 的习惯是认准一个模型,什么事都让它干。要么选最贵的求安心,要么选免费的凑合用。中间的更多人选 Sonnet,因为两年前大家都说它性价比最高。
但 AI 模型这东西进化太快了。去年的性价比之王,今年可能已经被一个半价的选手追平了质量。而你如果不主动去试,永远不会知道。
Ronin 的基准测试数据挺能说明问题。他在四个典型编程任务上拿不同模型跑了一遍。
重构代码,Opus 0.04,质量差距 0.3 分。构建接口,Opus 0.02,质量相同。调试错误,Opus 0.01,质量差距 0.4 分。只有到了架构规划这种高难度决策任务,Opus 才真正拉开差距,$0.65,质量 9.8,比 Kimi 的 9.2 高了 0.6 分,而这 0.6 分在关键决策上确实值那个差价。
你看这个规律了没?越日常的活,越不需要贵的模型。但大多数人刚好反过来,日常的活全走贵的,偶尔遇到难活反而随便选一个。
所以 Ronin 的做法不是「全换便宜货」,也不是「贵的省着用」。而是搭了一个路由。
架构设计、安全审计,这种一步走错损失巨大的决策,走最顶级的模型,贵得有道理。日常写代码、调试、重构,占了八成工作量,走性价比最高的 Kimi 2.6。格式化代码、改拼写、修缩进,走最便宜的 Haiku。自动补全和样板代码生成,走本地免费模型,免费。
他说这个路由逻辑花半小时就能搭好,不需要改变任何工作习惯,账单自动砍掉一半以上。Ronin 自己的数据是,光把日常主力从 Sonnet 换成 Kimi 2.6 这一个操作,砍掉了 40% 到 55% 的账单。这是整个省钱计划里单次最大的降幅。
四件今天就能做的事
如果你已经在用 AI 编程工具,或者在用任何 AI 工具到一定深度,有四件事不需要任何技术门槛,今天就能做。
第一,把你工具的自动上下文关掉。不要让工具每次自动把所有文件塞给 AI。用的时候自己指定要哪些文件。就这一步,输入 Token 直接砍掉一半以上。
第二,打开缓存。Anthropic、OpenAI、Moonshot 现在都支持 Prompt 缓存,重复发送的内容自动按一折计费。大部分工具在设置里就有开关,打开就行,不需要额外配置。
第三,给对话做定期清理。聊完一个大任务,要么开新对话,要么做一次上下文压缩。Claude Code 用户输入 /compact,AI 会把长篇历史提炼成一个简洁摘要,把原始对话丢掉。一个二十万 Token 的会话可以压到五千 Token,接下来继续对话的成本直接降到原来的 5%。不只是省钱,模型在清过上下文之后输出的质量也会更高。有一件事知道一下,上下文塞太满时模型会出「上下文焦虑」,表现明显变差,给出敷衍的答案。清一清,一举两得。
第四,换个视角看模型选择。别因为某个模型去年被说是「便宜货」,就下意识觉得它不行。自己去试试你现在干的活,用贵的和便宜的分别跑一下,对比结果。Ronin 说了一句特别实在的话,你为写代码多付的六倍价格,买的不是更好的代码,是心安。但心安这个东西,自己验证过一次之后就不需要了。
不只是在省钱
说句实在的,Token 成本这件事,现在大多数人的账单还没大到肉疼的程度。但方向是清楚的。模型越来越强,智能体工作流越来越长,上下文越来越臃肿。今天不养成整理上下文的习惯,等账单从几十块涨到几千块的时候,补课的成本就不是一下午的事了。
Ronin 展望 2027 年的时候说了一段话。到那时候,好的开发者跟普通的开发者之间的差距,不是谁用了更好的模型。是谁对上下文更有纪律,谁的路由更聪明。一个月花 4,000 的差。差别不在能力和预算,在有没有花一个下午,认真搞清楚自己哪里在漏油。
这话其实不止对开发者有效。任何人用 AI 工具到一定深度,迟早会面对同一个问题。你到底是在为自己真正需要的东西付费,还是在为自己懒得整理的东西付费。
省下来的每一分钱,不是抠门,是给你腾出预算去做更多有价值的事情。
参考来源
• Ronin(@DeRonin_),《How To Cut Your AI Coding Bill by 80%》,X,2026-05-13 • Gyro(@Xx15573208),《11 个真正帮你省 token 的 Claude Code 技巧》,X,2026-05-12
夜雨聆风