你打开一个AI客服,问"我上周的订单为什么还没发货"。
系统先识别你的意图,再去查订单,查完再查售后规则,生成一段回复,最后调了个工单接口。六步推理,三个工具调用,2000个Token跑完——你得到一段话,跟人工客服的标准回复差不多。
你觉得不对劲,追问了一句。系统继续解释、检索、生成,Token涨到8000,你又追问一句,涨到10000。
最后你点了"转人工"。
在后台,这次服务被记录为一次成功的AI接待。在你那边,你只是被迫多问了三次。
这事儿放在2026年,已经不是个例,是普遍现象。
三个关键词
**废Token**——系统做了很多动作,不代表事情办成了。那些没解决任务的调用,就是废Token。
**Token良率**——你烧了100个Token,有多少真正推进了任务?这个比例,决定了你的AI是在打工还是在摸鱼。
**任务完成率**——别听DAU了,也别听调用量。最简单的检验标准:用户有没有停止追问?代码有没有通过测试?工单有没有关闭?
这三个词,是2026年判断AI产品价值的核心度量衡。
三步,判断你的AI是不是在"假忙"
| 步骤 | 做什么 | 怎么判断 |
|---|---|---|
| 第一步:看重试率 | 同一用户、同一问题,AI回答了几轮才解决? | 超过3轮还在打转,说明Agent在绕路 |
| 第二步:测Token效率 | 一次任务平均消耗多少Token?不同运行的Token差距多大? | 差距超过5倍,说明系统不稳定 |
| 第三步:查转人工率 | 最后有多少用户点了转人工? | 超过20%就是灾难 |
别觉得这要求高。一篇论文刚扒开了这层底裤。
Token骗局:你花得越多,不代表它干得越好
2026年4月,Longju Bai、Zhemin Huang、Xingyao Wang等七位学者发表了论文《How Do AI Agents Spend Your Money?》。这名字翻译过来就很刺人:你的AI代理,是怎么花你的钱的?
他们在SWE-bench Verified上跑了大量AI编程任务,发现三组数字:
第一,Agent类的编程任务,消耗的Token是普通代码推理和代码聊天任务的**1000倍**。不是100%,是1000倍。等于说,你让Agent去修一个bug,它消耗的计算资源,够你写一本小说。
第二,同一个任务,不同运行的Token消耗**最多相差30倍**。你上午跑一次花了1000个Token,下午重跑花了30000个。系统不会告诉你为什么——它连自己都控制不了自己。
第三,也是最重要的:**更高的Token消耗,不会带来更高的准确率**。准确率往往在中等成本区间达到峰值,之后继续烧钱,准确率就躺平了。
用大白话说:你给AI多充一倍的钱,它不会变得聪明一倍。它只会变得更啰嗦,花更多时间绕路,最后给你一个跟之前差不多的答案。
真实案例:折扣电商的Agent困局
讲个真实发生过的案例。2025年底到2026年初,一家年交易额超百亿的折扣电商平台,上线了AI客服Agent处理退款。
时间线:
• **2025年9月**:立项。目标是用AI替代80%的人工客服。
• **2025年11月**:上线测试。Agent能识别意图、调订单系统、查规则、生成回复、调用工单工具。演示效果完美。
• **2025年12月**:全量上线。第一天处理了超过12万次会话。
• **2026年1月**:发现异常。自动化率确实很高(73%),但"同一用户48小时内重复进线率"从AI上线前的8%飙升到了31%。
• **2026年2月**:回头算账。AI每天处理约15万次会话,每次平均消耗2500个Token。按当时API价格算,单日Token成本约3.2万元。加上转人工兜底的成本,AI客服的**单次解决成本**比人工客服还高出17%。
• **2026年3月**:整改。重新设计链路,把客服Agent从6步推理压缩到3步,限制重试次数为2次。
• **2026年4月**:效果。自动化率从73%降到61%,但重复进线率从31%降到9%,单次解决成本下降42%。
数据说话:长的Agent链路看起来专业,但没办成事的时候,每一步都是白烧的钱。
**关键教训**:自动化率(73%)很好看,但那31%的重复进线率才是真相。用户在同一个问题上反复回来,AI每次接待都算一次"成功会话"——但在用户那边,问题根本没好过。
避坑指南:别踩这五个坑
坑一:迷信自动化率
自动化率60%不代表60%的问题被解决了。可能只是60%的问题被接待了,其中一半最后还得转人工。正确做法:算"一次解决率"——用户问一次就搞定的比例。
坑二:只算单次Token成本
单次几分钱,看着便宜。但乘上重试次数和转人工率,实际成本可能翻三倍。正确做法:算"端到端任务成本"——从用户发起请求到问题最终解决,中间所有的Token加起来。
坑三:Agent链路越长越好
六步推理、三个工具调用、自我检查——看起来很高级。但如果完成率没提升,每多一步就是多一个花钱没有产出的环节。正确做法:把Agent链路缩短一半试试,完成率没降,多出来那半就是浪费。
坑四:忽略"追问里藏着的失败"
用户说"你没理解我的意思",算一次会话互动。在后台看是"用户活跃",在用户那是在消耗耐心。正确做法:追踪"用户主动要求转人工"和"用户反复表达同一诉求"的次数。
坑五:拿调用量给投资人讲PPT
2026年,调用量约等于2016年的DAU——听着好,细看可能是假的。Token调用量涨了,任务完成率也在涨,这是真增长。调用量涨了,重试率和转人工率也在涨,说明用户在被迫多问。
所以,问题来了
整个行业正在从"看DAU"转向"看TPD"(一天处理多少Token)——从"用户待了多久"转向"任务推进了多远"。
OpenAI内部据传在弱化DAU,转向TPD。百度李彦宏5月提出了DAA(日活智能体数)。腾讯做Agent Memory,放出来的关键数据不是用户量,而是"Token消耗降低50%,任务完成率提升23%"。
衡量AI有没有用的尺子,正在从"它多忙"变成"它办成了什么"。
但说到底,这把尺子拿来量别人的时候容易,拿来自查的时候很难。
因为承认"我的AI其实没干多少活",需要的不只是技术能力。
还需要勇气。
夜雨聆风