你的AI助理,到底在替你干活,还是在替你烧钱?

你打开一个AI客服，问"我上周的订单为什么还没发货"。

系统先识别你的意图，再去查订单，查完再查售后规则，生成一段回复，最后调了个工单接口。六步推理，三个工具调用，2000个Token跑完——你得到一段话，跟人工客服的标准回复差不多。

你觉得不对劲，追问了一句。系统继续解释、检索、生成，Token涨到8000，你又追问一句，涨到10000。

最后你点了"转人工"。

在后台，这次服务被记录为一次成功的AI接待。在你那边，你只是被迫多问了三次。

这事儿放在2026年，已经不是个例，是普遍现象。

三个关键词

**废Token**——系统做了很多动作，不代表事情办成了。那些没解决任务的调用，就是废Token。

**Token良率**——你烧了100个Token，有多少真正推进了任务？这个比例，决定了你的AI是在打工还是在摸鱼。

**任务完成率**——别听DAU了，也别听调用量。最简单的检验标准：用户有没有停止追问？代码有没有通过测试？工单有没有关闭？

这三个词，是2026年判断AI产品价值的核心度量衡。

三步，判断你的AI是不是在"假忙"

步骤	做什么	怎么判断
第一步：看重试率	同一用户、同一问题，AI回答了几轮才解决？	超过3轮还在打转，说明Agent在绕路
第二步：测Token效率	一次任务平均消耗多少Token？不同运行的Token差距多大？	差距超过5倍，说明系统不稳定
第三步：查转人工率	最后有多少用户点了转人工？	超过20%就是灾难

别觉得这要求高。一篇论文刚扒开了这层底裤。

Token骗局：你花得越多，不代表它干得越好

2026年4月，Longju Bai、Zhemin Huang、Xingyao Wang等七位学者发表了论文《How Do AI Agents Spend Your Money?》。这名字翻译过来就很刺人：你的AI代理，是怎么花你的钱的？

他们在SWE-bench Verified上跑了大量AI编程任务，发现三组数字：

第一，Agent类的编程任务，消耗的Token是普通代码推理和代码聊天任务的**1000倍**。不是100%，是1000倍。等于说，你让Agent去修一个bug，它消耗的计算资源，够你写一本小说。

第二，同一个任务，不同运行的Token消耗**最多相差30倍**。你上午跑一次花了1000个Token，下午重跑花了30000个。系统不会告诉你为什么——它连自己都控制不了自己。

第三，也是最重要的：**更高的Token消耗，不会带来更高的准确率**。准确率往往在中等成本区间达到峰值，之后继续烧钱，准确率就躺平了。

用大白话说：你给AI多充一倍的钱，它不会变得聪明一倍。它只会变得更啰嗦，花更多时间绕路，最后给你一个跟之前差不多的答案。

真实案例：折扣电商的Agent困局

讲个真实发生过的案例。2025年底到2026年初，一家年交易额超百亿的折扣电商平台，上线了AI客服Agent处理退款。

时间线：

• **2025年9月**：立项。目标是用AI替代80%的人工客服。

• **2025年11月**：上线测试。Agent能识别意图、调订单系统、查规则、生成回复、调用工单工具。演示效果完美。

• **2025年12月**：全量上线。第一天处理了超过12万次会话。

• **2026年1月**：发现异常。自动化率确实很高（73%），但"同一用户48小时内重复进线率"从AI上线前的8%飙升到了31%。

• **2026年2月**：回头算账。AI每天处理约15万次会话，每次平均消耗2500个Token。按当时API价格算，单日Token成本约3.2万元。加上转人工兜底的成本，AI客服的**单次解决成本**比人工客服还高出17%。

• **2026年3月**：整改。重新设计链路，把客服Agent从6步推理压缩到3步，限制重试次数为2次。

• **2026年4月**：效果。自动化率从73%降到61%，但重复进线率从31%降到9%，单次解决成本下降42%。

数据说话：长的Agent链路看起来专业，但没办成事的时候，每一步都是白烧的钱。

**关键教训**：自动化率（73%）很好看，但那31%的重复进线率才是真相。用户在同一个问题上反复回来，AI每次接待都算一次"成功会话"——但在用户那边，问题根本没好过。

避坑指南：别踩这五个坑

坑一：迷信自动化率

自动化率60%不代表60%的问题被解决了。可能只是60%的问题被接待了，其中一半最后还得转人工。正确做法：算"一次解决率"——用户问一次就搞定的比例。

坑二：只算单次Token成本

单次几分钱，看着便宜。但乘上重试次数和转人工率，实际成本可能翻三倍。正确做法：算"端到端任务成本"——从用户发起请求到问题最终解决，中间所有的Token加起来。

坑三：Agent链路越长越好

六步推理、三个工具调用、自我检查——看起来很高级。但如果完成率没提升，每多一步就是多一个花钱没有产出的环节。正确做法：把Agent链路缩短一半试试，完成率没降，多出来那半就是浪费。

坑四：忽略"追问里藏着的失败"

用户说"你没理解我的意思"，算一次会话互动。在后台看是"用户活跃"，在用户那是在消耗耐心。正确做法：追踪"用户主动要求转人工"和"用户反复表达同一诉求"的次数。

坑五：拿调用量给投资人讲PPT

2026年，调用量约等于2016年的DAU——听着好，细看可能是假的。Token调用量涨了，任务完成率也在涨，这是真增长。调用量涨了，重试率和转人工率也在涨，说明用户在被迫多问。

所以，问题来了

整个行业正在从"看DAU"转向"看TPD"（一天处理多少Token）——从"用户待了多久"转向"任务推进了多远"。

OpenAI内部据传在弱化DAU，转向TPD。百度李彦宏5月提出了DAA（日活智能体数）。腾讯做Agent Memory，放出来的关键数据不是用户量，而是"Token消耗降低50%，任务完成率提升23%"。

衡量AI有没有用的尺子，正在从"它多忙"变成"它办成了什么"。

但说到底，这把尺子拿来量别人的时候容易，拿来自查的时候很难。

因为承认"我的AI其实没干多少活"，需要的不只是技术能力。

还需要勇气。