「瞬知笔记」AI Agent的成本比对话贵1000倍——问题出在哪?
一个AI Agent跑一次任务的成本,可能是一次AI对话的1000倍。
这个数字来自一篇刚发表的论文。MIT和斯坦福的研究团队用8个主流大模型在SWE-bench上做了系统测试,发现Agent编码任务的token消耗是普通对话的1000倍,而且输入token——不是输出——才是成本的大头(arXiv:2604.22750, Bai et al.)。更离谱的是,同一个任务跑两次,token消耗差异可以高达30倍。连模型自己都预测不准自己要花多少钱。
Gartner去年给了一个预测:到2027年底,超过40%的AI Agent项目会因为成本失控被砍掉。目前只有15%的企业能把AI成本预测控制在±10%以内。
一边所有人都在喊”Agent是未来”,一边Agent的成本高到企业用不起。这中间到底出了什么问题?

大模型很聪明,但它只会”说”,不会”做”
让ChatGPT写一封邮件,几秒钟出来,写得比大多数人好。但让它真的把这封邮件发出去——登录邮箱、填收件人、附上昨天会议的附件、定时明早八点发——它做不到。
不是因为它”不够聪明”。做不到是因为聊天和干活需要的能力完全不同。
聊天只需要一个能力:理解输入,生成输出。大模型在这件事上已经超过大多数人了。
干活至少需要四个能力:
理解——大模型有。给它任何复杂的需求描述,它都能听懂。
执行——大模型没有。它不能操作数据库、调用API、跟任何外部系统交互。生成一段”调用API的代码”和真的去调用API,是两码事。
记忆——大模型没有。它做完上一步就忘了。你让它先查数据再分析,它查完数据不记得自己查了什么,除非你把结果重新告诉它一遍。
验证——大模型没有。它不知道自己做对了没有。生成了一个答案,没法回头检查对不对,因为它没有环境反馈。
聊天只用到第一个。干活四个全要。
Agent就是补上后面三个的架构——给大模型接上工具(执行)、上下文管理(记忆)、反馈机制(验证)。但补这三个能力的代价,就是那1000倍。

Photo by Kvistholt Photography on Unsplash
1000倍是怎么来的?
先说执行。Agent要调用外部工具,每次调用的结果都是不确定的。查数据库可能返回10条也可能10万条,调API可能成功也可能超时。每一步的不确定性意味着Agent不能提前规划所有步骤,只能走一步看一步——做完一步,看结果,决定下一步。一个任务可能经过十几轮决策。
再说记忆。大模型底层架构Transformer有一个根本特性:无状态。2017年Google那篇”Attention Is All You Need”定义了这个架构——自注意力机制让模型在生成每个字的时候回看前面所有内容,计算每个字跟当前任务的相关性。这让模型很聪明,但代价是:Q和K矩阵的乘法产生一个n×n的注意力矩阵,计算量随上下文长度呈O(n²)增长。上下文从1万字变成10万字,计算量不是翻10倍,是翻100倍。
而且Transformer没有”记忆槽”。每次调用都是独立的,上一次的结果不会保留到下一次。所以Agent每一轮决策都要把之前所有步骤的结果重新塞给大模型。第一步1万字,第二步2万字,第三步3万字。
斯坦福2023年的研究还发现了一个更隐蔽的问题:大模型在长上下文中的信息检索呈U形曲线——开头和结尾的信息能记住,中间的会”丢失”(arXiv:2307.03172, Liu et al.)。Agent塞进去的上下文越长,中间步骤的信息反而越容易被忽略。模型不只是读得慢,还读得不准。
最后说验证。Agent做完一步需要检查结果,检查本身又是一次大模型调用——又读一遍上下文,又推理一遍。一个”做+检查”循环的计算量是单纯”做”的两倍以上。
把这三层叠起来:多轮决策 × 累积上下文 × 二次方增长 × 验证开销 × U形信息丢失导致的重试。1000倍就是这么来的。CIO报道过一个案例:一个Claude Agent跑一天花300美元,一年接近10万美元,效率大概相当于一个人类员工的10%到20%。

Photo by boris misevic on Unsplash
但成本只是表面。真正的问题是:Agent在干活的过程中,数据失控了
聊天的时候数据边界很清楚——一问一答,数据只在用户和模型之间。
Agent不一样。它要访问数据库、调用第三方API、读企业内部文档、操作客户信息。数据在整条执行链上流动——从用户到Agent,从Agent到工具,从工具到外部系统,再回来。
每经过一个节点就多一层安全边界。谁能看到这些数据?第三方工具会不会留存?Agent读了客户的购买记录做推荐,这条记录在执行链上经过了几个系统?
这还只是数据流动。还有信任问题:Agent自动审批了一笔贷款,决策依据是什么?链条上每一步能不能追溯?出了问题谁负责?
大模型聊天出错,用户觉得”这AI不太行”。Agent执行出错,可能是真金白银的损失,可能是数据泄露,可能是合规事故。
还有价值结算:1000倍成本里,有多少花在”阅读上下文”上,有多少花在”做出正确决策”上?按token结算还是按业务成果结算?
成本、数据、信任、结算——这四个问题纠缠在一起,构成了Agent商业化的真正瓶颈。光压成本不够。
需要的是三层基础设施
数据流管控:执行链上每个节点的数据读写权限、存留策略、销毁时间都要明确定义。不是事后审计,是执行过程中实时管控。
信任链:Agent每一步决策都要可追溯。从输入到推理到输出,形成完整的决策链。出了问题能精确定位到哪一步、基于什么数据、做了什么判断。
价值结算:在执行链的关键节点标记价值产生点。哪一步是成本(阅读上下文),哪一步是价值(做出正确决策)。按价值结算而不是按token量结算,Agent的商业模式才能跑通。
再往前一步:让Agent自己变便宜
有了安全基础设施,Agent能跑起来了。但成本曲线还是向上的——用得越多花得越多。
让成本反转,需要第四层:自学习。
今天的Agent是调用型的:接到任务→读上下文→推理→输出→遗忘。做了一万次推荐,第一万零一次不会比第一次好,因为它没从前面的一万次里学到任何东西。
自学习Agent不一样:每次执行都收到反馈,反馈被用来更新模型参数。下次遇到类似任务,不需要重新读完整上下文,因为经验已经内化了。
我们在电商场景跑了四年。初期每次决策需要大量上下文输入——用户画像、历史行为、商品属性、场景信息。几百亿次决策之后,模型把意图识别的能力内化了。同样的决策精度,计算资源消耗比初期低了一个数量级。
传统Agent用得越多花得越多。自学习Agent用得越多需要读的越少。两条完全相反的成本曲线。
Agent成本贵1000倍,是因为今天的架构还停在”无记忆、无学习、无信任”的阶段。把这三层补上,1000倍会迅速往下掉。
那一天,Agent才真正从demo变成生产力。
参考文献:
1. Bai et al., “How Do AI Agents Spend Your Money?” arXiv:2604.22750, 2026
2. Liu et al., “Lost in the Middle,” arXiv:2307.03172, Stanford/UC Berkeley, 2023
3. Vaswani et al., “Attention Is All You Need,” NeurIPS 2017
4. Gartner, “Over 40% of Agentic AI Projects Will Be Canceled by End of 2027,” 2025.06
5. CIO.com, “Without Controls, an AI Agent Can Cost More Than an Employee,” 2026

王冉|跃盟科技创始人
专注连接人类需求与AI劳动力,让AI普惠每一个工作岗位
夜雨聆风