「瞬知笔记」AI Agent的成本比对话贵1000倍—

「瞬知笔记」AI Agent的成本比对话贵1000倍——问题出在哪?

一个AI Agent跑一次任务的成本，可能是一次AI对话的1000倍。

这个数字来自一篇刚发表的论文。MIT和斯坦福的研究团队用8个主流大模型在SWE-bench上做了系统测试，发现Agent编码任务的token消耗是普通对话的1000倍，而且输入token——不是输出——才是成本的大头（arXiv:2604.22750, Bai et al.）。更离谱的是，同一个任务跑两次，token消耗差异可以高达30倍。连模型自己都预测不准自己要花多少钱。

Gartner去年给了一个预测：到2027年底，超过40%的AI Agent项目会因为成本失控被砍掉。目前只有15%的企业能把AI成本预测控制在±10%以内。

一边所有人都在喊”Agent是未来”，一边Agent的成本高到企业用不起。这中间到底出了什么问题？

大模型很聪明，但它只会”说”，不会”做”

让ChatGPT写一封邮件，几秒钟出来，写得比大多数人好。但让它真的把这封邮件发出去——登录邮箱、填收件人、附上昨天会议的附件、定时明早八点发——它做不到。

不是因为它”不够聪明”。做不到是因为聊天和干活需要的能力完全不同。

聊天只需要一个能力：理解输入，生成输出。大模型在这件事上已经超过大多数人了。

干活至少需要四个能力：

理解——大模型有。给它任何复杂的需求描述，它都能听懂。

执行——大模型没有。它不能操作数据库、调用API、跟任何外部系统交互。生成一段”调用API的代码”和真的去调用API，是两码事。

记忆——大模型没有。它做完上一步就忘了。你让它先查数据再分析，它查完数据不记得自己查了什么，除非你把结果重新告诉它一遍。

验证——大模型没有。它不知道自己做对了没有。生成了一个答案，没法回头检查对不对，因为它没有环境反馈。

聊天只用到第一个。干活四个全要。

Agent就是补上后面三个的架构——给大模型接上工具（执行）、上下文管理（记忆）、反馈机制（验证）。但补这三个能力的代价，就是那1000倍。

Photo by Kvistholt Photography on Unsplash

1000倍是怎么来的？

先说执行。Agent要调用外部工具，每次调用的结果都是不确定的。查数据库可能返回10条也可能10万条，调API可能成功也可能超时。每一步的不确定性意味着Agent不能提前规划所有步骤，只能走一步看一步——做完一步，看结果，决定下一步。一个任务可能经过十几轮决策。

再说记忆。大模型底层架构Transformer有一个根本特性：无状态。2017年Google那篇”Attention Is All You Need”定义了这个架构——自注意力机制让模型在生成每个字的时候回看前面所有内容，计算每个字跟当前任务的相关性。这让模型很聪明，但代价是：Q和K矩阵的乘法产生一个n×n的注意力矩阵，计算量随上下文长度呈O(n²)增长。上下文从1万字变成10万字，计算量不是翻10倍，是翻100倍。

而且Transformer没有”记忆槽”。每次调用都是独立的，上一次的结果不会保留到下一次。所以Agent每一轮决策都要把之前所有步骤的结果重新塞给大模型。第一步1万字，第二步2万字，第三步3万字。

斯坦福2023年的研究还发现了一个更隐蔽的问题：大模型在长上下文中的信息检索呈U形曲线——开头和结尾的信息能记住，中间的会”丢失”（arXiv:2307.03172, Liu et al.）。Agent塞进去的上下文越长，中间步骤的信息反而越容易被忽略。模型不只是读得慢，还读得不准。

最后说验证。Agent做完一步需要检查结果，检查本身又是一次大模型调用——又读一遍上下文，又推理一遍。一个”做+检查”循环的计算量是单纯”做”的两倍以上。

把这三层叠起来：多轮决策 × 累积上下文 × 二次方增长 × 验证开销 × U形信息丢失导致的重试。1000倍就是这么来的。CIO报道过一个案例：一个Claude Agent跑一天花300美元，一年接近10万美元，效率大概相当于一个人类员工的10%到20%。

Photo by boris misevic on Unsplash

但成本只是表面。真正的问题是：Agent在干活的过程中，数据失控了

聊天的时候数据边界很清楚——一问一答，数据只在用户和模型之间。

Agent不一样。它要访问数据库、调用第三方API、读企业内部文档、操作客户信息。数据在整条执行链上流动——从用户到Agent，从Agent到工具，从工具到外部系统，再回来。

每经过一个节点就多一层安全边界。谁能看到这些数据？第三方工具会不会留存？Agent读了客户的购买记录做推荐，这条记录在执行链上经过了几个系统？

这还只是数据流动。还有信任问题：Agent自动审批了一笔贷款，决策依据是什么？链条上每一步能不能追溯？出了问题谁负责？

大模型聊天出错，用户觉得”这AI不太行”。Agent执行出错，可能是真金白银的损失，可能是数据泄露，可能是合规事故。

还有价值结算：1000倍成本里，有多少花在”阅读上下文”上，有多少花在”做出正确决策”上？按token结算还是按业务成果结算？

成本、数据、信任、结算——这四个问题纠缠在一起，构成了Agent商业化的真正瓶颈。光压成本不够。

需要的是三层基础设施

数据流管控：执行链上每个节点的数据读写权限、存留策略、销毁时间都要明确定义。不是事后审计，是执行过程中实时管控。

信任链：Agent每一步决策都要可追溯。从输入到推理到输出，形成完整的决策链。出了问题能精确定位到哪一步、基于什么数据、做了什么判断。

价值结算：在执行链的关键节点标记价值产生点。哪一步是成本（阅读上下文），哪一步是价值（做出正确决策）。按价值结算而不是按token量结算，Agent的商业模式才能跑通。

再往前一步：让Agent自己变便宜

有了安全基础设施，Agent能跑起来了。但成本曲线还是向上的——用得越多花得越多。

让成本反转，需要第四层：自学习。

今天的Agent是调用型的：接到任务→读上下文→推理→输出→遗忘。做了一万次推荐，第一万零一次不会比第一次好，因为它没从前面的一万次里学到任何东西。

自学习Agent不一样：每次执行都收到反馈，反馈被用来更新模型参数。下次遇到类似任务，不需要重新读完整上下文，因为经验已经内化了。

我们在电商场景跑了四年。初期每次决策需要大量上下文输入——用户画像、历史行为、商品属性、场景信息。几百亿次决策之后，模型把意图识别的能力内化了。同样的决策精度，计算资源消耗比初期低了一个数量级。

传统Agent用得越多花得越多。自学习Agent用得越多需要读的越少。两条完全相反的成本曲线。

Agent成本贵1000倍，是因为今天的架构还停在”无记忆、无学习、无信任”的阶段。把这三层补上，1000倍会迅速往下掉。

那一天，Agent才真正从demo变成生产力。

参考文献：

1. Bai et al., “How Do AI Agents Spend Your Money?” arXiv:2604.22750, 2026

2. Liu et al., “Lost in the Middle,” arXiv:2307.03172, Stanford/UC Berkeley, 2023

3. Vaswani et al., “Attention Is All You Need,” NeurIPS 2017

4. Gartner, “Over 40% of Agentic AI Projects Will Be Canceled by End of 2027,” 2025.06

5. CIO.com, “Without Controls, an AI Agent Can Cost More Than an Employee,” 2026

王冉｜跃盟科技创始人

专注连接人类需求与AI劳动力，让AI普惠每一个工作岗位