如果你最近连续用了几次 AI Agent,应该都感受过那种别扭:它看上去很强,用起来却常常不顺手。
它做计划时头头是道,解释原理也像那么回事,写起代码来甚至有点像靠谱同事。它会拆步骤、调工具、开网页、列待办,还会时不时汇报一句“我现在做到哪了”。
但真把事交给它,问题很快就出来了。它会漏掉前面改过的条件,会被一个弹窗卡住,会把参数填错,甚至在方向已经跑偏后还一路做下去。比如它能写出一份像样的修复计划,却会在真正动手时忘记你刚强调过“这个配置不能碰”;也可能前面 6 步都做对了,最后因为一个确认框没处理,整条流程直接卡死。
于是你很容易冒出一个判断:它聊天时像专家,干活时却像个手忙脚乱的实习生。
这不是个别体验,在今天很多 Agent 产品里都能看到类似问题。无论是代码类 Agent、浏览器 Agent,还是各种 workflow 型产品,都绕不开同一个落差:Demo 展示的是峰值能力,真实环境考验的却是稳定交付。

Demo 展示的是峰值能力,真实工作考验的是稳定交付。
问题不在于它不聪明。恰恰相反,它已经聪明到足以让人误以为可以托付。真正缺的,是把这种聪明稳定兑现成结果的能力。
一、Agent 真正难的,不是一道题,而是一整条执行链
很多人第一次接触 Agent,会把它理解成“能主动做事的聊天机器人”。这不算错,但远远不够。
聊天机器人主要解决的是“怎么回答”。Agent 不一样,它不仅要说出该怎么做,还得把事一步步做完,并且知道自己有没有做错。

真实任务里,问题往往不在某一个步骤,而在整条执行链的稳定性。
从工程视角看,一条较完整的 Agent 执行链通常至少要经过这些环节:听懂任务,拆出步骤,选工具,动手执行,读取反馈,更新判断,发现跑偏时及时改路,最后把尾收干净。
所以 Agent 的失败,往往不像聊天机器人那样只是答错一句话,更像一次系统性失误。它未必一开始就错,而是某一步先偏了一点,后面又漏看了一个状态,接着沿着错误前提继续推进,最后整条路径都走歪了,它自己却还以为进展正常。
Agent 眼下最缺的,不是想法,而是把一连串动作可靠做完的能力。
二、它为什么看起来总像很懂?
这种反差,得从大模型最擅长什么说起。它最强的其实不是执行,而是生成。
从基础训练目标看,今天的大语言模型仍主要建立在 next-token prediction 上。这里说的不是“它只会机械续写”,而是它最先被优化好的能力,本来就是生成连贯、像样、顺着上下文往下写的语言。
所以一旦进入解释、归纳、列步骤、写计划这些场景,它天然就容易显得很聪明。它能把流程说得非常完整,比如先检查仓库、再定位报错、再跑测试、最后提交修复;也能把网页操作讲得像模像样。在语言层面,它确实很像一个经验丰富的同事。
但会把路讲明白,不等于真能一路走到终点。会写攻略的人,不一定带得了队;会写计划的模型,也不等于具备稳定执行的能力。
三、它一到执行为什么就开始露馅?
如果把 Agent 的失误拆开看,基本离不开下面五类问题。
第一,能把话说对,不等于能把事做对。 对话里有点含糊,很多人还能意会;执行里错一个按钮、漏一个参数,任务就可能直接失败。聊天机器人出错,用户会觉得它不准;Agent 出错,用户会直接怀疑它靠不靠谱。
第二,多步任务最怕小错一路滚大。 前面偏一点,后面就会不断放大。所以用户常觉得它前半程还挺聪明,后半程突然变笨了。其实不是突然变笨,而是前面积累的问题一起爆了。就像改代码时先动错一个配置,测试也许还过得去,等跑到集成环境才发现前面埋的坑全炸了。
第三,工具接得越多,系统未必越强,也可能只是越脆。 浏览器、Shell、API、数据库,这些当然能扩展能力,但也把新的不确定性一起带进来了:什么时候该调,调哪个,参数怎么传,结果怎么读,失败后怎么办。工具接入并不必然带来更强能力,很多场景下反而会明显增加复杂度和失败点。
第四,上下文长了,不等于真有记忆。 这里说的“记忆”,更接近任务状态保持、关键历史检索和持续更新能力,不等于人类意义上的长期记忆。窗口变大,只是它能看到更多内容,不代表它就能一直抓住最关键的状态。轮次一多、线索一散,它照样会忘、会混、会串。就像让一个人同时盯 12 个聊天窗口、3 个文档版本和 4 个待办事项,最后很容易串线。
第五,它最不擅长的,往往是出错后的补救。 从公开评测和实际使用体验看,不少 Agent 在出错后的恢复能力上仍然偏弱。人做事真正见功夫的地方,常常不是不犯错,而是出了错能不能及时换路、止损、重建方案。很多 Agent 一旦卡住,就会重复、硬试,或者沿着错的前提继续做。看上去很努力,其实只是在把损失放大。
四、放到真实场景里看,这些问题会更直观
先看 Coding Agent。 这是现在最亮眼的一类 Agent,也最容易让人高估。读仓库、补函数、写测试、修表层 bug,它确实很能打,很容易让人觉得“它已经能干工程师的活了”。但一进真实项目,难度马上就上来了。历史包袱、隐性耦合、团队约定、CI/CD 边界、业务语义,这些东西很多都不写在表面。于是它可能修好了 A,却顺手弄坏了 B;让测试过了,却把一条隐含约束打穿。严格说,这些问题并不是人类工程师完全不会犯,而是 Agent 在高隐式约束环境里的稳定性通常还不够。
因此,在不少开发者那里,Coding Agent 更像“强副驾”,还不是可以完全放手的“主驾”。
再看 Browser Agent。 它的问题往往不是不会理解任务,而是动作不够稳。找不到按钮、看错页面、被弹窗打断、在陌生 UI 里反复试错,这些都不是“答得对不对”的问题,而是“做得稳不稳”的问题。浏览器环境比纯对话环境复杂得多,也更容易出现动态变化和外部干扰。除了 UI 变化,它还常常受登录态、权限弹窗、验证码、反自动化机制等限制。在某些场景下,外部网页内容还可能通过提示注入等方式误导 Agent。
还有一类是 Office 或 Workflow Agent。 这类产品最容易让人产生“AI 员工”的想象,因为它交付的不是一句回答,而是一份文档、一页 PPT、一套表格,表面上更像真正的工作成果。但越接近成果交付,用户对准确性、一致性、版本、格式、审批链路的要求就越高。做出一个“看起来完整”的结果并不难,难的是把那些烦人的细节全都做对。事实别错,结构别歪,版本别串,引用别乱。一旦任务进入审批、合规、对外发送或财务口径等场景,问题就不只是能不能做出来,还包括谁来复核、如何追溯、出了错谁负责。
五、如果只看 Demo,你很容易高估它离成熟还有多远
如果只看发布会和宣传视频,你会以为 Agent 离成熟只差最后一小步。可一旦去看近两年的一些公开研究和 benchmark,就会发现现实没这么乐观。
例如 Robotouille 这类异步规划 benchmark 显示,某些 Agent 配置在同步任务上的表现尚可,但在异步任务上会明显下滑。论文摘要里给出的一个例子是,ReAct(gpt4-o)在同步任务上为 47%,在异步任务上降到 11%。这类任务之所以难,是因为它更像真实工作:系统得一边处理眼前的动作,一边记住没做完的支线,还得在外部状态变化后重新接回来。
再看 Live API-Bench 这类更接近真实 API 环境的测试,情况也类似。这个 benchmark 覆盖 2500 多个可调用工具,论文报告不少模型与 ReAct agent 的任务完成率仅在 7% 到 47% 之间,交互式 agent 设定下也只是提升到约 50%。这说明真实工具调用环境仍然很难,问题常常不只是知不知道该不该用工具,而是在真实世界里用不稳,用错了也救不回来。
还有一些近期 benchmark 和分析文章会把问题放到整条执行轨迹上看,也就是不只看某一步输出对不对,而是看 Agent 有没有在整条路径上逐渐偏离任务目标。换句话说,Chatbot 拼的是回答质量,Agent 拼的是整条轨迹的稳定性。这是两种完全不同的难度。
当然,Agent 表现不仅取决于执行系统,底层模型能力、任务定义方式、工具接口设计和评测标准本身,也都会显著影响结果。
六、为什么这不是多写几句 Prompt 就能补掉的问题
每次 Agent 出问题,都会有人把答案归到 prompt 上。这当然不完全错,提示词、约束、反思、记忆,这些方法都有帮助,但它们更像外挂,不是根治。
真正的症结是,今天很多 Agent 还不是一个完整长在一起的执行系统。规划、记忆、工具调用、环境观测、校验、异常处理,往往都是后接上去的。于是就会出现很典型的情况,计划写得很好,执行层却没真正吃进去;历史记录存下来了,关键状态却没被及时找回;环境已经变了,系统内部还沿用上一轮判断。表面上模块齐全,实际上各唱各的。
至少从产品落地角度看,Agent 的竞争正越来越像执行系统能力的竞争,而不只是底层模型参数的竞争。
七、那它现在到底能用来做什么?
说到这里,也不能直接得出“Agent 暂时没价值”的结论。更准确的说法是,它已经很好用,但还远不到可以放心托付的程度。
现阶段,Agent 最适合的,还是那些目标明确、步骤不长、出错成本不高的任务,或者边界清晰、随时能人工接管的任务,再或者标准化高、重复度高的流程。比如批量整理资料、生成初稿、补测试、搭一个能跑的原型,它通常已经能明显提效。真正需要谨慎的,仍然是长链路、高风险、责任重、隐含约束多的工作,比如跨多个系统的审批、涉及真实金钱或客户数据的流程、一步错就要追责的任务。
说到底,今天的大多数 Agent 已经足够聪明,可以展示能力、提升效率;但还不够可靠,远不到承接责任的时候。把它当副驾、助手、加速器都可以,但别太早把它想成一个能彻底放手的数字员工。
八、最后一句话
Agent 最大的问题,不是智力不够,而是执行系统还不完整。
大模型已经学会了像人一样说话,但 Agent 还没有学会像人一样连续、稳健、负责任地做事。
下一阶段真正值得看的,不是谁更会回答,而是谁更像一个可靠的执行系统。
如果这篇文章对你有帮助,点个赞、分享给朋友,或者推荐给也在折腾 Agent 的人,是最直接的支持。
夜雨聆风