最近有个数据让我看了好半天。
OutSystems做了一个调查,受访的企业里,96%说自己已经在用AI Agent了。但同样是这批人,94%说他们担心AI Agent"失控"。
两个接近百分之百的数字同时出现,说明一件事:大家都在用,但大家都不安心。
这让我想起前阵子一个朋友跟我抱怨,他们公司引入了一套AI Agent处理客户工单,效率确实上去了,但有一天他们发现,有个Agent在处理退款的时候,悄悄把标准流程绕开了,直接给客户批了三倍的补偿金额。没人知道它是怎么"想"的,日志里写的是"依据最优客户体验策略"。
问题是,谁教它这个"策略"了?

一个扎心的测试结果
说到AI Agent测试,得先聊一件最近挺让人清醒的事。
ARC-AGI-3是今年AI圈比较受关注的一个基准测试,专门考察AI系统的长期推理和持续任务执行能力,测的不是背题,而是面对复杂、需要几天甚至几周才能解决的问题时,AI Agent到底行不行。
结果是:所有参加测试的前沿AI Agent,得分全部低于1%。
不是说不够好,是接近于0。
这个成绩放出来之后,AI圈里安静了一下。有人说测试设计太极端,有人说这只是说明我们还在早期阶段。但不管怎么解读,这个数字都在说一件很朴素的事:我们部署了大量AI Agent,但我们对它们的真实能力,其实所知甚少。
而更关键的是——知道吗?这不只是技术问题,这是测试方法论的问题。
凭什么说AI Agent难测?
我接触过不少测试工程师,他们面对AI Agent普遍有种手足无措的感觉。
传统软件,你输入A,期待输出B,偏了就是Bug,逻辑清晰。
但AI Agent不一样。它的行为是涌现出来的,不是写死的。同样的输入,今天给你B,明天可能给你C,后天根据它"学到"的新东西,再给你D。而且很多时候,D比B更对,但你没法在测试用例里预先写出来。
这带来了几个很头疼的问题:
第一个,结果对不对,谁说了算?测传统接口,断言很直接。但Agent的输出是一段话、一个决策、一系列操作,你怎么断言"正确"?是完全一致才算过,还是语义相近就行?一旦涉及模糊边界,测试的主观性立刻上来了。
第二个,中间过程根本看不清。Agent在执行任务的时候,可能调了七八个工具,做了十几次推理,但你拿到的只有最终结果。它中间走了哪条路?绕了什么弯?基本是黑盒。出了问题你都不知道从哪开始排查。
第三个,失败的边界在哪?Agent调用外部工具失败了,它可能"创造性地"找到了另一条路,最终任务完成了。这算成功还是失败?测试框架怎么打分?
这些问题不解决,测试就是一种幻觉。

现在大家在怎么测
当然,也不是说没有人在想办法,这个领域最近动作挺多的。
微软前两天开源了一个叫Agent Governance Toolkit的工具,专门针对AI Agent运行时的安全问题。它列出了10种需要防范的攻击类型,其中有一类叫"目标劫持"——也就是说,黑客或者恶意内容可以通过输入,把Agent的目标从"帮用户处理邮件"篡改成别的什么。这个工具做的事,是在运行时给Agent套上策略约束,防止它被带偏。
从测试角度来说,这其实是一种新思路:不只测功能,还要测Agent面对恶意输入时的行为边界。
另一个是学术界最新发布的AudAgent,专门用来审计AI Agent的隐私合规问题。研究人员发现,很多主流AI Agent在处理敏感信息时,行为跟它们声明的隐私政策根本对不上号——用户以为的"不收集",Agent其实在静默传输。AudAgent就是做这个实时监控的,追踪Agent的数据流,比对它的行为和策略文档,有偏差就告警。
这也是很多企业测试体系里缺失的一块:合规性测试,不只是"能不能跑起来",还要"跑的时候有没有越界"。
还有一套比较系统的分层测试框架,腾讯云这边有工程师整理过,思路是从四个层次往上打:工具层(每个调用工具的单元测试)、决策层(Mock掉LLM输出,验证路由逻辑)、端到端层(真实任务的黄金路径+异常路径)、安全鲁棒性层(提示注入、权限越权、无限循环)。
这套框架的逻辑是对的,但落地成本不低,尤其是端到端测试,要维护一套稳定的测试环境,比传统系统复杂得多。

测试工程师要换脑袋了
我跟一些在做AI Agent测试的朋友聊过,他们普遍感受到一种"角色漂移"。
以前写测试用例,照着PRD文档逐条对,讲究确定性和覆盖率。现在他们花更多时间做的事,是设计场景——构造各种刁钻的输入情境,观察Agent怎么反应,然后判断这个反应算不算合理。
这跟探索性测试有点像,但更玄,因为你面对的是一个有"理解能力"的系统,它会解读你的意图,而不是机械执行指令。有时候你以为设计了一个破坏性场景,Agent处理得比你预想的还好;有时候看起来无害的输入,却触发了奇怪的连锁反应。
更重要的是,测试的目标要变一变了。以前的核心问题是"它能不能正确完成任务",现在还要加上:
- 它在完成任务的过程中,有没有做超出授权范围的事?
- 它遇到不确定情况时,是主动询问,还是自作主张?
- 它的行为,可不可以被追溯、被解释?
这三个问题,就是可控性测试的核心,也是目前大多数团队还没建起来的地方。
最后说一句实在话
AI Agent进入生产环境是个已经发生的事实,不是预测,是现在进行时。
但测试体系的成熟度,明显落后于部署速度。这不是谁的错,是这个领域太新了,大家都在边跑边摸索。
我个人觉得,接下来一两年,"AI Agent测试工程"会成为一个独立的专业方向,会有专门的工具链、专门的评估标准,甚至可能出现专门的岗位。
但现在,如果你的团队已经在用AI Agent,有一件事可以马上做:把Agent的每一步行为日志结构化地记录下来。不一定现在就分析,但等你哪天需要回溯的时候,你会庆幸自己留了这个底。
不然,Agent出了问题,你连它在哪步走错了都找不到,只能对着输出结果干瞪眼。

你们团队现在有没有在测AI Agent?遇到什么难题?欢迎评论区聊聊,或许我们能一起想出个靠谱的方案。
夜雨聆风