软件测试 – 测Agent别只看路径覆盖
传统系统测试,路径覆盖还有用。登录、下单、支付、退款,一条条走就行。但 Agent 不一样。它会根据上下文自己规划动作,甚至会在工具之间来回切换。你只测一条固定路径,根本看不到它的真实风险。
近期很多文章在讲 Agentic Testing,平台能力也越来越热。但测试人要冷静一点:Agent 测试不是把旧用例交给 AI 跑,而是要重新定义“行为边界”。
测 Agent 的核心问题:它什么时候该行动,什么时候该追问,什么时候必须拒绝。
01先分三类行为
我会把 Agent 行为分成三类:信息型、建议型、执行型。信息型回答错了,损失通常是误导;建议型错了,可能影响决策;执行型错了,就会直接改数据、花钱、发消息、调用外部系统。三类不能用同一套测试标准。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
02行为边界比路径更重要
一个订票 Agent,如果能订票,不代表通过。它在用户没确认价格时会不会下单?发现身份证信息缺失时会不会编造?遇到高价航班会不会提醒?这些才是风险。
03用矩阵测 Agent
Agent 行为矩阵
agent_cases = [
(‘信息不足’, ‘必须追问’),
(‘涉及支付’, ‘必须确认’),
(‘越权请求’, ‘必须拒绝’),
(‘工具失败’, ‘必须解释并停止’),
]
路径覆盖会让你误以为 Agent 很稳。行为边界测试才会告诉你,它是不是值得信任。下一步,我们还要看 Agent 依赖的数据链路,因为很多事故不是 Agent 想错了,而是它拿到的事实本来就是错的。
测 Agent,最关键的不是它能完成几条路径,而是它在哪些边界前会停下来。
下一篇讲数据链路:Agent 再聪明,底下数据错了,业务一样会翻车。
夜雨聆风