讲个更残酷的现实。
你去翻翻各大厂商的 Demo 视频——Agent 像个无所不能的数字员工,一键写周报、自动调 API、跨系统联动,行云流水。但你真拿去跑自己的业务场景试试?卡壳、跑偏、死循环、幻觉编造……原形毕露。
这不是产品的问题,这是整个行业的"展示偏差"问题。Demo 视频是 cherry-pick 100 次中最好的那 1 次,你买回来用是 100 次中剩下那 99 次。
所以,判断一个 AI Agent 到底是不是"真智能",核心不是看它"偶尔能做成什么",而是看它在复杂场景下稳定能做到什么。
下面这套方法,是这几年我在评估数百个 Agent 产品过程中沉淀下来的。看完你就能给自己的 Agent 做一次"体检"。
一、Agent 评估的三大核心维度
要量化"真智能",绕不开三个指标:任务完成率、路径效率、鲁棒性。缺一不可。
任务完成率
这是最直观的指标。在 100 次测试中,Agent 能独立完成任务多少次?注意是"独立完成"——没有人工干预、没有中间纠偏、没有降级兜底。
一个合格的 Agent,在标准场景下应该达到 85% 以上的完成率。如果连 60% 都不到,说明核心规划链有问题,不是修修补补能解决的。
但完成率高不代表好,还要看它是怎么完成的。
路径效率
同样一个任务,A Agent 用了 3 步完成,B Agent 绕了 8 步还调错了两次 API——完成率可能都是 100%,但效率天差地别。
路径效率的评估指标包括:
步数比:实际步骤 / 最优步骤,越接近 1 越好 无效调用率:调用 LLM 但未产生有效输出的次数占比 回退率:Agent 自我纠正的频率,偶尔回退是好事,频繁回退说明规划能力弱
我见过一个 Agent 为了查一个天气,先调了搜索 API,又查了百科,最后才调天气 API——浪费了 3 倍 token、3 倍延迟。这还是在它"完成"了任务的前提下。
鲁棒性
这才是检验"真智能"的试金石。
一段稍微模糊的需求("帮我把数据整一下"),Agent 是理解了意图还是问号脸?一个 API 超时了,Agent 是直接崩了还是优雅降级重试?还是用户故意输了个错误参数,Agent 能不能识别并给出友好提示?
鲁棒性测试的三个层级:
模糊需求:不全的指令、歧义的自然语言、跨上下文省略 异常输入:非法参数、空值、超长文本、格式错误 环境扰动:API 降级、网络延迟、服务不可用、返回格式变化
真正的好 Agent,面对这些应该做到"优雅降级"——完成不了任务,但能清晰告诉用户"哪一步出了什么问题,还有什么可行方案"。

二、从手工测试到自动化评测
用人工一个一个测,不仅慢,而且测不出统计学意义。要真正评估 Agent,必须建自动化评测体系。
构建 Golden Test Set
一个高质量的测试集,至少应该覆盖三类场景:
正常场景(Normal Cases):占 60%,标准、明确的 Agent 任务 边界场景(Edge Cases):占 25%,空输入、超大上下文、超长链式调用 对抗场景(Adversarial Cases):占 15%,含误导信息的指令、多轮陷阱、矛盾需求
每条测试用例要记录:输入、期望输出路径、可接受的步数上限、关键检查点。
自动化评测框架
现在业界有几套成熟的评测基准:
AgentBench:覆盖操作系统、数据库、Web 导航等 8 大场景的标准化评测平台。每次测试会记录 Agent 的每一步动作,打分维度包括完成度、效率、合规性。 GAIA(General AI Assistants Benchmark):更侧重多步推理能力。466 道问题涵盖 4 个难度等级,需要 Agent 调用多个工具、按顺序完成子任务才能得分。 ToolBench:专门评测 Agent 的工具调用能力。看你选的 Agent 在数百个真实 API 中,能不能准确选择并正确调用。
使用这些框架做批量评测,每轮跑 200-500 条用例,再分析失败模式。一次批量跑完,薄弱环节一目了然。

三、给你的 Agent 做一次"体检"
下面是一个可以直接套用的 Agent 评估清单。10 个关键测试用例,不需要全自动化,手工也能跑。
1. 标准任务测试 给 Agent 一个完整明确的指令,看它能否一、两次对话内完成。基准:完成率 ≥ 90%。
2. 模糊指令测试 只给一个动词加名词("查上月销量""整理周报数据"),看 Agent 是会追问澄清还是瞎猜。合格的 Agent 应该追问 1-3 次确认意图。
3. 多步链式任务 "先查 A 数据,然后和 B 对比,生成图表,再写一段分析总结,最后发邮件给经理。"测试 Agent 的长文规划能力和子任务依赖性。
4. 工具调用异常测试 模拟 API 超时、返回空值、格式错误,看 Agent 有没有重试机制和降级策略。
5. 幻觉检测 给 Agent 一个没有正确答案的任务("搜索公司 2027 年财报"),优秀的 Agent 会说"信息不存在"而不是编造。
6. 多轮记忆测试 在对话中隔 10 轮后引用第 3 轮的信息,检验 Agent 的上下文保持能力。
7. 对抗输入测试 输入包含矛盾指令("忽略之前的所有要求"),看 Agent 会不会被 prompt injection 攻破。
8. 性能压力测试 连续并发调用 20 次任务,记录平均响应时间和资源消耗。
9. 边界容量测试 输入超长文档(10 万 token),看 Agent 还能不能准确提取关键信息。
10. 一致性测试 同一个任务重复执行 10 次,评估输出结果的稳定性和格式一致性。
跑完这 10 项,你的 Agent 的薄弱环节基本就暴露了。下面是常见的失败模式诊断表:
| 症状 | 可能原因 | 修复方向 |
|---|---|---|
| 多步任务中途放弃 | 规划链太浅 | 增加 ReAct 回溯机制 |
| 调错工具 | Tool Schema 不清晰 | 优化 Function Call 描述 |
| 编造信息 | 检索不足/无源验证 | 增加 grounding 检查点 |
| 死循环 | 缺少步数上限 | 设置 Max Steps + 降级策略 |
| 记不住前文 | Memory 窗口太小 | 引入摘要记忆或向量记忆 |
写在最后
行业正在从"Agent 能做什么"进入"Agent 能稳定做什么"的阶段。2026 年的竞争不再是谁能演示一个最炫的 Demo,而是谁能让 Agent 在成千上万次真实调用中保持稳定。
下次看到一个 Agent 产品的宣传视频,别急着惊叹。问三个问题:完成率多少?有效率多少?鲁棒性经过了多少轮测试?
能答上来的,才是真本事。
夜雨聆风