如何判断一个AI Agent是＂真智能＂还是＂假把式＂?

讲个更残酷的现实。

你去翻翻各大厂商的 Demo 视频——Agent 像个无所不能的数字员工，一键写周报、自动调 API、跨系统联动，行云流水。但你真拿去跑自己的业务场景试试？卡壳、跑偏、死循环、幻觉编造……原形毕露。

这不是产品的问题，这是整个行业的"展示偏差"问题。Demo 视频是 cherry-pick 100 次中最好的那 1 次，你买回来用是 100 次中剩下那 99 次。

所以，判断一个 AI Agent 到底是不是"真智能"，核心不是看它"偶尔能做成什么"，而是看它在复杂场景下稳定能做到什么。

下面这套方法，是这几年我在评估数百个 Agent 产品过程中沉淀下来的。看完你就能给自己的 Agent 做一次"体检"。

一、Agent 评估的三大核心维度

要量化"真智能"，绕不开三个指标：任务完成率、路径效率、鲁棒性。缺一不可。

任务完成率

这是最直观的指标。在 100 次测试中，Agent 能独立完成任务多少次？注意是"独立完成"——没有人工干预、没有中间纠偏、没有降级兜底。

一个合格的 Agent，在标准场景下应该达到 85% 以上的完成率。如果连 60% 都不到，说明核心规划链有问题，不是修修补补能解决的。

但完成率高不代表好，还要看它是怎么完成的。

路径效率

同样一个任务，A Agent 用了 3 步完成，B Agent 绕了 8 步还调错了两次 API——完成率可能都是 100%，但效率天差地别。

路径效率的评估指标包括：

步数比：实际步骤 / 最优步骤，越接近 1 越好
无效调用率：调用 LLM 但未产生有效输出的次数占比
回退率：Agent 自我纠正的频率，偶尔回退是好事，频繁回退说明规划能力弱

我见过一个 Agent 为了查一个天气，先调了搜索 API，又查了百科，最后才调天气 API——浪费了 3 倍 token、3 倍延迟。这还是在它"完成"了任务的前提下。

鲁棒性

这才是检验"真智能"的试金石。

一段稍微模糊的需求（"帮我把数据整一下"），Agent 是理解了意图还是问号脸？一个 API 超时了，Agent 是直接崩了还是优雅降级重试？还是用户故意输了个错误参数，Agent 能不能识别并给出友好提示？

鲁棒性测试的三个层级：

模糊需求：不全的指令、歧义的自然语言、跨上下文省略
异常输入：非法参数、空值、超长文本、格式错误
环境扰动：API 降级、网络延迟、服务不可用、返回格式变化

真正的好 Agent，面对这些应该做到"优雅降级"——完成不了任务，但能清晰告诉用户"哪一步出了什么问题，还有什么可行方案"。

二、从手工测试到自动化评测

用人工一个一个测，不仅慢，而且测不出统计学意义。要真正评估 Agent，必须建自动化评测体系。

构建 Golden Test Set

一个高质量的测试集，至少应该覆盖三类场景：

正常场景（Normal Cases）：占 60%，标准、明确的 Agent 任务
边界场景（Edge Cases）：占 25%，空输入、超大上下文、超长链式调用
对抗场景（Adversarial Cases）：占 15%，含误导信息的指令、多轮陷阱、矛盾需求

每条测试用例要记录：输入、期望输出路径、可接受的步数上限、关键检查点。

自动化评测框架

现在业界有几套成熟的评测基准：

AgentBench：覆盖操作系统、数据库、Web 导航等 8 大场景的标准化评测平台。每次测试会记录 Agent 的每一步动作，打分维度包括完成度、效率、合规性。
GAIA（General AI Assistants Benchmark）：更侧重多步推理能力。466 道问题涵盖 4 个难度等级，需要 Agent 调用多个工具、按顺序完成子任务才能得分。
ToolBench：专门评测 Agent 的工具调用能力。看你选的 Agent 在数百个真实 API 中，能不能准确选择并正确调用。

使用这些框架做批量评测，每轮跑 200-500 条用例，再分析失败模式。一次批量跑完，薄弱环节一目了然。

三、给你的 Agent 做一次"体检"

下面是一个可以直接套用的 Agent 评估清单。10 个关键测试用例，不需要全自动化，手工也能跑。

1. 标准任务测试 给 Agent 一个完整明确的指令，看它能否一、两次对话内完成。基准：完成率 ≥ 90%。

2. 模糊指令测试 只给一个动词加名词（"查上月销量""整理周报数据"），看 Agent 是会追问澄清还是瞎猜。合格的 Agent 应该追问 1-3 次确认意图。

3. 多步链式任务 "先查 A 数据，然后和 B 对比，生成图表，再写一段分析总结，最后发邮件给经理。"测试 Agent 的长文规划能力和子任务依赖性。

4. 工具调用异常测试 模拟 API 超时、返回空值、格式错误，看 Agent 有没有重试机制和降级策略。

5. 幻觉检测 给 Agent 一个没有正确答案的任务（"搜索公司 2027 年财报"），优秀的 Agent 会说"信息不存在"而不是编造。

6. 多轮记忆测试 在对话中隔 10 轮后引用第 3 轮的信息，检验 Agent 的上下文保持能力。

7. 对抗输入测试 输入包含矛盾指令（"忽略之前的所有要求"），看 Agent 会不会被 prompt injection 攻破。

8. 性能压力测试 连续并发调用 20 次任务，记录平均响应时间和资源消耗。

9. 边界容量测试 输入超长文档（10 万 token），看 Agent 还能不能准确提取关键信息。

10. 一致性测试 同一个任务重复执行 10 次，评估输出结果的稳定性和格式一致性。

跑完这 10 项，你的 Agent 的薄弱环节基本就暴露了。下面是常见的失败模式诊断表：

症状	可能原因	修复方向
多步任务中途放弃	规划链太浅	增加 ReAct 回溯机制
调错工具	Tool Schema 不清晰	优化 Function Call 描述
编造信息	检索不足/无源验证	增加 grounding 检查点
死循环	缺少步数上限	设置 Max Steps + 降级策略
记不住前文	Memory 窗口太小	引入摘要记忆或向量记忆

写在最后

行业正在从"Agent 能做什么"进入"Agent 能稳定做什么"的阶段。2026 年的竞争不再是谁能演示一个最炫的 Demo，而是谁能让 Agent 在成千上万次真实调用中保持稳定。

下次看到一个 Agent 产品的宣传视频，别急着惊叹。问三个问题：完成率多少？有效率多少？鲁棒性经过了多少轮测试？

能答上来的，才是真本事。