AI 智能体评估方案全览
综合 Anthropic 工程博客 + 学术前沿 + 工业实践,截至 2026 年 4 月
一、评分器方法(Grader Methods)
1.1 基于代码的评分器
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1.2 基于模型的评分器(LLM-as-Judge)
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
关键注意: LLM 评分器必须定期与人类专家校准;给模型一个”无法判断”的退出选项以避免幻觉。
1.3 人工评分器
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
二、评估类型
2.1 按评估目的分
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
2.2 按任务粒度分
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
三、按智能体类型的评估方案
3.1 编程智能体
核心方法:单元测试(pass/fail)+ 静态分析 + LLM 代码质量评分
graders: - 单元测试(必须修复失败测试,不得破坏已有测试) - 静态分析:ruff / mypy / bandit - LLM rubric:代码质量、可读性 - 状态检查:安全日志、数据库状态 - 工具调用验证:是否读文件、修改文件、运行测试metrics: - 轮次数 / 工具调用数 / token 总量 / 延迟
代表性基准:
-
• SWE-bench Verified — GitHub Issue 修复,测试套件通过为准,前沿模型已达 87.6% -
• Terminal-Bench — 从头构建 Linux 内核等端到端技术任务 -
• HumanEval+ / SWE-bench Pro — 更严格的变体
3.2 对话智能体
核心方法:多维度评分(任务完成 + 交互质量)+ 状态检查 + LLM 模拟用户
graders: - LLM rubric:同理心、清晰度、政策合规性 - 状态检查:工单是否解决、退款是否处理 - 工具调用:verify_identity / process_refund / send_confirmation - 记录约束:最多 N 轮 - 第二个 LLM 模拟用户(adversarial / persona-based)
代表性基准:
-
• τ-bench / τ2-bench — 零售支持、航空预订,一模型扮演用户 -
• LangBench — 目标完成、上下文保留、错误恢复 -
• IntellAgent — 多智能体框架评估对话 AI
3.3 研究智能体
核心方法:基础性检查 + 覆盖面检查 + 来源质量检查 + LLM 综合评判
graders: - 基础性检查:主张是否有检索来源支撑 - 覆盖面检查:关键事实是否涵盖 - 来源质量:是否为权威来源(非随机检索结果) - 精确匹配:客观事实问题(如营收数字) - LLM 评判:综合连贯性、完整性、无幻觉
代表性基准:
-
• BrowseComp — 开放网络大海捞针,易验证难解决 -
• GAIA — 通用 AI 助手,需规划+检索+推理,前沿模型约 74.6%
3.4 计算机使用智能体(GUI Agent)
核心方法:环境状态检查(URL / 文件系统 / 数据库)+ 后端验证
graders: - URL 和页面状态检查(浏览器导航正确性) - 后端状态验证(订单实际写入 DB,而非仅看确认页) - 文件系统 / 应用配置 / UI 元素属性检查 - DOM vs 截图工具选择合理性(token 效率评估)
代表性基准:
-
• WebArena — 浏览器任务,812 个任务 -
• OSWorld — 全操作系统控制,369 个跨平台任务 -
• AndroidWorld — 移动端 -
• OSUniverse — OSWorld 的改进版(2025 年)
3.5 多智能体系统
核心方法:单智能体组件评估 + 协作/竞争行为评估 + 跨组件一致性验证
graders: - 各子智能体独立评估(推理层 + 行动层分开) - 跨智能体数据传递正确性 - 冲突解决机制验证 - 整体任务完成(端到端)
代表性基准:
-
• AgentBench — 8 类环境(操作系统、数据库、网页购物等),覆盖最广 -
• MultiAgentBench — 专门评估协作与竞争
四、统计指标
|
|
|
|
|---|---|---|
| pass@k |
|
|
| pass^k |
|
|
| cost-normalized accuracy (CNA) |
|
|
| cost per success (CPS) |
|
|
| 收敛分数 |
|
|
五、企业级评估框架
CLEAR 框架(5 维度)
|
|
|
|---|---|
| Cost |
|
| Latency |
|
| Efficacy |
|
| Assurance |
|
| Reliability |
|
四柱框架(LLM / Memory / Tools / Environment)
评估智能体系统的四个核心组件,分别进行静态、动态、评判三种评估模式:
-
• LLM 层:规划质量、指令遵循、推理一致性 -
• 记忆层:精确率-召回率平衡、决策相关上下文提取 -
• 工具层:工具选择正确性、参数传递、错误恢复 -
• 环境层:状态管理、副作用隔离
六、全流程评估方法(非自动化评估)
|
|
|
|
|---|---|---|
| 自动化评估(CI/CD) |
|
|
| 生产监控 |
|
|
| A/B 测试 |
|
|
| 用户反馈(thumbs down) |
|
|
| 手动记录审查 |
|
|
| 系统性人工研究 |
|
|
七、安全评估方法
|
|
|
|---|---|
| 对抗性红队测试 |
|
| 多智能体辩论安全评判 |
|
| AgentAuditor |
|
| R-Judge |
|
| HAJailBench |
|
八、主流评估工具/平台
|
|
|
|---|---|
| Harbor |
|
| Braintrust |
autoevals 内置评分器 |
| LangSmith |
|
| Langfuse |
|
| Arize Phoenix |
|
| DeepEval / Confident AI |
|
| Amazon Bedrock AgentCore |
|
| OpenAI Evals |
|
九、常见陷阱与反模式
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
十、快速选型参考
需要快速启动? → 20-50 个真实失败案例转化的任务 + 单元测试/字符串匹配有主观质量要求? → LLM rubric + 人工周期性校准需要一致性保证(生产智能体)? → pass^k,多次试次需要能力上限评估(研发阶段)? → pass@k,低通过率能力套件企业部署决策? → CLEAR 五维框架(成本/延迟/效果/保障/可靠性)安全合规场景? → 对抗性红队 + 多智能体辩论评判 + 步骤级审计
参考来源
Anthropic 官方
-
• Demystifying evals for AI agents — 本文核心来源,Anthropic 工程团队 -
• Building effective agents — 智能体构建基础 -
• Effective harnesses for long-running agents — 长时运行智能体框架
学术论文
-
• Survey on Evaluation of LLM-based Agents (arXiv 2503.16416) — LLM 智能体评估综述,2025 -
• Evaluation and Benchmarking of LLM Agents: A Survey (KDD 2025) — 评估分类体系,含行为/能力/可靠性/安全四维 -
• Beyond Task Completion: Assessment Framework for Agentic AI (arXiv 2512.12791) — LLM/Memory/Tools/Environment 四柱框架 -
• Beyond Accuracy: CLEAR Framework (arXiv 2511.14136) — 企业级 Cost/Latency/Efficacy/Assurance/Reliability 五维框架 -
• Establishing Best Practices for Agentic Benchmarks (arXiv 2507.02825) — 基准有效性与任务设计陷阱 -
• When AIs Judge AIs: Agent-as-a-Judge (arXiv 2508.02994) — Agent-as-Judge 综述 -
• Multi-Agent-as-Judge (arXiv 2507.21028) — 多智能体评判对齐人类判断 -
• Efficient LLM Safety Evaluation through Multi-Agent Debate (arXiv 2511.06396) — 多智能体辩论安全评估 -
• AgentAuditor: Safety and Security Evaluation (NeurIPS 2025) — 步骤级安全评估框架 -
• τ-bench (arXiv 2406.12045) — 对话智能体基准(零售/航空) -
• τ2-bench (arXiv 2506.07982) — τ-bench 升级版 -
• WebArena (arXiv 2307.13854) — 浏览器智能体基准 -
• OSWorld — 操作系统级智能体基准 -
• BrowseComp (arXiv 2504.12516) — 开放网络检索难题基准 -
• pass@k 原始论文 (NeurIPS 2019)
基准平台
-
• SWE-bench Verified — 编程智能体 GitHub Issue 修复基准 -
• Terminal-Bench — 端到端终端技术任务基准 -
• AI Agent Benchmark Results Index (Steel.dev) — 16 个基准 121 条结果汇总 -
• AI Agent Benchmarks 2026 综述 (Rapid Claw) — SWE-bench/GAIA/TAU-bench/AgentBench/WebArena 横向对比
工业实践
-
• Evaluating AI Agents at Amazon (AWS Blog) — Amazon Bedrock AgentCore 实战经验 -
• AI Agent Evaluation Guide (DeepEval / Confident AI) — 推理层 + 行动层分层评估 -
• Definitive AI Agent Evaluation Guide (Confident AI) — 单轮/多轮/多智能体实践 -
• AI Evaluation Metrics 2026 (MasterOfCode) — 企业评估全流程 -
• LLM-Judge Evaluation Techniques (EmergentMind) — LLM 评判技术综述
工具框架
-
• Harbor — 容器化智能体评估框架 -
• Braintrust — 离线评估 + 生产监控平台 -
• LangSmith — LangChain 生态评估工具 -
• Langfuse — 开源自托管 LLM 可观测平台 -
• Arize Phoenix — 开源 LLM 追踪与评估
夜雨聆风