一、AWS AgentOps:Agent 评测被拆成工具、回合、会话和系统四层
链接:https://aws.amazon.com/blogs/machine-learning/agentops-operationalize-agentic-ai-at-scale-with-amazon-bedrock-agentcore/
1. AWS 在 2026 年 6 月 1 日发布 AgentOps 实践文章,把治理安全、构建运维、评测和可观测性作为生产级 Agent 运营的四个支柱,目标是持续检查 Agent 和工具质量。
2. 原文把 Agent 评测拆成 tool level、conversation turn level、session outcomes level 和 system-level metrics,并给出 correctness、helpfulness、faithfulness、task completion rate、loop detection、cost per completed task 等指标。
3. 文章还区分 on-demand evaluation 与 online evaluation:前者用于开发和发布前质量闸门,后者按采样率监测生产流量,说明 Agent 评测需要从离线回归扩展到线上持续监控。
二、DASHSys Systems Track:数据中心 Agent 评测同时看答案正确性和轨迹效率
链接:https://dashsys-workshop-vldb.github.io/systems.html
1. DASHSys VLDB 2026 Systems Track 显示测试集于 2026 年 6 月 1 日释放,任务要求系统根据自然语言问题迭代执行 SQL 查询和 REST API 调用,并输出完整 agent trajectory。
2. 官网样例把每条提交拆成 query、trace、answer、gold_sql、gold_api,其中 answer、gold_sql 和 gold_api 用于 correctness scoring,trace 用于 efficiency scoring。
3. 这类比赛把结构化数据库、API 沙盒和轨迹审计放进同一评测面,说明 data-centric Agent 的 benchmark 不只比较最终回答,还要记录工具调用过程与执行成本。
三、LongDS-Bench:长周期数据分析 Agent 需要评测状态维护能力
链接:https://arxiv.org/abs/2605.30434
1. LongDS-Bench 面向 long-horizon multi-turn data analysis,要求 Agent 在连续分析中维护、更新、恢复和组合 evolving analytical states,而不是只完成单轮或短交互任务。
2. 论文构建了来自真实 Kaggle notebooks 的 68 个任务,覆盖 2,225 个 turn 和六个领域;任务围绕 counterfactual perturbation、rollback、multi-state composition 等状态演化模式设计,平均 dependency span 为 11.3 turns。
3. 评测五个模型后,最佳平均准确率只有 48.45%,从早期到后期 turn 性能下降近 47 个百分点,说明长周期数据分析 Agent 的瓶颈主要在持续保持正确分析状态,而不只是增加交互步数。
四、GUI-RobustEval:GUI Agent 的错误恢复能力进入可执行评测
链接:https://arxiv.org/abs/2605.29447
1. GUI-RobustEval 聚焦 GUI agents 在真实部署中难以从自身错误恢复的问题,同时提出 RoTS 轨迹合成框架,用于发现错误模式并生成恢复步骤。
2. 论文给出 1,216 个可执行测试用例,系统测量 GUI Agent 在多类错误模式下的 recovery capability;RoTS 通过树形流水线合成 800k 条高质量恢复数据。
3. RoTS-32B 在 OSWorld 上达到 47.4% success rate 和 33.8% All-Pass@4,说明 GUI Agent benchmark 需要把 long-horizon error recovery 纳入主指标,而不是只统计一次性任务成功。
五、OpenSkillEval:Skill 增强 Agent 不能只看技能是否存在
链接:https://arxiv.org/abs/2605.23657
1. OpenSkillEval 面向 skill-augmented agent systems 和技能本身的自动评测,问题意识是开源 skill 生态扩张后,模型、agent framework 与 skill 之间的交互效果仍缺少统一评估。
2. 该框架不依赖静态 benchmark,而是从 evolving real-world artifacts 自动构造任务,覆盖 presentation generation、front-end web design、poster generation、data visualization 和 report generation 五类下游应用。
3. 论文用 600 多个动态生成任务和 30 个开源 skills 评测模型与 agent frameworks,结果显示有 skill 不等于会有效使用 skill,skill 的收益强依赖底层模型和 agent 框架。
六、SwanBench-Speech:长文本语音生成评测补上场景和指标缺口
链接:https://arxiv.org/abs/2605.28618
1. SwanBench-Speech 面向 long-form speech generation 和 dialog generation,指出现有语音生成测试场景偏窄,且常用指标忽略 consistency 与 coherence 等长文本因素。
2. benchmark 覆盖 acoustics、semantics 和 expressiveness 三条轴线,包含 1,101 个样本、17 个常见语音场景,并定义七个自动评测指标来拆解长文本语音质量。
3. 实验显示当前模型在高表现力场景中仍有明显困难,且在 consistency 与 hierarchy 上和真实录音存在差距,说明语音应用评测需要从短句自然度扩展到长上下文结构稳定性。
七、SoundnessBench:AI Scientist Agent 需要先评研究想法是否可靠
链接:https://arxiv.org/abs/2605.30329
1. SoundnessBench 面向 autonomous AI research agents 的 proposal-stage soundness 评测,问题是现有 benchmark 很少测试模型能否在投入实验资源前判断研究想法的方法可行性。
2. 论文构建了 1,099 个从 ICLR submissions 重建的机器学习研究提案,并用 reviewer soundness sub-scores 标注;在 12 个前沿 LLM 上测试后,发现模型普遍存在把低 soundness 提案评为可靠的 optimism bias。
3. 论文还控制了 public-corpus contamination、paper-identifying phrases、surface features 和 human audit quality 等混杂因素,提示 AI 科研 Agent 的评测应单独考察方法论可行性判断,而不是只看生成提案的流畅度。
八、Hide-and-Seek:具身 Agent 评测从终局成功走向运行时失败信号
链接:https://arxiv.org/abs/2605.30834
1. Hide-and-Seek 面向 Vision-Language-Action models 的 runtime failure detection,把执行失败检测表述为 coarsely supervised learning 问题,用于支持具身系统的可靠部署。
2. 方法结合 inter-trajectory 和 intra-trajectory contrastive objectives,只用 trajectory-level supervision 就定位 failure-indicative actions,不需要 step-level annotation。
3. 论文在 LIBERO、VLABench 和真实机器人平台上评测 OpenVLA、π_0 与 π_0.5 三类 VLA policies,并报告 accuracy-timeliness trade-off 与 seen/unseen tasks 泛化结果,说明 embodied Agent 评测需要捕捉运行时失败信号。
夜雨聆风