AI应用评测速递 20260602

一、AWS AgentOps：Agent 评测被拆成工具、回合、会话和系统四层

链接：https://aws.amazon.com/blogs/machine-learning/agentops-operationalize-agentic-ai-at-scale-with-amazon-bedrock-agentcore/

1. AWS 在 2026 年 6 月 1 日发布 AgentOps 实践文章，把治理安全、构建运维、评测和可观测性作为生产级 Agent 运营的四个支柱，目标是持续检查 Agent 和工具质量。

2. 原文把 Agent 评测拆成 tool level、conversation turn level、session outcomes level 和 system-level metrics，并给出 correctness、helpfulness、faithfulness、task completion rate、loop detection、cost per completed task 等指标。

3. 文章还区分 on-demand evaluation 与 online evaluation：前者用于开发和发布前质量闸门，后者按采样率监测生产流量，说明 Agent 评测需要从离线回归扩展到线上持续监控。

二、DASHSys Systems Track：数据中心 Agent 评测同时看答案正确性和轨迹效率

链接：https://dashsys-workshop-vldb.github.io/systems.html

1. DASHSys VLDB 2026 Systems Track 显示测试集于 2026 年 6 月 1 日释放，任务要求系统根据自然语言问题迭代执行 SQL 查询和 REST API 调用，并输出完整 agent trajectory。

2. 官网样例把每条提交拆成 query、trace、answer、gold_sql、gold_api，其中 answer、gold_sql 和 gold_api 用于 correctness scoring，trace 用于 efficiency scoring。

3. 这类比赛把结构化数据库、API 沙盒和轨迹审计放进同一评测面，说明 data-centric Agent 的 benchmark 不只比较最终回答，还要记录工具调用过程与执行成本。

三、LongDS-Bench：长周期数据分析 Agent 需要评测状态维护能力

链接：https://arxiv.org/abs/2605.30434

1. LongDS-Bench 面向 long-horizon multi-turn data analysis，要求 Agent 在连续分析中维护、更新、恢复和组合 evolving analytical states，而不是只完成单轮或短交互任务。

2. 论文构建了来自真实 Kaggle notebooks 的 68 个任务，覆盖 2,225 个 turn 和六个领域；任务围绕 counterfactual perturbation、rollback、multi-state composition 等状态演化模式设计，平均 dependency span 为 11.3 turns。

3. 评测五个模型后，最佳平均准确率只有 48.45%，从早期到后期 turn 性能下降近 47 个百分点，说明长周期数据分析 Agent 的瓶颈主要在持续保持正确分析状态，而不只是增加交互步数。

四、GUI-RobustEval：GUI Agent 的错误恢复能力进入可执行评测

链接：https://arxiv.org/abs/2605.29447

1. GUI-RobustEval 聚焦 GUI agents 在真实部署中难以从自身错误恢复的问题，同时提出 RoTS 轨迹合成框架，用于发现错误模式并生成恢复步骤。

2. 论文给出 1,216 个可执行测试用例，系统测量 GUI Agent 在多类错误模式下的 recovery capability；RoTS 通过树形流水线合成 800k 条高质量恢复数据。

3. RoTS-32B 在 OSWorld 上达到 47.4% success rate 和 33.8% All-Pass@4，说明 GUI Agent benchmark 需要把 long-horizon error recovery 纳入主指标，而不是只统计一次性任务成功。

五、OpenSkillEval：Skill 增强 Agent 不能只看技能是否存在

链接：https://arxiv.org/abs/2605.23657

1. OpenSkillEval 面向 skill-augmented agent systems 和技能本身的自动评测，问题意识是开源 skill 生态扩张后，模型、agent framework 与 skill 之间的交互效果仍缺少统一评估。

2. 该框架不依赖静态 benchmark，而是从 evolving real-world artifacts 自动构造任务，覆盖 presentation generation、front-end web design、poster generation、data visualization 和 report generation 五类下游应用。

3. 论文用 600 多个动态生成任务和 30 个开源 skills 评测模型与 agent frameworks，结果显示有 skill 不等于会有效使用 skill，skill 的收益强依赖底层模型和 agent 框架。

六、SwanBench-Speech：长文本语音生成评测补上场景和指标缺口

链接：https://arxiv.org/abs/2605.28618

1. SwanBench-Speech 面向 long-form speech generation 和 dialog generation，指出现有语音生成测试场景偏窄，且常用指标忽略 consistency 与 coherence 等长文本因素。

2. benchmark 覆盖 acoustics、semantics 和 expressiveness 三条轴线，包含 1,101 个样本、17 个常见语音场景，并定义七个自动评测指标来拆解长文本语音质量。

3. 实验显示当前模型在高表现力场景中仍有明显困难，且在 consistency 与 hierarchy 上和真实录音存在差距，说明语音应用评测需要从短句自然度扩展到长上下文结构稳定性。

七、SoundnessBench：AI Scientist Agent 需要先评研究想法是否可靠

链接：https://arxiv.org/abs/2605.30329

1. SoundnessBench 面向 autonomous AI research agents 的 proposal-stage soundness 评测，问题是现有 benchmark 很少测试模型能否在投入实验资源前判断研究想法的方法可行性。

2. 论文构建了 1,099 个从 ICLR submissions 重建的机器学习研究提案，并用 reviewer soundness sub-scores 标注；在 12 个前沿 LLM 上测试后，发现模型普遍存在把低 soundness 提案评为可靠的 optimism bias。

3. 论文还控制了 public-corpus contamination、paper-identifying phrases、surface features 和 human audit quality 等混杂因素，提示 AI 科研 Agent 的评测应单独考察方法论可行性判断，而不是只看生成提案的流畅度。

八、Hide-and-Seek：具身 Agent 评测从终局成功走向运行时失败信号

链接：https://arxiv.org/abs/2605.30834

1. Hide-and-Seek 面向 Vision-Language-Action models 的 runtime failure detection，把执行失败检测表述为 coarsely supervised learning 问题，用于支持具身系统的可靠部署。

2. 方法结合 inter-trajectory 和 intra-trajectory contrastive objectives，只用 trajectory-level supervision 就定位 failure-indicative actions，不需要 step-level annotation。

3. 论文在 LIBERO、VLABench 和真实机器人平台上评测 OpenVLA、π_0 与 π_0.5 三类 VLA policies，并报告 accuracy-timeliness trade-off 与 seen/unseen tasks 泛化结果，说明 embodied Agent 评测需要捕捉运行时失败信号。