AI应用评测速递 20260524

一、SGR-Bench：搜索 Agent 评测加入站内状态配置这一隐藏难点

链接：https://arxiv.org/abs/2605.22219

1. SGR-Bench 面向 state-gated retrieval，关注专业数据检索网站中答案证据只有在正确设置过滤器、视图、层级或范围后才可见的任务。

2. benchmark 包含 100 个专家策划任务，覆盖 6 类来源和 12 个公共数据生态，并用 constraint-guided 与 goal-oriented 两种表述比较显式约束和隐式目标对 Agent 的影响。

3. 八个 CLI-based agentic LLM systems 和三个商业搜索 Agent 的评测中，最强系统 item-level F1 仅为 66.18%，失败审计显示 retrieval-scope drift 与 criterion mismatch 是主要问题，说明搜索 Agent 评测要检查“是否进入正确检索状态”。

二、AgroTools：农业多模态 Agent 评测同时看工具轨迹和任务结果

链接：https://arxiv.org/abs/2605.22366

1. AgroTools 面向农业场景中的 tool-augmented multimodal agents，指出既有农业多模态 benchmark 多停留在最终答案正确性，较少检验模型能否使用外部工具完成精密工作流。

2. benchmark 包含 539 个问答实例、1,097 张异构农业图像、5 类任务和 14 个可执行农业工具，每个 query 都带 structured tool-use traces。

3. 对 9 个开源和 4 个闭源 MLLM 的评测显示，当前模型在 tool planning、argument generation、execution recovery 和 final-answer synthesis 上仍有瓶颈，说明领域 Agent 评测需要同时记录过程质量和结果成功。

三、SynAE：工具调用 Agent 的合成评测数据需要多轴质量度量

链接：https://arxiv.org/abs/2605.22564

1. SynAE 关注 multi-turn tool-calling agent evaluations 中合成数据替代或补充真实生产轨迹时，如何衡量合成 benchmark 是否真正贴近真实数据。

2. 框架从 task instructions and intermediate responses、tool calls、final outputs、downstream evaluation 四类对象评估 synthetic data 的 validity、fidelity 和 diversity。

3. 论文在近期 Agent benchmark 和受控生成方案上验证 SynAE，发现没有单一指标足以描述合成数据质量，提示工具调用 Agent 测试集构建要保留多维诊断。

四、WorkstreamBench：金融表格 Agent 评测从单元格编辑升级到完整交付物

链接：https://arxiv.org/abs/2605.22664

1. WorkstreamBench 评估 LLM agents 能否从高层指令生成完整金融电子表格，覆盖 financial modeling、forecasting 和 scenario analysis 等真实工作流。

2. 评测 taxonomy 包含 Accuracy、Formula 和 Format 三个维度，并进一步拆成符合专业标准的细粒度标准，因为表格交付物常需要被多人审阅和修改。

3. 结果显示 Claude family 领先且输出更接近专业外观，但最强 Agent 在复杂度超过少量链式计算后仍明显退化，说明办公 Agent 评测不能只看问答或单公式编辑。

五、Agentic CLEAR：Agent 评测从可观测性日志走向系统、轨迹和节点三级诊断

链接：https://arxiv.org/abs/2605.22608

1. Agentic CLEAR 针对现有 Agent 工具多停留在 observability 或静态错误 taxonomy 的问题，提出自动、动态、多层级的 LLM Agent evaluation framework。

2. 框架在 system、trace 和 node 三个粒度生成关于 Agent 行为的 textual insights，并位于 observability layer 之上以便集成到现有执行系统。

3. 论文在四个 benchmark、七类 agentic settings 和数万次 LLM calls 上实验，报告其输出与人工标注错误高度一致，并能预测 task success rate，说明 trace 级评测可以直接服务运行诊断。

六、Priority Ranking：Harness optimizer 评测不只看最终 Agent 分数

链接：https://arxiv.org/abs/2605.22505

1. 这项工作指出 harness optimization 目前常通过目标 Agent 的最终性能增益间接评价 optimizer，容易忽略中间更新动作本身是否有效。

2. Priority ranking 让 optimizer 对 harness 中的组件按“更新后可能提升或损害 Agent 表现”的程度排序，从而以低成本衡量 step-level optimization ability。

3. Shor 数据集包含 182 个 human-verified optimization scenarios，论文显示 ranking performance 与真实多步 harness optimization 能力相关，说明 Agent 构建自动化也需要过程级评测。

七、AtelierEval：文生图上游提示者评测引入 Agentic Judge

链接：https://arxiv.org/abs/2605.22645

1. AtelierEval 关注 text-to-image 系统上游 prompter 的能力评测，指出既有 benchmark 通常固定提示词，只评价生成模型本身。

2. benchmark 包含 360 个专家设计任务，覆盖 3 类任务并为 humans 和 MLLMs 提供双接口；AtelierJudge 是 skill-based、memory-augmented 的 agentic evaluator。

3. AtelierJudge 与人类专家的 Spearman correlation 达到 0.79，实验比较 8 个 MLLMs、48 名人类用户和 4 个 T2I backends，提示生成式应用评测应把“谁在写提示词”纳入链路。

八、FundusGround：眼底 VQA 评测把答案正确性和病灶证据绑定

链接：https://arxiv.org/abs/2605.22414

1. FundusGround 面向 ophthalmic VQA，指出现有医学视觉问答 benchmark 多强调 answer accuracy，缺少对显式视觉证据的检查。

2. 数据集包含 10,719 张眼底图像和 15,595 个图像级病灶标注，并用 ETDRS grid 将病灶定位到 9 个临床有意义的视网膜区域，再生成 72,706 个问题。

3. 评测同时使用 answer accuracy 与 lesion-level reasoning，实验显示引入病灶级视觉证据能提升性能和透明度，说明医疗图文问答评测要把 grounding 作为核心要求。

九、ReceiptBench：票据文档理解评测从识别扩展到语义推理和嵌套结构

链接：https://arxiv.org/abs/2605.22413

1. ReceiptBench 面向真实收据文档理解，指出现有 visual information extraction benchmark 在规模、真实性、语义粒度和文档类型覆盖上不足。

2. benchmark 含 10k 张人工标注收据，并将任务拆为 Basic Perception、Format Normalization、Semantic Reasoning 和 Structure Parsing 四个层级。

3. 论文还用 Metric-Aware GRPO 将严格评测约束转化为训练信号以增强结构一致性，说明文档智能评测需要覆盖从 OCR 感知到嵌套行项目解析的完整链路。

十、RobustSpeechFlow：TTS 评测聚焦跳读和重复等内容保真错误

链接：https://arxiv.org/abs/2605.22083

1. RobustSpeechFlow 针对 flow-matching TTS 中由不完美对齐导致的 skip 和 repeat 错误，提出用长度保持的 repeat 与 skip latent augmentations 改善 alignment robustness。

2. 评测在 Seed-TTS-eval 上将 WER 从 1.44 降至 1.38，并在 ZERO500 benchmark 的 NFE=24 设置下将 English CER 从 0.48% 降至 0.35%、Korean CER 从 0.81% 降至 0.57%。

3. 这类结果把语音应用评测重点从自然度扩展到内容保真和多语种可懂度，尤其适合检查实时或零样本 TTS 链路中的微小错误。

十一、MotiMotion：视频生成评测用交互事件检验因果运动合理性

链接：https://arxiv.org/abs/2605.22818

1. MotiMotion 将 motion-controlled image-to-video generation 改写为 reasoning-then-generation 问题，用视觉语言 reasoner 修正主轨迹并补充合理的 secondary motions。

2. 为支持系统评测，论文构建 MotiBench，包含由运动触发新事件的 interaction-centric scenes，并结合 VLM-based evaluation 与 human study 比较生成结果。

3. MotiBench 上的结果显示 MotiMotion 在物体行为和交互合理性上更受偏好，说明视频生成评测不能只看轨迹跟随，还要检查因果交互是否自然。

十二、Coordinated AI Agents：科学推理 Agent 评测用冻结面板、基线和溯源限制过度归因

链接：https://arxiv.org/abs/2605.22300

1. 这项 cross-domain benchmark 评估 coordinated AI agents 何时能在 partial evidence 的科学推理任务中优于更简单工作流，覆盖分子结构到音乐映射、科学范式转移、病媒疾病涌现和系外行星筛选四类任务。

2. 每个案例使用 frozen evaluation panel、predefined scoring protocols、explicit baselines、ablations 或 null controls，并通过 ScienceClaw x Infinite 提供 auditable artifact 与 provenance layer。

3. 结果显示跨通道组合在部分任务中提升 AUROC，但在强 combined-summary baseline 面前并不总能提高 top-line performance，说明多 Agent 科学工作流评测要用显式对照来限制协调收益的过度解释。