AI应用评测速递 20260525

一、Open Agent Leaderboard：通用 Agent 评测开始同时报告质量和成本

链接：https://huggingface.co/blog/ibm-research/open-agent-leaderboard

1. Hugging Face 与 IBM Research 发布 Open Agent Leaderboard，把被评对象定义为完整 Agent system，而不是只比较底层模型分数。

2. 评测整合 SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline/Retail、tau2-Bench Telecom 等六类任务，并用统一协议报告平均成功率、单任务成本和分 benchmark 拆解。

3. 原文显示同一模型在不同 Agent 封装下会产生不同质量与成本，失败运行还会比成功运行多消耗 20%-54%，说明 Agent 评测需要把架构、工具选择和失败成本纳入同一张表。

二、AgentAtlas：Agent 评测从结果榜单扩展到控制决策和轨迹诊断

链接：https://arxiv.org/abs/2605.20530

1. AgentAtlas 关注 LLM agents 在代码库、浏览器、操作系统、日历、文件和工具生态中执行任务时，现有 benchmark 只看最终成功率、工具调用或安全性等单一切面的碎片化问题。

2. 方法提出 Act、Ask、Refuse、Stop、Confirm、Recover 六态控制决策 taxonomy、九类轨迹失败 taxonomy，以及 taxonomy-aware / taxonomy-blind 两种测量方式，并审计 15 个 Agent benchmark 的行为覆盖。

3. 1,342 条八模型实验中，移除显式标签菜单会让所有模型轨迹准确率下降 14-40 个百分点，说明 Agent 榜单需要区分真实能力、提示监督和轨迹诊断能力。

三、EngiAI：工程设计多 Agent 评测同时拆解工作流、RAG 和 HPC 编排

链接：https://arxiv.org/abs/2605.19743

1. EngiAI 面向 LLM-driven engineering design，指出现有评测不足以覆盖同时包含仿真、检索和制造准备的 multi-agent systems。

2. benchmark suite 包含七种 prompt style 的 workflow benchmark、用 gated scoring 隔离检索贡献的 RAG benchmark，以及评估 SLURM 集群端到端训练编排的 HPC benchmark。

3. 两个 EngiBench 问题上的结果显示，专有模型在 Beams2D 上完成率达 96%-97%，但 Photonics2D 的条件分支任务会降至 20%-53%，说明工程 Agent 评测要把条件控制和长流程编排单独拉出来看。

四、MINTEval：长程 Agent 记忆评测强调多目标干扰和更新冲突

链接：https://arxiv.org/abs/2605.18565

1. MINTEval 针对长程 Agent 系统中信息反复更新、不同记忆互相干扰的问题，认为静态独立召回 benchmark 难以反映真实长期任务。

2. benchmark 含 15.6k 个问答对，平均上下文 138.8k tokens、最长 1.8M tokens，覆盖状态跟踪、多轮对话、Wikipedia 修订和 GitHub commits 等域，并区分单目标召回与多目标聚合。

3. 对 7 类代表系统的评测平均准确率仅 27.9%，瓶颈主要来自 retrieval 和 memory construction，提示长程 Agent 评测要专门检查旧事实被后续更新干扰后的召回与推理。

五、MTR-Suite：对话检索评测把审计、合成和 benchmark 放到同一框架

链接：https://arxiv.org/abs/2605.20729

1. MTR-Suite 面向 RAG 中的 conversational retrieval，指出现有对话检索 benchmark 往往依赖昂贵稀疏人工标注，或使用僵硬、不自然的自动启发式规则。

2. 框架包含 MTR-Eval 作为 LLM-based auditor 量化旧 benchmark 的 alignment gap，MTR-Pipeline 用 multi-agent 方式低成本生成高保真对话，MTR-Bench 则模拟 hard topic switching 和 verbosity 等生产式挑战。

3. 原文称其合成成本约为人工的 1/400，并提供更强区分度，说明 RAG 检索评测不能只比较召回指标，还要审计 benchmark 本身是否贴近真实对话。

六、Ettin Reranker：RAG reranker 评测同时看 NDCG 和推理成本

链接：https://huggingface.co/blog/ettin-reranker

1. Hugging Face 发布六个 Ettin CrossEncoder reranker，参数规模从 17M 到 1B，并给出完整训练数据与 distillation recipe。

2. 原文在 MTEB(eng, v2) Retrieval 的 10 个任务上采用 top-100 reranking 流程，把每个 reranker 与六个 embedding 模型配对，并用 mean NDCG@10 比较检索质量。

3. 结果中 Ettin-1B 在 MTEB 上几乎追平 1.54B teacher，17M 模型也明显超过旧 MiniLM reranker，说明 RAG 排序层评测需要同时报告 embedder 组合、rerank 深度、质量和速度预算。

七、One Prompt is Not Enough：Embedding 评测需要报告提示敏感性

链接：https://arxiv.org/abs/2605.22544

1. 这项研究指出 instruction embedding models 常用每个任务一个 prompt 做评测，但这种 single-point evaluation 会忽略模型对指令措辞的敏感性。

2. 实证覆盖 6 个 embedding models、11 个 datasets、每个数据集 15 个 task-specific prompts，共 990 个组合，比较同一任务下合理 prompt 变化带来的分数分布。

3. 结果显示默认 prompt 可能系统性高估或低估性能，甚至可通过有利 prompt 把任一模型推到第一名，说明 RAG embedding 榜单应报告 multi-prompt robustness 或 sensitivity。

八、ChronoMedKG：医疗 RAG 评测加入时间 grounding 维度

链接：https://arxiv.org/abs/2605.22734

1. ChronoMedKG 针对生物医学 KG 常把疾病关联当作静态事实的问题，补充 onset window、progression stage 等 temporal components，以服务纵向临床推理和 retrieval augmentation。

2. 图谱包含 460,497 条带证据 triple、覆盖 13,431 种疾病，并通过多模型共识、credibility filtering 和 ontology alignment 构建；配套 ChronoTQA benchmark 含 3,341 个八类问题。

3. Frontier LLM 从静态问题转向时间问题时约掉 30 分，而 ChronoMedKG retrieval 能挽回 47%-65% 的长尾失败，说明医疗 RAG 评测需要把时间证据纳入 ground truth。

九、WildRoadBench：道路损伤 grounding 同时评测 VLM 和自主 Agent

链接：https://arxiv.org/abs/2605.20306

1. WildRoadBench 用同一组专业标注 UAV 图像，把 vision-language model 的直接视觉 grounding 与 LLM-driven agent 的自主研究和工程能力放在同一 benchmark 中比较。

2. VLM Track 要求固定 VLM 从一张图和短提示定位道路损伤，Agent Track 则要求自主 Agent 在固定预算内搜索网页、改造预训练组件、编写训练推理代码并提交隐藏集预测。

3. 结果显示闭源前沿模型虽领先但仍留下超过一半指标空间，Agent 也落后于最强 VLM 且部分无法有效提交，说明视觉 grounding 评测要同时覆盖感知定位和可执行工程闭环。

十、MM-Conv：3D 对话 grounding 评测把语音、视线和场景几何合在一起

链接：https://arxiv.org/abs/2605.21796

1. MM-Conv 面向动态 3D 环境中的 referential communication，关注多轮对话中代词、省略和歧义表达如何被视觉语言系统落到真实物体上。

2. benchmark 来自 6.7 小时 egocentric VR 交互，包含同步语音、运动、gaze 和 3D scene geometry，并提供超过 4,200 个 manually verified referring expressions。

3. 两阶段 grounding pipeline 先做 contextual rewriting 再视觉定位，平均提升 11-22 个百分点；这说明多模态应用评测要把语言消歧和视觉检测拆开诊断。

十一、Raon-OpenTTS：开放 TTS 评测加入多场景鲁棒性

链接：https://arxiv.org/abs/2605.20830

1. Raon-OpenTTS 发布开放 TTS 模型、训练数据池和评测集，重点验证大规模公开语音数据能否支撑接近闭源数据训练模型的语音质量。

2. 论文构建 Raon-OpenTTS-Pool 的 615K 小时语音数据，并通过 model-based filtering 得到 510K 小时核心子集；Raon-OpenTTS-Eval 则覆盖 clean、noisy、in-the-wild 和 expressive speech 等声学条件。

3. Raon-OpenTTS-1B 在 Seed-TTS-Eval 上 WER 为 1.78%、SIM 为 0.749，在 CV3-Hard-EN 上 WER 为 6.15%、SIM 为 0.775，说明 TTS 应用评测要同时看内容错误、说话人相似度和鲁棒场景。

十二、Generative Conversational Recommender：生成式推荐评测同时保留命中率和对话质量

链接：https://arxiv.org/abs/2605.21987

1. 这项工作面向 conversational recommender systems，指出现有系统常把推荐和对话生成解耦，或依赖 retrieval-based pipeline，难以统一建模用户意图。

2. 方法把 item 表示为 discrete semantic IDs 并纳入自回归生成，同时用 structured generation 先预测 response intent 和 recommendation target，再约束生成回复。

3. 实验显示该方法在强基线之上 Recall@1 最高提升 29%，同时保持有竞争力的 dialog quality，说明生成式推荐评测要避免只看命中率，还要检查回复质量与 item generation 的一致性。