AI应用评测速递 20260514

一、CUActSpot：计算机使用 Agent 评测补上复杂低频交互

链接：https://arxiv.org/abs/2605.12501

1. CUActSpot 面向 Computer-Use Agents，指出 GPT-5.4、Claude 等系统在复杂低频 GUI 操作上的可靠性仍不足，且失败集中在少量长尾交互类型。

2. 基准覆盖 GUI、文本、表格、画布和自然图像 5 类模态，并纳入 click、drag、draw 等多种动作，区别于主要关注 GUI widget 点击的既有 benchmark。

3. 作者还提出 renderer-based 数据合成流程，自动生成场景、记录截图和元素坐标，再由 LLM 生成指令与动作轨迹；训练后的 Phi-Ground-Any-4B 在 32B 以下开源模型中取得更好表现。

二、WebEye：视觉 grounding 评测引入 agentic search

链接：https://arxiv.org/abs/2605.12497

1. WebEye 把视觉感知扩展到 Perception Deep Research 场景：目标对象不一定能直接从图像或模型知识中识别，Agent 需要先通过外部事实、近期事件、长尾实体或多跳关系解析目标。

2. 基准包含 120 张图像、473 个对象实例、645 个 QA 对和 1,927 个任务样本，覆盖 Search-based Grounding、Search-based Segmentation 和 Search-based VQA 三种任务视角。

3. 配套方法 Pixel-Searcher 将搜索到像素的工作流串联起来，实验中取得最强开源表现；失败分析主要落在证据获取、身份解析和视觉实例绑定三个环节。

三、LongMemEval-V2：长期 Agent 记忆评测从用户历史转向环境经验

链接：https://arxiv.org/abs/2605.12493

1. LongMemEval-V2 关注专用 Web 环境中的长期 Agent 记忆，认为现有 benchmark 多停留在用户历史、短轨迹或下游成功率，难以直接衡量记忆系统是否内化了环境经验。

2. 该基准包含 451 个手工整理问题，覆盖静态状态回忆、动态状态追踪、工作流知识、环境陷阱和前提意识，并配套最多 500 条轨迹、1.15 亿 token 的历史记录。

3. 作者采用 context gathering 形式评测记忆系统，AgentRunbook-C 达到 72.5% 平均准确率，高于最强 RAG baseline 的 48.5%，但也暴露出 coding-agent 式记忆方案的高延迟成本。

四、RobustBench-TC：工具调用评测开始刻画真实部署噪声

链接：https://arxiv.org/abs/2605.11928

1. RobustBench-TC 针对工具使用 Agent 的 sim-to-real gap，指出真实部署中会出现用户拼写错误、工具名幻觉、请求超时和重复工具名等 benchmark 通常忽略的问题。

2. 基准设计了 22 类扰动，并按 POMDP 的 observation、action space、reward-relevant metadata 和 transition dynamics 四个组成部分组织，每类扰动都对应已验证的 GitHub issue 或工具调用失败记录。

3. 在 21 个 1.5B 至 32B 模型上的实验显示，observation 扰动使准确率下降不到 5%，但 reward-relevant 和 transition 扰动分别带来约 40% 和 30% 的下降，说明规模增长不能自动弥合工具调用鲁棒性缺口。

五、EvalAgent：Agent 评测自动化需要专门的 eval 技能栈

链接：https://arxiv.org/abs/2605.11378

1. 这项研究直接考察 frontier coding assistants 能否自动完成 Agent evaluation，结论是单纯提示不足以可靠生成评测：缺少领域知识时执行成功率只有 30%，且平均生成超过 12 个指标。

2. 作者提出 EvalAgent，将评测技能写成流程化说明、可复用代码、模板和动态检索的 API 文档，组合成 trace-based pipeline，输出指标、可执行代码和报告等完整评测 artifact。

3. 配套 AgentEvalBench 含 20 个 Agent、评测需求和测试场景，并用 Eval@1 衡量首轮代码能否运行且产生有意义结果；EvalAgent 将 Eval@1 从 17.5% 提升到 65%，人工偏好率达到 79.5%。

六、ZipRerank：多模态长文档 RAG 的 reranker 评测开始关注延迟

链接：https://arxiv.org/abs/2605.11864

1. ZipRerank 面向 vision-centric retrieval 和 multimodal RAG，指出现有 VLM reranker 虽有较强准确率，但长视觉 token 序列和多步自回归解码会限制长文档场景的实用性。

2. 方法通过 query-image early interaction 缩短输入，并用单次 forward pass 为全部候选打分；训练上结合文本渲染图像的 listwise pretraining 与 VLM-teacher 蒸馏的 multimodal finetuning。

3. 在 MMDocIR benchmark 上，ZipRerank 达到或超过现有多模态 reranker，同时将 LLM 推理延迟降低最高一个数量级，说明图文 RAG 评测需要把排序质量和服务延迟一起纳入诊断。

七、RecRM-Bench：Agentic 推荐评测转向多维 reward modeling

链接：https://arxiv.org/abs/2605.11874

1. RecRM-Bench 针对 LLM Agent 推荐系统，认为现有方法过度依赖单一结果型 reward，只看最终用户交互，忽略指令遵循和复杂意图理解等中间能力。

2. 基准包含超过 100 万条结构化样本，覆盖 instruction following、factual consistency、query-item relevance 和 fine-grained user behavior prediction 四个评测维度。

3. 作者同时给出多维 reward model 构建框架和 hybrid reward function，用于支持从语法合规到意图 grounding、偏好建模的系统评测，补足生成式推荐 Agent 的 reward 评测底座。

八、ABRA：医学影像 Agent 评测把工具环境纳入任务本身

链接：https://arxiv.org/abs/2605.11224

1. ABRA 面向 radiology-agent benchmark，指出现有医学 Agent 评测通常把影像作为预选样本提供，而不是让 Agent 真实操作影像查看环境。

2. 该基准要求 Agent 通过 21 个 function-calling tools 操作 OHIF viewer 和 Orthanc DICOM server，完成 slice navigation、windowing、series selection、像素坐标标注和结构化报告等任务。

3. 655 个任务按 Planning、Execution 和 Outcome 自动评分；10 个模型在真实标注任务上 Execution 至少 89%，但 Outcome 只有 0-25%，而 oracle 变体可达 69-100%，将主要瓶颈定位到感知而非工具编排。

九、MMTB：终端 Agent 评测开始覆盖音视频文件工作流

链接：https://arxiv.org/abs/2605.10966

1. MMTB 关注 terminal agents 的多媒体文件任务，指出既有终端 Agent benchmark 多聚焦文本、代码和结构化文件，难以覆盖现实工作流中的音频和视频处理。

2. 基准包含 105 个任务、5 个 meta-category，要求 Agent 直接在终端中操作 audio 和 video 文件，并把听觉、视觉证据转换为可执行动作。

3. 作者同时提出 Terminus-MM harness，将 Terminus-KIRA 扩展到音视频感知，用于分析不同多媒体访问方式如何影响任务结果以及 Agent 依赖哪些证据构造终端工作流。