一、CUActSpot:计算机使用 Agent 评测补上复杂低频交互
链接:https://arxiv.org/abs/2605.12501
1. CUActSpot 面向 Computer-Use Agents,指出 GPT-5.4、Claude 等系统在复杂低频 GUI 操作上的可靠性仍不足,且失败集中在少量长尾交互类型。
2. 基准覆盖 GUI、文本、表格、画布和自然图像 5 类模态,并纳入 click、drag、draw 等多种动作,区别于主要关注 GUI widget 点击的既有 benchmark。
3. 作者还提出 renderer-based 数据合成流程,自动生成场景、记录截图和元素坐标,再由 LLM 生成指令与动作轨迹;训练后的 Phi-Ground-Any-4B 在 32B 以下开源模型中取得更好表现。
二、WebEye:视觉 grounding 评测引入 agentic search
链接:https://arxiv.org/abs/2605.12497
1. WebEye 把视觉感知扩展到 Perception Deep Research 场景:目标对象不一定能直接从图像或模型知识中识别,Agent 需要先通过外部事实、近期事件、长尾实体或多跳关系解析目标。
2. 基准包含 120 张图像、473 个对象实例、645 个 QA 对和 1,927 个任务样本,覆盖 Search-based Grounding、Search-based Segmentation 和 Search-based VQA 三种任务视角。
3. 配套方法 Pixel-Searcher 将搜索到像素的工作流串联起来,实验中取得最强开源表现;失败分析主要落在证据获取、身份解析和视觉实例绑定三个环节。
三、LongMemEval-V2:长期 Agent 记忆评测从用户历史转向环境经验
链接:https://arxiv.org/abs/2605.12493
1. LongMemEval-V2 关注专用 Web 环境中的长期 Agent 记忆,认为现有 benchmark 多停留在用户历史、短轨迹或下游成功率,难以直接衡量记忆系统是否内化了环境经验。
2. 该基准包含 451 个手工整理问题,覆盖静态状态回忆、动态状态追踪、工作流知识、环境陷阱和前提意识,并配套最多 500 条轨迹、1.15 亿 token 的历史记录。
3. 作者采用 context gathering 形式评测记忆系统,AgentRunbook-C 达到 72.5% 平均准确率,高于最强 RAG baseline 的 48.5%,但也暴露出 coding-agent 式记忆方案的高延迟成本。
四、RobustBench-TC:工具调用评测开始刻画真实部署噪声
链接:https://arxiv.org/abs/2605.11928
1. RobustBench-TC 针对工具使用 Agent 的 sim-to-real gap,指出真实部署中会出现用户拼写错误、工具名幻觉、请求超时和重复工具名等 benchmark 通常忽略的问题。
2. 基准设计了 22 类扰动,并按 POMDP 的 observation、action space、reward-relevant metadata 和 transition dynamics 四个组成部分组织,每类扰动都对应已验证的 GitHub issue 或工具调用失败记录。
3. 在 21 个 1.5B 至 32B 模型上的实验显示,observation 扰动使准确率下降不到 5%,但 reward-relevant 和 transition 扰动分别带来约 40% 和 30% 的下降,说明规模增长不能自动弥合工具调用鲁棒性缺口。
五、EvalAgent:Agent 评测自动化需要专门的 eval 技能栈
链接:https://arxiv.org/abs/2605.11378
1. 这项研究直接考察 frontier coding assistants 能否自动完成 Agent evaluation,结论是单纯提示不足以可靠生成评测:缺少领域知识时执行成功率只有 30%,且平均生成超过 12 个指标。
2. 作者提出 EvalAgent,将评测技能写成流程化说明、可复用代码、模板和动态检索的 API 文档,组合成 trace-based pipeline,输出指标、可执行代码和报告等完整评测 artifact。
3. 配套 AgentEvalBench 含 20 个 Agent、评测需求和测试场景,并用 Eval@1 衡量首轮代码能否运行且产生有意义结果;EvalAgent 将 Eval@1 从 17.5% 提升到 65%,人工偏好率达到 79.5%。
六、ZipRerank:多模态长文档 RAG 的 reranker 评测开始关注延迟
链接:https://arxiv.org/abs/2605.11864
1. ZipRerank 面向 vision-centric retrieval 和 multimodal RAG,指出现有 VLM reranker 虽有较强准确率,但长视觉 token 序列和多步自回归解码会限制长文档场景的实用性。
2. 方法通过 query-image early interaction 缩短输入,并用单次 forward pass 为全部候选打分;训练上结合文本渲染图像的 listwise pretraining 与 VLM-teacher 蒸馏的 multimodal finetuning。
3. 在 MMDocIR benchmark 上,ZipRerank 达到或超过现有多模态 reranker,同时将 LLM 推理延迟降低最高一个数量级,说明图文 RAG 评测需要把排序质量和服务延迟一起纳入诊断。
七、RecRM-Bench:Agentic 推荐评测转向多维 reward modeling
链接:https://arxiv.org/abs/2605.11874
1. RecRM-Bench 针对 LLM Agent 推荐系统,认为现有方法过度依赖单一结果型 reward,只看最终用户交互,忽略指令遵循和复杂意图理解等中间能力。
2. 基准包含超过 100 万条结构化样本,覆盖 instruction following、factual consistency、query-item relevance 和 fine-grained user behavior prediction 四个评测维度。
3. 作者同时给出多维 reward model 构建框架和 hybrid reward function,用于支持从语法合规到意图 grounding、偏好建模的系统评测,补足生成式推荐 Agent 的 reward 评测底座。
八、ABRA:医学影像 Agent 评测把工具环境纳入任务本身
链接:https://arxiv.org/abs/2605.11224
1. ABRA 面向 radiology-agent benchmark,指出现有医学 Agent 评测通常把影像作为预选样本提供,而不是让 Agent 真实操作影像查看环境。
2. 该基准要求 Agent 通过 21 个 function-calling tools 操作 OHIF viewer 和 Orthanc DICOM server,完成 slice navigation、windowing、series selection、像素坐标标注和结构化报告等任务。
3. 655 个任务按 Planning、Execution 和 Outcome 自动评分;10 个模型在真实标注任务上 Execution 至少 89%,但 Outcome 只有 0-25%,而 oracle 变体可达 69-100%,将主要瓶颈定位到感知而非工具编排。
九、MMTB:终端 Agent 评测开始覆盖音视频文件工作流
链接:https://arxiv.org/abs/2605.10966
1. MMTB 关注 terminal agents 的多媒体文件任务,指出既有终端 Agent benchmark 多聚焦文本、代码和结构化文件,难以覆盖现实工作流中的音频和视频处理。
2. 基准包含 105 个任务、5 个 meta-category,要求 Agent 直接在终端中操作 audio 和 video 文件,并把听觉、视觉证据转换为可执行动作。
3. 作者同时提出 Terminus-MM harness,将 Terminus-KIRA 扩展到音视频感知,用于分析不同多媒体访问方式如何影响任务结果以及 Agent 依赖哪些证据构造终端工作流。
夜雨聆风