一、EvoArena:动态环境下的 Agent 记忆评测
链接:https://arxiv.org/abs/2606.13681
1. EvoArena 指出现有 Agent benchmark 多假设静态环境,而真实部署需要智能体持续适应任务条件、环境状态和用户偏好的变化。
2. 论文把环境变化建模为 terminal、software 和 social domains 中的连续 progressive updates,并报告当前 agents 在 EvoArena 上平均准确率为 39.6%。
3. EvoMem 用 patch-based memory 记录结构化更新历史后,在 EvoArena 上平均提升 1.5%,并在 GAIA、LoCoMo 和链式任务准确率上也带来增益,说明记忆评测需要覆盖环境演化过程。
二、WeaveBench:电脑使用 Agent 评测要跨 GUI、CLI 与代码
链接:https://arxiv.org/abs/2606.09426
1. WeaveBench 面向 computer-use agents,认为现有 benchmark 常把视觉桌面控制、命令行、代码编辑、浏览器和外部工具拆开评测,低估了真实长程任务的跨界面编排难度。
2. 数据集包含 8 个真实工作域的 114 个任务,每个任务要求在同一轨迹中组合 GUI observation/action 与 CLI/code operation,并基于公开可验证产物评分。
3. 论文提出 trajectory-aware judge 检查 deliverables、files、screenshots、logs 和 action traces;最佳模型运行组合 PassRate 仅 41.2%,且 outcome-only grading 会明显高估 Agent 表现。
三、FORT-Searcher:深度搜索任务要防止捷径
链接:https://arxiv.org/abs/2606.12087
1. FORT-Searcher 关注 deep search agents 的训练数据构建,指出复杂图结构不一定等于真实搜索难度,因为问题可能通过更便宜的识别路径被提前解出。
2. 论文提出 shortcut-aware difficulty framework,识别 evidence co-coverage、single-clue selectivity、exposed constants 和 prior-knowledge binding 四类风险,并用 solving cost、answer hit time、prior-shortcut rate 诊断实际影响。
3. FORT 从实体选择、证据图构建、问题表述和对抗式 refinement 控制这些风险,生成的轨迹可用 SFT 训练搜索 Agent,在同规模开源 deep search agents 中取得更好的整体表现。
四、EvoBrowseComp:浏览搜索评测需要动态知识
链接:https://arxiv.org/abs/2606.13120
1. EvoBrowseComp 针对 Search Agents 评测中的静态知识污染问题,指出 BrowseComp 这类固定题库可能让模型通过记忆事实而非真实检索获得高分。
2. 论文构建 400 个英文和 400 个中文 contamination-free complex questions,并用 live-web traversal 合成问题、证据和推理图。
3. 其三 Agent 合成框架分别负责新鲜知识检索、可信度与流行度过滤、以及 reasoning graph 形式化,使 benchmark 可以自动更新以维持时间新鲜度和横向搜索难度。
五、HieraRAG:RAG benchmark 的粒度本身需要评测
链接:https://arxiv.org/abs/2606.12789
1. HieraRAG 讨论 RAG benchmark 该如何选择问题维度和类别粒度,认为只生成“足够多”的问题不足以保证评测有区分度。
2. 论文从 FineWeb-10BT 生成 5,872 个 synthetic QA pairs,覆盖 Question Complexity、Answer Type、Linguistic Variation 三个维度,并比较 2、4、8 类三档粒度。
3. 在 BM25+Falcon-3-10B 配置下,复杂度维度更适合细粒度区分,而答案类型和语言变化在中等粒度达到更好区分度;Coherence Ratio 与 110 条人工评估用于验证类别切分质量。
六、V-RAGBench:长视频 RAG 要拆开评测检索与生成
链接:https://arxiv.org/abs/2606.13141
1. V-RAGBench 面向长时长第一视角视频 RAG,指出既有 VideoRAG benchmark 可能让问题绕过视频直接回答,从而掩盖真实 retrieval error。
2. 论文构建 query、evidence chunk、answer 三元组,使系统能分别评测检索和生成,并要求证据选择同时处理多模态信息与时间粒度。
3. CARVE 通过并行 retrievers 和 chunk-adaptive reranking 为每个片段选择配置,结果优于 8 个近期 VideoRAG baseline,说明长视频 RAG 不能只在 query 级别固定一种检索策略。
七、Evoflux:工具工作流评测要看可执行修复
链接:https://arxiv.org/abs/2606.12674
1. Evoflux 关注 compact tool agents 在 MCP-style 工具调用中的失败模式:小模型不仅要生成函数调用,还要发现 live catalogs、满足 schema、保留依赖并基于执行证据回答。
2. 论文把 compact tool use 建模为 executable workflow repair,通过 typed workflow graph 的结构化编辑、执行反馈、adaptive intensity、meta-guided redesign 和 diversity pruning 做 inference-time evolution。
3. 在覆盖 live MCP servers 和 250 个工具的 held-out MCP-Bench 上,Evoflux 将小规划器的 execution feasibility 从约 3% 提升到 17% 到 24%,优于同数据下的 SFT 或 SFT+DPO 稳定性。
八、SkillChain:电商图像助手的 Skills 演化闭环
链接:https://arxiv.org/abs/2606.12984
1. SkillChain 面向生产级 image-based e-commerce AI assistants,处理同一上传图片触发商品搜索、风格推荐、视觉百科或工具调用等不同意图时的 Skills 演化问题。
2. 论文将生命周期拆成 Skill Creator、Route Optimizer 和 Body Refiner 三阶段,并在 Body Refiner 中使用 dual-path LLM-Judge evaluation 迭代优化 Skill Body。
3. 在生产规模电商图像助手部署后,SkillChain 提升 aggregate response quality,结构合规和内容质量收益最明显,一周 online A/B experiment 也验证了用户参与、内容消费和长期留存增益。
夜雨聆风