AI应用评测速递 20260614

一、EvoArena：动态环境下的 Agent 记忆评测

链接：https://arxiv.org/abs/2606.13681

1. EvoArena 指出现有 Agent benchmark 多假设静态环境，而真实部署需要智能体持续适应任务条件、环境状态和用户偏好的变化。

2. 论文把环境变化建模为 terminal、software 和 social domains 中的连续 progressive updates，并报告当前 agents 在 EvoArena 上平均准确率为 39.6%。

3. EvoMem 用 patch-based memory 记录结构化更新历史后，在 EvoArena 上平均提升 1.5%，并在 GAIA、LoCoMo 和链式任务准确率上也带来增益，说明记忆评测需要覆盖环境演化过程。

二、WeaveBench：电脑使用 Agent 评测要跨 GUI、CLI 与代码

链接：https://arxiv.org/abs/2606.09426

1. WeaveBench 面向 computer-use agents，认为现有 benchmark 常把视觉桌面控制、命令行、代码编辑、浏览器和外部工具拆开评测，低估了真实长程任务的跨界面编排难度。

2. 数据集包含 8 个真实工作域的 114 个任务，每个任务要求在同一轨迹中组合 GUI observation/action 与 CLI/code operation，并基于公开可验证产物评分。

3. 论文提出 trajectory-aware judge 检查 deliverables、files、screenshots、logs 和 action traces；最佳模型运行组合 PassRate 仅 41.2%，且 outcome-only grading 会明显高估 Agent 表现。

三、FORT-Searcher：深度搜索任务要防止捷径

链接：https://arxiv.org/abs/2606.12087

1. FORT-Searcher 关注 deep search agents 的训练数据构建，指出复杂图结构不一定等于真实搜索难度，因为问题可能通过更便宜的识别路径被提前解出。

2. 论文提出 shortcut-aware difficulty framework，识别 evidence co-coverage、single-clue selectivity、exposed constants 和 prior-knowledge binding 四类风险，并用 solving cost、answer hit time、prior-shortcut rate 诊断实际影响。

3. FORT 从实体选择、证据图构建、问题表述和对抗式 refinement 控制这些风险，生成的轨迹可用 SFT 训练搜索 Agent，在同规模开源 deep search agents 中取得更好的整体表现。

四、EvoBrowseComp：浏览搜索评测需要动态知识

链接：https://arxiv.org/abs/2606.13120

1. EvoBrowseComp 针对 Search Agents 评测中的静态知识污染问题，指出 BrowseComp 这类固定题库可能让模型通过记忆事实而非真实检索获得高分。

2. 论文构建 400 个英文和 400 个中文 contamination-free complex questions，并用 live-web traversal 合成问题、证据和推理图。

3. 其三 Agent 合成框架分别负责新鲜知识检索、可信度与流行度过滤、以及 reasoning graph 形式化，使 benchmark 可以自动更新以维持时间新鲜度和横向搜索难度。

五、HieraRAG：RAG benchmark 的粒度本身需要评测

链接：https://arxiv.org/abs/2606.12789

1. HieraRAG 讨论 RAG benchmark 该如何选择问题维度和类别粒度，认为只生成“足够多”的问题不足以保证评测有区分度。

2. 论文从 FineWeb-10BT 生成 5,872 个 synthetic QA pairs，覆盖 Question Complexity、Answer Type、Linguistic Variation 三个维度，并比较 2、4、8 类三档粒度。

3. 在 BM25+Falcon-3-10B 配置下，复杂度维度更适合细粒度区分，而答案类型和语言变化在中等粒度达到更好区分度；Coherence Ratio 与 110 条人工评估用于验证类别切分质量。

六、V-RAGBench：长视频 RAG 要拆开评测检索与生成

链接：https://arxiv.org/abs/2606.13141

1. V-RAGBench 面向长时长第一视角视频 RAG，指出既有 VideoRAG benchmark 可能让问题绕过视频直接回答，从而掩盖真实 retrieval error。

2. 论文构建 query、evidence chunk、answer 三元组，使系统能分别评测检索和生成，并要求证据选择同时处理多模态信息与时间粒度。

3. CARVE 通过并行 retrievers 和 chunk-adaptive reranking 为每个片段选择配置，结果优于 8 个近期 VideoRAG baseline，说明长视频 RAG 不能只在 query 级别固定一种检索策略。

七、Evoflux：工具工作流评测要看可执行修复

链接：https://arxiv.org/abs/2606.12674

1. Evoflux 关注 compact tool agents 在 MCP-style 工具调用中的失败模式：小模型不仅要生成函数调用，还要发现 live catalogs、满足 schema、保留依赖并基于执行证据回答。

2. 论文把 compact tool use 建模为 executable workflow repair，通过 typed workflow graph 的结构化编辑、执行反馈、adaptive intensity、meta-guided redesign 和 diversity pruning 做 inference-time evolution。

3. 在覆盖 live MCP servers 和 250 个工具的 held-out MCP-Bench 上，Evoflux 将小规划器的 execution feasibility 从约 3% 提升到 17% 到 24%，优于同数据下的 SFT 或 SFT+DPO 稳定性。

八、SkillChain：电商图像助手的 Skills 演化闭环

链接：https://arxiv.org/abs/2606.12984

1. SkillChain 面向生产级 image-based e-commerce AI assistants，处理同一上传图片触发商品搜索、风格推荐、视觉百科或工具调用等不同意图时的 Skills 演化问题。

2. 论文将生命周期拆成 Skill Creator、Route Optimizer 和 Body Refiner 三阶段，并在 Body Refiner 中使用 dual-path LLM-Judge evaluation 迭代优化 Skill Body。

3. 在生产规模电商图像助手部署后，SkillChain 提升 aggregate response quality，结构合规和内容质量收益最明显，一周 online A/B experiment 也验证了用户参与、内容消费和长期留存增益。