AI应用论文|π-Bench:在长流程工作流中评估主动式个人助理智能体 (1/20篇) · 5月24日

📡 AI 创新应用

2026年05月24日星期日

共 20 篇精选论文

🔥# 1

85%

π-Bench：在长流程工作流中评估主动式个人助理智能体

\pi-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

🤗 90

现有基准难以评估智能体在用户需求未明确表述时的主动协助能力。为此，本文提出π-Bench基准，包含5个领域特定用户的100项多轮任务，通过引入隐藏意图、任务间依赖和跨会话连续性，评估智能体在长流程交互中的主动性与任务完成度。实验表明，主动协助仍具挑战性，任务完成度与主动性存在明显区别，且先前的交互经验对后续任务的主动意图识别具有重要价值。

⭐# 2

70%

TransitLM：用于无地图公交路线生成的大规模数据集与基准

TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

🤗 167

传统公交路线规划依赖结构化地图与复杂引擎。本文发布TransitLM数据集，包含来自4个中国城市的超1300万条规划记录，涵盖12万余站点和1.3万余线路，可作为持续预训练语料和包含三项评估任务的基准。实验表明，基于该数据集训练的LLM能以高准确率生成结构有效的路线，并能将任意GPS坐标隐式关联至合适站点，无需显式地图，实现了端到端、无地图的路线生成。

💡# 3

80%

Spreadsheet-RL：通过强化学习推进大语言模型智能体处理现实电子表格任务

Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

🤗 32

现有电子表格智能体多依赖通用LLM提示，难以处理现实世界中复杂的多步骤工作流。本文提出Spreadsheet-RL，一个在真实Microsoft Excel环境中训练专用智能体的强化学习微调框架。它包含从在线论坛自动收集配对表格的流程、领域特定评估任务构成的Domain-Spreadsheet数据集，以及支持多轮RL的Spreadsheet Gym环境。实验表明，该框架显著提升了智能体在通用和领域特定任务上的性能，展现了其在电子表格自动化及更广泛数据界面交互中的泛化潜力。

🔬# 4

90%

通过自调节模拟规划实现高效智能体推理

Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

🤗 5

本文主张将智能体决策分解为三个系统：基于世界模型进行未来状态预测的模拟推理（系统II）、决定何时及多深进行规划的自调节（系统III）以及处理细粒度动作的反应式执行（系统I）。我们开发了SR²AM智能体，将前两者实现为LLM思维链中的不同阶段。实验表明，该智能体在数学、科学等多个领域达到与更大参数系统相当的Pass@1性能，同时推理令牌使用量减少25.8-95.3%。强化学习使规划视野平均延长22.8%，而规划频率仅增2.0%，表明其学会了规划更长远而非更频繁。

📌# 5

95%

Sibyl-AutoResearch：自主科研需要自我演进的试错框架，而非论文生成器

Sibyl-AutoResearch: Autonomous Research Needs Self-Evolving Trial-and-Error Harnesses, Not Paper Generators

当前自主科研系统虽能执行工作流，但缺乏研究判断力，常丢失试错经验。本文提出Sibyl-AutoResearch框架，其核心是科学试错框架，允许智能体运行有限试验、保存正负结果，并将经验教训融入后续规划、验证、写作等环节。框架通过两个可审计的转换单元形式化此过程：试验到行为的转换，以及试验到框架行为的转换。在SIBYL系统中的回溯审计识别出多个高置信度转换事件，展示了该框架如何阻断或修复自然发生的五类失败，证明了所提转换单元在现实自主研究工作空间中的可恢复性。

🎯# 6

95%

Orchard：一个开源的智能体建模框架

Orchard: An Open-Source Agentic Modeling Framework

为弥合开源智能体研究在基础设施与训练方面的差距，本文提出开源框架Orchard。其核心是轻量级环境服务Orchard Env，为跨领域任务提供沙箱生命周期管理的可复用原语。基于此，我们构建了三个智能体建模方案：Orchard-SWE（代码智能体）在SWE-bench Verified上达到67.5%的新SOTA；Orchard-GUI（视觉语言计算机使用智能体）在多个基准上达到与专有系统竞争的性能；Orchard-Claw（个人助理智能体）仅用少量合成任务训练即取得良好效果。结果表明，一个轻量、开放、与框架无关的环境层能实现跨领域的可复用智能体数据、训练方案与评估。

💎# 7

95%

深度研究之深度研究：从Transformer到智能体，从AI到科学AI

Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science

本文对“深度研究”这一通用智能体的典型垂直应用进行了深入探讨。我们明确了深度研究的定义，并将工业界的深度研究与学术界的科学AI（AI4S）视角统一于一个发展框架中。文章将LLM和Stable Diffusion定位为生成式AI的两大支柱，勾勒了从Transformer到智能体的发展路线图，审视了AI4S在各学科的进展，总结了主流的人机交互范式与系统架构，并讨论了面临的主要挑战与基础研究问题。本文旨在弥合AI与AI4S社区之间的隔阂。

🚀# 8

95%

RoadmapBench：评估跨版本升级的长周期智能体软件开发

RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades

现有基准多关注单问题修复，难以评估真实工程规模下的长周期、多目标开发。为此，本文提出RoadmapBench基准，包含115个基于真实开源版本升级的长周期编码任务，涉及多语言和大量代码修改。系统评估显示，即使最强模型（Claude-Opus-4.7）也仅能解决39.1%的任务，最弱模型仅为5.2%，与现有缺陷修复基准形成鲜明对比，表明长周期软件开发仍是一个远未解决的难题。

🧠# 9

95%

AgentGA：在智能体-种子空间中演化代码解决方案

AgentGA: Evolving Code Solutions in Agent-Seed Space

本文提出AgentGA框架，通过优化“智能体种子”（即任务提示词及可选的父代存档）来演化自主代码生成过程。外层循环搜索这些可复用的起始条件，而非直接编辑代码。每一代都从重置的工作区启动一次新的自主运行，而选中的父代存档提供了可供后代检查和重用的继承产物。我们将该方法实例化于表格AutoML任务，实验表明，在10次基准运行中，AgentGA平均性能超越54.15%的人类，优于基线AIDE。超过1135次父子代对比显示，获得父代存档的后代表现优于从零开始的运行，证实了继承产物能改进后续自主运行。

⚡# 10

95%

CoRAL：基于LLM的接触式机器人自适应控制

CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation

为解决大语言模型（LLM）与视觉语言模型（VLM）在接触式操作中缺乏物理基础与自适应控制能力的问题，本文提出CoRAL模块化框架。该方法将LLM用作成本函数设计器而非直接控制器，为采样运动规划器（MPPI）生成情境感知目标函数，并通过神经符号适应环路实时优化物理参数估计。其分层架构将高层语义推理与底层反应式执行解耦，并引入检索记忆单元复用成功策略。在仿真与真实硬件上的实验表明，CoRAL在未见接触式任务中的平均成功率超越现有VLA与基础模型规划基线50%以上，能有效处理仿真到现实的差距。

🌟# 11

95%

迈向流体动力学中的多智能体自主推理

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

针对单智能体系统（SAS）在科学工作流中面临上下文饱和与可靠性下降的问题，本文提出一种用于流体动力学的多智能体系统（MAS）原型。该方法通过层执行图（LEG）协调规划、专业与整合智能体，利用自然语言启发式构建查询专属拓扑，而非硬编码控制逻辑。以Claude Sonnet为骨干模型，在37项跨复杂度查询的评估中，系统实现了93.6%的事实精确度与100%的通过率，且在并行扩展与部分数据源失效时性能稳健退化。结果表明，基于规划器引导的图结构多智能体编排能有效缓解制约单体架构的上下文瓶颈。

🔎# 12

95%

面向对撞机物理及其他领域的端到端架构

An End-to-end Architecture for Collider Physics and Beyond

本文提出了首个能够执行端到端对撞机现象学任务的语言驱动智能体系统ColliderAgent。该系统采用解耦、领域无关的架构，仅依据自然语言提示和标准物理符号，即可完成从理论拉格朗日量到最终现象学输出的全流程，无需依赖特定软件包代码。系统通过分层多智能体推理层与统一计算后端Magnus耦合。在多个代表性场景（如轻夸克、类轴子粒子分析）上的验证表明，该架构为实现对撞机物理、宇宙学等领域更自动化、可扩展和可复现的研究指明了路径。

📊# 13

95%

学习面向杂乱环境中顺序操作的对象中心空间推理

Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

为解决机器人在杂乱环境中操作的数据效率与模块化问题，本文提出Unveiler框架，将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器（SRE），能顺序识别并决策移除关键障碍物，再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效，在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线，仿真成功率最高达97.6%，并能零样本迁移到真实场景。

🎓# 14

95%

CUDA Agent：面向高性能CUDA内核生成的大规模智能体强化学习系统

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

针对LLM在CUDA内核优化中表现不及编译器的问题，本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法，系统性地提升模型的内核优化能力。实验表明，其在KernelBench基准上全面超越torch.compile，并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。

🏆# 15

95%

MAS-on-the-Fly：测试时基于LLM的多智能体系统动态适配

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺乏部署后动态适应性的问题，本文提出MASFly框架。该框架包含两个核心机制：一是基于检索增强的标准作业程序（SOP）实例化，利用成功协作模式库为新查询组装定制化MAS；二是经验引导的监督机制，由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中，MASFly取得了最先进的性能（成功率61.7%），并展现出强大的任务适应性和鲁棒性。

💻# 16

95%

迈向自主O-RAN：面向实时网络控制与管理的多尺度智能体AI框架

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

针对开放无线接入网（O-RAN）因组件解耦和开放接口带来的操作复杂性挑战，本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时（Non-RT）、近实时（Near-RT）和实时（RT）控制环路的协调层次：Non-RT RIC中的LLM智能体将运营商意图转化为策略；Near-RT RIC中的小型语言模型（SLM）智能体执行低延迟优化；分布式单元附近的无线物理层基础模型（WPFM）智能体提供快速推理。通过概念验证，该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。

🔗# 17

95%

AIRS-Bench：前沿AI科研智能体任务套件

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

为加速LLM智能体在科学研究中的应用，本文提出了AIRS-Bench（AI科研基准），包含20个源自前沿机器学习论文的任务，涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期（包括想法生成、实验分析和迭代优化）中的能力，且不提供基线代码。基线测试表明，智能体在4项任务中超越人类最佳水平，但在其余16项中未能达到，表明该基准远未饱和，有巨大改进空间。所有任务定义和评估代码均已开源。

📈# 18

95%

大语言模型的智能体技能：架构、获取、安全与未来路径

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包，支持动态能力扩展而无需重新训练。我们从四个维度组织该领域：（1）架构基础，涵盖技能规范、渐进式上下文加载及其与模型上下文协议（MCP）的互补；（2）技能获取，包括基于技能库的强化学习、自主技能发现和组合式技能合成；（3）规模化部署，涉及计算机使用智能体（CUA）栈、GUI grounding进展及OSWorld等基准；（4）安全，分析指出26.1%的社区贡献技能存在漏洞，并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后，我们提出了实现可信、自改进技能生态系统的研究议程。

🛠️# 19

95%

MARS：具备反思搜索能力的模块化智能体，用于自动化AI研究

MARS: Modular Agent with Reflective Search for Automated AI Research

自动化AI研究因其计算成本高昂（如模型训练）和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此，我们提出了MARS（具备反思搜索能力的模块化智能体），一个为自主AI研究优化的框架。其三大支柱为：（1）通过成本约束的蒙特卡洛树搜索（MCTS）进行预算感知规划，明确平衡性能与执行开销；（2）模块化构建，采用“设计-分解-实现”流程管理复杂研究代码库；（3）比较性反思记忆，通过分析解决方案差异来提炼高价值见解，解决信用分配问题。MARS在可比设置下，于MLE-Bench上达到了开源框架中的最先进性能，并与全球排行榜的顶级方法保持竞争力。此外，系统展现出定性的“顿悟”时刻，63%的有效经验教训源于跨搜索路径的迁移，证明智能体能有效泛化见解。

✨# 20

95%

EvoMaster：面向规模化智能体科学的基础演化智能体框架

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

针对现有智能体框架静态、范围狭窄且缺乏试错学习能力的问题，本文提出了EvoMaster，一个为规模化智能体科学设计的基础演化框架。其核心是持续自我演化，使智能体能迭代优化假设、自我批判并在实验周期中积累知识，模拟人类科学探究。该框架领域无关且易于扩展，仅需约100行代码即可构建自演化科学智能体。基于EvoMaster孵化的SciMaster生态系统在多个领域基准测试中取得了最先进的性能，全面超越了通用基线，验证了其作为下一代自主科学发现基础框架的有效性和通用性。

数据来源：arXiv由智能助手@AIIA Lab 生成