AI应用论文|DR³-Eval:迈向现实且可复现的深度研究智能体评估 (1/20篇) · 4月18日

📡 AI 创新应用

2026年04月18日星期六

共 20 篇精选论文

🔥# 1

85%

DR³-Eval：迈向现实且可复现的深度研究智能体评估

DR³-Eval: Towards Realistic and Reproducible Deep Research Evaluation

🤗 21

针对深度研究智能体（DRA）在动态网络环境和模糊任务定义下评估困难的问题，本文提出了一个现实且可复现的基准DR³-Eval。该基准基于真实用户材料构建，并包含一个模拟开放网络复杂性的静态研究沙箱语料库。我们同时引入了一个衡量信息召回、事实准确性、引用覆盖、指令遵循和深度质量的多维评估框架。实验表明，该基准极具挑战性，能有效揭示现有智能体在检索鲁棒性和幻觉控制方面的关键缺陷。

⭐# 2

90%

深入Claude Code：当今及未来AI智能体系统的设计空间

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

🤗 6

本研究通过分析Claude Code的公开源代码，并与开源系统OpenClaw对比，系统阐述了AI智能体系统的架构设计。分析识别了驱动架构的五类人类价值与需求，并将其映射到十三项设计原则及具体实现。系统核心是一个调用模型、运行工具的简单循环，但主要代码位于循环周围的权限管理、上下文压缩、可扩展机制等子系统中。对比表明，相同的设计问题在不同部署背景下会产生不同的架构答案。最后，本文基于近期文献指出了六个未来的开放设计方向。

💡# 3

95%

MARS²：通过强化学习扩展多智能体树搜索以进行代码生成

MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

为解决强化学习（RL）在代码生成等任务中因轨迹多样性有限导致的性能瓶颈，本文提出了MARS²框架。该框架将多个独立优化的智能体置于一个共享的树形搜索环境中进行协作，将搜索树建模为可学习的多智能体交互环境。我们引入了基于树一致奖励塑形的路径级群体优势公式，以促进复杂搜索轨迹间的有效信用分配。在代码生成基准上的实验表明，MARS²能持续提升不同模型组合与训练设置下的性能，验证了将多智能体协作与树搜索结合以增强强化学习的有效性。

🔬# 4

95%

AgentGA：在智能体-种子空间中演化代码解决方案

AgentGA: Evolving Code Solutions in Agent-Seed Space

本文提出AgentGA框架，通过优化“智能体种子”（即任务提示词及可选的父代存档）来演化自主代码生成过程。外层循环搜索这些可复用的起始条件，而非直接编辑代码。每一代都从重置的工作区启动一次新的自主运行，而选中的父代存档提供了可供后代检查和重用的继承产物。我们将该方法实例化于表格AutoML任务，实验表明，在10次基准运行中，AgentGA平均性能超越54.15%的人类，优于基线AIDE。超过1135次父子代对比显示，获得父代存档的后代表现优于从零开始的运行，证实了继承产物能改进后续自主运行。

📌# 5

95%

LLM智能体网络中的联盟形成：稳定性分析与收敛性保证

Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees

针对大型语言模型（LLM）智能体在多智能体系统中战略协调的需求，本文首次提出了一个基于享乐博弈论、具有形式化稳定性保证的LLM智能体联盟形成框架。我们引入了LLM联盟形成博弈（LCFG），建立了纳什稳定分区的充分条件，并证明了复杂性结果。分析揭示了LLM智能体表现出以ε理性偏好为特征的有界理性。在GPT-4等模型上的大规模实验验证了该框架：在我们提出的“联盟思维”（CoalT）协议下，LLM联盟在73.2%的情况下达到纳什稳定，显著优于基线方法。

🎯# 6

95%

SpaceMind：面向自主在轨服务的模块化自演进具身视觉-语言智能体框架

SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing

为满足自主在轨服务对具身智能体的需求，本文提出了SpaceMind，一个模块化且自演进的视觉-语言模型（VLM）智能体框架。它将知识、工具和推理分解为三个可独立扩展的维度：具有动态路由的技能模块、可配置的MCP工具以及可注入的推理模式技能。通过MCP-Redis接口层，同一代码库无需修改即可在仿真和物理硬件上运行；技能自演进机制能将操作经验提炼为持久化技能文件而无需微调模型。在包含退化条件的广泛测试中，该框架表现出强大的鲁棒性和任务成功率，并实现了零代码修改向物理机器人的成功迁移。

💎# 7

95%

理解AI代理热潮：来自实践者的采用、架构与启示

Making Sense of AI Agents Hype: Adoption, Architectures, and Takeaways from Practitioners

为帮助实践者理解智能体系统在工业界的实际设计，本研究回顾分析了138个关于AI代理的实践者会议演讲。研究旨在：1）探究企业如何采用基于代理的架构；2）识别反复出现的架构策略与模式；3）分析用于实现和运营LLM驱动代理系统的应用领域与技术。通过对这些实践经验的梳理，为业界理解和构建代理系统提供了实证参考。

🚀# 8

95%

使用Agent Rosetta进行蛋白质设计：专用科学智能体的案例研究

Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

我们介绍了Agent Rosetta，这是一个将大语言模型智能体与结构化环境相结合的系统，用于操作领先的基于物理的异质聚合物设计软件Rosetta。该智能体能够迭代优化设计以实现用户定义的目标，结合了LLM的推理能力和Rosetta的通用性（如处理非经典氨基酸和几何结构）。评估表明，在经典氨基酸设计上，Agent Rosetta与专用模型和专家基线表现相当；在机器学习方法失效的非经典残基设计上，也达到了可比性能。关键的是，仅靠提示工程常无法生成正确的Rosetta操作，这证明环境设计对于LLM智能体集成专业软件至关重要。

🧠# 9

95%

AutoAgent：面向自适应智能体的认知进化与弹性记忆编排

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

为解决自主智能体框架在长期经验学习与实时上下文决策间的矛盾，我们提出了AutoAgent，一个基于认知进化、即时上下文决策和弹性记忆编排三大组件的自进化多智能体框架。其核心是每个智能体维护结构化的提示级认知，并结合实时任务上下文从统一动作空间中选择行动。弹性记忆编排器动态组织交互历史以减少令牌开销。实验表明，AutoAgent在任务成功率、工具使用效率和协作鲁棒性上均优于静态及记忆增强基线。

⚡# 10

95%

Tool-Genesis：面向自进化语言智能体的任务驱动式工具创建基准

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

自进化语言智能体研究加速发展，但其从任务需求中创建、适配和维护工具的能力缺乏有效评估。现有基准多依赖预定义规范，限制了可扩展性与自主进化。本文提出诊断性基准Tool-Genesis，旨在从接口合规性、功能正确性和下游效用等多维度量化智能体能力。该基准评估智能体能否仅从抽象需求（无预设规范）构建任务相关工具并解决实际问题。研究发现，即使最先进的模型也难以在单次尝试中生成精确的工具接口或可执行逻辑，这些微小初始缺陷会在流程中被放大，导致下游指标急剧下降。该基准旨在引导未来研究，训练模型合成能更好应对现实挑战的持久性通用工具。

🌟# 11

95%

基于分层LLM的多智能体框架及其提示优化用于多机器人任务规划

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

为解决多机器人任务规划中自然语言指令分解的难题，本文提出一种结合分层多智能体LLM与提示优化的规划器。上层分解任务并分配给下层智能体，下层生成PDDL问题并由经典规划器求解。规划失败时，系统采用文本梯度更新优化各智能体的提示。此外，同层智能体间共享元提示以实现高效优化。在MAT-THOR基准测试中，该规划器在复合、复杂和模糊任务上的成功率分别达到0.95、0.84和0.60，优于之前的SOTA方法。

🔎# 12

95%

迈向个性化LLM驱动的智能体：基础、评估与未来方向

Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions

随着LLM智能体在长时交互中愈发依赖对个体用户的适应与跨时间连续性，个性化LLM智能体应运而生。本综述围绕个性化智能体的四个相互依赖组件——画像建模、记忆、规划与动作执行——对文献进行能力导向的梳理，分析了用户信号的表示、传播与利用方式，并总结了跨组件交互与设计权衡。文章进一步审视了针对个性化智能体的评估指标与基准，概述了从通用辅助到专业领域的应用场景，并为研究与部署的未来方向绘制了路线图，旨在推动构建更用户对齐、自适应、鲁棒且可部署的智能体系统。

📊# 13

95%

SignVLA：一种用于实时手语引导机器人操作的无语标视觉-语言-动作框架

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

本文提出了首个手语驱动的视觉-语言-动作（VLA）框架，用于直观且包容的人机交互。与依赖语标注释作为中间监督的传统方法不同，本系统采用无语标范式，直接将视觉手语手势映射为语义指令，降低了标注成本并避免了语标表示的信息损失。研究聚焦于实时字母级指拼交互界面，为机器人控制提供了可靠、低延迟的通信通道。通过几何归一化、时间平滑和词汇精炼，该框架将连续手势流转化为连贯的语言指令。实验结果表明，该系统能有效将手语指令转化为精确的机器人动作，展现了其在推进可访问、可扩展的多模态具身智能方面的潜力。

🎓# 14

95%

释放扩散模型在端到端自动驾驶中的潜力

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

扩散模型在机器人决策任务中日益流行，但其在自动驾驶（AD）中的应用与评估仍局限于仿真或实验室环境。本研究基于海量实车数据与道路测试，系统性地探索了扩散模型作为端到端自动驾驶（E2E AD）规划器的潜力。通过全面且受控的研究，我们揭示了影响E2E规划性能的关键因素，包括扩散损失空间、轨迹表示与数据规模。此外，我们提出了一种有效的强化学习后训练策略以进一步提升规划器的安全性。由此产生的超扩散规划器（HDP）在实车平台上进行了部署，在6个城市驾驶场景和200公里真实世界测试中，性能比基线模型提升了10倍，证明了扩散模型经恰当设计与训练后，可成为复杂真实世界自动驾驶任务中有效且可扩展的E2E规划器。

🏆# 15

95%

感知型人形机器人跑酷：通过运动匹配链接动态人体技能

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

本文提出感知型人形机器人跑酷（PHP），一个模块化框架，旨在解决人形机器人执行复杂环境中动态、长时程、视觉引导跑酷的挑战。该方法首先利用运动匹配（在特征空间中进行最近邻搜索），将重定向的原子化人体技能组合成长时程运动轨迹，实现了复杂技能链的灵活组合与平滑过渡，同时保持了动态人体动作的优雅与流畅性。接着，我们为这些组合动作训练运动跟踪强化学习（RL）专家策略，并使用DAgger与RL相结合的方法，将其蒸馏成一个基于深度感知的多技能学生策略。该框架结合感知与技能组合，实现了自主、情境感知的决策：仅使用机载深度传感和离散的2D速度指令，机器人即可根据障碍物的几何形状和高度，自主选择并执行跨越、攀爬、支撑跳跃或翻滚等动作。我们在Unitree G1人形机器人上进行了大量真实世界实验验证，成功展示了攀爬高达1.25米（机器人身高的96%）障碍物，以及长时程多障碍物穿越并实时适应障碍物扰动的能力。

💻# 16

95%

MARS：具备反思搜索能力的模块化智能体，用于自动化AI研究

MARS: Modular Agent with Reflective Search for Automated AI Research

自动化AI研究因其计算成本高昂（如模型训练）和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此，我们提出了MARS（具备反思搜索能力的模块化智能体），一个为自主AI研究优化的框架。其三大支柱为：（1）通过成本约束的蒙特卡洛树搜索（MCTS）进行预算感知规划，明确平衡性能与执行开销；（2）模块化构建，采用“设计-分解-实现”流程管理复杂研究代码库；（3）比较性反思记忆，通过分析解决方案差异来提炼高价值见解，解决信用分配问题。MARS在可比设置下，于MLE-Bench上达到了开源框架中的最先进性能，并与全球排行榜的顶级方法保持竞争力。此外，系统展现出定性的“顿悟”时刻，63%的有效经验教训源于跨搜索路径的迁移，证明智能体能有效泛化见解。

🔗# 17

95%

大语言模型的智能体技能：架构、获取、安全与未来路径

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包，支持动态能力扩展而无需重新训练。我们从四个维度组织该领域：（1）架构基础，涵盖技能规范、渐进式上下文加载及其与模型上下文协议（MCP）的互补；（2）技能获取，包括基于技能库的强化学习、自主技能发现和组合式技能合成；（3）规模化部署，涉及计算机使用智能体（CUA）栈、GUI grounding进展及OSWorld等基准；（4）安全，分析指出26.1%的社区贡献技能存在漏洞，并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后，我们提出了实现可信、自改进技能生态系统的研究议程。

📈# 18

95%

AIRS-Bench：前沿AI科研智能体任务套件

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

为加速LLM智能体在科学研究中的应用，本文提出了AIRS-Bench（AI科研基准），包含20个源自前沿机器学习论文的任务，涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期（包括想法生成、实验分析和迭代优化）中的能力，且不提供基线代码。基线测试表明，智能体在4项任务中超越人类最佳水平，但在其余16项中未能达到，表明该基准远未饱和，有巨大改进空间。所有任务定义和评估代码均已开源。

🛠️# 19

95%

迈向自主O-RAN：面向实时网络控制与管理的多尺度智能体AI框架

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

针对开放无线接入网（O-RAN）因组件解耦和开放接口带来的操作复杂性挑战，本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时（Non-RT）、近实时（Near-RT）和实时（RT）控制环路的协调层次：Non-RT RIC中的LLM智能体将运营商意图转化为策略；Near-RT RIC中的小型语言模型（SLM）智能体执行低延迟优化；分布式单元附近的无线物理层基础模型（WPFM）智能体提供快速推理。通过概念验证，该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。

✨# 20

95%

MAS-on-the-Fly：测试时基于LLM的多智能体系统动态适配

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺乏部署后动态适应性的问题，本文提出MASFly框架。该框架包含两个核心机制：一是基于检索增强的标准作业程序（SOP）实例化，利用成功协作模式库为新查询组装定制化MAS；二是经验引导的监督机制，由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中，MASFly取得了最先进的性能（成功率61.7%），并展现出强大的任务适应性和鲁棒性。

数据来源：arXiv
由智能助手@AIIA Lab 生成