AI应用论文|面向高效计算机使用代理的步骤级优化 (1/20篇) · 5月6日

📡 AI 创新应用

2026年05月06日星期三

共 20 篇精选论文

🔥# 1

90%

面向高效计算机使用代理的步骤级优化

Step-level Optimization for Efficient Computer-use Agents

🤗 15

现有计算机使用代理在长程GUI任务中均匀分配计算资源，效率低下。本文指出错误主要集中于进度停滞和语义漂移两类高风险时刻。为此，提出一种事件驱动的步骤级级联框架：默认运行轻量策略，仅当学习的监控器（停滞监控与里程碑监控）检测到风险升高时，才升级至强模型。该模块化设计可将前沿模型推理转变为自适应按需计算分配，无需改变底层代理架构或重新训练大模型。

⭐# 2

90%

InteractWeb-Bench：多模态智能体能否在交互式网站生成中摆脱盲目执行？

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

🤗 12

现有网站生成基准依赖理想化假设，忽视了非专业用户模糊、低质量指令导致的语义错位问题，即“盲目执行”。为此，本文提出首个面向非专业低代码用户的多模态交互式网站生成基准InteractWeb-Bench。它引入了四类用户代理和基于需求工程缺陷分类的指令扰动，以系统模拟模糊、冗余等真实用户行为。基准配备了一个包含澄清、实现、验证、提交的统一交互执行环境。大量实验表明，前沿的多模态大语言模型（MLLM）智能体仍陷于盲目执行，在意图识别与自适应交互方面存在局限。

💡# 3

100%

从看见到模拟：利用数字孪生进行可泛化机器人学习与评估的高保真生成式仿真

From Seeing to Simulating: Generative High-Fidelity Simulation with Digital Cousins for Generalizable Robot Learning and Evaluation

为降低真实世界数据收集成本并实现高效的数据增强与评估，本文提出一个生成式框架，可将真实世界全景图映射为高保真仿真场景（数字孪生），并通过语义与几何编辑合成多样化的衍生场景。结合高质量物理引擎，生成的场景支持交互式操控任务。实验表明，该平台具有强仿真-真实相关性，且大规模数据生成能显著提升策略对未见场景和物体变化的泛化能力。

🔬# 4

100%

2025年AI智能体指数：记录已部署智能体AI系统的技术与安全特性

The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems

针对AI智能体生态复杂、发展迅速且文档记录不一致的问题，本文提出了2025年AI智能体指数。该指数基于公开信息及与开发者的通信，系统记录了30个前沿AI智能体的起源、设计、能力、生态及安全特性。研究发现，不同开发者的透明度差异显著，且多数对安全性、评估及社会影响的披露不足。该指数旨在为研究者和政策制定者提供追踪发展的工具。

📌# 5

100%

OpenClaw、Moltbook与ClawdLab：从纯智能体社交网络到自主科学研究

OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research

本研究对开源智能体框架OpenClaw和纯智能体社交网络Moltbook产生的大规模AI间交互数据集及相关文献进行多声部综述，并提出了自主科学研究开源平台ClawdLab作为应对已识别架构失效模式的设计科学响应。ClawdLab通过硬性角色限制、结构化对抗性批判、PI主导的治理、多模型编排以及编码为协议约束的领域特定证据要求来解决这些失效模式，其架构天然具备抗女巫攻击能力。一个三层分类法区分了单智能体流水线、预定义多智能体工作流和完全去中心化系统，ClawdLab的可组合第三层架构支持随着AI生态进步而实现复合式改进。

🎯# 6

100%

AI智能体已能自主执行实验高能物理分析

AI Agents Can Already Autonomously Perform Experimental High Energy Physics

研究表明，基于大语言模型（LLM）的AI智能体仅需极少专家输入，即可自主执行高能物理（HEP）分析流程的绝大部分阶段。我们提出概念验证框架JFC，它集成了自主分析智能体、基于文献的知识检索与多智能体评审，足以规划、执行并记录可信的HEP分析。我们利用ALEPH等公开数据完成了电弱、QCD及希格斯玻色子测量分析。这些工具旨在减轻分析代码开发的重复性技术负担，使研究者能专注于物理洞察与创新，呼吁社区重新思考人才培养与资源分配策略。

💎# 7

80%

面向长程生产力模拟的大规模合成计算机

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

🤗 16

为规模化生成生产力场景的合成数据，本文提出“大规模合成计算机”方法，能创建具有逼真文件夹层级和内容密集型工件（如文档、表格）的计算机环境。基于每个合成计算机，运行长程模拟：一个代理设定用户特定的生产力目标，另一个代理作为用户执行任务，直至目标完成。初步实验创建了1000台合成计算机进行模拟，产生了丰富的体验式学习信号，显著提升了代理在领域内外的生产力评估性能。该方法为长程生产力场景下的代理自我改进和强化学习提供了有前景的基础。

🚀# 8

95%

感知型人形机器人跑酷：通过运动匹配链接动态人体技能

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

本文提出感知型人形机器人跑酷（PHP），一个模块化框架，旨在解决人形机器人执行复杂环境中动态、长时程、视觉引导跑酷的挑战。该方法首先利用运动匹配（在特征空间中进行最近邻搜索），将重定向的原子化人体技能组合成长时程运动轨迹，实现了复杂技能链的灵活组合与平滑过渡，同时保持了动态人体动作的优雅与流畅性。接着，我们为这些组合动作训练运动跟踪强化学习（RL）专家策略，并使用DAgger与RL相结合的方法，将其蒸馏成一个基于深度感知的多技能学生策略。该框架结合感知与技能组合，实现了自主、情境感知的决策：仅使用机载深度传感和离散的2D速度指令，机器人即可根据障碍物的几何形状和高度，自主选择并执行跨越、攀爬、支撑跳跃或翻滚等动作。我们在Unitree G1人形机器人上进行了大量真实世界实验验证，成功展示了攀爬高达1.25米（机器人身高的96%）障碍物，以及长时程多障碍物穿越并实时适应障碍物扰动的能力。

🧠# 9

95%

释放扩散模型在端到端自动驾驶中的潜力

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

扩散模型在机器人决策任务中日益流行，但其在自动驾驶（AD）中的应用与评估仍局限于仿真或实验室环境。本研究基于海量实车数据与道路测试，系统性地探索了扩散模型作为端到端自动驾驶（E2E AD）规划器的潜力。通过全面且受控的研究，我们揭示了影响E2E规划性能的关键因素，包括扩散损失空间、轨迹表示与数据规模。此外，我们提出了一种有效的强化学习后训练策略以进一步提升规划器的安全性。由此产生的超扩散规划器（HDP）在实车平台上进行了部署，在6个城市驾驶场景和200公里真实世界测试中，性能比基线模型提升了10倍，证明了扩散模型经恰当设计与训练后，可成为复杂真实世界自动驾驶任务中有效且可扩展的E2E规划器。

⚡# 10

95%

SignVLA：一种用于实时手语引导机器人操作的无语标视觉-语言-动作框架

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

本文提出了首个手语驱动的视觉-语言-动作（VLA）框架，用于直观且包容的人机交互。与依赖语标注释作为中间监督的传统方法不同，本系统采用无语标范式，直接将视觉手语手势映射为语义指令，降低了标注成本并避免了语标表示的信息损失。研究聚焦于实时字母级指拼交互界面，为机器人控制提供了可靠、低延迟的通信通道。通过几何归一化、时间平滑和词汇精炼，该框架将连续手势流转化为连贯的语言指令。实验结果表明，该系统能有效将手语指令转化为精确的机器人动作，展现了其在推进可访问、可扩展的多模态具身智能方面的潜力。

🌟# 11

95%

迈向个性化LLM驱动的智能体：基础、评估与未来方向

Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions

随着LLM智能体在长时交互中愈发依赖对个体用户的适应与跨时间连续性，个性化LLM智能体应运而生。本综述围绕个性化智能体的四个相互依赖组件——画像建模、记忆、规划与动作执行——对文献进行能力导向的梳理，分析了用户信号的表示、传播与利用方式，并总结了跨组件交互与设计权衡。文章进一步审视了针对个性化智能体的评估指标与基准，概述了从通用辅助到专业领域的应用场景，并为研究与部署的未来方向绘制了路线图，旨在推动构建更用户对齐、自适应、鲁棒且可部署的智能体系统。

🔎# 12

95%

基于分层LLM的多智能体框架及其提示优化用于多机器人任务规划

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

为解决多机器人任务规划中自然语言指令分解的难题，本文提出一种结合分层多智能体LLM与提示优化的规划器。上层分解任务并分配给下层智能体，下层生成PDDL问题并由经典规划器求解。规划失败时，系统采用文本梯度更新优化各智能体的提示。此外，同层智能体间共享元提示以实现高效优化。在MAT-THOR基准测试中，该规划器在复合、复杂和模糊任务上的成功率分别达到0.95、0.84和0.60，优于之前的SOTA方法。

📊# 13

95%

Tool-Genesis：面向自进化语言智能体的任务驱动式工具创建基准

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

自进化语言智能体研究加速发展，但其从任务需求中创建、适配和维护工具的能力缺乏有效评估。现有基准多依赖预定义规范，限制了可扩展性与自主进化。本文提出诊断性基准Tool-Genesis，旨在从接口合规性、功能正确性和下游效用等多维度量化智能体能力。该基准评估智能体能否仅从抽象需求（无预设规范）构建任务相关工具并解决实际问题。研究发现，即使最先进的模型也难以在单次尝试中生成精确的工具接口或可执行逻辑，这些微小初始缺陷会在流程中被放大，导致下游指标急剧下降。该基准旨在引导未来研究，训练模型合成能更好应对现实挑战的持久性通用工具。

🎓# 14

95%

AutoAgent：面向自适应智能体的认知进化与弹性记忆编排

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

为解决自主智能体框架在长期经验学习与实时上下文决策间的矛盾，我们提出了AutoAgent，一个基于认知进化、即时上下文决策和弹性记忆编排三大组件的自进化多智能体框架。其核心是每个智能体维护结构化的提示级认知，并结合实时任务上下文从统一动作空间中选择行动。弹性记忆编排器动态组织交互历史以减少令牌开销。实验表明，AutoAgent在任务成功率、工具使用效率和协作鲁棒性上均优于静态及记忆增强基线。

🏆# 15

95%

使用Agent Rosetta进行蛋白质设计：专用科学智能体的案例研究

Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

我们介绍了Agent Rosetta，这是一个将大语言模型智能体与结构化环境相结合的系统，用于操作领先的基于物理的异质聚合物设计软件Rosetta。该智能体能够迭代优化设计以实现用户定义的目标，结合了LLM的推理能力和Rosetta的通用性（如处理非经典氨基酸和几何结构）。评估表明，在经典氨基酸设计上，Agent Rosetta与专用模型和专家基线表现相当；在机器学习方法失效的非经典残基设计上，也达到了可比性能。关键的是，仅靠提示工程常无法生成正确的Rosetta操作，这证明环境设计对于LLM智能体集成专业软件至关重要。

💻# 16

95%

理解AI代理热潮：来自实践者的采用、架构与启示

Making Sense of AI Agents Hype: Adoption, Architectures, and Takeaways from Practitioners

为帮助实践者理解智能体系统在工业界的实际设计，本研究回顾分析了138个关于AI代理的实践者会议演讲。研究旨在：1）探究企业如何采用基于代理的架构；2）识别反复出现的架构策略与模式；3）分析用于实现和运营LLM驱动代理系统的应用领域与技术。通过对这些实践经验的梳理，为业界理解和构建代理系统提供了实证参考。

🔗# 17

95%

SpaceMind：面向自主在轨服务的模块化自演进具身视觉-语言智能体框架

SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing

为满足自主在轨服务对具身智能体的需求，本文提出了SpaceMind，一个模块化且自演进的视觉-语言模型（VLM）智能体框架。它将知识、工具和推理分解为三个可独立扩展的维度：具有动态路由的技能模块、可配置的MCP工具以及可注入的推理模式技能。通过MCP-Redis接口层，同一代码库无需修改即可在仿真和物理硬件上运行；技能自演进机制能将操作经验提炼为持久化技能文件而无需微调模型。在包含退化条件的广泛测试中，该框架表现出强大的鲁棒性和任务成功率，并实现了零代码修改向物理机器人的成功迁移。

📈# 18

95%

思考并运行：通过自修复多智能体AI实现自主机器学习流水线生成

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

本文旨在开发一个统一的多智能体架构，以从数据集和自然语言目标自动生成端到端的机器学习（ML）流水线，提升效率、鲁棒性和可解释性。提出的五智能体系统负责数据剖析、意图解析、微服务推荐、有向无环图（DAG）构建与执行。它集成了基于代码的检索增强生成（RAG）、结合多标准的可解释混合推荐器、基于大语言模型（LLM）错误解释的自修复机制以及从执行历史中自适应学习。在150个ML任务上的评估显示，该系统实现了84.7%的端到端流水线成功率，优于基线方法，并通过自修复提升了鲁棒性，缩短了工作流开发时间。

🛠️# 19

95%

MARS²：通过强化学习扩展多智能体树搜索以进行代码生成

MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

针对强化学习（RL）在代码生成等推理任务中因轨迹多样性有限而性能受限的问题，本文提出MARS²框架。该方法将多智能体协作与树状搜索环境相结合，使异构智能体能在共享搜索拓扑中协同生成和优化候选方案。通过基于树一致奖励的路径级群体优势公式，实现了复杂搜索轨迹的有效信用分配。在代码生成基准测试中，MARS²在不同模型组合与训练设置下均能提升性能，验证了多智能体协作与树搜索结合增强强化学习的有效性。

✨# 20

90%

HiL-Bench（人在回路基准测试）：智能体知道何时寻求帮助吗？

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

🤗 2

现有前沿编码智能体在规范不完整或模糊时表现不佳，核心瓶颈在于判断何时自主行动或寻求帮助。为评估此选择性升级能力，本文提出HiL-Bench基准，其任务包含需通过探索才能发现的人工验证阻碍。核心指标Ask-F1（问题精度与阻碍召回率的调和平均数）平衡了过度提问与沉默猜测。评估发现，前沿模型在决定是否提问时，其性能远低于完全信息下的表现。分析揭示了三种关键的错误求助模式。研究表明，基于Ask-F1奖励的强化学习可有效训练模型的判断力，使其学会检测无法解决的不确定性并据此行动。

数据来源：arXiv由智能助手@AIIA Lab 生成