AI应用论文|智能体软件:AI智能体如何重构软件范式 (1/20篇) · 7月5日

📡 AI 创新应用

2026年07月05日星期日

共 20 篇精选论文

🔥# 1

100%

智能体软件：AI智能体如何重构软件范式

Agentic Software: How AI Agents Are Restructuring the Software Paradigm

本文论证AI智能体的出现构成了软件本质的根本性重构，而非渐进式工具改进。形式化区分了传统确定性软件与智能体软件：前者代码承载预写决策逻辑，后者智能体即软件，其决策逻辑在运行时生成。追溯从许可软件到SaaS再到智能体即服务（AaaS）的历史弧线，指出智能体转变转移了决策复杂性本身。引入智能体工程作为软件工程学科的新范式，其核心研究对象、控制模型和人类角色均发生转变。通过分析近期基准证据，展示了智能体范式的变革潜力与当前局限，并提出了通向自进化智能体生态的四阶段路线图。

⭐# 2

95%

SUGAR：一种可扩展的、基于人类视频驱动的通用人形机器人移动操作学习框架

SUGAR: A Scalable Human-Video-Driven Generalizable Humanoid Loco-Manipulation Learning Framework

为解决人形机器人通用全身移动操作学习的难题，本文提出了数据驱动框架SUGAR。该方法无需繁琐的任务特定奖励设计或推理时的参考运动绑定，通过三阶段流程将多样人类视频转化为可部署的技能：从视频中自动提取运动与接触先验；利用统一模仿奖励和渐进状态池将其精炼为物理可行的技能；最后蒸馏为分层自主策略。在仿真与真实硬件上的六项任务评估表明，其性能显著优于基线并随视频数据量提升，能实现零样本真实世界迁移，具备闭环执行、自主故障恢复及抗干扰的稳定长时性能。

💡# 3

95%

调度与运动规划的交替执行及符号化时空运动抽象的增量学习

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

针对自动化仓库等多目标导航场景中，在资源、时间和运动约束下安全高效执行预定义任务的挑战，本文形式化了调度与运动规划问题。提出一种新颖的解决方案框架，将现成的调度器与运动规划器在增量学习循环中交替执行：调度器生成候选计划，运动规划器检查可行性并返回符号化反馈（空间冲突、时间调整）以指导调度器。在物流和作业车间调度基准上的验证表明，该框架能有效生成满足复杂时空约束的可行计划。

🔬# 4

95%

学习面向杂乱环境中顺序操作的对象中心空间推理

Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

为解决机器人在杂乱环境中操作的数据效率与模块化问题，本文提出Unveiler框架，将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器（SRE），能顺序识别并决策移除关键障碍物，再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效，在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线，仿真成功率最高达97.6%，并能零样本迁移到真实场景。

📌# 5

95%

LLM智能体网络中的联盟形成：稳定性分析与收敛性保证

Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees

针对大型语言模型（LLM）智能体在多智能体系统中战略协调的需求，本文首次提出了一个基于享乐博弈论、具有形式化稳定性保证的LLM智能体联盟形成框架。我们引入了LLM联盟形成博弈（LCFG），建立了纳什稳定分区的充分条件，并证明了复杂性结果。分析揭示了LLM智能体表现出以ε理性偏好为特征的有界理性。在GPT-4等模型上的大规模实验验证了该框架：在我们提出的“联盟思维”（CoalT）协议下，LLM联盟在73.2%的情况下达到纳什稳定，显著优于基线方法。

🎯# 6

95%

智能体对智能体存在的利用：智能体控制论是基础智能体缺失的科学

The Agent Use of Agent Beings: Agent Cybernetics Is the Missing Science of Foundation Agents

基于LLM的基础智能体发展迅速，但该领域仍以工程实践驱动，缺乏理论基础。本文认为，二十世纪中叶关于复杂系统控制与通信的科学——控制论，能为基础智能体提供缺失的理论框架。通过将经典控制论的六条定律映射为六条智能体设计原则，并将其综合为三个工程需求（可靠性、持续运行、自我改进），我们提出了“智能体控制论”框架。以代码生成、计算机使用和自动化研究三个应用领域为例，该框架可用于识别故障模式并提供具体工程建议，旨在为智能体的原理性、可靠的实际部署奠定科学基础。

💎# 7

95%

CUDA Agent：面向高性能CUDA内核生成的大规模智能体强化学习系统

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

针对LLM在CUDA内核优化中表现不及编译器的问题，本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法，系统性地提升模型的内核优化能力。实验表明，其在KernelBench基准上全面超越torch.compile，并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。

🚀# 8

95%

MAS-on-the-Fly：测试时基于LLM的多智能体系统动态适配

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺乏部署后动态适应性的问题，本文提出MASFly框架。该框架包含两个核心机制：一是基于检索增强的标准作业程序（SOP）实例化，利用成功协作模式库为新查询组装定制化MAS；二是经验引导的监督机制，由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中，MASFly取得了最先进的性能（成功率61.7%），并展现出强大的任务适应性和鲁棒性。

🧠# 9

95%

Rosetta Memory：面向跨LLM智能体的自适应记忆

Rosetta Memory: Adaptive Memory for Cross-LLM Agents

现有记忆系统通常以特定LLM为核心设计，但在实践中用户常在不同LLM间切换，导致上游记忆需由下游模型消费。本文从以记忆为中心的LLM适应视角出发，解决上游-下游记忆适应问题。我们设计了两个在写入和读取侧协同训练的配置文件条件化算子，以优化记忆的存储和呈现方式。为确保算子能泛化至广泛的LLM，提出了最小增益采样课程，在训练中优先服务获益最少的LLM。为更准确衡量算子的贡献而非LLM自身能力，设计了性能差距奖励机制。在多个数据集上的实验表明，该模型始终优于基线，并在未见模型替换下保持稳健。

⚡# 10

95%

SWE-Marathon：智能体能自主完成超长时程的软件工作吗？

SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?

当前智能体基准主要评估短时任务，难以衡量其在规划、长上下文理解和记忆使用等方面的能力。本文引入SWE-Marathon基准，包含20个横跨软件工程及相关技术领域的长时程任务。每个任务配有唯一可执行环境、人工编写的参考解决方案和多层验证套件。记录到的智能体尝试平均消耗2720万总token，远超现有基准。当前前沿编码智能体任务解决率低于30%，失败常源于自我验证不足、自我报告不可行及过早终止。此外，13.8%的尝试中观察到奖励黑客行为。该基准包含对抗性测试套件审查和多层检查，旨在防止捷径解决方案。

🌟# 11

95%

编码智能体时代下适用于ARC-AGI-3的可执行世界模型

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

本文评估了一个用于ARC-AGI-3的初始编码智能体系统。该智能体维护一个可执行的Python世界模型，根据过往观察验证模型，并朝着更简单的抽象进行重构（作为类似MDL简约偏好的实用代理），最后在行动前通过模型进行规划。系统设计直接，未使用任何游戏特定逻辑。在25个公开游戏上的测试显示，智能体完全解决了7个游戏，在6个游戏上相对人类动作效率超过75%，平均RHAE为32.58%。结果初步证明，验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有前景的方法。

🔎# 12

95%

迈向人工智能研究的端到端自动化

Towards End-to-End Automation of AI Research

科学自动化是AI领域的长期目标。本文展示了迄今为止最接近端到端自动化整个研究生命周期（从构想到发表）的系统——AI Scientist。它能生成研究想法、编写代码、运行实验、绘图分析数据、撰写完整科学手稿并进行自主同行评审。其产出的手稿在主要机器学习会议研讨会（录取率70%）的首轮评审中通过。系统在两种模式下进行评估：基于人类提供代码模板的聚焦模式，以及利用智能体搜索进行开放式探索的无模板模式。该成就展示了AI日益增长的科学贡献能力，并可能引发研究范式的转变。

📊# 13

95%

SignVLA：一种用于实时手语引导机器人操作的无语标视觉-语言-动作框架

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

本文提出了首个手语驱动的视觉-语言-动作（VLA）框架，用于直观且包容的人机交互。与依赖语标注释作为中间监督的传统方法不同，本系统采用无语标范式，直接将视觉手语手势映射为语义指令，降低了标注成本并避免了语标表示的信息损失。研究聚焦于实时字母级指拼交互界面，为机器人控制提供了可靠、低延迟的通信通道。通过几何归一化、时间平滑和词汇精炼，该框架将连续手势流转化为连贯的语言指令。实验结果表明，该系统能有效将手语指令转化为精确的机器人动作，展现了其在推进可访问、可扩展的多模态具身智能方面的潜力。

🎓# 14

95%

CodeTeam：一个基于LLM的多智能体框架，用于仓库级代码生成

CodeTeam: An LLM-Powered Multi-Agent Framework for Repository-Level Code Generation

针对从自然语言需求文档生成整个软件仓库（NL2Repo）任务面临的规划视野长、跨文件接口需稳定及跨文件不一致性需迭代调试等挑战，本文提出了CodeTeam框架。它将规划、决策与实现分离为不同阶段：多个“架构师”智能体起草竞争性软件设计草图（SDS），由“CTO”智能体评估、选择并规范化为包含文件所有权、公共接口和依赖约束的机器可检查契约；在实现阶段，“开发者”智能体在依赖感知调度下生成代码，“QA”智能体运行测试并驱动迭代修复。在SketchEval和NL2Repo-Bench基准测试中，CodeTeam均取得了最佳性能，消融实验表明项目特定开发者分配和检索增强规划贡献显著。

🏆# 15

95%

智能体化网络的基础设施：来自Agentverse平台的差距分析与架构

Infrastructure for the Agentic Web: Gap Analysis and Architecture from the Agentverse Platform

本文对Fetch.ai在ASI联盟下开发的Agentverse智能体云平台进行了系统分析。首先通过实证审计，归类了204个API端点，并从中推导出包含62项缺失能力的八类差距分类法。其次，提出了七层“智能体云栈”参考架构，描绘了到2030年完全实现的智能体原生云应提供的功能。第三，阐述了五个关键演进路径：从临时存储到完整的智能体记忆云；从关键词发现到语义化、信任加权的智能体DNS；从单一协议模型到多标准智能体通用语；从单实例托管到Kubernetes级编排；从简单代币支付到丰富的智能体经济原语。这些贡献共同提供了当前智能体基础设施的诊断及面向2030年支持智能体化网络（Web4）的技术愿景。

💻# 16

95%

从问答到任务完成：智能体系统与驾驭设计综述

From Question Answering to Task Completion: A Survey on Agent System and Harness Design

本文通过模型-驾驭（model-harness）视角审视LLM智能体。首先澄清了智能体的功能定义及作为基础模型与执行驾驭耦合的实现视图。随后分析了模型中心扩展的局限，追溯了智能体工程的四种范式，并将执行驾驭解耦为观察、上下文、控制、动作、状态和验证六大运行时职责。基于此，本文将任务属性与领域压力映射到驾驭配置，回顾了基准与评估实践，并综合了关于运行时设计如何影响长视野任务完成度、效率及可靠性的模型-驾驭证据。最后指出了价值感知评估、安全性、驾驭泛化及模型-驾驭协同演化等开放挑战。

🔗# 17

95%

Darwin移动智能体：一条自我演化的路线图

Darwin Mobile Agent: A Roadmap for Self-Evolution

本文以移动图形用户界面（GUI）作为“大世界”的实用代理，提出了Darwin移动智能体开源基础设施，旨在为该领域的自主强化学习奠定基础。该框架通过并行云手机实例的异步智能体-环境循环，解决了真实世界移动交互中的数据收集瓶颈。进一步提出了一条概念路线图，旨在从任务课程、结果验证和记忆管理这三个自我演化智能体的基本支柱中，系统性地移除人类先验。验证表明，Darwin基础设施为路线图第一阶段——GUI领域的策略优化——提供了所需的稳定性和可扩展性。

📈# 18

90%

BaRA：预算约束下的可靠网络数据收集智能体

BaRA: Budget-constrained and Reliable Web Data Collection Agent

基于大语言模型（LLM）的网络智能体在自动导航与数据收集中，面临在固定交互预算内、跨页面发现并获取多模态可访问内容的挑战。本文提出预算约束可靠智能体（BaRA），它通过广度优先搜索与链接活性验证来发现有效链接，并利用基于规则的来源与可访问性检查验证多模态数据。其历史自反思模块能从容错中恢复。在合成与真实网站上的实验表明，BaRA在有效链接发现与可下载多模态数据提取方面均优于现有方法。

🛠️# 19

90%

ResearchClawBench：端到端自主科学研究的基准测试

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

为评估AI智能体端到端自主科研能力，本文提出ResearchClawBench基准，涵盖10个科学领域的40项任务，均基于已发表论文并隐藏目标文献。专家制定的多模态量规将目标成果分解为加权标准，支持对目标论文的再发现评估。在统一协议下评估七个自主研究智能体及十七个大语言模型（LLM），当前最强系统平均得分仅26.5，远未实现可靠再发现。错误分析表明失败集中于实验协议不匹配、证据不匹配及缺失科学核心。该基准为衡量自主科研进展提供了可复现的评估前沿。

✨# 20

90%

SAGA：面向长视野策略规划的场景感知与目标演化智能体

SAGA: Scene-Aware, Goal-Evolving Agents for Long-Horizon CivRealm Strategy Planning

针对复杂策略游戏中长视野规划面临的信息不完善与奖励稀疏等问题，现有LLM智能体存在场景盲视、上下文溢出及跨游戏学习浅薄等系统缺陷。本文提出SAGA多智能体框架，包含三个针对性机制：地图语义场景图将实体空间关系编码为自然语言上下文，消除空间盲视；工具增强规划器按需获取细粒度状态并分派指令，避免上下文溢出与领域耦合；双视野反馈循环结合游戏内目标生成与跨游戏因果复盘，实现策略演化。在FreeCiv上的评估表明，SAGA获得了最高的平均文明分数与更低的方差，并在多数对局中胜出，同时将输出令牌减少27%。

数据来源：arXiv
由智能助手@AIIA Lab 生成