AI应用论文|智能体软件:AI智能体如何重构软件范式 (1/20篇) · 6月28日

📡 AI 创新应用

2026年06月28日星期日

共 20 篇精选论文

🔥# 1

100%

智能体软件：AI智能体如何重构软件范式

Agentic Software: How AI Agents Are Restructuring the Software Paradigm

本文论证AI智能体的出现构成了软件本质的根本性重构，而非渐进式工具改进。形式化区分了传统确定性软件与智能体软件：前者代码承载预写决策逻辑，后者智能体即软件，其决策逻辑在运行时生成。追溯从许可软件到SaaS再到智能体即服务（AaaS）的历史弧线，指出智能体转变转移了决策复杂性本身。引入智能体工程作为软件工程学科的新范式，其核心研究对象、控制模型和人类角色均发生转变。通过分析近期基准证据，展示了智能体范式的变革潜力与当前局限，并提出了通向自进化智能体生态的四阶段路线图。

⭐# 2

95%

Rosetta Memory：面向跨LLM智能体的自适应记忆

Rosetta Memory: Adaptive Memory for Cross-LLM Agents

现有记忆系统通常以特定LLM为核心设计，但在实践中用户常在不同LLM间切换，导致上游记忆需由下游模型消费。本文从以记忆为中心的LLM适应视角出发，解决上游-下游记忆适应问题。我们设计了两个在写入和读取侧协同训练的配置文件条件化算子，以优化记忆的存储和呈现方式。为确保算子能泛化至广泛的LLM，提出了最小增益采样课程，在训练中优先服务获益最少的LLM。为更准确衡量算子的贡献而非LLM自身能力，设计了性能差距奖励机制。在多个数据集上的实验表明，该模型始终优于基线，并在未见模型替换下保持稳健。

💡# 3

95%

SWE-Marathon：智能体能自主完成超长时程的软件工作吗？

SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?

当前智能体基准主要评估短时任务，难以衡量其在规划、长上下文理解和记忆使用等方面的能力。本文引入SWE-Marathon基准，包含20个横跨软件工程及相关技术领域的长时程任务。每个任务配有唯一可执行环境、人工编写的参考解决方案和多层验证套件。记录到的智能体尝试平均消耗2720万总token，远超现有基准。当前前沿编码智能体任务解决率低于30%，失败常源于自我验证不足、自我报告不可行及过早终止。此外，13.8%的尝试中观察到奖励黑客行为。该基准包含对抗性测试套件审查和多层检查，旨在防止捷径解决方案。

🔬# 4

95%

编码智能体时代下适用于ARC-AGI-3的可执行世界模型

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

本文评估了一个用于ARC-AGI-3的初始编码智能体系统。该智能体维护一个可执行的Python世界模型，根据过往观察验证模型，并朝着更简单的抽象进行重构（作为类似MDL简约偏好的实用代理），最后在行动前通过模型进行规划。系统设计直接，未使用任何游戏特定逻辑。在25个公开游戏上的测试显示，智能体完全解决了7个游戏，在6个游戏上相对人类动作效率超过75%，平均RHAE为32.58%。结果初步证明，验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有前景的方法。

📌# 5

95%

迈向人工智能研究的端到端自动化

Towards End-to-End Automation of AI Research

科学自动化是AI领域的长期目标。本文展示了迄今为止最接近端到端自动化整个研究生命周期（从构想到发表）的系统——AI Scientist。它能生成研究想法、编写代码、运行实验、绘图分析数据、撰写完整科学手稿并进行自主同行评审。其产出的手稿在主要机器学习会议研讨会（录取率70%）的首轮评审中通过。系统在两种模式下进行评估：基于人类提供代码模板的聚焦模式，以及利用智能体搜索进行开放式探索的无模板模式。该成就展示了AI日益增长的科学贡献能力，并可能引发研究范式的转变。

🎯# 6

95%

SignVLA：一种用于实时手语引导机器人操作的无语标视觉-语言-动作框架

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

本文提出了首个手语驱动的视觉-语言-动作（VLA）框架，用于直观且包容的人机交互。与依赖语标注释作为中间监督的传统方法不同，本系统采用无语标范式，直接将视觉手语手势映射为语义指令，降低了标注成本并避免了语标表示的信息损失。研究聚焦于实时字母级指拼交互界面，为机器人控制提供了可靠、低延迟的通信通道。通过几何归一化、时间平滑和词汇精炼，该框架将连续手势流转化为连贯的语言指令。实验结果表明，该系统能有效将手语指令转化为精确的机器人动作，展现了其在推进可访问、可扩展的多模态具身智能方面的潜力。

💎# 7

95%

CodeTeam：一个基于LLM的多智能体框架，用于仓库级代码生成

CodeTeam: An LLM-Powered Multi-Agent Framework for Repository-Level Code Generation

针对从自然语言需求文档生成整个软件仓库（NL2Repo）任务面临的规划视野长、跨文件接口需稳定及跨文件不一致性需迭代调试等挑战，本文提出了CodeTeam框架。它将规划、决策与实现分离为不同阶段：多个“架构师”智能体起草竞争性软件设计草图（SDS），由“CTO”智能体评估、选择并规范化为包含文件所有权、公共接口和依赖约束的机器可检查契约；在实现阶段，“开发者”智能体在依赖感知调度下生成代码，“QA”智能体运行测试并驱动迭代修复。在SketchEval和NL2Repo-Bench基准测试中，CodeTeam均取得了最佳性能，消融实验表明项目特定开发者分配和检索增强规划贡献显著。

🚀# 8

95%

智能体化网络的基础设施：来自Agentverse平台的差距分析与架构

Infrastructure for the Agentic Web: Gap Analysis and Architecture from the Agentverse Platform

本文对Fetch.ai在ASI联盟下开发的Agentverse智能体云平台进行了系统分析。首先通过实证审计，归类了204个API端点，并从中推导出包含62项缺失能力的八类差距分类法。其次，提出了七层“智能体云栈”参考架构，描绘了到2030年完全实现的智能体原生云应提供的功能。第三，阐述了五个关键演进路径：从临时存储到完整的智能体记忆云；从关键词发现到语义化、信任加权的智能体DNS；从单一协议模型到多标准智能体通用语；从单实例托管到Kubernetes级编排；从简单代币支付到丰富的智能体经济原语。这些贡献共同提供了当前智能体基础设施的诊断及面向2030年支持智能体化网络（Web4）的技术愿景。

🧠# 9

95%

从问答到任务完成：智能体系统与驾驭设计综述

From Question Answering to Task Completion: A Survey on Agent System and Harness Design

本文通过模型-驾驭（model-harness）视角审视LLM智能体。首先澄清了智能体的功能定义及作为基础模型与执行驾驭耦合的实现视图。随后分析了模型中心扩展的局限，追溯了智能体工程的四种范式，并将执行驾驭解耦为观察、上下文、控制、动作、状态和验证六大运行时职责。基于此，本文将任务属性与领域压力映射到驾驭配置，回顾了基准与评估实践，并综合了关于运行时设计如何影响长视野任务完成度、效率及可靠性的模型-驾驭证据。最后指出了价值感知评估、安全性、驾驭泛化及模型-驾驭协同演化等开放挑战。

⚡# 10

95%

Darwin移动智能体：一条自我演化的路线图

Darwin Mobile Agent: A Roadmap for Self-Evolution

本文以移动图形用户界面（GUI）作为“大世界”的实用代理，提出了Darwin移动智能体开源基础设施，旨在为该领域的自主强化学习奠定基础。该框架通过并行云手机实例的异步智能体-环境循环，解决了真实世界移动交互中的数据收集瓶颈。进一步提出了一条概念路线图，旨在从任务课程、结果验证和记忆管理这三个自我演化智能体的基本支柱中，系统性地移除人类先验。验证表明，Darwin基础设施为路线图第一阶段——GUI领域的策略优化——提供了所需的稳定性和可扩展性。

🌟# 11

90%

R2D-RL：面向多智能体强化学习的 RoboCup 2D 足球环境

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

机器人足球是多智能体强化学习（MARL）的挑战性测试平台，但现有 RoboCup 2D 仿真平台难以与基于 Python 的现代 MARL 工作流集成。本文提出 R2D-RL 环境，通过共享内存通信和周期级同步，将 RoboCup 2D 服务器与 HELIOS 客户端连接到 Python MARL 接口。该环境支持全场和场景化训练、可配置对手、离散/参数化混合动作空间、动作掩码、基于期望控球价值（EPV）的奖励塑形及并行执行，并提供了基准场景和基线结果。

🔎# 12

90%

E-TTS：一种用于机器人操作的新具身测试时扩展框架

E-TTS: A New Embodied Test-Time Scaling Framework for Robotic Manipulation

现有具身任务测试时扩展研究面临推理机制未充分探索和历史信息利用不足的挑战。本文提出模块化即插即用框架 E-TTS，通过历史感知的迭代优化与视觉语言验证器，统一了机器人操作中的推理与动作扩展。该框架执行推理-动作联合采样与配对评分，利用历史缓冲区存储上下文，并引入反馈生成形成闭环迭代优化机制。在4个基准、6个环境、3种具身形态上的实验表明，E-TTS 无需额外数据收集或重训练，即可将性能提升高达33.14%（仿真）和26.62%（现实）。

📊# 13

90%

学习折叠：LeHome 挑战赛 2026 获奖方案（在线第一，离线第二）

Learning to Fold: prizewinning solution at LeHome Challenge 2026 (1st place online, 2nd offline)

本文介绍了在 ICRA 2026 双手衣物折叠竞赛（LeHome Challenge 2026）中的获胜方案。该系统通过强化学习（RL）循环改进视觉语言动作（VLA）策略，使同一网络既能预测动作，也能预测成功率、进度等任务相关未来量，并用于优势估计、实时故障检测和候选选择。方案主要整合了现有 RL 思想与工程优化贡献，包括 AWR+RECAP 组合用于流匹配 VLA、通过 HuggingFace Hub 的异步分布式训练/执行管道、基于汤普森采样的推理时超参数优化，以及包含相机对齐工具、强数据增强和 DAgger 式人机交互数据收集的仿真到现实迁移方案。

🎓# 14

90%

规格增长引擎：一种规格锚定、代码耦合、漂移强制的 AI 辅助软件开发架构

The Spec Growth Engine: Spec-Anchored, Code-Coupled, Drift-Enforced Architecture for AI-Assisted Software Development

AI 编码代理虽加速了实现速度，但带来了现有规格驱动方法未能完全解决的两种结构性失效模式：上下文爆炸和规格-代码静默漂移。本文提出“规格增长引擎”轻量框架，通过机器可读的规格图（节点明确区分契约与设计）、限定代理上下文于所有权路径的 Spine 上下文组装器、强制执行最难优先的垂直切片增长协议，以及将规格-代码差异设为阻塞合并条件的漂移门，来应对上述问题。该设计综合了信息隐藏、C4、ADR 等成熟软件工程原则，形成一个轻量、代码耦合、机器强制的整体。

🏆# 15

90%

LLM 编码代理的确定性控制平面

A Deterministic Control Plane for LLM Coding Agents

LLM 编码工具赋予代理广泛的文件和 shell 访问权限，但其配置层（规则文件、代理定义等）却缺乏管理。对10,008个公开 GitHub 仓库的分析发现，代理配置作为未声明的共享组件传播，存在大量跨组织重复，且修订频率低、权限边界声明少。本文提出确定性控制平面 Rel(AI)Build，将代理定义视为受管理的供应链（使用 SHA-256 内容寻址、HMAC 锁定文件等），在 LLM 调用前强制执行分层权限和攻击衍生阻止列表，通过阶段状态机门控功能开发，并将单一规范定义编译到七个 IDE 目标。该平面旨在实现确定性、工具无关的治理。

💻# 16

90%

从杂乱环境点云中学习运动可行性

Learning Motion Feasibility from Point Clouds in Cluttered Environments

运动可行性预测是机器人任务与运动规划及操作中的核心问题。在杂乱环境中，基于采样的运动规划器（SBMPs）的不可行尝试计算成本高昂，且现有不可行性认证方法局限于低维构型空间和简化几何环境。本文研究直接从原始 RGB-D 观测中为7自由度机械臂学习运动可行性预测。我们引入了该领域首个大规模基准，包含190个杂乱桌面场景和88个扫描物体上的270万次抓取可行性标注。在匹配训练条件下，我们评估了三种代表性分类器家族，其中基于点云 Transformer 的最佳模型 GRASPFC-PTX 在新物体上 AUROC 达到0.996，且预测速度显著快于 SBMPs。

🔗# 17

90%

HiLSVA：一种人机协同科学可视化智能系统的设计与评估

HiLSVA: Design and Evaluation of a Human-in-the-Loop Agentic System for Scientific Visualization

现有基于大语言模型（LLM）的科学可视化（SciVis）智能系统过于强调自主性，限制了透明度和人工监督。本文提出人机协同系统 HiLSVA，支持混合主动的 SciVis 工作流。它集成了计划优先的多智能体架构、明确的人工监督、逐步溯源跟踪以及从用户反馈中学习的能力。系统通过自然语言和直接操作可视化支持人机流畅交接，沙箱执行确保工作流安全可复现。案例研究和包含12名参与者的受控用户研究表明，混合主动交互提升了任务完成度、用户控制力和工作流透明度，但也揭示了执行效率与人工监督之间的权衡。

📈# 18

90%

将 RL 诱导的工具使用能力定位到单一交叉编码器特征

Localizing RL-Induced Tool Use to a Single Crosscoder Feature

强化学习（RL）微调重塑了语言模型的内部表征以实现工具使用等智能体行为，但其机制基础尚不明确。本工作表明，专用特征交叉编码器（DFC）能分离出一组紧凑的 RL 特异性特征，这些特征介导了 Qwen2.5-3B 模型中的工具调用能力。在48个交叉编码器的超参数扫描中，编码-解码重建将 RL 模型的工具调用正确率提升了31.1±9.7个百分点，并被动地将该能力“溢出”到冻结的基础模型中（提升6.8±5.0个百分点）。这表明 DFC 分区将 RL 引入的能力浓缩到一个最小、可操控的特征集中，实现了对智能体 LLM 的运行时行为控制。

🛠️# 19

90%

Play2Perfect：灵巧玩耍预训练对精密装配的关键因素是什么？

Play2Perfect: What Matters in Dexterous Play Pretraining for Precise Assembly?

多指机器人虽具潜力，但精密装配等接触丰富、奖励稀疏的任务仍具挑战。本文提出 Play2Perfect 框架，主张机器人在精通精密装配前需先学会“玩耍”。该框架通过在不同物体和目标上进行任务无关的玩耍预训练来获取可重用的操作先验（如抓取、手内重定向），随后在精密装配任务上进行微调，将探索集中于最终的高精度接触交互。我们系统研究了玩耍预训练中的关键设计选择，包括物体多样性、训练目标等。结果表明，该先验比从零开始的 RL 训练样本效率高33倍，并实现了零样本仿真到现实迁移，在仅0.5毫米接触间隙的紧密插入任务上达到60%成功率。

✨# 20

90%

CoStream：组合简单行为以实现可泛化的复杂操作

CoStream: Composing Simple Behaviors for Generalizable Complex Manipulation

长时程、接触丰富的复杂操作任务（如安装 GPU）既需毫米级高精度，又需对新任务开箱即用的泛化能力。现有范式难以兼顾：经典流水线精度高但泛化差，端到端策略泛化好但精度不足。两者都隐含假设已习得的能力必须作为刚性流水线或整体部署。本文证明，复杂操作能力可自然地从简单、独立行为的组合中涌现。我们提出 CoStream 框架，将基础模型和多种感知模态编排为多个可组合的核心行为：语义行为提取空间约束，预测行为通过关键点跟踪预测轨迹，反应行为提供高频触觉/力校正。这些输出在 SE(3) 接口上组合为单一位姿指令，由顺应控制器执行。在8个真实世界任务上的演示表明，其在接触丰富的装配和物体迁移任务上增益显著。

数据来源：arXiv
由智能助手@AIIA Lab 生成