AI应用论文|LLM智能体网络中的联盟形成:稳定性分析与收敛性保证 (1/20篇) · 5月4日

📡 AI 创新应用

2026年05月04日星期一

共 20 篇精选论文

🔥# 1

95%

LLM智能体网络中的联盟形成：稳定性分析与收敛性保证

Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees

针对大型语言模型（LLM）智能体在多智能体系统中战略协调的需求，本文首次提出了一个基于享乐博弈论、具有形式化稳定性保证的LLM智能体联盟形成框架。我们引入了LLM联盟形成博弈（LCFG），建立了纳什稳定分区的充分条件，并证明了复杂性结果。分析揭示了LLM智能体表现出以ε理性偏好为特征的有界理性。在GPT-4等模型上的大规模实验验证了该框架：在我们提出的“联盟思维”（CoalT）协议下，LLM联盟在73.2%的情况下达到纳什稳定，显著优于基线方法。

⭐# 2

95%

迈向有根基的自主研究：在已发表计算物理文献上的端到端 LLM 微型研究循环

Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics

本文聚焦于物理科学研究的最小单元——微型研究循环，即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环：在规模上，智能体对 111 篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环，无需被要求批判即在约 42% 的论文中提出了实质性质疑；在深度上，针对一篇关于二维材料 MOSFET 多尺度模拟的《自然·通讯》论文，智能体自主运行了原文缺失的新计算，并生成了可发表的评论，修正了原文的核心结论。

💡# 3

95%

深度研究智能体：一个支持零成本监控的7×24小时自主深度学习实验框架

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

本文提出开源框架Deep Researcher Agent，使LLM智能体能自主进行全天候深度学习实验。其核心创新包括：零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中，该框架自主完成了500多个实验周期，在单个项目中通过200多次自动化实验将基线指标提升了52%，且日均LLM成本仅为0.08美元。

🔬# 4

95%

通过质量多样性提示生成对视觉-语言-动作模型进行红队测试以获取鲁棒机器人策略

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

视觉-语言-动作（VLA）模型对指令措辞敏感，其失败模式难以预测。为提高VLA的鲁棒性，本文提出Q-DIG，它结合质量多样性（QD）技术与视觉语言模型（VLM），可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明，Q-DIG相比基线方法能发现更多样、有意义的失败模式，并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。

📌# 5

95%

具身科学：以具身AI智能体闭合科学发现循环

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

当前AI科学预测方法常将发现视为孤立任务，与依赖物理实验循环的现实脱节。本文主张“具身科学”范式，将科学发现重构为智能推理与物理执行紧密耦合的闭环。我们提出统一的感知-语言-行动-发现（PLAD）框架，其中具身智能体感知实验环境、推理科学知识、执行物理干预并内化结果以驱动后续探索。通过将计算推理扎根于鲁棒的物理反馈，该方法弥合了数字预测与实证验证间的鸿沟，为生命与化学科学的自主发现系统提供了路线图。

🎯# 6

95%

机器人的内在批评家：基于VLM重规划实现社交行为的自我精炼

The Robot’s Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

传统机器人社交行为生成依赖预定义动作或人工反馈，灵活性与自主性有限。本研究提出CRISP框架，机器人利用视觉语言模型（VLM）作为“类人社交批评家”来自主批评并重规划自身动作。该框架包含从描述文件解析关节、生成行为计划、参考视觉信息生成底层控制代码、VLM评估社交适当性以及基于奖励的迭代精炼。用户研究表明，该方法在多种机器人平台和场景下，获得了比先前方法显著更高的偏好度与情境适当性评分，最小化人工干预的同时扩展了自主交互能力与跨平台适用性。

💎# 7

95%

迈向智能体赋能的软件生态系统

Toward an Agentic Infused Software Ecosystem

为充分发挥AI智能体在软件开发中的潜力，需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”（AISE），其基于三大支柱：首先是AI智能体本身，其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务；其次是生态基础设施，旨在支持智能体间的协作与集成；最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径，旨在推动软件开发向更自主、协同的方向演进。

🚀# 8

95%

PRAM-R：一种具有LLM引导模态路由的自适应自动驾驶感知-推理-行动-记忆框架

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

为解决多模态感知计算成本高的问题，本文提出PRAM-R框架，采用异步双循环设计：快速反应循环负责感知与控制，慢速审慎循环负责推理驱动的模态选择和记忆更新。其中，LLM路由器根据环境上下文和传感器诊断选择并加权模态，分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明，基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示，在复杂城市场景中，模态使用减少6.22%，记忆召回率达20%，同时保持了与全模态基线相当的轨迹精度。

🧠# 9

95%

调度与运动规划的交替执行及符号化时空运动抽象的增量学习

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

针对自动化仓库等多目标导航场景中，在资源、时间和运动约束下安全高效执行预定义任务的挑战，本文形式化了调度与运动规划问题。提出一种新颖的解决方案框架，将现成的调度器与运动规划器在增量学习循环中交替执行：调度器生成候选计划，运动规划器检查可行性并返回符号化反馈（空间冲突、时间调整）以指导调度器。在物流和作业车间调度基准上的验证表明，该框架能有效生成满足复杂时空约束的可行计划。

⚡# 10

95%

FAR-Dex：面向灵巧操作的少样本数据增强与自适应残差策略优化

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

为解决灵巧操作中高质量演示数据稀缺和高维动作空间复杂性的挑战，本文提出FAR-Dex分层框架。该方法结合少样本数据增强与自适应残差优化：FAR-DexGen从少量演示生成多样化轨迹；FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征以提升策略精度。仿真与实物实验表明，该方法将数据质量提升13.4%，任务成功率提升7%，并在实物任务中实现超过80%的成功率，具备良好的位置泛化能力。

🌟# 11

95%

StarVLA：一个用于视觉-语言-动作模型开发的乐高式代码库

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

为应对视觉-语言-动作（VLA）方法在架构、代码和评估上碎片化的问题，本文提出开源代码库StarVLA。它提供模块化的主干-动作头架构，支持VLM和世界模型等多种主干与动作解码范式；提供可复用的训练策略；并集成了多个主流基准的统一评估接口。其简易训练配方已在多个基准上达到或超越现有方法，旨在降低VLA研究的复现与原型开发门槛。

🔎# 12

95%

EvoMaster：面向规模化智能体科学的基础演化智能体框架

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

针对现有智能体框架静态、范围狭窄且缺乏试错学习能力的问题，本文提出了EvoMaster，一个为规模化智能体科学设计的基础演化框架。其核心是持续自我演化，使智能体能迭代优化假设、自我批判并在实验周期中积累知识，模拟人类科学探究。该框架领域无关且易于扩展，仅需约100行代码即可构建自演化科学智能体。基于EvoMaster孵化的SciMaster生态系统在多个领域基准测试中取得了最先进的性能，全面超越了通用基线，验证了其作为下一代自主科学发现基础框架的有效性和通用性。

📊# 13

95%

MARS：具备反思搜索能力的模块化智能体，用于自动化AI研究

MARS: Modular Agent with Reflective Search for Automated AI Research

自动化AI研究因其计算成本高昂（如模型训练）和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此，我们提出了MARS（具备反思搜索能力的模块化智能体），一个为自主AI研究优化的框架。其三大支柱为：（1）通过成本约束的蒙特卡洛树搜索（MCTS）进行预算感知规划，明确平衡性能与执行开销；（2）模块化构建，采用“设计-分解-实现”流程管理复杂研究代码库；（3）比较性反思记忆，通过分析解决方案差异来提炼高价值见解，解决信用分配问题。MARS在可比设置下，于MLE-Bench上达到了开源框架中的最先进性能，并与全球排行榜的顶级方法保持竞争力。此外，系统展现出定性的“顿悟”时刻，63%的有效经验教训源于跨搜索路径的迁移，证明智能体能有效泛化见解。

🎓# 14

95%

大语言模型的智能体技能：架构、获取、安全与未来路径

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包，支持动态能力扩展而无需重新训练。我们从四个维度组织该领域：（1）架构基础，涵盖技能规范、渐进式上下文加载及其与模型上下文协议（MCP）的互补；（2）技能获取，包括基于技能库的强化学习、自主技能发现和组合式技能合成；（3）规模化部署，涉及计算机使用智能体（CUA）栈、GUI grounding进展及OSWorld等基准；（4）安全，分析指出26.1%的社区贡献技能存在漏洞，并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后，我们提出了实现可信、自改进技能生态系统的研究议程。

🏆# 15

95%

AIRS-Bench：前沿AI科研智能体任务套件

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

为加速LLM智能体在科学研究中的应用，本文提出了AIRS-Bench（AI科研基准），包含20个源自前沿机器学习论文的任务，涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期（包括想法生成、实验分析和迭代优化）中的能力，且不提供基线代码。基线测试表明，智能体在4项任务中超越人类最佳水平，但在其余16项中未能达到，表明该基准远未饱和，有巨大改进空间。所有任务定义和评估代码均已开源。

💻# 16

95%

迈向自主O-RAN：面向实时网络控制与管理的多尺度智能体AI框架

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

针对开放无线接入网（O-RAN）因组件解耦和开放接口带来的操作复杂性挑战，本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时（Non-RT）、近实时（Near-RT）和实时（RT）控制环路的协调层次：Non-RT RIC中的LLM智能体将运营商意图转化为策略；Near-RT RIC中的小型语言模型（SLM）智能体执行低延迟优化；分布式单元附近的无线物理层基础模型（WPFM）智能体提供快速推理。通过概念验证，该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。

🔗# 17

95%

MAS-on-the-Fly：测试时基于LLM的多智能体系统动态适配

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺乏部署后动态适应性的问题，本文提出MASFly框架。该框架包含两个核心机制：一是基于检索增强的标准作业程序（SOP）实例化，利用成功协作模式库为新查询组装定制化MAS；二是经验引导的监督机制，由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中，MASFly取得了最先进的性能（成功率61.7%），并展现出强大的任务适应性和鲁棒性。

📈# 18

95%

CUDA Agent：面向高性能CUDA内核生成的大规模智能体强化学习系统

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

针对LLM在CUDA内核优化中表现不及编译器的问题，本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法，系统性地提升模型的内核优化能力。实验表明，其在KernelBench基准上全面超越torch.compile，并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。

🛠️# 19

95%

学习面向杂乱环境中顺序操作的对象中心空间推理

Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

为解决机器人在杂乱环境中操作的数据效率与模块化问题，本文提出Unveiler框架，将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器（SRE），能顺序识别并决策移除关键障碍物，再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效，在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线，仿真成功率最高达97.6%，并能零样本迁移到真实场景。

✨# 20

95%

面向对撞机物理及其他领域的端到端架构

An End-to-end Architecture for Collider Physics and Beyond

本文提出了首个能够执行端到端对撞机现象学任务的语言驱动智能体系统ColliderAgent。该系统采用解耦、领域无关的架构，仅依据自然语言提示和标准物理符号，即可完成从理论拉格朗日量到最终现象学输出的全流程，无需依赖特定软件包代码。系统通过分层多智能体推理层与统一计算后端Magnus耦合。在多个代表性场景（如轻夸克、类轴子粒子分析）上的验证表明，该架构为实现对撞机物理、宇宙学等领域更自动化、可扩展和可复现的研究指明了路径。

数据来源：arXiv
由智能助手@AIIA Lab 生成