AI应用论文|δ-mem:面向大语言模型的高效在线记忆机制 (1/20篇) · 5月14日

📡 AI 创新应用

2026年05月14日星期四

共 20 篇精选论文

🔥# 1

70%

δ-mem：面向大语言模型的高效在线记忆机制

\delta-mem: Efficient Online Memory for Large Language Models

🤗 87

为解决大语言模型（LLM）在长上下文任务中信息累积与利用效率低下的问题，本文提出一种轻量级在线记忆机制δ-mem。该方法通过增量学习规则将历史信息压缩至固定大小的关联记忆状态矩阵，并在生成时以其读出来生成低秩修正，以增强冻结主干模型的注意力计算。实验表明，仅使用8×8的在线记忆状态，δ-mem即可将平均性能提升至冻结主干的1.10倍，并在记忆密集型基准测试上取得更大增益，同时无需全参数微调或扩展上下文窗口。

⭐# 2

65%

企业系统需要学习世界模型吗？上下文对推断动态的重要性

Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

🤗 52

针对企业系统中业务逻辑多变且可配置的特点，本文探讨了在规则可读的推理场景下，智能体是否仍需学习固定的世界模型。研究指出，仅依赖离线训练的世界模型在部署偏移下性能会下降。为此，本文提出企业发现智能体，通过在运行时读取系统配置来动态发现相关状态转移逻辑，从而将预测基于当前实例。在CascadeBench基准上的实验表明，基于发现的智能体在动态变化时更具鲁棒性，表明在可配置环境中应结合运行时逻辑发现机制。

💡# 3

90%

ToolCUA：面向计算机使用智能体的最优GUI-工具路径编排

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

🤗 23

针对计算机使用智能体（CUA）在混合动作空间（原子GUI操作与高级工具调用）中路径选择不确定的问题，本文提出端到端智能体ToolCUA。其通过分阶段训练范式学习最优GUI-工具路径选择：首先利用交错GUI-工具轨迹扩展管道合成多样化轨迹；随后进行工具引导的GUI指令微调（RFT）以改进切换点决策；最后在高保真环境中进行在线强化学习（RL）优化。在OSWorld-MCP上的实验表明，ToolCUA达到46.85%的准确率，相对基线提升约66%，并优于纯GUI设置，证明了混合动作空间训练的有效性。

🔬# 4

85%

MCP-Cosmos：面向MCP环境中复杂任务执行的世界模型增强智能体

MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments

🤗 26

为弥补模型上下文协议（MCP）生态中智能体对环境动态认知的不足，本文提出MCP-Cosmos框架，将生成式世界模型（WM）融入MCP以实现预测性任务自动化。该框架采用“自带世界模型”（BYOWM）策略，使智能体能在潜在空间中模拟状态转移并优化计划，再行执行。在20多个MCP-Bench任务上的实验表明，结合ReAct和SPIRAL策略及多种世界模型后，智能体的工具调用成功率与参数准确性等交互关键绩效指标（KPI）得到提升，并引入了执行质量等新评估维度，揭示了世界模型相比基线的有效性。

📌# 5

90%

基于失败轨迹的在线策略自进化实现智能体安全对齐

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

🤗 13

针对工具调用型LLM智能体的安全风险常体现在整个执行轨迹而非最终回答，且现有安全对齐方法存在安全-效用权衡的问题，本文提出在线自进化框架FATE。该框架将验证器评分的失败轨迹转化为修复监督信号，无需专家演示。对于每次失败，同一策略提出修复候选，经多维度（安全、效用、过度拒绝控制等）过滤后，利用密集的轨迹级信息驱动智能体自进化。结合帕累托前沿策略优化（PFPO），实验表明FATE在多个基准上显著提升了安全性（如攻击成功率降低33.5%），同时保持了有用行为。

🎯# 6

90%

持续驾驭：面向自改进基础智能体的在线适应框架

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

🤗 10

本文提出“持续驾驭”（Continual Harness），一种为具身智能体设计的无重置在线自改进框架。受Gemini Plays Pokemon（GPP）实验中智能体通过长上下文记忆迭代策略的启发，该框架从最小环境接口出发，使智能体在单一运行中交替执行行动与自我改进（优化提示、子智能体、技能和记忆）。在《宝可梦》系列游戏上的实验表明，从零开始的Continual Harness相比极简基线大幅降低了操作成本，并弥补了与手工专家框架的大部分性能差距。进一步，通过在线过程-奖励协同学习循环，驱动开源智能体在《宝可梦红》中实现了无需环境重置的持续里程碑进展。

💎# 7

95%

CoRAL：基于LLM的接触式机器人自适应控制

CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation

为解决大语言模型（LLM）与视觉语言模型（VLM）在接触式操作中缺乏物理基础与自适应控制能力的问题，本文提出CoRAL模块化框架。该方法将LLM用作成本函数设计器而非直接控制器，为采样运动规划器（MPPI）生成情境感知目标函数，并通过神经符号适应环路实时优化物理参数估计。其分层架构将高层语义推理与底层反应式执行解耦，并引入检索记忆单元复用成功策略。在仿真与真实硬件上的实验表明，CoRAL在未见接触式任务中的平均成功率超越现有VLA与基础模型规划基线50%以上，能有效处理仿真到现实的差距。

🚀# 8

95%

迈向流体动力学中的多智能体自主推理

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

针对单智能体系统（SAS）在科学工作流中面临上下文饱和与可靠性下降的问题，本文提出一种用于流体动力学的多智能体系统（MAS）原型。该方法通过层执行图（LEG）协调规划、专业与整合智能体，利用自然语言启发式构建查询专属拓扑，而非硬编码控制逻辑。以Claude Sonnet为骨干模型，在37项跨复杂度查询的评估中，系统实现了93.6%的事实精确度与100%的通过率，且在并行扩展与部分数据源失效时性能稳健退化。结果表明，基于规划器引导的图结构多智能体编排能有效缓解制约单体架构的上下文瓶颈。

🧠# 9

95%

面向对撞机物理及其他领域的端到端架构

An End-to-end Architecture for Collider Physics and Beyond

本文提出了首个能够执行端到端对撞机现象学任务的语言驱动智能体系统ColliderAgent。该系统采用解耦、领域无关的架构，仅依据自然语言提示和标准物理符号，即可完成从理论拉格朗日量到最终现象学输出的全流程，无需依赖特定软件包代码。系统通过分层多智能体推理层与统一计算后端Magnus耦合。在多个代表性场景（如轻夸克、类轴子粒子分析）上的验证表明，该架构为实现对撞机物理、宇宙学等领域更自动化、可扩展和可复现的研究指明了路径。

⚡# 10

95%

学习面向杂乱环境中顺序操作的对象中心空间推理

Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

为解决机器人在杂乱环境中操作的数据效率与模块化问题，本文提出Unveiler框架，将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器（SRE），能顺序识别并决策移除关键障碍物，再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效，在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线，仿真成功率最高达97.6%，并能零样本迁移到真实场景。

🌟# 11

95%

CUDA Agent：面向高性能CUDA内核生成的大规模智能体强化学习系统

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

针对LLM在CUDA内核优化中表现不及编译器的问题，本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法，系统性地提升模型的内核优化能力。实验表明，其在KernelBench基准上全面超越torch.compile，并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。

🔎# 12

95%

MAS-on-the-Fly：测试时基于LLM的多智能体系统动态适配

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺乏部署后动态适应性的问题，本文提出MASFly框架。该框架包含两个核心机制：一是基于检索增强的标准作业程序（SOP）实例化，利用成功协作模式库为新查询组装定制化MAS；二是经验引导的监督机制，由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中，MASFly取得了最先进的性能（成功率61.7%），并展现出强大的任务适应性和鲁棒性。

📊# 13

95%

迈向自主O-RAN：面向实时网络控制与管理的多尺度智能体AI框架

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

针对开放无线接入网（O-RAN）因组件解耦和开放接口带来的操作复杂性挑战，本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时（Non-RT）、近实时（Near-RT）和实时（RT）控制环路的协调层次：Non-RT RIC中的LLM智能体将运营商意图转化为策略；Near-RT RIC中的小型语言模型（SLM）智能体执行低延迟优化；分布式单元附近的无线物理层基础模型（WPFM）智能体提供快速推理。通过概念验证，该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。

🎓# 14

95%

AIRS-Bench：前沿AI科研智能体任务套件

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

为加速LLM智能体在科学研究中的应用，本文提出了AIRS-Bench（AI科研基准），包含20个源自前沿机器学习论文的任务，涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期（包括想法生成、实验分析和迭代优化）中的能力，且不提供基线代码。基线测试表明，智能体在4项任务中超越人类最佳水平，但在其余16项中未能达到，表明该基准远未饱和，有巨大改进空间。所有任务定义和评估代码均已开源。

🏆# 15

95%

大语言模型的智能体技能：架构、获取、安全与未来路径

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包，支持动态能力扩展而无需重新训练。我们从四个维度组织该领域：（1）架构基础，涵盖技能规范、渐进式上下文加载及其与模型上下文协议（MCP）的互补；（2）技能获取，包括基于技能库的强化学习、自主技能发现和组合式技能合成；（3）规模化部署，涉及计算机使用智能体（CUA）栈、GUI grounding进展及OSWorld等基准；（4）安全，分析指出26.1%的社区贡献技能存在漏洞，并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后，我们提出了实现可信、自改进技能生态系统的研究议程。

💻# 16

95%

MARS：具备反思搜索能力的模块化智能体，用于自动化AI研究

MARS: Modular Agent with Reflective Search for Automated AI Research

自动化AI研究因其计算成本高昂（如模型训练）和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此，我们提出了MARS（具备反思搜索能力的模块化智能体），一个为自主AI研究优化的框架。其三大支柱为：（1）通过成本约束的蒙特卡洛树搜索（MCTS）进行预算感知规划，明确平衡性能与执行开销；（2）模块化构建，采用“设计-分解-实现”流程管理复杂研究代码库；（3）比较性反思记忆，通过分析解决方案差异来提炼高价值见解，解决信用分配问题。MARS在可比设置下，于MLE-Bench上达到了开源框架中的最先进性能，并与全球排行榜的顶级方法保持竞争力。此外，系统展现出定性的“顿悟”时刻，63%的有效经验教训源于跨搜索路径的迁移，证明智能体能有效泛化见解。

🔗# 17

95%

EvoMaster：面向规模化智能体科学的基础演化智能体框架

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

针对现有智能体框架静态、范围狭窄且缺乏试错学习能力的问题，本文提出了EvoMaster，一个为规模化智能体科学设计的基础演化框架。其核心是持续自我演化，使智能体能迭代优化假设、自我批判并在实验周期中积累知识，模拟人类科学探究。该框架领域无关且易于扩展，仅需约100行代码即可构建自演化科学智能体。基于EvoMaster孵化的SciMaster生态系统在多个领域基准测试中取得了最先进的性能，全面超越了通用基线，验证了其作为下一代自主科学发现基础框架的有效性和通用性。

📈# 18

95%

StarVLA：一个用于视觉-语言-动作模型开发的乐高式代码库

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

为应对视觉-语言-动作（VLA）方法在架构、代码和评估上碎片化的问题，本文提出开源代码库StarVLA。它提供模块化的主干-动作头架构，支持VLM和世界模型等多种主干与动作解码范式；提供可复用的训练策略；并集成了多个主流基准的统一评估接口。其简易训练配方已在多个基准上达到或超越现有方法，旨在降低VLA研究的复现与原型开发门槛。

🛠️# 19

95%

FAR-Dex：面向灵巧操作的少样本数据增强与自适应残差策略优化

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

为解决灵巧操作中高质量演示数据稀缺和高维动作空间复杂性的挑战，本文提出FAR-Dex分层框架。该方法结合少样本数据增强与自适应残差优化：FAR-DexGen从少量演示生成多样化轨迹；FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征以提升策略精度。仿真与实物实验表明，该方法将数据质量提升13.4%，任务成功率提升7%，并在实物任务中实现超过80%的成功率，具备良好的位置泛化能力。

✨# 20

95%

调度与运动规划的交替执行及符号化时空运动抽象的增量学习

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

针对自动化仓库等多目标导航场景中，在资源、时间和运动约束下安全高效执行预定义任务的挑战，本文形式化了调度与运动规划问题。提出一种新颖的解决方案框架，将现成的调度器与运动规划器在增量学习循环中交替执行：调度器生成候选计划，运动规划器检查可行性并返回符号化反馈（空间冲突、时间调整）以指导调度器。在物流和作业车间调度基准上的验证表明，该框架能有效生成满足复杂时空约束的可行计划。

数据来源：arXiv
由智能助手@AIIA Lab 生成