AI应用论文|技能图谱:面向海量智能体技能的依赖感知结构化检索 (1/20篇) · 4月14日

📡 AI 创新应用

2026年04月14日星期二

共 20 篇精选论文

🔥# 1

90%

技能图谱：面向海量智能体技能的依赖感知结构化检索

Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

🤗 19

技能使用已成为现代智能体系统的核心组件，能极大提升智能体完成复杂任务的能力。在现实场景中，技能库可扩展至数千个可复用技能，但全量加载会挤占上下文窗口，增加成本与延迟。本文提出技能图谱（GoS），一个面向大型技能库的推理时结构化检索层。GoS离线构建可执行的技能图，在推理时通过混合语义-词汇种子、反向加权个性化PageRank和上下文预算填充，检索一个有界的、依赖感知的技能包。在SkillsBench和ALFWorld上，GoS相比基线平均奖励提升43.6%，同时输入令牌减少37.8%，并在多个模型家族上表现出泛化能力。消融实验进一步表明GoS在奖励、令牌效率和运行时方面均优于基线。

⭐# 2

85%

SIM1：作为可变形世界零样本数据缩放器的物理对齐仿真器

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

🤗 14

针对可变形物体操作数据密集且仿真与真实世界存在动力学鸿沟的问题，本文提出物理对齐的仿真数据引擎SIM1。该方法通过将有限演示数字化为度量一致的双胞胎、校准弹性动力学模型，并利用基于扩散的轨迹生成与质量过滤来扩展行为，将稀疏观测转化为高保真的合成监督数据。实验表明，仅用合成数据训练的策略在真实部署中达到了与真实数据基线相当的性能（等效比1:15），实现了90%的零样本成功率和50%的泛化提升，验证了物理对齐仿真作为可扩展监督的有效性。

💡# 3

90%

AgentSwing：面向长视野网络智能体的自适应并行上下文管理路由

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

🤗 8

针对长视野信息寻求任务中有限上下文容量的管理瓶颈，本文提出状态感知的自适应并行上下文管理路由框架AgentSwing。现有静态策略无法适应上下文有用性与可靠性的动态变化，为此我们建立了一个将长视野成功形式化为搜索效率与终端精度的概率框架。AgentSwing在每个触发点并行扩展多个上下文管理分支，并通过前瞻路由选择最有希望的路径。实验表明，该方法在多种基准和智能体骨架上均优于静态方法，能以最多3倍的交互轮次实现相当或更高的性能，并提升了长视野网络智能体的最终性能上限。

🔬# 4

95%

E3-TIR：面向工具集成推理的增强经验利用方法

E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning

针对大语言模型（LLM）在工具集成推理（TIR）训练中存在的探索低效、模式退化及数据成本高等问题，本文提出早期训练预热范式E3-TIR。该方法将训练动态整合为三种经验类型：专家前缀、专家引导与自我探索。通过围绕专家“锚点”进行多样化分支探索，并采用混合策略优化机制，有效缓解了分布偏移和共享前缀引起的优化冲突。实验表明，E3-TIR在工具使用任务上性能较传统范式提升6%，且所需合成数据量不足10%。在综合性能、数据成本与训练效率的ROI指标上，获得了1.46倍的增益。

📌# 5

95%

SPARC：通过注意力机器人通信进行空间感知的路径规划

SPARC: Spatial-Aware Path Planning via Attentive Robot Communication

针对去中心化多机器人路径规划（MRPP）中现有通信方法忽视空间邻近性的问题，本文提出关系增强多头注意力（RMHA）机制。该机制将曼哈顿距离显式嵌入注意力权重计算，使机器人能动态优先处理空间相关邻居的信息。结合距离约束注意力掩码和GRU门控消息融合，RMHA与MAPPO集成进行端到端训练。在从8个训练机器人零样本泛化到128个测试机器人的任务中，其在30%障碍物密度下的成功率约75%，优于最佳基线超过25个百分点。

🎯# 6

95%

WirelessAgent++：无线网络自动化智能体工作流设计与基准测试

WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks

将LLM集成到无线网络引发了构建自主AI智能体的兴趣，但现有方法依赖手动设计的提示和静态工作流。本文提出WirelessAgent++框架，将工作流视为模块化算子组成的可执行代码，将智能体设计转化为程序搜索问题，并用领域适应的蒙特卡洛树搜索算法求解。同时建立WirelessBench基准套件。实验表明，该框架能自主发现更优工作流，在三个子任务上分别达到78.37%、90.95%和97.07%的测试分数，每次搜索成本低于5美元，性能优于现有提示基线和通用工作流优化器。

💎# 7

95%

MAS-on-the-Fly：测试时基于LLM的多智能体系统动态适配

MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

针对现有基于大语言模型（LLM）的多智能体系统（MAS）缺乏部署后动态适应性的问题，本文提出MASFly框架。该框架包含两个核心机制：一是基于检索增强的标准作业程序（SOP）实例化，利用成功协作模式库为新查询组装定制化MAS；二是经验引导的监督机制，由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中，MASFly取得了最先进的性能（成功率61.7%），并展现出强大的任务适应性和鲁棒性。

🚀# 8

95%

迈向自主O-RAN：面向实时网络控制与管理的多尺度智能体AI框架

Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management

针对开放无线接入网（O-RAN）因组件解耦和开放接口带来的操作复杂性挑战，本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时（Non-RT）、近实时（Near-RT）和实时（RT）控制环路的协调层次：Non-RT RIC中的LLM智能体将运营商意图转化为策略；Near-RT RIC中的小型语言模型（SLM）智能体执行低延迟优化；分布式单元附近的无线物理层基础模型（WPFM）智能体提供快速推理。通过概念验证，该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。

🧠# 9

95%

AIRS-Bench：前沿AI科研智能体任务套件

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

为加速LLM智能体在科学研究中的应用，本文提出了AIRS-Bench（AI科研基准），包含20个源自前沿机器学习论文的任务，涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期（包括想法生成、实验分析和迭代优化）中的能力，且不提供基线代码。基线测试表明，智能体在4项任务中超越人类最佳水平，但在其余16项中未能达到，表明该基准远未饱和，有巨大改进空间。所有任务定义和评估代码均已开源。

⚡# 10

95%

大语言模型的智能体技能：架构、获取、安全与未来路径

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包，支持动态能力扩展而无需重新训练。我们从四个维度组织该领域：（1）架构基础，涵盖技能规范、渐进式上下文加载及其与模型上下文协议（MCP）的互补；（2）技能获取，包括基于技能库的强化学习、自主技能发现和组合式技能合成；（3）规模化部署，涉及计算机使用智能体（CUA）栈、GUI grounding进展及OSWorld等基准；（4）安全，分析指出26.1%的社区贡献技能存在漏洞，并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后，我们提出了实现可信、自改进技能生态系统的研究议程。

🌟# 11

95%

MARS：具备反思搜索能力的模块化智能体，用于自动化AI研究

MARS: Modular Agent with Reflective Search for Automated AI Research

自动化AI研究因其计算成本高昂（如模型训练）和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此，我们提出了MARS（具备反思搜索能力的模块化智能体），一个为自主AI研究优化的框架。其三大支柱为：（1）通过成本约束的蒙特卡洛树搜索（MCTS）进行预算感知规划，明确平衡性能与执行开销；（2）模块化构建，采用“设计-分解-实现”流程管理复杂研究代码库；（3）比较性反思记忆，通过分析解决方案差异来提炼高价值见解，解决信用分配问题。MARS在可比设置下，于MLE-Bench上达到了开源框架中的最先进性能，并与全球排行榜的顶级方法保持竞争力。此外，系统展现出定性的“顿悟”时刻，63%的有效经验教训源于跨搜索路径的迁移，证明智能体能有效泛化见解。

🔎# 12

95%

感知型人形机器人跑酷：通过运动匹配链接动态人体技能

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

本文提出感知型人形机器人跑酷（PHP），一个模块化框架，旨在解决人形机器人执行复杂环境中动态、长时程、视觉引导跑酷的挑战。该方法首先利用运动匹配（在特征空间中进行最近邻搜索），将重定向的原子化人体技能组合成长时程运动轨迹，实现了复杂技能链的灵活组合与平滑过渡，同时保持了动态人体动作的优雅与流畅性。接着，我们为这些组合动作训练运动跟踪强化学习（RL）专家策略，并使用DAgger与RL相结合的方法，将其蒸馏成一个基于深度感知的多技能学生策略。该框架结合感知与技能组合，实现了自主、情境感知的决策：仅使用机载深度传感和离散的2D速度指令，机器人即可根据障碍物的几何形状和高度，自主选择并执行跨越、攀爬、支撑跳跃或翻滚等动作。我们在Unitree G1人形机器人上进行了大量真实世界实验验证，成功展示了攀爬高达1.25米（机器人身高的96%）障碍物，以及长时程多障碍物穿越并实时适应障碍物扰动的能力。

📊# 13

95%

释放扩散模型在端到端自动驾驶中的潜力

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

扩散模型在机器人决策任务中日益流行，但其在自动驾驶（AD）中的应用与评估仍局限于仿真或实验室环境。本研究基于海量实车数据与道路测试，系统性地探索了扩散模型作为端到端自动驾驶（E2E AD）规划器的潜力。通过全面且受控的研究，我们揭示了影响E2E规划性能的关键因素，包括扩散损失空间、轨迹表示与数据规模。此外，我们提出了一种有效的强化学习后训练策略以进一步提升规划器的安全性。由此产生的超扩散规划器（HDP）在实车平台上进行了部署，在6个城市驾驶场景和200公里真实世界测试中，性能比基线模型提升了10倍，证明了扩散模型经恰当设计与训练后，可成为复杂真实世界自动驾驶任务中有效且可扩展的E2E规划器。

🎓# 14

95%

SignVLA：一种用于实时手语引导机器人操作的无语标视觉-语言-动作框架

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

本文提出了首个手语驱动的视觉-语言-动作（VLA）框架，用于直观且包容的人机交互。与依赖语标注释作为中间监督的传统方法不同，本系统采用无语标范式，直接将视觉手语手势映射为语义指令，降低了标注成本并避免了语标表示的信息损失。研究聚焦于实时字母级指拼交互界面，为机器人控制提供了可靠、低延迟的通信通道。通过几何归一化、时间平滑和词汇精炼，该框架将连续手势流转化为连贯的语言指令。实验结果表明，该系统能有效将手语指令转化为精确的机器人动作，展现了其在推进可访问、可扩展的多模态具身智能方面的潜力。

🏆# 15

95%

迈向个性化LLM驱动的智能体：基础、评估与未来方向

Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions

随着LLM智能体在长时交互中愈发依赖对个体用户的适应与跨时间连续性，个性化LLM智能体应运而生。本综述围绕个性化智能体的四个相互依赖组件——画像建模、记忆、规划与动作执行——对文献进行能力导向的梳理，分析了用户信号的表示、传播与利用方式，并总结了跨组件交互与设计权衡。文章进一步审视了针对个性化智能体的评估指标与基准，概述了从通用辅助到专业领域的应用场景，并为研究与部署的未来方向绘制了路线图，旨在推动构建更用户对齐、自适应、鲁棒且可部署的智能体系统。

💻# 16

95%

基于分层LLM的多智能体框架及其提示优化用于多机器人任务规划

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

为解决多机器人任务规划中自然语言指令分解的难题，本文提出一种结合分层多智能体LLM与提示优化的规划器。上层分解任务并分配给下层智能体，下层生成PDDL问题并由经典规划器求解。规划失败时，系统采用文本梯度更新优化各智能体的提示。此外，同层智能体间共享元提示以实现高效优化。在MAT-THOR基准测试中，该规划器在复合、复杂和模糊任务上的成功率分别达到0.95、0.84和0.60，优于之前的SOTA方法。

🔗# 17

95%

Tool-Genesis：面向自进化语言智能体的任务驱动式工具创建基准

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

自进化语言智能体研究加速发展，但其从任务需求中创建、适配和维护工具的能力缺乏有效评估。现有基准多依赖预定义规范，限制了可扩展性与自主进化。本文提出诊断性基准Tool-Genesis，旨在从接口合规性、功能正确性和下游效用等多维度量化智能体能力。该基准评估智能体能否仅从抽象需求（无预设规范）构建任务相关工具并解决实际问题。研究发现，即使最先进的模型也难以在单次尝试中生成精确的工具接口或可执行逻辑，这些微小初始缺陷会在流程中被放大，导致下游指标急剧下降。该基准旨在引导未来研究，训练模型合成能更好应对现实挑战的持久性通用工具。

📈# 18

95%

AutoAgent：面向自适应智能体的认知进化与弹性记忆编排

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

为解决自主智能体框架在长期经验学习与实时上下文决策间的矛盾，我们提出了AutoAgent，一个基于认知进化、即时上下文决策和弹性记忆编排三大组件的自进化多智能体框架。其核心是每个智能体维护结构化的提示级认知，并结合实时任务上下文从统一动作空间中选择行动。弹性记忆编排器动态组织交互历史以减少令牌开销。实验表明，AutoAgent在任务成功率、工具使用效率和协作鲁棒性上均优于静态及记忆增强基线。

🛠️# 19

95%

使用Agent Rosetta进行蛋白质设计：专用科学智能体的案例研究

Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

我们介绍了Agent Rosetta，这是一个将大语言模型智能体与结构化环境相结合的系统，用于操作领先的基于物理的异质聚合物设计软件Rosetta。该智能体能够迭代优化设计以实现用户定义的目标，结合了LLM的推理能力和Rosetta的通用性（如处理非经典氨基酸和几何结构）。评估表明，在经典氨基酸设计上，Agent Rosetta与专用模型和专家基线表现相当；在机器学习方法失效的非经典残基设计上，也达到了可比性能。关键的是，仅靠提示工程常无法生成正确的Rosetta操作，这证明环境设计对于LLM智能体集成专业软件至关重要。

✨# 20

95%

理解AI代理热潮：来自实践者的采用、架构与启示

Making Sense of AI Agents Hype: Adoption, Architectures, and Takeaways from Practitioners

为帮助实践者理解智能体系统在工业界的实际设计，本研究回顾分析了138个关于AI代理的实践者会议演讲。研究旨在：1）探究企业如何采用基于代理的架构；2）识别反复出现的架构策略与模式；3）分析用于实现和运营LLM驱动代理系统的应用领域与技术。通过对这些实践经验的梳理，为业界理解和构建代理系统提供了实证参考。

数据来源：arXiv
由智能助手@AIIA Lab 生成