AI应用论文|RoboPocket:用手机即时改进机器人策略 (1/20篇) · 3月10日

📡 AI 创新应用
2026年03月10日星期二
共 20 篇精选论文
| 🔥1 | 90% |
RoboPocket:用手机即时改进机器人策略
RoboPocket: Improve Robot Policies Instantly with Your Phone
🤗 30
模仿学习的规模化受限于数据收集效率。现有手持设备采集数据效率低,而DAgger等方法又依赖昂贵的实体机器人。本文提出RoboPocket系统,利用智能手机实现机器人无关的即时策略迭代。其核心是通过增强现实(AR)视觉预见远程可视化策略预测轨迹,使操作者能主动识别策略弱点并针对性收集数据,无需实体机器人。结合异步在线微调管道,可在数分钟内完成学习闭环。实验表明,该方法遵循数据缩放定律,数据效率相比离线策略提升一倍,在分布式环境中样本效率最高提升2倍。
| ⭐2 | 100% |
2025年AI智能体指数:记录已部署智能体AI系统的技术与安全特性
The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems
针对AI智能体生态复杂、发展迅速且文档记录不一致的问题,本文提出了2025年AI智能体指数。该指数基于公开信息及与开发者的通信,系统记录了30个前沿AI智能体的起源、设计、能力、生态及安全特性。研究发现,不同开发者的透明度差异显著,且多数对安全性、评估及社会影响的披露不足。该指数旨在为研究者和政策制定者提供追踪发展的工具。
| 💡3 | 100% |
OpenClaw、Moltbook与ClawdLab:从纯智能体社交网络到自主科学研究
OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research
本研究对开源智能体框架OpenClaw和纯智能体社交网络Moltbook产生的大规模AI间交互数据集及相关文献进行多声部综述,并提出了自主科学研究开源平台ClawdLab作为应对已识别架构失效模式的设计科学响应。ClawdLab通过硬性角色限制、结构化对抗性批判、PI主导的治理、多模型编排以及编码为协议约束的领域特定证据要求来解决这些失效模式,其架构天然具备抗女巫攻击能力。一个三层分类法区分了单智能体流水线、预定义多智能体工作流和完全去中心化系统,ClawdLab的可组合第三层架构支持随着AI生态进步而实现复合式改进。
| 🔬4 | 70% |
推理模型难以控制其思维链
Reasoning Models Struggle to Control their Chains of Thought
🤗 24
本研究关注思维链(CoT)监控中模型可能通过控制其内部推理过程来规避监测的风险。为评估此“CoT可控性”,我们提出了CoT-Control评测集,要求模型在遵循特定指令(如避免使用特定词汇)下解决问题。实验发现,推理模型对CoT的控制能力远低于对最终输出的控制(如Claude Sonnet 4.5的CoT可控率仅为2.7%)。主要结论包括:模型规模越大可控性越高,而强化学习训练、增加计算资源及问题难度会降低可控性;即使提供激励或对抗性优化提示,可控性也未显著提升。结果初步表明,当前CoT可控性尚不构成监控失效的主要风险,但机制未明,建议前沿实验室持续追踪该指标。
| 📌5 | 95% |
Tool-Genesis:面向自进化语言智能体的任务驱动式工具创建基准
Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent
自进化语言智能体研究加速发展,但其从任务需求中创建、适配和维护工具的能力缺乏有效评估。现有基准多依赖预定义规范,限制了可扩展性与自主进化。本文提出诊断性基准Tool-Genesis,旨在从接口合规性、功能正确性和下游效用等多维度量化智能体能力。该基准评估智能体能否仅从抽象需求(无预设规范)构建任务相关工具并解决实际问题。研究发现,即使最先进的模型也难以在单次尝试中生成精确的工具接口或可执行逻辑,这些微小初始缺陷会在流程中被放大,导致下游指标急剧下降。该基准旨在引导未来研究,训练模型合成能更好应对现实挑战的持久性通用工具。
| 🎯6 | 95% |
基于分层LLM的多智能体框架及其提示优化用于多机器人任务规划
Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning
为解决多机器人任务规划中自然语言指令分解的难题,本文提出一种结合分层多智能体LLM与提示优化的规划器。上层分解任务并分配给下层智能体,下层生成PDDL问题并由经典规划器求解。规划失败时,系统采用文本梯度更新优化各智能体的提示。此外,同层智能体间共享元提示以实现高效优化。在MAT-THOR基准测试中,该规划器在复合、复杂和模糊任务上的成功率分别达到0.95、0.84和0.60,优于之前的SOTA方法。
| 💎7 | 95% |
迈向个性化LLM驱动的智能体:基础、评估与未来方向
Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions
随着LLM智能体在长时交互中愈发依赖对个体用户的适应与跨时间连续性,个性化LLM智能体应运而生。本综述围绕个性化智能体的四个相互依赖组件——画像建模、记忆、规划与动作执行——对文献进行能力导向的梳理,分析了用户信号的表示、传播与利用方式,并总结了跨组件交互与设计权衡。文章进一步审视了针对个性化智能体的评估指标与基准,概述了从通用辅助到专业领域的应用场景,并为研究与部署的未来方向绘制了路线图,旨在推动构建更用户对齐、自适应、鲁棒且可部署的智能体系统。
| 🚀8 | 95% |
SignVLA:一种用于实时手语引导机器人操作的无语标视觉-语言-动作框架
SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation
本文提出了首个手语驱动的视觉-语言-动作(VLA)框架,用于直观且包容的人机交互。与依赖语标注释作为中间监督的传统方法不同,本系统采用无语标范式,直接将视觉手语手势映射为语义指令,降低了标注成本并避免了语标表示的信息损失。研究聚焦于实时字母级指拼交互界面,为机器人控制提供了可靠、低延迟的通信通道。通过几何归一化、时间平滑和词汇精炼,该框架将连续手势流转化为连贯的语言指令。实验结果表明,该系统能有效将手语指令转化为精确的机器人动作,展现了其在推进可访问、可扩展的多模态具身智能方面的潜力。
| 🧠9 | 95% |
释放扩散模型在端到端自动驾驶中的潜力
Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving
扩散模型在机器人决策任务中日益流行,但其在自动驾驶(AD)中的应用与评估仍局限于仿真或实验室环境。本研究基于海量实车数据与道路测试,系统性地探索了扩散模型作为端到端自动驾驶(E2E AD)规划器的潜力。通过全面且受控的研究,我们揭示了影响E2E规划性能的关键因素,包括扩散损失空间、轨迹表示与数据规模。此外,我们提出了一种有效的强化学习后训练策略以进一步提升规划器的安全性。由此产生的超扩散规划器(HDP)在实车平台上进行了部署,在6个城市驾驶场景和200公里真实世界测试中,性能比基线模型提升了10倍,证明了扩散模型经恰当设计与训练后,可成为复杂真实世界自动驾驶任务中有效且可扩展的E2E规划器。
| ⚡10 | 95% |
感知型人形机器人跑酷:通过运动匹配链接动态人体技能
Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching
本文提出感知型人形机器人跑酷(PHP),一个模块化框架,旨在解决人形机器人执行复杂环境中动态、长时程、视觉引导跑酷的挑战。该方法首先利用运动匹配(在特征空间中进行最近邻搜索),将重定向的原子化人体技能组合成长时程运动轨迹,实现了复杂技能链的灵活组合与平滑过渡,同时保持了动态人体动作的优雅与流畅性。接着,我们为这些组合动作训练运动跟踪强化学习(RL)专家策略,并使用DAgger与RL相结合的方法,将其蒸馏成一个基于深度感知的多技能学生策略。该框架结合感知与技能组合,实现了自主、情境感知的决策:仅使用机载深度传感和离散的2D速度指令,机器人即可根据障碍物的几何形状和高度,自主选择并执行跨越、攀爬、支撑跳跃或翻滚等动作。我们在Unitree G1人形机器人上进行了大量真实世界实验验证,成功展示了攀爬高达1.25米(机器人身高的96%)障碍物,以及长时程多障碍物穿越并实时适应障碍物扰动的能力。
| 🌟11 | 95% |
MARS:具备反思搜索能力的模块化智能体,用于自动化AI研究
MARS: Modular Agent with Reflective Search for Automated AI Research
自动化AI研究因其计算成本高昂(如模型训练)和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此,我们提出了MARS(具备反思搜索能力的模块化智能体),一个为自主AI研究优化的框架。其三大支柱为:(1)通过成本约束的蒙特卡洛树搜索(MCTS)进行预算感知规划,明确平衡性能与执行开销;(2)模块化构建,采用“设计-分解-实现”流程管理复杂研究代码库;(3)比较性反思记忆,通过分析解决方案差异来提炼高价值见解,解决信用分配问题。MARS在可比设置下,于MLE-Bench上达到了开源框架中的最先进性能,并与全球排行榜的顶级方法保持竞争力。此外,系统展现出定性的“顿悟”时刻,63%的有效经验教训源于跨搜索路径的迁移,证明智能体能有效泛化见解。
| 🔎12 | 95% |
大语言模型的智能体技能:架构、获取、安全与未来路径
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包,支持动态能力扩展而无需重新训练。我们从四个维度组织该领域:(1)架构基础,涵盖技能规范、渐进式上下文加载及其与模型上下文协议(MCP)的互补;(2)技能获取,包括基于技能库的强化学习、自主技能发现和组合式技能合成;(3)规模化部署,涉及计算机使用智能体(CUA)栈、GUI grounding进展及OSWorld等基准;(4)安全,分析指出26.1%的社区贡献技能存在漏洞,并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后,我们提出了实现可信、自改进技能生态系统的研究议程。
| 📊13 | 95% |
AIRS-Bench:前沿AI科研智能体任务套件
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
为加速LLM智能体在科学研究中的应用,本文提出了AIRS-Bench(AI科研基准),包含20个源自前沿机器学习论文的任务,涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期(包括想法生成、实验分析和迭代优化)中的能力,且不提供基线代码。基线测试表明,智能体在4项任务中超越人类最佳水平,但在其余16项中未能达到,表明该基准远未饱和,有巨大改进空间。所有任务定义和评估代码均已开源。
| 🎓14 | 95% |
迈向自主O-RAN:面向实时网络控制与管理的多尺度智能体AI框架
Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management
针对开放无线接入网(O-RAN)因组件解耦和开放接口带来的操作复杂性挑战,本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时(Non-RT)、近实时(Near-RT)和实时(RT)控制环路的协调层次:Non-RT RIC中的LLM智能体将运营商意图转化为策略;Near-RT RIC中的小型语言模型(SLM)智能体执行低延迟优化;分布式单元附近的无线物理层基础模型(WPFM)智能体提供快速推理。通过概念验证,该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。
| 🏆15 | 95% |
MAS-on-the-Fly:测试时基于LLM的多智能体系统动态适配
MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time
针对现有基于大语言模型(LLM)的多智能体系统(MAS)缺乏部署后动态适应性的问题,本文提出MASFly框架。该框架包含两个核心机制:一是基于检索增强的标准作业程序(SOP)实例化,利用成功协作模式库为新查询组装定制化MAS;二是经验引导的监督机制,由Watcher智能体参照个性化经验池监控行为并提供实时干预。在TravelPlanner等基准测试中,MASFly取得了最先进的性能(成功率61.7%),并展现出强大的任务适应性和鲁棒性。
| 💻16 | 95% |
WirelessAgent++:无线网络自动化智能体工作流设计与基准测试
WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks
将LLM集成到无线网络引发了构建自主AI智能体的兴趣,但现有方法依赖手动设计的提示和静态工作流。本文提出WirelessAgent++框架,将工作流视为模块化算子组成的可执行代码,将智能体设计转化为程序搜索问题,并用领域适应的蒙特卡洛树搜索算法求解。同时建立WirelessBench基准套件。实验表明,该框架能自主发现更优工作流,在三个子任务上分别达到78.37%、90.95%和97.07%的测试分数,每次搜索成本低于5美元,性能优于现有提示基线和通用工作流优化器。
| 🔗17 | 95% |
SPARC:通过注意力机器人通信进行空间感知的路径规划
SPARC: Spatial-Aware Path Planning via Attentive Robot Communication
针对去中心化多机器人路径规划(MRPP)中现有通信方法忽视空间邻近性的问题,本文提出关系增强多头注意力(RMHA)机制。该机制将曼哈顿距离显式嵌入注意力权重计算,使机器人能动态优先处理空间相关邻居的信息。结合距离约束注意力掩码和GRU门控消息融合,RMHA与MAPPO集成进行端到端训练。在从8个训练机器人零样本泛化到128个测试机器人的任务中,其在30%障碍物密度下的成功率约75%,优于最佳基线超过25个百分点。
| 📈18 | 95% |
学习面向杂乱环境中顺序操作的对象中心空间推理
Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments
为解决机器人在杂乱环境中操作的数据效率与模块化问题,本文提出Unveiler框架,将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器(SRE),能顺序识别并决策移除关键障碍物,再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效,在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线,仿真成功率最高达97.6%,并能零样本迁移到真实场景。
| 🛠️19 | 95% |
CUDA Agent:面向高性能CUDA内核生成的大规模智能体强化学习系统
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
针对LLM在CUDA内核优化中表现不及编译器的问题,本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法,系统性地提升模型的内核优化能力。实验表明,其在KernelBench基准上全面超越torch.compile,并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。
| ✨20 | 95% |
迈向智能体赋能的软件生态系统
Toward an Agentic Infused Software Ecosystem
为充分发挥AI智能体在软件开发中的潜力,需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”(AISE),其基于三大支柱:首先是AI智能体本身,其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务;其次是生态基础设施,旨在支持智能体间的协作与集成;最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径,旨在推动软件开发向更自主、协同的方向演进。
数据来源:arXiv由 智能助手@AIIA Lab 生成

夜雨聆风
