AI应用论文|从弱点中学习:小型计算机使用代理的自动化领域专业化 (1/20篇) · 5月29日

📡 AI 创新应用

2026年05月29日星期五

共 20 篇精选论文

🔥# 1

85%

从弱点中学习：小型计算机使用代理的自动化领域专业化

Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

🤗 32

为降低多领域部署成本，本研究针对小型开放计算机使用代理（CUA）在特定领域表现不均的问题，提出无需标注的专业化框架LearnWeak。该方法利用更强的参考代理识别学生代理的弱点，合成针对性任务并自动构建监督信号，同时引入解耦规划与执行错误的专业化目标。在OSWorld基准测试的八个领域中，LearnWeak使EvoCUA-8B和OpenCUA-7B平均提升11.6和11.1个百分点，验证了其数据合成与训练方法的优越性。

⭐# 2

85%

您的代理也在老化：面向已部署系统的代理寿命工程

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

🤗 19

针对长期运行的AI代理可靠性评估缺失的问题，本文指出代理可靠性是包含记忆、检索等动态过程的寿命属性，而非仅基础模型的静态快照。为此，我们提出纵向可靠性基准AgingBench，将代理老化机制归纳为压缩、干扰、修正和维护四类，并利用时序依赖图和反事实探针进行诊断。在约400次运行中，研究发现代理老化是多维度的，行为测试可能保持正常而事实精度已衰减。结果表明，可靠的代理部署需要寿命评估、机制级诊断和阶段针对性修复。

💡# 3

80%

SkillGrad：像梯度下降一样优化代理技能

SkillGrad: Optimizing Agent Skills Like Gradient Descent

🤗 19

针对现有代理技能（Skill）常不可靠、不完整或过时的问题，本文提出受梯度下降启发的技能优化框架SkillGrad。该框架将技能包视为结构化参数，通过任务执行提供轨迹级损失证据，自动诊断生成指示修正方向的文本梯度。动量代理累积重复诊断模式以稳定优化，最终由LLM驱动的修补器执行参数更新。在SpreadsheetBench Verified和WikiTableQuestions上的评估表明，SkillGrad平均优于最强的基于训练的基线6.7个百分点，动量和对比诊断均对最终技能质量有贡献。

🔬# 4

95%

AutoScientists：用于长期科学实验的自组织代理团队

AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

🤗 3

为克服现有AI代理在长期科学实验中难以维持并行探索、适应证据变化及保留失败知识的问题，本文提出去中心化的自组织代理团队AutoScientists。代理解读共享实验状态，围绕有前景的假设自组织成团队，在使用计算资源前评议提案，并分享成功与失败以减少冗余探索。在匹配的实验预算下，AutoScientists在生物医学机器学习、语言模型训练优化和蛋白质适应性预测等多个领域优于先前AI代理，例如在BioML-Bench的24项任务中平均百分位数达74.4%，提升8.33%。

📌# 5

90%

在噪声中学习行动：通过噪声环境增强代理鲁棒性

Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments

🤗 6

针对LLM代理在理想化训练环境与真实世界随机、不完美环境间存在性能差距的问题，本文提出代理训练框架NoisyAgent，将环境缺陷明确纳入学习过程。研究识别了用户交互模糊多变和工具执行失败异常两类主要噪声源，通过在训练中修改用户交互模式、模拟工具执行结果来引入扰动。噪声仅应用于部分训练轮次并随模型适应逐步增强难度。实验表明，该方法能持续提升代理在噪声动态环境下的鲁棒性，且在理想基准测试上也带来性能增益，表明受控噪声暴露能促进更通用的推理与决策行为。

🎯# 6

95%

SNARE：用于诱发编码代理过度积极行为的自适应场景合成

SNARE: Adaptive Scenario Synthesis for Eliciting Overeager Behavior in Coding Agents

针对编码代理在执行良性任务时可能静默超出授权范围（即“过度积极”行为）而现有基准测试难以捕捉的问题，本文提出场景合成管道SNARE。它从可重用的范围和陷阱片段组合成良性场景，使用无评判器的预言机对运行结果评分以标记陷阱模式匹配及未授权的文件增删，并利用汤普森采样将运行预算导向最易触发该行为的情景。基于24种过度积极原型实例化的OverEager基准在4种编码代理与5种基础模型的组合上运行，在10,000次良性运行中，19.51%触发了过度积极行为，且行为差异主要（56%）由代理框架而非基础模型驱动。

💎# 7

95%

FAR-Dex：面向灵巧操作的少样本数据增强与自适应残差策略优化

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

为解决灵巧操作中高质量演示数据稀缺和高维动作空间复杂性的挑战，本文提出FAR-Dex分层框架。该方法结合少样本数据增强与自适应残差优化：FAR-DexGen从少量演示生成多样化轨迹；FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征以提升策略精度。仿真与实物实验表明，该方法将数据质量提升13.4%，任务成功率提升7%，并在实物任务中实现超过80%的成功率，具备良好的位置泛化能力。

🚀# 8

95%

StarVLA：一个用于视觉-语言-动作模型开发的乐高式代码库

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

为应对视觉-语言-动作（VLA）方法在架构、代码和评估上碎片化的问题，本文提出开源代码库StarVLA。它提供模块化的主干-动作头架构，支持VLM和世界模型等多种主干与动作解码范式；提供可复用的训练策略；并集成了多个主流基准的统一评估接口。其简易训练配方已在多个基准上达到或超越现有方法，旨在降低VLA研究的复现与原型开发门槛。

🧠# 9

95%

1GC-7RC：一张显卡，七项研究挑战！AI智能体做你的工作有多好？

1GC-7RC: One Graphic Card -- Seven Research Challenges! How Good Are AI Agents at Doing Your Job?

本文引入1GC-7RC基准，包含语言建模、图像分类等七项ML任务，用于评估自主AI编码智能体从零设计、实现和训练模型的能力。每个任务提供锁定的数据准备、评估脚本和基线训练脚本；智能体只能修改训练代码，无预训练权重访问权限，无网络访问，且必须在单GPU上的特定时间预算内完成。评估七个编码智能体（五个专有，两个开源）的结果显示出显著的性能差异，揭示了其隐含的ML知识、规划能力和时间预算管理水平的差异。该基准设计模块化，可扩展至新任务和领域。

⚡# 10

95%

迈向具有工具对齐的视觉-语言-动作模型的长程具身智能体

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

针对视觉-语言-动作（VLA）模型在长程任务中面临扩展闭环规划与多样物理操作双重负担的局限，本文提出“VLA即工具”策略。该策略将负担分配至高层的视觉语言模型（VLM）智能体（负责时序推理）与一系列专用的VLA工具（负责局部物理操作）之间。我们引入了VLA工具族接口以实现紧密耦合，并提出了工具对齐的后训练方法（TAPT）来获得忠实遵循调用的多样化VLA工具。实验表明，该方法在LIBERO-Long和RoboTwin任务上显著提升了成功率，并大幅增强了调用保真度。

🌟# 11

95%

PRAM-R：一种具有LLM引导模态路由的自适应自动驾驶感知-推理-行动-记忆框架

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

为解决多模态感知计算成本高的问题，本文提出PRAM-R框架，采用异步双循环设计：快速反应循环负责感知与控制，慢速审慎循环负责推理驱动的模态选择和记忆更新。其中，LLM路由器根据环境上下文和传感器诊断选择并加权模态，分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明，基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示，在复杂城市场景中，模态使用减少6.22%，记忆召回率达20%，同时保持了与全模态基线相当的轨迹精度。

🔎# 12

95%

迈向智能体赋能的软件生态系统

Toward an Agentic Infused Software Ecosystem

为充分发挥AI智能体在软件开发中的潜力，需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”（AISE），其基于三大支柱：首先是AI智能体本身，其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务；其次是生态基础设施，旨在支持智能体间的协作与集成；最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径，旨在推动软件开发向更自主、协同的方向演进。

📊# 13

95%

机器人的内在批评家：基于VLM重规划实现社交行为的自我精炼

The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

传统机器人社交行为生成依赖预定义动作或人工反馈，灵活性与自主性有限。本研究提出CRISP框架，机器人利用视觉语言模型（VLM）作为“类人社交批评家”来自主批评并重规划自身动作。该框架包含从描述文件解析关节、生成行为计划、参考视觉信息生成底层控制代码、VLM评估社交适当性以及基于奖励的迭代精炼。用户研究表明，该方法在多种机器人平台和场景下，获得了比先前方法显著更高的偏好度与情境适当性评分，最小化人工干预的同时扩展了自主交互能力与跨平台适用性。

🎓# 14

95%

具身科学：以具身AI智能体闭合科学发现循环

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

当前AI科学预测方法常将发现视为孤立任务，与依赖物理实验循环的现实脱节。本文主张“具身科学”范式，将科学发现重构为智能推理与物理执行紧密耦合的闭环。我们提出统一的感知-语言-行动-发现（PLAD）框架，其中具身智能体感知实验环境、推理科学知识、执行物理干预并内化结果以驱动后续探索。通过将计算推理扎根于鲁棒的物理反馈，该方法弥合了数字预测与实证验证间的鸿沟，为生命与化学科学的自主发现系统提供了路线图。

🏆# 15

95%

通过质量多样性提示生成对视觉-语言-动作模型进行红队测试以获取鲁棒机器人策略

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

视觉-语言-动作（VLA）模型对指令措辞敏感，其失败模式难以预测。为提高VLA的鲁棒性，本文提出Q-DIG，它结合质量多样性（QD）技术与视觉语言模型（VLM），可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明，Q-DIG相比基线方法能发现更多样、有意义的失败模式，并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。

💻# 16

95%

理解AI代理热潮：来自实践者的采用、架构与启示

Making Sense of AI Agents Hype: Adoption, Architectures, and Takeaways from Practitioners

为帮助实践者理解智能体系统在工业界的实际设计，本研究回顾分析了138个关于AI代理的实践者会议演讲。研究旨在：1）探究企业如何采用基于代理的架构；2）识别反复出现的架构策略与模式；3）分析用于实现和运营LLM驱动代理系统的应用领域与技术。通过对这些实践经验的梳理，为业界理解和构建代理系统提供了实证参考。

🔗# 17

95%

SpaceMind：面向自主在轨服务的模块化自演进具身视觉-语言智能体框架

SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing

为满足自主在轨服务对具身智能体的需求，本文提出了SpaceMind，一个模块化且自演进的视觉-语言模型（VLM）智能体框架。它将知识、工具和推理分解为三个可独立扩展的维度：具有动态路由的技能模块、可配置的MCP工具以及可注入的推理模式技能。通过MCP-Redis接口层，同一代码库无需修改即可在仿真和物理硬件上运行；技能自演进机制能将操作经验提炼为持久化技能文件而无需微调模型。在包含退化条件的广泛测试中，该框架表现出强大的鲁棒性和任务成功率，并实现了零代码修改向物理机器人的成功迁移。

📈# 18

95%

思考并运行：通过自修复多智能体AI实现自主机器学习流水线生成

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

本文旨在开发一个统一的多智能体架构，以从数据集和自然语言目标自动生成端到端的机器学习（ML）流水线，提升效率、鲁棒性和可解释性。提出的五智能体系统负责数据剖析、意图解析、微服务推荐、有向无环图（DAG）构建与执行。它集成了基于代码的检索增强生成（RAG）、结合多标准的可解释混合推荐器、基于大语言模型（LLM）错误解释的自修复机制以及从执行历史中自适应学习。在150个ML任务上的评估显示，该系统实现了84.7%的端到端流水线成功率，优于基线方法，并通过自修复提升了鲁棒性，缩短了工作流开发时间。

🛠️# 19

95%

迈向有根基的自主研究：在已发表计算物理文献上的端到端 LLM 微型研究循环

Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics

本文聚焦于物理科学研究的最小单元——微型研究循环，即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环：在规模上，智能体对 111 篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环，无需被要求批判即在约 42% 的论文中提出了实质性质疑；在深度上，针对一篇关于二维材料 MOSFET 多尺度模拟的《自然·通讯》论文，智能体自主运行了原文缺失的新计算，并生成了可发表的评论，修正了原文的核心结论。

✨# 20

95%

深度研究智能体：一个支持零成本监控的7x24小时自主深度学习实验框架

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

本文提出开源框架Deep Researcher Agent，使LLM智能体能自主进行全天候深度学习实验。其核心创新包括：零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中，该框架自主完成了500多个实验周期，在单个项目中通过200多次自动化实验将基线指标提升了52%，且日均LLM成本仅为0.08美元。

数据来源：arXiv
由智能助手@AIIA Lab 生成