AI应用论文|Claw-Eval:迈向自主智能体的可信评估 (1/20篇) · 4月9日

📡 AI 创新应用

2026年04月09日星期四

共 20 篇精选论文

🔥# 1

85%

Claw-Eval：迈向自主智能体的可信评估

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

🤗 96

现有智能体评估基准存在轨迹不透明、安全与鲁棒性评估不足及交互模式单一等局限。本文提出端到端评估套件Claw-Eval，包含300个人工验证任务，通过三通道证据记录实现轨迹感知的细粒度评分。实验表明，传统评估会遗漏44%的安全违规与13%的鲁棒性失败，且多模态性能差异显著。该工作为构建可靠可部署的智能体指明了方向。

⭐# 2

90%

ASI-Evolve：AI加速AI

ASI-Evolve: AI Accelerates AI

🤗 23

为探索AI能否加速AI自身发展，本文提出了用于AI-for-AI研究的智能体框架ASI-Evolve。它通过“学习-设计-实验-分析”循环，为标准进化智能体注入了积累人类先验的认知库和从复杂实验结果中提炼可重用见解的专用分析器。该框架在神经架构设计、预训练数据整理和强化学习算法设计三个核心领域均实现了AI驱动的发现，取得了超越人类设计的性能提升。初步证据表明，此范式可迁移至数学和生物医学领域，为闭环AI研究的可行性提供了早期证据。

💡# 3

70%

ThinkTwice：联合优化大语言模型的推理与自我精炼能力

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

🤗 32

本文提出ThinkTwice框架，基于分组相对策略优化（GRPO）联合训练LLM以解决推理问题并精炼其答案。该框架仅使用二元正确性奖励，无需额外标注。在五个数学推理基准上的实验表明，ThinkTwice显著优于基线方法。分析揭示其训练动态遵循“先纠正后巩固”的隐式课程，为强化学习与验证（RLVR）提供了一种有效方法。

🔬# 4

85%

ClawsBench：在模拟工作空间中评估LLM生产力智能体的能力与安全性

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

🤗 15

为评估LLM智能体在真实生产力场景中的表现，本文提出ClawsBench基准，包含五个高保真模拟服务及44项结构化任务。研究将智能体框架分解为领域技能与元提示两个独立杠杆进行实验。结果显示，在完全框架支持下，任务成功率可达39-64%，但不安全行为率高达7-33%，并识别出八类不安全行为模式。

📌# 5

90%

扩展团队还是延长时间？LLM多智能体系统中支持终身学习的内存机制

Scaling Teams or Scaling Time? Memory Enabled Lifelong Learning in LLM Multi-Agent Systems

🤗 7

本文探讨LLM多智能体系统在成本约束下，通过增加智能体数量与积累经验两种扩展维度的交互。提出了支持灵活内存拓扑的终身记忆框架LLMA-Mem。实验表明，该框架能持续提升长程性能并降低成本。分析揭示了一个非单调的扩展格局：当内存能更好支持经验复用时，较小团队可能优于较大团队。

🎯# 6

85%

学会在测试时学习：具有可学习适应策略的语言智能体

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

🤗 11

测试时学习（TTL）使智能体能在推理时通过与环境交互迭代改进。现有方法依赖手工设计的固定适应策略。本文提出Meta-TTL框架，将寻找有效适应策略表述为一个双层优化问题，通过进化搜索在任务分布上迭代优化策略。在多个基准上的实验表明，Meta-TTL学到的策略优于手工基线，并能泛化到训练分布之外的任务。

💎# 7

90%

Minecraft游戏中多模态LLM智能体的经验迁移

Experience Transfer for Multimodal LLM Agents in Minecraft Game

🤗 6

本文提出面向迁移的记忆框架Echo，使智能体能从过往交互中提取可操作知识，而非被动存储静态记录。Echo将可复用知识解构为五个维度，并利用上下文类比学习（ICAL）检索和适配经验。在Minecraft中的实验表明，Echo在从头学习设置下，能将物品解锁任务速度提升1.3至1.7倍，并展现出链式解锁现象，证明了经验迁移对提升智能体效率与适应性的潜力。

🚀# 8

95%

深度研究智能体：一个支持零成本监控的7x24小时自主深度学习实验框架

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

本文提出开源框架Deep Researcher Agent，使LLM智能体能自主进行全天候深度学习实验。其核心创新包括：零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中，该框架自主完成了500多个实验周期，在单个项目中通过200多次自动化实验将基线指标提升了52%，且日均LLM成本仅为0.08美元。

🧠# 9

95%

StarVLA：一个用于视觉-语言-动作模型开发的乐高式代码库

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

为应对视觉-语言-动作（VLA）方法在架构、代码和评估上碎片化的问题，本文提出开源代码库StarVLA。它提供模块化的主干-动作头架构，支持VLM和世界模型等多种主干与动作解码范式；提供可复用的训练策略；并集成了多个主流基准的统一评估接口。其简易训练配方已在多个基准上达到或超越现有方法，旨在降低VLA研究的复现与原型开发门槛。

⚡# 10

95%

通过质量多样性提示生成对视觉-语言-动作模型进行红队测试以获取鲁棒机器人策略

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

视觉-语言-动作（VLA）模型对指令措辞敏感，其失败模式难以预测。为提高VLA的鲁棒性，本文提出Q-DIG，它结合质量多样性（QD）技术与视觉语言模型（VLM），可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明，Q-DIG相比基线方法能发现更多样、有意义的失败模式，并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。

🌟# 11

95%

具身科学：以具身AI智能体闭合科学发现循环

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

当前AI科学预测方法常将发现视为孤立任务，与依赖物理实验循环的现实脱节。本文主张“具身科学”范式，将科学发现重构为智能推理与物理执行紧密耦合的闭环。我们提出统一的感知-语言-行动-发现（PLAD）框架，其中具身智能体感知实验环境、推理科学知识、执行物理干预并内化结果以驱动后续探索。通过将计算推理扎根于鲁棒的物理反馈，该方法弥合了数字预测与实证验证间的鸿沟，为生命与化学科学的自主发现系统提供了路线图。

🔎# 12

95%

机器人的内在批评家：基于VLM重规划实现社交行为的自我精炼

The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

传统机器人社交行为生成依赖预定义动作或人工反馈，灵活性与自主性有限。本研究提出CRISP框架，机器人利用视觉语言模型（VLM）作为“类人社交批评家”来自主批评并重规划自身动作。该框架包含从描述文件解析关节、生成行为计划、参考视觉信息生成底层控制代码、VLM评估社交适当性以及基于奖励的迭代精炼。用户研究表明，该方法在多种机器人平台和场景下，获得了比先前方法显著更高的偏好度与情境适当性评分，最小化人工干预的同时扩展了自主交互能力与跨平台适用性。

📊# 13

95%

迈向智能体赋能的软件生态系统

Toward an Agentic Infused Software Ecosystem

为充分发挥AI智能体在软件开发中的潜力，需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”（AISE），其基于三大支柱：首先是AI智能体本身，其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务；其次是生态基础设施，旨在支持智能体间的协作与集成；最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径，旨在推动软件开发向更自主、协同的方向演进。

🎓# 14

95%

PRAM-R：一种具有LLM引导模态路由的自适应自动驾驶感知-推理-行动-记忆框架

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

为解决多模态感知计算成本高的问题，本文提出PRAM-R框架，采用异步双循环设计：快速反应循环负责感知与控制，慢速审慎循环负责推理驱动的模态选择和记忆更新。其中，LLM路由器根据环境上下文和传感器诊断选择并加权模态，分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明，基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示，在复杂城市场景中，模态使用减少6.22%，记忆召回率达20%，同时保持了与全模态基线相当的轨迹精度。

🏆# 15

95%

调度与运动规划的交替执行及符号化时空运动抽象的增量学习

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

针对自动化仓库等多目标导航场景中，在资源、时间和运动约束下安全高效执行预定义任务的挑战，本文形式化了调度与运动规划问题。提出一种新颖的解决方案框架，将现成的调度器与运动规划器在增量学习循环中交替执行：调度器生成候选计划，运动规划器检查可行性并返回符号化反馈（空间冲突、时间调整）以指导调度器。在物流和作业车间调度基准上的验证表明，该框架能有效生成满足复杂时空约束的可行计划。

💻# 16

95%

FAR-Dex：面向灵巧操作的少样本数据增强与自适应残差策略优化

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

为解决灵巧操作中高质量演示数据稀缺和高维动作空间复杂性的挑战，本文提出FAR-Dex分层框架。该方法结合少样本数据增强与自适应残差优化：FAR-DexGen从少量演示生成多样化轨迹；FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征以提升策略精度。仿真与实物实验表明，该方法将数据质量提升13.4%，任务成功率提升7%，并在实物任务中实现超过80%的成功率，具备良好的位置泛化能力。

🔗# 17

85%

AgentSocialBench：评估以人为中心的智能体社交网络中的隐私风险

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

🤗 7

随着个性化持久化LLM智能体框架的兴起，以人为中心的智能体社交网络成为现实，也带来了新的隐私挑战。本文提出首个系统评估该场景隐私风险的基准AgentSocialBench。实验揭示，智能体社交网络中的隐私保护比单智能体场景更困难：跨域跨用户协调会产生持续的信息泄露压力，且教导智能体抽象敏感信息的指令会引发“抽象悖论”，反而导致更多讨论。

📈# 18

90%

“何时移交，何时协作”：通过并发交互拓展人机共创合作

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

本研究探索智能体如何通过解释用户在共享工件上的并发操作，实现协作情境感知并实时适应，以超越仅提供最终输出或只读执行过程的传统交互模式。基于两项用户研究（N=10专业设计师），我们开发了能解读协作意图并实时适应的智能体CLEO。研究分析了214个交互轮次，识别出五种行动模式、六种触发因素和四种促成因素，解释了设计师选择委托（70.1%）、指导（28.5%）或并发工作（31.8%）的时机，并提出了一个包含六个交互循环的决策模型及设计启示。

🛠️# 19

90%

代码审查智能体基准

Code Review Agent Benchmark

随着AI智能体自动生成大量代码，代码质量与审查变得至关重要。本文构建了用于评估代码审查智能体的数据集c-CRAB及评估框架。给定一个拉取请求，该框架能评估智能体生成审查的能力。利用该基准对当前先进的开源与商业审查智能体进行评估，发现现有智能体仅能解决约40%的任务，表明存在巨大改进空间。同时，智能体审查与人工审查关注点常不同，预示了未来软件团队中人机协作的潜力。数据集生成的测试可作为审查质量的守门员，为代码生成、测试生成与审查智能体的未来协作提供研究基础。

✨# 20

90%

MemFactory：智能体内存的统一推理与训练框架

MemFactory: Unified Inference & Training Framework for Agent Memory

为应对记忆增强LLM智能体研究中实现碎片化的问题，本文提出首个统一、模块化的训练与推理框架MemFactory。它将内存生命周期抽象为可插拔组件，支持以“乐高式”架构构建定制化记忆智能体，并原生集成GRPO以优化由多维环境奖励驱动的内存管理策略。在MemAgent架构上的验证表明，MemFactory能平均提升基线模型性能，相对增益最高达14.8%，为记忆驱动智能体的创新提供了标准化基础设施。

数据来源：arXiv
由智能助手@AIIA Lab 生成