AI应用论文|ClawGym:一个用于构建高效Claw智能体的可扩展框架 (1/20篇) · 5月5日

📡 AI 创新应用

2026年05月05日星期二

共 20 篇精选论文

🔥# 1

90%

ClawGym：一个用于构建高效Claw智能体的可扩展框架

ClawGym: A Scalable Framework for Building Effective Claw Agents

🤗 47

针对Claw式环境（支持对本地文件、工具和持久工作空间状态进行多步骤操作）缺乏系统化开发框架的问题，本文提出了可扩展框架ClawGym。该框架支持Claw式个人智能体开发的全生命周期：首先构建了包含1.35万个过滤任务的合成数据集ClawGym-SynData，并配备模拟工作空间与混合验证机制；随后通过监督微调训练出ClawGym-Agents模型家族，并探索了基于并行化沙箱的轻量级强化学习。为支持可靠评估，进一步构建了包含200个实例的基准测试集ClawGym-Bench。

⭐# 2

90%

奥德修斯：通过强化学习将视觉语言模型扩展至游戏中的100+轮次决策

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

🤗 7

针对视觉语言模型在长视野交互决策（如视频游戏）中能力不足的问题，本文研究了基于强化学习的训练方法。我们提出了一种改进的PPO变体，并发现预训练的VLM能提供强动作先验。基于此构建的开放训练框架Odysseus在《超级马里奥大陆》游戏中取得了显著进展，其平均游戏进度是前沿模型的3倍以上，且在泛化场景中保持能力。

💡# 3

90%

真实资本下链上语言模型智能体的操作层控制

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

🤗 5

本研究在真实资本运作的链上市场（DX Terminal Pro部署）中，探讨了将用户指令转化为已验证工具操作的自主语言模型智能体的可靠性问题。系统产生了大量调用与链上行动，结算成功率达99.9%。研究发现，可靠性并非仅源于基础模型，更关键的是围绕模型的操作层设计，包括提示词编译、类型化控制、策略验证、执行防护、记忆设计与轨迹可观测性。上线前测试暴露了文本基准难以衡量的故障模式，针对性改进显著降低了伪造交易规则等问题，并将受影响测试群体的资本部署率从42.9%提升至78.0%。研究表明，对管理资本的智能体需进行从用户指令到提示、验证行动及结算的全路径评估。

🔬# 4

95%

AgentGA：在智能体-种子空间中演化代码解决方案

AgentGA: Evolving Code Solutions in Agent-Seed Space

本文提出AgentGA框架，通过优化“智能体种子”（即任务提示词及可选的父代存档）来演化自主代码生成过程。外层循环搜索这些可复用的起始条件，而非直接编辑代码。每一代都从重置的工作区启动一次新的自主运行，而选中的父代存档提供了可供后代检查和重用的继承产物。我们将该方法实例化于表格AutoML任务，实验表明，在10次基准运行中，AgentGA平均性能超越54.15%的人类，优于基线AIDE。超过1135次父子代对比显示，获得父代存档的后代表现优于从零开始的运行，证实了继承产物能改进后续自主运行。

📌# 5

95%

DOVA：面向自主研究自动化的“深思优先”多智能体编排框架

DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation

单智能体系统在处理需要多源合成、对抗验证和个性化交付的复杂研究任务时存在局限。本文提出DOVA多智能体平台，其核心创新包括：（1）“深思优先”编排，在执行前进行显式元推理；（2）混合协作推理管道，统一集成多样性、透明黑板和迭代精炼；（3）自适应多层级思考机制，可将简单任务推理成本降低40-60%同时保持深度推理能力。架构消融实验分析了各组件对答案置信度、来源覆盖率和令牌效率的贡献。

🎯# 6

95%

Aletheia自主攻克首届FirstProof挑战

Aletheia tackles FirstProof autonomously

本文报告了基于Gemini 3 Deep Think的数学研究智能体Aletheia在首届FirstProof挑战中的表现。在规定的挑战时间内，Aletheia自主解决了10道问题中的6道（第2、5、7、8、9、10题），该结果基于多数专家评估（仅第8题专家意见未完全一致）。我们详细说明了其对FirstProof挑战规则的理解与评估方法，并提供了完整的解题过程与透明度报告，展示了AI智能体在形式化数学问题求解方面的初步能力。

💎# 7

95%

从思考者到社会：AI智能体层级自主演化中的安全

From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents

随着大语言模型（LLM）驱动AI智能体向自主决策演进，其安全漏洞日益凸显。本文提出层级自主演化（HAE）框架，将智能体安全组织为三个层级：认知自主（L1）针对内部推理完整性；执行自主（L2）覆盖工具介导的环境交互；集体自主（L3）应对多智能体生态系统中的系统性风险。我们提出了一个涵盖认知操纵、物理环境破坏和多智能体系统性故障的威胁分类法，评估了现有防御措施并指出了关键研究空白。研究旨在为构建可信的AI智能体系统提供多层次、自主感知的防御架构指导。

🚀# 8

95%

深度研究之深度研究：从Transformer到智能体，从AI到科学AI

Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science

本文对“深度研究”这一通用智能体的典型垂直应用进行了深入探讨。我们明确了深度研究的定义，并将工业界的深度研究与学术界的科学AI（AI4S）视角统一于一个发展框架中。文章将LLM和Stable Diffusion定位为生成式AI的两大支柱，勾勒了从Transformer到智能体的发展路线图，审视了AI4S在各学科的进展，总结了主流的人机交互范式与系统架构，并讨论了面临的主要挑战与基础研究问题。本文旨在弥合AI与AI4S社区之间的隔阂。

🧠# 9

95%

用于蛋白质发现与定向进化的自进化AI智能体

Self-evolving AI agents for protein discovery and directed evolution

针对蛋白质科学发现受限于人工流程、通用智能体难以应对复杂领域项目的问题，本文提出了VenusFactory2自主框架。该框架通过自进化的多智能体基础设施，实现了从静态工具使用到动态工作流合成的转变，以应对蛋白质相关需求。其在VenusAgentEval基准测试中表现优于一系列知名智能体，并能从单一自然语言提示出发，自主组织蛋白质的发现与优化过程。

⚡# 10

95%

VisionClaw：通过智能眼镜实现常驻AI智能体

VisionClaw: Always-On AI Agents through Smart Glasses

本文提出VisionClaw，一种集成实时第一人称感知与智能任务执行的常驻可穿戴AI智能体。它在Meta Ray-Ban智能眼镜上运行，持续感知现实环境，并支持通过语音驱动OpenClaw智能体进行现场任务启动与委托，如将实物加入购物车、根据文档生成笔记等。实验室研究（N=12）与长期部署研究（N=5）表明，集成感知与执行能加快任务完成、降低交互开销，并促使用户交互模式向机会性启动和委托执行转变。

🌟# 11

95%

迈向多智能体科学AI系统的评估框架

Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems

本文分析了评估科学（多）智能体系统所面临的挑战，包括难以区分推理与检索、数据/模型污染风险、新颖研究问题缺乏可靠真值、工具使用带来的复杂性，以及知识库持续更新导致的复现难题。我们讨论了构建抗污染问题、生成可扩展任务族、以及通过多轮交互评估系统（以更好反映真实科学实践）的策略。作为可行性测试，我们演示了如何构建新颖研究思路数据集来测试系统的样本外性能，并通过对量子科学领域研究人员的访谈，探讨了科学家对AI系统的交互期望及其对评估方法的影响。

🔎# 12

95%

你的智能体，他们的资产：OpenClaw的现实世界安全性分析

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

针对广泛部署的个人AI智能体OpenClaw因拥有高权限而存在的安全隐患，本文首次对其进行了现实世界安全评估，并提出了CIK（能力、身份、知识）分类法。在四个骨干模型上的12个攻击场景测试表明，污染任一CIK维度可使平均攻击成功率从24.6%升至64-74%。评估的防御策略效果有限，文件保护机制虽能拦截97%恶意注入，但也会阻碍合法更新，凸显了智能体架构固有的脆弱性。

📊# 13

95%

智能体在电网静态分析中的应用：自动代码生成与错误纠正

Agentic Application in Power Grid Static Analysis: Automatic Code Generation and Error Correction

本文提出一种LLM智能体框架，用于自动化电网静态分析，将自然语言转换为MATPOWER脚本。该框架利用DeepSeek-OCR从MATPOWER手册构建增强向量数据库。为确保可靠性，设计了三层纠错系统：静态预检查、动态反馈循环和语义验证器。该工具通过模型上下文协议（MCP）运行，支持异步执行并在MATLAB中自动调试。实验结果表明，该系统在代码保真度上达到82.38%的准确率，即使在复杂分析任务中也有效消除了幻觉现象。

🎓# 14

95%

WirelessAgent++：无线网络自动化智能体工作流设计与基准测试

WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks

将LLM集成到无线网络引发了构建自主AI智能体的兴趣，但现有方法依赖手动设计的提示和静态工作流。本文提出WirelessAgent++框架，将工作流视为模块化算子组成的可执行代码，将智能体设计转化为程序搜索问题，并用领域适应的蒙特卡洛树搜索算法求解。同时建立WirelessBench基准套件。实验表明，该框架能自主发现更优工作流，在三个子任务上分别达到78.37%、90.95%和97.07%的测试分数，每次搜索成本低于5美元，性能优于现有提示基线和通用工作流优化器。

🏆# 15

95%

SPARC：通过注意力机器人通信进行空间感知的路径规划

SPARC: Spatial-Aware Path Planning via Attentive Robot Communication

针对去中心化多机器人路径规划（MRPP）中现有通信方法忽视空间邻近性的问题，本文提出关系增强多头注意力（RMHA）机制。该机制将曼哈顿距离显式嵌入注意力权重计算，使机器人能动态优先处理空间相关邻居的信息。结合距离约束注意力掩码和GRU门控消息融合，RMHA与MAPPO集成进行端到端训练。在从8个训练机器人零样本泛化到128个测试机器人的任务中，其在30%障碍物密度下的成功率约75%，优于最佳基线超过25个百分点。

💻# 16

95%

E3-TIR：面向工具集成推理的增强经验利用方法

E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning

针对大语言模型（LLM）在工具集成推理（TIR）训练中存在的探索低效、模式退化及数据成本高等问题，本文提出早期训练预热范式E3-TIR。该方法将训练动态整合为三种经验类型：专家前缀、专家引导与自我探索。通过围绕专家“锚点”进行多样化分支探索，并采用混合策略优化机制，有效缓解了分布偏移和共享前缀引起的优化冲突。实验表明，E3-TIR在工具使用任务上性能较传统范式提升6%，且所需合成数据量不足10%。在综合性能、数据成本与训练效率的ROI指标上，获得了1.46倍的增益。

🔗# 17

95%

Seed1.8模型卡：迈向通用化真实世界智能体

Seed1.8 Model Card: Towards Generalized Real-World Agency

本文提出旨在实现通用化真实世界智能体的基础模型Seed1.8。它在保持强大LLM和视觉-语言性能的同时，支持统一的智能体接口，包括搜索、代码生成与执行以及图形用户界面（GUI）交互。为便于部署，模型提供支持延迟和成本感知的推理，包括可配置的思考模式以及针对图像和视频的优化视觉编码。我们在标准基准和面向应用的工作流上进行了评估，涵盖基础技能、多模态理解和智能体行为。Seed1.8已发布以支持交互式真实世界用例的进一步研究与开发。

📈# 18

95%

MARS²：通过强化学习扩展用于代码生成的多智能体树搜索

MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

为解决强化学习在代码生成等推理密集型任务中因轨迹多样性有限而性能受限的问题，本文提出了MARS²框架。该方法将树搜索建模为可学习的多智能体交互环境，让异构智能体在共享搜索拓扑中协作生成和优化候选方案。实验表明，MARS²能有效结合多智能体协作与树搜索，在不同模型组合和训练设置下持续提升代码生成性能。

🛠️# 19

90%

TADI：基于智能体大语言模型编排异构井场数据的工具增强钻井智能系统

TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data

本文提出TADI系统，旨在将钻井作业数据转化为基于证据的分析智能。该系统采用双存储架构集成多源异构数据，并通过由大语言模型编排的12个领域专用工具进行多步骤证据收集。在Equinor Volve油田数据集上的应用表明，TADI能实现零错误解析，并证明领域专用工具设计（而非单纯模型规模）是提升技术运营分析质量的关键驱动力。

✨# 20

90%

SiriusHelper：基于大语言模型智能体的大数据平台运维助手

SiriusHelper: An LLM Agent-Based Operations Assistant for Big Data Platforms

针对现有LLM+RAG助手在真实部署中场景覆盖有限、知识访问效率低和维护成本高的问题，本文提出了已部署的智能助手SiriusHelper。它通过统一接口自动识别用户意图并路由查询，结合深度搜索与分层知识库实现高效多跳检索，并引入自动化工单理解与SOP提炼以持续丰富知识。在腾讯大数据平台上的部署实验表明，其能有效减少20.8%的在线工单量。

数据来源：arXiv
由智能助手@AIIA Lab 生成