ClawGym:面向 OpenClaw 的智能体数据合成、训练与评测一体化框架-夜雨聆风

ClawGym:面向 OpenClaw 的智能体数据合成、训练与评测一体化框架

作者 | 白飞、宋华彤、孙爽、成岱璇

机构 | 中国人民大学

论文信息

论文链接：https://arxiv.org/abs/2604.26904

相关数据、代码资源将发布于 https://github.com/ClawGym

引言

Personal agent 正在从“回答问题”走向“完成任务”。在类似OpenClaw的环境中，agent 不只是生成文本，而是需要直接面对用户工作区：读取文件、运行脚本、整理表格、修改文档、生成报告，并留下可以被检查的最终产物。

这类任务的关键不再是 agent 是否“说完成了”，而是文件是否被正确创建或修改、表格计算是否准确、脚本是否能运行、输出格式是否满足要求，以及多个文件之间的约束是否一致。这往往会带来一个核心问题：如何系统性地构建能在工作区中可靠执行任务的 Claw Agent？

为此，我们提出 ClawGym，一个集大规模数据合成、模型训练与可靠评测于一体的系统框架，打通了 Claw Agent 从任务构建、能力学习到性能诊断的完整链路。具体而言，ClawGym 包含三个核心组成部分：

ClawGym-SynData：首个面向 Claw agents 的大规模合成数据集，包含 13.5K 个可执行任务，结合用户画像驱动的任务意图与技能驱动的可执行操作，规模化生成多样且可验证的训练数据。
ClawGym-Agents：基于 OpenClaw 黑盒执行收集高质量轨迹，并通过监督微调训练得到一系列能力更强的 Claw agents，同时探索了带有沙盒并行机制的轻量级强化学习流程。
ClawGym-Bench：包含 200 个任务、覆盖六类场景的可靠评测基准，通过难度感知筛选和人类-大模型协同审查保证质量，用于诊断不同规模 Claw agents 的任务执行能力差异。

ClawGym-SynData

ClawGym-SynData 是整个框架的数据基础，也是首个面向 Claw agents 的大规模合成数据集，包含 13.5K 个可执行任务。

其构建流程包括四个环节：任务生成、资源准备、验证设计和质量评估。

在任务生成阶段，ClawGym 采用两条互补路线：

persona-driven top-down synthesis ：从用户画像、场景类别和原子操作出发，生成贴近真实需求的任务；
skill-grounded bottom-up synthesis ：从 OpenClaw skills 出发，通过技能标注、过滤和组合，构造更接近实际可执行能力边界的任务。

前者提供用户意图和场景多样性，后者提供工具与操作 grounding，二者结合使任务既真实又可执行。

为了让任务真正落到环境中，ClawGym 还为每个任务自动生成轻量级 mock workspace，包括 Markdown、JSON、CSV、YAML、配置文件、日志和原始记录等。这些资源围绕任务要求构造，提供执行和验证所需的字段、数值、约束和参考内容，使任务能够被真实执行、稳定复现并自动评估。

在验证设计上，ClawGym 采用 code-based verification + rubric-based verification 的混合机制。前者检查文件、schema、数值计算、过滤规则和输入输出一致性，后者评估报告清晰度、摘要忠实性、表达专业性和内容完整性。这样的设计既强调工作区产物的客观正确性，也覆盖了对内容质量与用户偏好的要求。

图1：ClawGym-SynData的合成pipeline

ClawGym-Agents

ClawGym-Agents 是框架中的模型训练部分。基于 ClawGym-SynData，我们通过 OpenClaw black-box rollout 收集真实交互轨迹，而不是重新实现一个简化 agent loop。

这样做是因为 OpenClaw 本身是高度封装的真实系统，内部上下文管理、工具调用和执行流程并不完全暴露。直接在 OpenClaw 中执行任务，可以更真实地保留 agent 在实际系统中的行为模式。

轨迹收集后，我们进行聚合、清洗和筛选：将分散的请求和响应恢复为完整多轮轨迹，去除 heartbeat、cron 等与任务无关的系统提示，并根据 verifier score 保留高质量轨迹。

最终筛选出的轨迹平均包含 13.00 轮交互、18.67K tokens、15.82 次工具调用和 3.25 种工具类型。这说明训练数据不是短回复，而是包含规划、文件检查、工具执行和反馈调整的多轮 agentic supervision。

随后，我们对 Qwen3 系列模型进行 multi-turn SFT，得到 ClawGym-4B、ClawGym-8B 和 ClawGym-30B-A3B。训练时对环境反馈进行 loss masking，使模型学习自身生成的推理、决策和工具调用，而不是模仿工具返回结果。

此外，ClawGym 还探索了 sandbox-parallel RL。每个任务在独立 sandbox 中运行，并直接使用 code verifier 提供 outcome reward。实验显示，无论从原始 Qwen3-4B-2507-Instruct 出发，还是从经过 SFT 的 ClawGym-30B-A3B 出发，RL 都能带来进一步提升。

ClawGym-Bench

ClawGym-Bench 是框架中的评测部分，由 200 个经过严格筛选的任务组成，用于评估 Claw Agent 在工作区任务中的执行能力。

相比训练数据，ClawGym-Bench 对任务质量和评测可靠性提出了更高要求。首先，它通过难度感知筛选，保留强模型能够完成、小模型不易完成，并且能够区分模型能力差异的任务。其次，每个候选任务都会经过“人类-大模型协同审查”：由前沿大模型对任务指令、输入资源和验证器进行诊断式检查，再由人类审查者完成最终确认。此外，ClawGym-Bench 还要求任务具备可验证的可解性，确保每个任务至少存在一条可以获得满分的完成路径。

在任务覆盖范围上，ClawGym-Bench 包含六类典型工作区场景：生产力与协作、系统与自动化、分析与推理、内容与领域支持、规划与知识管理、软件开发。这些类别覆盖办公协作、系统自动化、数据分析、内容生成、知识整理和代码开发等常见任务类型。

评测结果进一步表明，ClawGym-Bench 具有良好的稳定性，能够支持对不同 Claw Agent 进行可靠的能力比较，并揭示不同规模模型在工作区任务执行中的能力差距。

图2：ClawGym-Bench的任务类别分布

主要结果

数据有效性：ClawGym-SynData 显著提升模型表现

实验结果表明，ClawGym-SynData 能够稳定提升不同规模开源模型在 Claw-style 任务中的表现。经过训练后，ClawGym-4B、ClawGym-8B 和 ClawGym-30B-A3B 在 ClawGym-Bench 上分别达到 47.73、50.24 和 56.82，均超过对应的 Qwen 基座模型。值得注意的是，ClawGym-30B-A3B 还超过了规模更大的 Qwen3-235B-A23B，说明高质量的 agent 交互数据能够在一定程度上弥补模型规模不足。

基准区分度：不同模型呈现清晰能力差异

ClawGym-Bench 展现出良好的区分能力。不同模型的平均得分从 Qwen3-8B 的 35.02 到 Claude-4.7-Opus 的 77.81，形成清晰的能力梯度。同时，不同模型在不同任务类别上各有优势：Claude-4.7-Opus 整体平均分最高，GPT-5.4 在生产力与协作类任务上表现更好，Gemini-3-Flash 则在软件开发类任务上领先。这说明 ClawGym-Bench 不只提供总体分数，也能揭示模型在具体能力维度上的差异。

泛化能力：从合成任务迁移到外部基准

更重要的是，ClawGym-Agents 只使用 ClawGym-SynData 训练，却能在外部评测基准 PinchBench 上取得显著提升。其中，ClawGym-30B-A3B 在 PinchBench 上达到 86.00，表现具有很强竞争力。这说明模型并不是简单记住合成任务模式，而是学到了可迁移的工作区执行能力。

图3：主要结果

强化学习探索：验证器奖励继续提升模型能力

除监督微调外，我们还探索了面向 Claw-style 任务的强化学习训练。ClawGym 将每个任务放入独立沙盒中并行执行，并直接使用代码验证器提供结果奖励。从两条训练曲线可以看到，无论是从原始 Qwen3-4B-2507-Instruct 出发，还是从经过监督微调的 ClawGym-30B-A3B 出发，强化学习都能带来进一步提升。这说明，基于验证器的结果奖励可以为 Claw Agent 的持续优化提供有效信号。

需要强调的是，这部分目前仍在初步探索阶段。后续我们将继续改进任务采样策略、奖励设计、训练稳定性和 rollout 效率，进一步探索更适合工作区任务的强化学习范式。

图4：RL训练曲线

Claw Agent 行为分析

常规 agent 往往围绕相对明确的网页、代码或问答任务展开，重点是选择合适工具并完成局部操作。而 Claw Agent 面对的是一个持续变化的用户工作区：已有文件、目录结构、脚本输出、中间状态和最终产物都会影响任务是否真正完成。

因此，Claw Agent 的关键能力不只是“会调用工具”，而是能否把工作区逐步更新到满足用户要求的最终状态。

这也带来三点核心差异：

从工具调用到工作流组织：Claw Agent 需要把文件探索、信息读取、脚本执行、结果检查和产物验证串联成完整流程，而不是完成孤立的工具调用。
从单步执行到长程恢复：Claw Agent 更容易遇到文件缺失、路径错误、命令失败等状态相关问题，因此需要根据环境反馈不断调整，而不是在错误累积后停止。
从生成答案到验证产物：Claw Agent 的输出不是一段文本，而是 CSV、JSON、报告、脚本等工作区产物；这些产物必须满足字段、公式、过滤规则和跨文件一致性等细粒度要求。

图5：强模型在长程交互中能从错误里恢复；弱模型的错误则可能不断积累，最终导致崩溃

从这个案例可以看出：强模型能够把错误作为反馈继续推进任务，而弱模型则容易在连续错误中偏离目标。因此，Claw-style 任务考察的不是单一语言能力，也不是简单工具调用能力，而是 agent 在状态化工作区中持续执行、恢复错误并保证最终产物正确的能力。

总结与展望

ClawGym 的核心价值在于，它是首个系统连接 Claw Agent 数据构建、能力训练和可靠评测的完整框架：ClawGym-SynData 提供大规模、可执行、可验证的工作区任务，ClawGym-Agents 从 OpenClaw 黑盒执行轨迹中学习如何在环境中行动，ClawGym-Bench 则用于评估 agent 是否真正完成了工作区任务。

这只是我们的第一步。未来，我们将继续探索更复杂的数据合成流程、更高效的训练范式，以及覆盖范围更广、诊断维度更细的 benchmark，迈向更可靠、更通用的 Personal Agent 研究。