调教AI帮AI“打工”:我用OpenClaw一分钟搞定LlamaFactory数据处理

-定制专属模型就像打开浏览器一样简单-

点击图片，立即体验

如果你玩过大模型微调，一定经历过这样的场景：满怀期待地下载了一个开源数据集，点开一看——格式不对、字段对不上、还得手写dataset_info.json……原本只想快速跑个实验，结果先被数据处理“劝退”了半小时。

这大概是每个LLM玩家都懂的痛：真正值钱的是模型效果，最磨人的却是数据准备。

今天，我们想分享一个让AI自己帮我们解决这个问题的实战——用OpenClaw构建一个自动化数据处理Skill。从此，下载好的数据集往那一放，告诉它位置，剩下的活儿，AI全包了。

过去两三年，大模型已经从“新鲜事”变成了许多人工作与生活的一部分。从ChatGPT到Qwen、DeepSeek，模型的通用能力不断突破，但在真实业务场景中，许多团队和开发者却面临这样的窘境：模型“什么都能聊”，却总在专业问题上“答不到点子上”。

要让大模型真正理解行业、服务业务，微调已成为必经之路。然而，传统微调路径依然被高门槛重重封锁——环境配置复杂、GPU算力成本高昂、调参过程晦涩难懂，让许多团队望而却步。

现在，这一切有了更简单的答案。LlamaFactory Online将微调门槛降至新低，定制一个专属模型就和打开浏览器一样简单。

扫码领福利解锁微调新体验

目前平台活动期间送福利，新用户可享50元无门槛代金券，可免费使用高性能GPU算力微调6.5小时。

LlamaFactory Online

为什么需要这个Skill？

LlamaFactory作为当前最火的大模型微调框架之一，对数据格式有明确要求：要么是Alpaca格式，要么是ShareGPT格式，还得在dataset_info.json里完成注册配置。

而开源数据集呢？JSONL、CSV、TXT……五花八门，字段名随心所欲。每次处理一个新数据集，都得写一次脚本、改一次配置。重复劳动不说，还容易出错。

OpenClaw的Skill机制，正是为了解决这类“重复但有套路”的任务而生。把数据处理的经验固化成技能，以后每次遇到同类需求，AI直接调用，自动完成。

LlamaFactory Online

前期准备：让AI认识你

在正式开工前，需要做几件小事：

准备LLM API Key：你需要一个付费的LLM API key，或者部署好自定义的模型及接口。
部署OpenClaw：可以租一台云服务器，将OpenClaw部署在上面，实现24/7稳定在线；也可以直接部署在本地电脑上。

3.（可选）配置飞书Bot：在飞书开放平台创建自己的App，添加Bot并完成权限配置，这样就可以在飞书窗口里跟你的OpenClaw Agent互动了。

LlamaFactory Online

核心配置：给AI“开权限”

1. 安装Open Claw

根据OpenClaw官方安装指南完成安装后（https://docs.openclaw.ai/zh-CN/install），（如未额外指定）在你的安装目录内，能看到一个名为workspace的目录，即为OpenClaw的“工作空间“，后续要让Agent读取的文件都需要存放在这里。

2. 配置身份信息

● 在/workspace/USER.md文件内，完成用户基本信息的配置，帮助Agent了解如何称呼你。

● 在/workspace/IDENTITY.md文件内，完成Agent身份信息的配置。

完成这两步后，Agent一上来就能直接切入正题，不会再反复询问这些基础信息。

3. 配置工具权限

在OpenClaw配置文件（默认路径：~/.OpenClaw/OpenClaw.json）中，编辑tools的配置：

● "profile"：coding或full，允许进行filesystem和runtime等操作。

● "allow"：允许列表，本次用到的两个工具组详情如下：

○ group:runtime：exec、bash、process

○ group:fs：read、write、edit、apply_patch

● "elevated"：提升模式，仅在智能体被沙箱隔离时才生效：如果启用/允许提升模式，则在主机上运行。

● "exec"：在工作空间命令执行shell命令配置

○ "ask": 设置为"off"，以便Agent写完数据处理脚本直接执行。也可以根据你的喜好，改成on-miss或always。

○ "epathPrepend"：这里配置你的python路径，以供Agent使用它执行脚本。

● "fs"

○ "workspaceOnly": 出于安全考虑，建议仅允许它操作工作空间内的文件。

{..."tools": {    "profile": "full",    "allow": [      "group:fs",      "group:runtime"    ],    "elevated": {      "enabled": true    },    "exec": {      "host": "gateway",      "security": "full",      "ask": "off",      "pathPrepend": [        "~/miniforge3/bin/python"      ]    },    "fs": {      "workspaceOnly": true    }...}

这一步很关键——权限给对了，AI才能真的“动手干活”。

LlamaFactory Online

构建Skill：把经验写成“说明书”

1. 创建Skill目录

在工作空间内创建skill文件夹，并在其中创建一个以skill命名的子文件夹（比如：llamafactory_data_process）。在子文件夹内，创建一个名称为SKILL.md的文件，用于描述技能内容。最终目录结构为：

.└── workspace    ├── AGENTS.md    ├── BOOTSTRAP.md    ├── HEARTBEAT.md    ├── IDENTITY.md    ├── SOUL.md    ├── TOOLS.md    ├── USER.md    ├── memory    └── skills        ├── llamafactory_data_process        │   └── SKILL.md        └── skill_name_2            └── SKILL.md

2. 编辑Skill描述

将技能描述整理并写入 SKILL.md 文件，以下为 llamafactory_data_process 技能的开头部分：

---name: llamafactory_data_processdescription: 帮用户将下载的开源数据集处理成可以直接用于LLaMA-Factory项目微调的数据。如果用户有处理LLaMA-Factory数据处理需求，请直接调用此技能。注意用中文回复用户。---# LLaMA-Factory Data Process## 项目背景介绍LLaMA-Factory是一个大模型训练框架，支持大模型的预训练、微调、强化学习等。..............

3. 刷新 OpenClaw

在终端输入以下命令以重启Gateway和查看skill列表：

openclaw gateway restart  # 重启Gatewayopenclaw skills list      # 查看skill列表

在重启Gateway前，你可以先打印出全部的skill列表，会看到一些预置skills以及它们的状态（ready/missing）。

在保存好llamafactory_data_process技能后，重启Gateway，终端会显示：Restarted LaunchAgent。下图绿框内的话语每次为随机生成。

再次打印skill列表，在最下面可以看到新技能已ready。

LlamaFactory Online

实战演练：让AI处理

qiaojiedongfeng数据集

1. 新建会话

如果你配置了飞书Bot，可以直接在飞书聊天窗口里互动；如果没有，也可以在终端通过TUI进行操作。

● 新建session：聊天时直接输入"/new"，以重置session，使新skill可用。

● 检查memory：如果你在调试skill，建议及时查看工作空间的memory目录内的”记忆“markdown文件，清空你觉得没必要的调试历史，防止过多同名skill记忆干扰新编辑的skill调试效果。

2. 下载开源数据集

本次我们使用qiaojiedongfeng数据集作为例子。这是一个中文对话与百科知识类数据集，涉及历史、科技、生活常识等多领域。以下是一条数据样例：

{  "question": "你好，最近怎么样？",   "answer": "你好！我最近还不错，谢谢。"}

数据集开源地址：

https://www.modelscope.cn/datasets/qiaojiedongfeng/qiaojiedongfeng

3. 调用Skill

调用llamafactory_data_process技能，以下是在飞书的使用案例：

LlamaFactory Online

踩坑与填坑：可能出现的问题

当然，第一次跑通也不是一帆风顺。分享几个典型问题和应对经验：

问题1：任务过早停止

由于此数据处理skill步骤很多，OpenClaw可能在中途就停止了。你可以通过在下一轮对话提醒他来继续执行后续步骤。

问题2：出现幻觉

由于对开源数据集进行分析、撰写脚本、执行脚本的流程较为复杂，agent有时会出现幻觉，你可以尝试在下一轮对话中，直接揭露它未完成任务，促使它检查结果重新执行skill。你还可以重置session（建议删除幻觉memory），再次提出调用技能的需求。下图的英文回答即为我们尝试过程中发现的典型幻觉，一般情况下它会用中文回复，出现英文回答，大概率内容有幻觉。

它还会出现无法读取的文件的幻觉，不用担心，如果之前已经验证工作空间内的文件是OpenClaw可读的，那么它是又出现幻觉了。你可以在下一轮对话提醒它。下图即为一次文件读取的幻觉：

LlamaFactory Online

成果展示：从原始数据到训练就绪

经过调试，AI最终产出的成果包括：

1. OpenClaw编写的指定数据集（qiaojiedongfeng）的数据处理脚本：

2. dataset_info.json文件内的数据集描述信息：

3. 最终生成的可直接用于LLaMA-Factory训练的SFT数据集：

LlamaFactory Online

总结：让AI成为你的“数据工程师”

总的来说，这个实践的核心目标，是让“数据集处理”这件原本比较繁琐的事情尽量自动化。通过在OpenClaw中构建一个面向LLaMA-Factory的 Skill，只需要告诉它数据集所在的位置，系统就可以自动检查数据结构、生成并执行数据处理脚本，同时完成dataset_info.json的配置编写。最终输出的数据集可以直接用于模型微调，大大减少了手动整理数据的时间成本，也让整个微调流程更加顺畅。

当然，在实际开发和调试Skill的过程中也踩了一些坑，比如Agent有时会在任务还没完全执行完就停下来，或者出现“幻觉”。这些问题基本都需要通过反复调试Skill描述来解决。一个比较实用的经验是：如果一个Skill做的事情太复杂，可以考虑拆分成多个更小的Skill，这样往往能明显提升执行成功率，也让整个流程更加稳定。

⭐福利时间：看完这篇实战，你是不是也跃跃欲试，想让OpenClaw帮你搞定那些烦人的数据处理？我们特意为你准备好了文中所用的llamafactory_data_process技能文件，开箱即用，无需从头编写。扫码添加「LlamaFactory Online官方小助手」即可获得！