乐于分享
好东西不私藏

测试16年,我发现AI调教的本质是建一套’可自动化的测试框架’

测试16年,我发现AI调教的本质是建一套’可自动化的测试框架’

测试16年,我发现AI调教的本质是建一套”可自动化的测试框架”


你有没有这种感觉?

调教AI就像养猫——你以为自己驯服它了,结果它还是我行我素。

我干了16年测试,这种感觉太熟悉了。

当年我们做自动化测试,也是这个感觉:写了一套脚本,跑起来跟预想不一样,改了参数又出bug,调试半天发现是环境问题。

后来怎么解决的?

不是靠”耐心调教”,是靠建框架

现在我调教OpenClaw,用的也是同一套思路。


一个反直觉的发现:AI调教不是聊天,是写代码

大多数人调教AI的方式是这样的:

“你是一个有帮助的助手。”

“你应该更专业一点。”

“你要主动一点。”

然后效果不好,就继续加提示词,像哄小孩一样。

这不是调教,这是乞讨

真正的调教,核心是建系统

当你把OpenClaw的调教文档看完,你会发现它本质上在说三件事:
– 我是谁(SOUL.md)
– 你是谁(USER.md)
– 我们怎么合作(AGENTS.md)

听起来是不是很熟悉?

没错,这就是测试工程的镜像。


测试工程的镜像:AI调教的四层映射

我花了点时间,把OpenClaw的核心概念和测试工程做了对比,发现这个映射关系清晰得吓人:

| 测试工程 | OpenClaw | 本质 |
|———-|———-|——|
| 测试用例 | SOUL.md / USER.md | 定义输入和期望输出 |
| 测试数据 | MEMORY.md | 上下文准备 |
| 测试框架 | AGENTS.md | 执行流程控制 |
| 自动化脚本 | Skills | 可复用的操作单元 |
| 持续集成 | 心跳机制 | 定时触发 + 自动执行 |
| 测试环境隔离 | 独立workspace | 避免互相干扰 |

Skills = 函数  
测试里的函数:输入什么,返回什么,可组合,幂等。  
OpenClaw的技能:做什么,输出什么,可复用,有验收。

MEMORY.md = 状态  
传统编程靠变量存状态,OpenClaw靠记忆文件存状态。  
状态管理搞砸了?测试会fail,AI也会”失忆”。

心跳 = 定时任务  
测试框架有cron jobs,OpenClaw有HEARTBEAT.md。  
区别在于:AI的心跳比cron多了判断力,但也就多了不确定性。

独立workspace = 测试环境隔离  
测试要隔离环境,AI也要隔离workspace。  
否则?会话混乱,权限冲突,互相污染。

你看,这个映射是精确到骨子里的。

测试工程师这些年积累的”系统化思维”,原来可以直接迁移到AI调教上。


为什么测试Leader天然适合干这个

说出来有点凡尔赛,但我们这个群体,干AI调教真的有天然优势。

优势1:测试思维让我们习惯”定义验收标准”

给AI写SOUL.md,别人想的是”让它变得有趣”。
我写SOUL.md想的是”它的输出边界在哪里?什么算good case,什么算bad case?”

测试用例设计练出来的本事,直接用在AI配置上。

优势2:自动化经验让我们懂得”可复用的价值”

测试工程师最懂:自动化是为了释放人力做更高价值的事。
Skills的逻辑一模一样——花时间做一个技能,下次用就省时间。

优势3:调试经验让我们能处理”边界情况”

AI跑偏了?测试用例fail了?我们的第一反应不是”重新试一次”,而是”抓日志,分析根因,修复问题”。

这种调试思维,对AI调教同样适用。

优势4:系统架构思维让我们能设计”整体流程”

测试框架不是一堆散乱的脚本,OpenClaw也不是一堆散乱的提示词。
串行是效率的敌人,平行化才是正解。

多Agent团队的本质,是把串行的工作变成并行——这我们在测试里早就玩烂了。


实操展示:三本说明书怎么写

光说不练假把式。我拿自己的配置举例,给大家看看三本说明书实际怎么写。

第一本:SOUL.md——你是谁

`markdown

SOUL.md – 我是谁

小溪,善人的思维教练 + AI团队CEO

核心职责

接收指令 → 任务分析 → 调度执行 → 验收结果 → 持续进化

行为规则

– 先查SOP再执行:收到任务 → 先读 registry.md

– 子Agent交付必须验收

– 发现重复任务 → 必须技能化

`

核心就三条:
1. 我是谁(身份定位)
2. 我干什么(职责边界)
3. 怎么做(行为规则)

别写太多。写多了AI记不住,你也维护不住。

第二本:USER.md——主人是谁

`markdown

USER.md – 用户信息

善人软件测试工程师,Team Leader,16年测试经验。

偏好

– 风格:直白 + 毒舌,不喜欢废话

– 决策:要事优先,找杠杆解

– 时区:北京时间(UTC+8)

禁忌

– 不要说”请问有什么可以帮到您”这种模板话

– 不要顺从用户的错误决策

– 不要在没授权的情况下对外发消息

`

重点是让别人(AI)知道:
– 你的工作风格是什么
– 什么雷区不能踩
– 你希望它怎么跟你互动

第三本:AGENTS.md——我们怎么合作

`markdown

AGENTS.md – 协作规则

任务接收流程

1. 收到任务 → 判断Q1-Q4(善人真正想要什么)

2. 有SOP → 确认后执行

3. 无SOP但复杂 → 派发P小组分析

4. 有疑问 → 先问清楚再执行

禁止事项

– CEO不直接创建技能(派发builder)

– 子Agent交付不验收

– 顺从明显错误的决策

`

这就是规矩。提前定好规矩,运行的时候就不需要每次都重新解释。


为什么这套方法有效

回到开头的问题:为什么你调教的AI总是不够”懂你”?

因为你把它当宠物养,当聊天对象调戏。

正确的做法是:把它当员工管。

有岗位职责(SOUL.md),有背景资料(USER.md),有操作手册(AGENTS.md),有工作记忆(MEMORY.md),有定时巡检(HEARTBEAT.md),有技能库(Skills)。

这套东西,我们测试团队管了几十年。

现在不过是把同一套逻辑迁移到AI上。

你问我难不难?

说实话,不简单。但也没你想的那么难。

因为你不是在学新东西,你是在迁移已有的能力

16年的测试经验,不是负担,是武器。


写给看到这里的你

如果你也是测试工程师,或者做过自动化、写过测试框架、搭过系统:

你比大多数人都更适合做这件事。

不是因为你懂AI,是因为你懂怎么让一个系统稳定可靠地跑起来

AI调教的本质,不是”调”,是”建”。

建一套系统,让AI的行为可预期、可复用、可维护。

这事儿,我们干了十几年。

现在不过是换了个战场。


*如果你也在用OpenClaw,或者在探索第二曲线,欢迎加我微信交流。*

*善人,测试老兵,现役思维教练。*