AI 干分析,QA 做决策:OpenClaw 插件质量闭环全记录

| 【本期导读】AI 写完了代码,谁来保证它能用?需求可能只是一句话,spec 往往是 AI 反向生成的,等 QA 介入时版本可能已经上线。本文记录 OpenClaw 插件团队如何在 AI 辅助研发的工程模式下,让 AI 承担分析和生成工作,QA 专注确认和决策,构建一套不依赖需求文档的完整质量保障体系。 |

01
—
AI 写代码,QA 怎么办
OpenClaw 消息通道插件承载消息接入、收发、安全策略、LLM 工具调用等核心能力。当研发团队全面进入 AI 辅助编码阶段,一个问题随之浮现:代码可以由 AI 生成,但质量由谁来保证?
需求文档消失了。 大量代码直接由 AI 生成,需求可能只是一句话,spec 往往是也是用 AI 反向生成的。QA 拿到的”需求”本身就是不完整的,有时甚至是事后补的——根本无法作为测试依据。
提交碎片化,介入太晚。 每次迭代包含多次小 commit,没有一个明确的”提测时刻”。等 QA 要不停切换多个版本,对齐一个最终版本。
兼容性测试如何提高效率。 OpenClaw 平台迭代节奏快,预计每周发布一个新版本,每次升级都可能影响到插件。插件侧需要提前验证兼容性。
更难回答的问题是: 如何快速判断插件与不同 OpenClaw 版本的适配性,在平台高速迭代的同时还能保障业务快速交付?。
根因只有一个:AI 已经改变了研发的生产方式,质量保障的方式也必须快速跟上。
02
—
范式转变 AI分析 QA决策
本方案的核心逻辑是:AI 负责从代码变更中挖掘信息、生成建议;QA 负责确认事实、拍板决策、定义红线。
功能的最终使用者是人,所有测试验证归根到底要回答一个问题:真实用户能不能正常完成他们的使用路径? 这个判断只有人来做。
引入 AI 之后,QA 的每一项工作都发生了具体变化:
QA 的角色因此从”需求接收者和 case 编写者”升级为功能事实确认者、质量红线定义者、产品知识守护者。
在这套体系里,QA 是整个团队中最了解产品功能全貌的人——功能快照、风险规则、case 库连起来就是产品的完整行为档案,可以直接转化为面向用户的功能说明和使用手册。

03
—
解决了什么问题
提测通知触发的瞬间,AI 已经替你分析好了影响范围——你收到的不是任务,而是一份可以直接确认的分析报告。
版本出了问题,AI 结合日志、代码变更和历史缺陷给出归因假设——你的工作从”从零翻日志”变成”判断这个假设对不对”。
OpenClaw 每周升级,兼容性验证自主触发、自主完成——插件侧 只在真正出问题时才介入。
发版前,门禁规则自动检查质量条件——不是靠人记得、靠感觉判断,而是有没有 E2E 记录说了算。
每次迭代结束,case、风险规则、功能快照自动写入知识——下次测试直接复用,而不是重新整理一遍。
04
—
六个阶段实践
第一步:让 AI 替你读懂这次改了什么
研发提了十几个小 commit,没有任何说明。以前这份工作是 QA 的——翻 diff、猜意图、问研发。现在 AI 自动把所有提交聚合为变更集,读取代码 diff、spec 文档、prompt 记录,反推出”这次变更可能涉及哪些功能”,并标注不确定点。
QA 对这份功能候选清单逐条确认或修正,形成功能快照——它替代了传统需求文档,成为后续所有测试决策的唯一依据。AI 同步生成 Changelog,QA 审阅后发布给团队。

第二步:收到提测,测试方案已准备好
过去 QA 收到提测通知,第一件事是读改动、判断影响范围、决定测什么——这往往比测试本身还费时间。现在提测通知触发的同时,AI 自动完成影响面分析,输出风险等级(高/中/低)、受影响功能模块、是否触及核心消息链路,并生成测试策略建议:哪些必测、哪些可跳过、哪些需要新增 case。AI 还直接生成覆盖正常流程、异常场景、边界条件的结构化测试用例。
QA 收到提测通知的同时就拿到了这份分析报告,不再需要人工判断”测什么”,只需确认范围是否合理、补充遗漏场景、定义质量红线。

第三步:每个版本,都能说清楚测了什么
“这个 release 包里到底有哪些改动?”——以前这个问题很难回答。CI 流水线构建完成后,版本号自动与变更集绑定,任意 release 版本都能追溯到它包含哪些 commit、对应哪个功能快照、关联哪些测试记录。构建结果同步推送群通知,含 Changelog 摘要。构建失败直接阻断后续流程。

第四步:自动安装、调试 一步到位
版本包构建完成后,自动部署到 OpenClaw 测试环境。系统逐项完成配置检查、服务启动、消息链路连通验证,任何一步不通过都直接阻断并通知研发排查。健康检查全部通过后,自动采集环境快照(插件状态、配置、日志),为后续 E2E 测试提供完整的环境基线。安装失败、配置异常、启动报错,全部被记录和归因——装上去这件事,本身就是测试的一部分。

第五步:AI先测测,出了问题它先出答案
在真实环境中执行 E2E 测试。AI 自动向指定用户或群组发送测试消息(受控模式,真实发送需显式确认),采集 OpenClaw 日志,断言消息是否被正确处理,失败时结合日志、代码变更、历史问题给出归因假设。QA 不再需要从零开始翻日志,而是在 AI 的归因假设基础上判断:对还是不对。
OpenClaw 每周版本升级的兼容性测试:升级后直接触发已沉淀的兼容性 case,由 OpenClaw 自主完成——QA 从”每周验证”变为”出问题才介入”。

第六步:发不发版,规则说了算
测试完成后,Diff Guard 门禁自动检查质量条件:核心链路变更必须有 E2E passed 记录,高风险变更必须有 QA 确认记录,否则阻断发版。不依赖人工自觉,不看”感觉差不多了”。
发版通过后,测试报告自动写入知识,case、风险规则、功能快照自动沉淀,反哺下次迭代。AI 的所有输出均为建议,不直接决定发布——最终决策始终在 QA 手里。
沉淀下来的不只是测试资产,而是整个产品的行为档案:每个版本支持什么功能、有什么限制、出过什么问题、怎么解决的。这份档案由 QA 维护,直接转化为对外的功能列表和用户使用手册。

05
—
演进方向
六个阶段里,前四步已经落地:AI 反推功能快照、提测通知触发分析、版本与变更集绑定、自动安装与健康检查——这些都在跑了。接下来还有两个方向在推进中。
第五步 E2E 测试正在深化:不只是跑通消息收发,引入线上日志和历史缺陷数据,让 AI 的归因假设更有依据;兼容性测试矩阵也在扩展——升级、回滚、多版本并存都要纳入自动验证范围。
第六步发布门禁之后,还差一个真正的闭环:每次迭代积累的 case、归因记录、风险规则,如何自动反哺下一次的分析和决策?我们在建设一个质量资产库,目标是让 AI 每次做出的推断越来越准、遗漏越来越少——不靠人工整理,靠迭代本身驱动进化。

结语
AI 时代,变的不只是代码的生产方式。研发用 AI 写代码,速度变快了,但每次改动的边界变得模糊;PM 用 AI 生成 spec,需求有了但未必准确;QA 等着需求文档再介入,发现文档本身可能就是 AI 反推出来的。整个团队的协作方式,都在被 AI 悄悄重构。
产品的质量,从来不是某一个角色的责任。 它是研发、QA、PM 在同一套信息基础上共同做决策的结果。而 AI 能做的,是把那些消耗所有人精力的信息处理工作承担下来,让每个角色都能把时间花在真正需要人判断的地方。这才是 AI 辅助研发真正应该带来的变化。
所以,什么样的 QA 会在 AI 时代发展得越来越好?不是业务最熟、技术最强的那个,而是能把 AI 融进测试体系并持续进化的人。能识别”哪个环节跑不通了”、能把新的 AI 能力接进来——懂 AI、懂业务、有深度,三者缺一不可。
QA 的角色从运动员变成了裁判:不一定亲自写每一条 case,但必须知道什么是对的、什么是错的,什么只是“看起来合理”,什么才是真的覆盖了风险。把 AI 的输出当“选手表现”,而不是“判决结果”;主动去看顶级水平的进展,了解更好的测试策略和更直击本质的缺陷分析,让自己的标尺不松;也要偶尔下场跑一跑,自己先设计,再看 AI 怎么做,在差异里发现自己的盲区,也发现 AI 的边界。
AI 给你的是及格线,你的「品味」决定优秀线。把 AI 的输出当起点,持续追问“还能不能更好”,这份对更好的执念,就是 QA 在 AI 时代最重要的专业能力。

夜雨聆风