文章认为,ChatGPT、Claude 等大语言模型的能力提升,让下面这些做法变得越来越现实:让 AI 读取业务说明书,自动生成测试用例让 AI 根据错误日志提出修正建议让 AI 自动补充异常测试场景让 AI 生成测试数据但现场也有担心:AI 生成的测试场景会不会漏掉重要情况?AI 能不能理解公司内部特有的业务规则?如果最后还是人来全部检查,那到底能不能节省工时?文章因此从三个视角展开讨论:质量、成本、责任。
四、三位专家视角
文章设置了三种角色来分析问题。1. QA 质量保证视角:谨慎派这类人关注的是:“AI 生成的测试结果,能不能在审计时说清楚?”QA 视角最担心的是 AI 幻觉、责任不清、证据不足。他们不会轻易相信“AI 说没问题”。2. RPA 现场运维视角:实利派这类人更关心:“现场加班会不会真的减少?”他们不追求理论上的完美,而是看实际工时、维护效率、ROI 是否划算。3. AI 技术架构视角:革新派这类人认为:“很多问题不是模型不行,而是使用方法和系统设计不对。”他们更关注 RAG、提示词设计、AI Agent、上下文输入质量等技术实现方式。
五、论点一:AI 生成测试场景的精度是否已经实用?
文章认为,目前生成式AI还不能做到“从零生成完全正确、完全可用的测试场景”,但已经可以作为测试设计的辅助工具。技术视角:AI擅长理解条件分支,但依赖输入质量如果业务流程图、规格书写得清楚,AI 可以比较准确地理解逻辑。比如:“A 情况走 B 流程,否则走 C 流程。”这种条件分支,AI 有时可以比人更快、更完整地抽取出来。但问题是,如果规格书模糊,或者业务规则只存在于老员工的经验里,AI 就会开始“猜”。这时就容易产生幻觉。QA视角:AI在异常系测试上很有价值正常流程测试,人类往往更了解业务重点。但在异常测试、边界值测试方面,AI 有很大优势。比如 AI 可以快速想到:日期栏输入汉字怎么办?金额为负数怎么办?字符数刚好达到上限怎么办?空值、重复值、格式错误怎么办?人类容易默认“这种数据不会出现”,但 AI 可以机械地大量生成“刁钻测试场景”。这对提升测试覆盖率很有帮助。现场视角:关键是“修改成本”是否可接受如果 AI 生成 100 个测试用例,只有 50 个能用,剩下 50 个都要人工筛选,那现场人员可能会觉得:“还不如我自己写快。”所以,AI 的价值不只是“生成很多”,而是要生成足够可用、足够贴近业务的测试场景。小结生成式AI目前适合做:“测试场景的壁打ち对象”也就是帮助人类补充思路、发现盲点,而不是完全替代测试负责人。特别是在异常系测试和边界测试方面,AI 已经有明显实用价值。
六、论点二:ROI 的损益分界点在哪里?
文章指出,很多宣传会说“测试工时削减80%”,但现场视角会比较谨慎。因为这些数字经常没有计算:准备测试数据的时间等待测试执行的时间写 Prompt 的时间检查 AI 输出结果的时间修正 AI 结果的时间所以不能简单相信“80%削减”。不过,如果企业有大量 RPA,而且这些机器人经常因为系统 UI 变化、业务规则变化而需要修正,那么 AI 辅助测试确实有可能带来明显收益。文章提到,在某些频繁修改的 RPA 场景中,整体工时削减约 30%~40% 是有现实可能的。AI导入的成本构成AI 本身的 API 费用,通常比人工成本低。真正的成本在于:如何让 AI 理解企业内部业务是否需要构建 RAG 知识库是否要整理规格书、业务流程图是否需要设计标准 Prompt是否要建设审核流程如果公司只有不到 10 个 RPA 机器人,专门建设这套机制可能不划算。但如果机器人数量达到 50 个、100 个以上,就会出现规模效应。比较适合导入AI测试辅助的企业文章给出的判断标准大致是:RPA 机器人数量大约 30 个以上每月有多次修正或维护需求机器人涉及关键业务,停机会直接影响业务当前维护人员不足测试遗漏曾经导致过生产故障如果符合这些条件,生成式AI辅助 RPA 测试的 ROI 就比较值得期待。
文章不建议一开始就把所有 RPA 都交给 AI,而是建议小规模开始。Step 1:先让AI生成异常测试想法最安全的做法是,让 AI 帮你列出:可能出现哪些错误?哪些异常数据需要测试?哪些边界条件容易被忽略?这个阶段几乎没有系统风险,很适合作为第一步。Step 2:让AI生成测试数据可以让 AI 生成不包含个人信息的虚拟测试数据。比如:客户编号订单金额日期异常输入边界值数据这类工作安全性高,效果也比较明显。Step 3:选择非核心业务进行试点不要一开始就用在核心业务。先选影响范围小的机器人,测试 AI 从测试场景生成到执行辅助的完整流程。然后统计:节省了多少工时?测试覆盖率是否提升?人工修正比例是多少?有没有减少上线后的故障?