
做移动 App 测试的人都知道,最烦的不是点按钮。
最烦的是旧测试用例写得好好的,页面突然改了一个入口、登录多了一个验证码、购物车弹出一个活动窗,自动化脚本就开始装作没看见,或者一路点错还告诉你“通过”。
QApilot CoWork 这次冲到 Product Hunt 今日第一,值得写的点不在“AI 会不会替 QA 点手机”,而在一个更小但更实用的能力:它在 UI 变化时,会尝试重新规划,并把不确定步骤交给人确认。
移动测试 Agent 真正省钱的地方,不是永远不失败,而是失败时别假装成功。
先说清楚:它适合测什么?
QApilot CoWork 的核心场景,是把已有测试用例变成可执行的移动端流程。
官网写到的能力包括从 Jira、TestRail、CSV 导入测试用例,在真实设备上执行,并在页面变化时通过 human-approved steps 让人确认新步骤。
翻成普通话,就是你不用一开始就把所有自动化脚本重写一遍。
你可以把原来人工测试用例里那些“打开 App、登录、进入购物车、提交订单、检查提示”的步骤,交给它先跑一遍。
它适合的是这类任务:
1. 登录和注册流程
账号密码、短信验证码、第三方登录、忘记密码。
这类流程按钮多、分支多,最容易因为一个弹窗或风控提示中断。
2. 购物车和下单流程
加购、改数量、选地址、用优惠券、提交订单。
电商、外卖、票务、到店预约类 App 都有类似路径。
3. 版本回归里的老用例
比如上个版本已经测过 30 条核心流程,这个版本只改了活动页、会员页、支付页,但你仍然要确认老流程没有坏。
这正是 Agent 测试最容易产生价值的地方。
它不是替你发明测试策略,而是先帮你把重复路径跑起来,把明显失败和需要人工判断的地方标出来。
第一次试,不要拿全量项目开刀
很多人试 AI 工具容易犯一个错误:一上来就把最复杂的项目丢进去。
结果跑半天,失败原因混在一起,最后只得到一句“这个东西不稳定”。
试 QApilot 这类移动测试 Agent,建议从一个低风险小流程开始。
第一步:选一条真实但短的路径
不要选“打开 App 看首页”这种太简单的任务,也不要选“完整下单支付并退款”这种太重的任务。
比较合适的是:
打开 App -> 登录 -> 进入购物车 -> 修改数量 -> 检查金额变化。
这条路径有页面跳转,有输入,有状态变化,也有可判断结果。
它足够真实,但失败后不会影响真实订单和资金。
第二步:把用例写成人话
先不要追求复杂格式。
你可以把测试用例写成这样:
用户打开 App,输入测试账号和密码登录;进入购物车;把第一个商品数量从 1 改成 2;确认商品总价发生变化;如果出现活动弹窗,先关闭弹窗再继续。
这类描述比“点击 Xpath”更适合 Agent 理解,也方便你之后人工复核。
第三步:观察它怎么处理意外
真正要看的不是它有没有一次通过。
你要看三种结果。
第一,它能不能自己处理预期内变化,比如按钮位置挪了、文案变了、入口换了。
第二,它遇到不确定情况时,会不会停下来问人,比如多了一个活动弹窗、多了一个权限确认、验证码无法自动通过。
第三,它失败时有没有说清失败位置,而不是给你一个模糊的 error。
如果一个测试 Agent 只会在完美环境里跑通,那它只能做演示。
能把失败讲清楚,才有机会进真实流程。
判断值不值得继续用,看四个指标
试完第一条流程,不要急着买单,也不要只看演示视频。
可以用四个指标判断。
指标一:假通过率
这是最重要的指标。
AI 测试失败不可怕,可怕的是页面已经不对,它还说通过。
比如购物车金额没变、登录其实没成功、订单页面没进入,它却因为找到了某个相似按钮就继续往下点。
如果你发现两三次测试里出现假通过,这个工具就不能直接接入正式回归。
最多把它放在预检查、探索性测试或辅助记录里。
指标二:人工确认点是否合理
QApilot CoWork 这类产品强调 human-approved steps,本质上是在承认一件事:移动端 UI 变化太多,AI 不可能每次都猜对。
所以你要看它问人的时机。
如果它每一步都问,那省不了时间。
如果它该问不问,那风险更大。
比较理想的状态是:账号权限、验证码、支付、隐私弹窗、删除/提交/确认这类高风险动作必须停;普通按钮位置变化可以自动尝试。
指标三:失败报告能不能直接给研发
测试工具不是为了让 QA 看起来很忙,而是为了把问题更快交给能修的人。
一次有价值的失败报告,至少要说清:
失败发生在哪一步;当时页面出现了什么;预期结果是什么;实际结果是什么;是否重试过;是否需要人工确认。
如果最后只给你一段看不懂的日志,那后续沟通成本并没有少。
指标四:维护成本有没有下降
很多自动化测试工具一开始看起来省时间,真正贵的是后续维护。
页面一改,脚本要改;文案一改,定位要改;流程一分支,断言要改。
如果 QApilot 这类 Agent 能把一部分 UI 变化自动吸收,把不确定变化集中交给人确认,它的价值就不是“替你点手机”,而是减少维护旧脚本的返工。
哪些场景不要急着交给它?
有几类流程,我不建议一开始就让 AI Agent 自己跑。
第一,真实支付和退款。
可以用沙箱、测试账号、模拟支付,但不要拿真实资金做第一次试验。
第二,删除数据、提交审批、批量发送消息。
这些动作一旦误点,损失不只是测试失败,还可能影响真实用户或真实业务。
第三,强风控登录。
短信验证码、人脸识别、设备指纹、频繁登录限制,本来就不是适合自动化硬闯的场景。
第四,法规或隐私强相关流程。
涉及用户授权、定位、通讯录、健康、金融、未成年人信息时,AI 可以辅助记录,但不能替你判断合规边界。
把这些流程放到后面测,不是保守,而是正常的测试顺序。
一个可复制的试用流程
如果你想今天就验证它有没有价值,可以按这个顺序来:
准备条件
准备一个测试账号、一台测试设备或云真机、一条 5 到 8 步的旧测试用例,以及一个明确的成功标准。
成功标准不要写“流程正常”。
要写成:登录成功;购物车数量从 1 变成 2;总价随数量变化;没有出现阻断弹窗;失败时能定位到具体步骤。
第一次运行
只跑一条路径。
记录它是否能完成、在哪一步需要确认、失败报告是否能让人看懂。
第二次运行
人为制造一个小变化。
比如换一个按钮文案、加一个普通弹窗、调整一下入口位置。
看它是自动恢复、请求确认,还是直接失败。
第三次运行
加入一个它不该自动越过的点。
比如验证码、支付确认、删除确认、敏感权限弹窗。
如果它会停下来,这反而是好事。
测试 Agent 最值钱的不是勇敢往前冲,而是知道什么时候不该往前冲。
最后怎么决定要不要继续?
如果三轮下来,它能稳定跑通低风险路径,遇到不确定步骤会问人,失败报告能直接给研发,那就可以把它放进小范围回归。
如果它只能在演示路径里跑通,真实 App 一加弹窗就乱点,那就别急着付费。
如果它经常假通过,直接停。
这类工具未来一定会越来越多,因为移动端回归测试确实太耗人。
但真正能进工作流的测试 Agent,不是最会展示“全自动”的那个,而是最会把边界说清楚的那个。
对 QA 来说,省钱不是少一个人点按钮。
省钱是少一次漏测,少一次返工,少一次上线后才发现“原来它根本没测到”。
夜雨聆风