AI多模态大模型做UI自动化测试断言,中小团队的低成本实践

上个月有个粉丝朋友问我：你做自动化测试这么多年，最烦的是什么？

我说是断言。

他有点意外，说断言不就是assert吗，有什么烦的？

我说你写几个项目就知道了。

一切从一个bug说起

去年有个项目，我写了50个测试用例，断言代码写了400多行。

有个用例是检查"登录成功后首页是否正常"，我写了15行断言：

def test_login_success():    time.sleep(2)    assert exists(Template("home_title.png")), "首页标题不存在"    assert exists(Template("avatar.png", threshold=0.8)), "用户头像不存在"    assert exists(Template("tab_home.png")), "首页Tab不存在"    assert exists(Template("tab_mine.png")), "我的Tab不存在"    assert not exists(Template("error_icon.png")), "存在错误提示"    screenshot = snapshot()    texts = ocr.recognize(screenshot)    assert any("欢迎" in t for t in texts), "欢迎文字不存在"

后来UI改版，按钮样式变了，位置也调整了。

我花了两天修断言。

那会儿我就在想，有没有办法能让我不用写这么多代码，也不用每次UI改版就跟着改？

误打误撞发现了这个方案

有天我在研究多模态大模型，突然想到：它能看图，能不能帮我判断页面是否正常？

试了一下，还真行。

把刚才那段15行的代码，变成了3行：

def test_login_success():    screenshot = take_screenshot()    result = ai.assert_ui_state(screenshot, [        "页面显示登录成功后的首页",        "顶部有用户头像和昵称",        "底部导航栏正常显示",        "没有错误提示或弹窗"    ])    assert result.passed, f"断言失败: {result.details}"

不需要截模板图，不需要调相似度阈值，也不用担心UI改版。

只要人眼能看出来页面正不正常，AI就能判断。

先说成本的事

我知道很多人看到"大模型"三个字就会想：这得多少钱？

其实现在免费的选择挺多的：

平台	模型	免费额度	备注
智谱AI	GLM-4V-Flash	每天免费调用	完全够开发测试用
阿里云	Qwen-VL	每月100万token	通义千问的视觉模型
Google	Gemini 1.5 Flash	每天1500次免费	需要翻墙
腾讯云	Hunyuan Vision	每月100万token	混元多模态

我自己用的是智谱AI的GLM-4V-Flash，每天免费调用，开发调试完全够用。正式跑CI的时候切到GLM-4V标准版，一次几分钱。

算笔账：一个项目200个检查点，跑一次也就几块钱。比起人工修断言的时间成本，这个钱太值了。

它是怎么工作的

原理挺简单的：

截图 + 自然语言描述 → AI判断是否通过

你给它一张截图，用大白话描述你想检查什么，它会"看"这张图，然后告诉你每项检查是否通过。

整个流程：

核心代码就几十行：

import base64import jsonfrom openai import OpenAIclass AIAssertion:    def __init__(self, api_key, model="glm-4v-flash"):        # 智谱AI的免费模型        self.client = OpenAI(            api_key=api_key,            base_url="https://open.bigmodel.cn/api/paas/v4/"        )        self.model = model    def assert_ui_state(self, image_path, check_items):        # 图片转base64        with open(image_path, 'rb') as f:            img_base64 = base64.b64encode(f.read()).decode()        # 构造提示词        items_text = "\n".join(f"{i+1}. {item}" for i, item in enumerate(check_items))        prompt = f"""检查这张截图是否符合以下预期：{items_text}返回JSON格式结果，包含每项检查是否通过、判断理由、整体置信度。"""        # 调用API        response = self.client.chat.completions.create(            model=self.model,            messages=[{                "role": "user",                "content": [                    {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img_base64}"}},                    {"type": "text", "text": prompt}                ]            }]        )        # 解析结果        result_text = response.choices[0].message.content        return json.loads(result_text)

模型返回的是JSON格式，告诉你每项检查通过没通过、为什么、置信度多少。

跟传统方式对比一下

我做了个对比：

左边是传统方式，代码多、维护难、覆盖不全。

右边是AI方式，代码少、不用截模板、能发现没想到的问题。

真实效果怎么样

我在一个电商APP上跑了对比测试。50个用例，200个检查点。

几个数字：

代码量从420行降到85行，少了80%
维护次数从15次/月降到3次/月，少了80%
准确率从80%升到95%，提了15%
误报率从12%降到5%，少了58%

说个具体的例子。

我有个用例检查"个人中心页面是否正常"，之前写了10个检查点：头像、昵称、菜单项……

有一次改版，UI加了个VIP标识，我没加检查点，漏检了。

还有一次，某个图标换了颜色，模板匹配失败，报错了——但其实功能完全正常。

用AI断言，我只写：

result = ai.assert_ui_state(screenshot, [    "显示个人中心页面",    "顶部有用户信息",    "中间有菜单列表",    "页面布局正常"])

加了VIP标识？不影响，检查项没说不能有。图标换颜色？不影响，AI看的是布局和内容，不是像素。

整体架构长这样

我把整套方案画了个图：

四层：测试用例调用AI断言，AI断言封装图片编码和提示词，调用多模态模型API，最后解析结果返回。

踩过的坑

用了几个月，踩了几个坑。

坑一：模型输出不稳定

有时候返回的不是标准JSON，或者格式乱七八糟。

我的办法：

提示词里强调"严格返回JSON格式"
代码里提取json...里的内容
加重试机制

def assert_ui_state(self, image_path, check_items, retry=2):    for attempt in range(retry + 1):        try:            response = self.client.chat.completions.create(...)            result_text = response.choices[0].message.content            if "```json" in result_text:                result_text = result_text.split("```json")[1].split("```")[0]            return json.loads(result_text.strip())        except json.JSONDecodeError:            if attempt < retry:                time.sleep(1)                continue            return {"passed": False, "error": "JSON解析失败"}

坑二：置信度不可信

有时候置信度很高但判断是错的。

我的办法：置信度低于0.7的标记为需要人工确认。

if result.confidence < 0.7:    log.warning(f"置信度较低: {result.confidence}")

坑三：成本问题

虽然免费额度够用，但跑CI的时候还是要花钱。

我的办法：

开发调试用免费模型
规则先过滤一遍，减少AI调用
相同的截图和检查项开缓存

坑四：响应慢

AI断言要几秒钟，比传统断言慢。

我的办法：

CI里这个延迟可以接受
本地开发先用规则快速验证

我的建议：混着用

不是所有场景都要用AI。

简单检查用规则：某个特定元素存在不存在，模板匹配更快。

复杂判断用AI：布局是否正常、有没有明显异常，这种用AI。

重要流程双重验证：规则先检查，AI再兜底。

def smart_assert(screenshot, check_items):    # 先用规则快速检查    if exists(Template("error_icon.png")):        raise AssertionError("发现错误提示")    texts = ocr.recognize(screenshot)    if any("网络失败" in t for t in texts):        raise AssertionError("网络错误")    # 规则没问题，再用AI    result = ai.assert_ui_state(screenshot, check_items)    if result.confidence < 0.7:        log.warning(f"置信度较低: {result.confidence}")    return result

跟Pytest结合

我封装成了fixture：

# conftest.pyimport pytestfrom ai_assertion import AIAssertion@pytest.fixture(scope="session")def ai():    return AIAssertion(api_key="your-api-key", model="glm-4v-flash")# test_login.pyclass TestLogin:    def test_login_success(self, ai):        login("13800138000", "password123")        screenshot = take_screenshot()        result = ai.assert_ui_state(screenshot, [            "显示登录成功后的首页",            "有用户信息",            "底部导航正常"        ])        assert result.passed, f"登录检查失败: {result.details}"

适不适合你？

适合的场景：

UI复杂，检查项多
UI经常改版
要检查布局、风格等"软性"指标

不太适合：

超高频回归（成本高）
只检查一两个元素（用规则更快）
对响应时间要求极严格

我的建议：先在一个模块试试，看看效果再决定要不要推广。

说在后面

用了这套方案几个月，我感受到的变化：

写用例更快了——不用想怎么用代码表达检查逻辑，直接写大白话。

维护成本低了——UI改版不用改代码，只要描述还对就行。

发现问题更多了——AI能发现一些我没考虑到的边界情况。

报告更易读了——断言失败的原因是自然语言，不用看代码猜。

当然，它不是万能的。成本、响应时间、稳定性都要考虑。但对于天天和UI测试打交道的人来说，确实省了不少心。