乐于分享
好东西不私藏

我用 AI 做了一个「设计质检官skill」,踩过的坑都在这儿了

我用 AI 做了一个「设计质检官skill」,踩过的坑都在这儿了

身为设计师,常因老板与设计师间各执一词,为修改设计稿而困扰,于是我萌生打造「设计质检官」AI 技能的想法,期望让设计评审更客观。然而初版就 “翻车”,AI 给出 15 条评审问题,经设计师反驳,误报率竟超 70% 。本文着重复盘我如何历经 5 轮迭代,解决 AI 误判难题、完善技能规则,分享修改 AI 技能的核心经验与踩坑教训。

参照行业标准,明确方向

动手前,我参考网易、腾讯等大厂通用的 UI 验收 SOP,其核心是标准化检查清单,涵盖色彩、布局、间距等 6 个维度,有明确评分和判定标准。但它存在 3 个明显不足:维度划分较粗、无成熟度预判、缺少强制清单,易导致漏检。所以,我的核心思路是以行业标准为基础,新增成熟度机制和强制清单,着重解决 AI 评审的误判问题,打造实用的 AI 技能。

从高误报到精准评审

技能迭代的关键痛点在于 AI 误报率高,对设计逻辑理解有偏差。每一轮迭代都针对性解决具体问题,逐步优化规则,最终将误报率从 70% 降至 10% 以下,构建出完整、可靠的评审框架。

起点:满是错误的评审结果(初版致命问题)

初版 AI 技能接入视觉大模型后,首次评审输出 15 条问题,可大多被设计师认定为误判。核心问题在于 AI 对 “一致性” 的判断逻辑有误,将所有元素混为同类对比。典型误判案例如下:

  • ❌ “标签和按钮之间的间距不一致”—— 标签与按钮层级不同,间距有别属正常设计;

  • ❌ “状态标签、操作按钮、选项按钮的圆角不统一”—— 无需所有圆角统一,同组同类保持一致即可;

  • ❌ “人名、时间、说明文字的颜色不统一”—— 这些元素类别不同,颜色有差异属合理。

    15 条问题中,真正有价值的仅 3 – 4 条,误报率超 70%。复盘发现,并非模型不智能,而是评审规则存在根本性漏洞,未契合实际设计逻辑。

第一轮迭代:补齐关键漏洞 —— 添加 “分组判断” 前置流程

复盘所有误判案例,发现规律:AI 判断 “一致性” 时,未区分元素分组与层级。于是,我为 AI 新增「前置判断流程」,要求评审任何样式问题前,先完成 4 步:

  1. 识别元素分组(模块分组 / 语义分组 / 类型分组);

  1. 识别元素层级(模块级→组件级→元素级→细节级);

  1. 确定对比范围(仅 “同分组 + 同类型 + 同场景” 的元素需保持样式一致);

  1. 判断是否影响用户体验。

    同时明确核心判断标准:同分组 + 同类型 + 同场景必须一致;同分组 + 不同类型可有差异;不同分组无论类型是否一致,均允许或预期有差异。此次迭代后,误报率从 70% 降至 40%。

第二轮迭代:细化规则 —— 修正 “分组认知” 与间距判断偏差

第二轮测试又出现新的误判问题,主要是分组划分不够细致,且混淆内边距(padding)与外边距(margin)的检查重点。典型误判如下:

  • ❌ “字段标签和字段值的颜色不一致”—— 标签与字段值分属不同分组,不应对比颜色;

  • ❌ “选项按钮之间的间距不均匀”—— 按钮宽度自适应文字长度,只需内边距一致,外边距可不同。

    针对这些问题,我追加两条规则:字段标签与字段值分属不同分组,不对比颜色;检查间距时,重点关注内边距一致性,而非外边距完全相同。迭代后,误报率进一步降至 25%。

第三轮迭代:正视局限 —— 加入 “精度限制说明”

这次遇到根本问题:AI 无法精准识别色值、计算对比度,导致定量判断出错,比如误判 “按钮对比度约 3.2:1,不达标”,但设计师实测该按钮符合标准。

梳理视觉模型可靠度后发现:AI 擅长定性判断(如 “按钮是绿色的”“文字看不清”),但定量判断(识别具体色值、计算对比度、测量像素值)可靠度极低。基于此,我加入「精度限制说明」:

  • 确定性问题(如文字被截断):直接判断,仅描述现象;

  • 模糊问题(如疑似对比度不达标):输出 “💡 建议验证”,不判为问题;

    此次迭代后,误报率降至 10% 以下。

第四轮迭代:解决图片模型问题导致的误报

剩余顽固误判多源于 “模型观察误差”:AI 视觉上认为有问题,但实际并无异常(如箭头对齐、按钮内边距,看似不一致,实际均符合标准)。

针对这类问题,我调整评审策略:对模型无法确认的差异,标注 “需二次确认”,不直接判为问题,以免误报影响评审可信度。

第五轮迭代:完善框架 —— 构建三层防护机制

经过前四轮迭代,为技能搭建了完整的三层防护机制,彻底解决误判问题,同时完善评分与检测规则:

  1. 第一层:前置判断(分组 + 类型 + 层级)→ 决定 “要不要对比”,防止混淆;

  1. 第二层:精度限制(模型可靠度分级)→ 决定 “怎么输出结果”,规避定量误判;

  1. 第三层:保守策略(不可误报)→ 决定 “不确定时怎么办”,降低误报率。

    同时明确评审输出三级标准:🔴 确定性问题(如文字截断)、⚠️ 需二次确认(模型观察有差异)、💡 建议验证(需专业工具判断),让评审结果更清晰、可靠。

评分体系与检测规则

解决误判问题的同时,我同步优化技能的评分与检测规则,避免其他漏洞:

  • 评分体系:废除基础分,采用 “清零计分”(100 分起步,最终分 = 100 – 所有问题扣分),逻辑透明、可重复,避免双重计算;

  • 强制清单:新增 6 项核心检测项,明确标准与判定等级,避免漏检,取代 “AI 扫一眼” 的不稳定模式;

  • 扣分规则:结合设计成熟度调整扣分幅度,粗糙设计扣分更重,贴合实际评审需求;

  • 独立评估:明确不同版本设计独立判断,不交叉参照,反映真实质量差异。

    技能历经 5 轮迭代逐步完善:

  • 第一版 “两阶段评审” 存在扣分不固定、双重计算、检测不稳定等致命问题;

  • 第二版推行清零计分、标准化扣分并精简文件,仍有精度阈值缺失和无强制清单的漏洞;

  • 第三版明确间距 、WCAG 2.1 AA 两个精确判断锚点,解决分数同步升降问题;

  • 第五版新增规则避免概念替换错误,解决漏判问题,逐步实现 AI 评审从高误报到精准的转变。与此同时,同步优化评分与检测规则,针对性开展评分复盘,避免各类隐性漏洞。

    具体调整如下:废除第一版不合理的基础分机制,全面推行 “清零计分” 模式,以 100 分为起始分,最终得分 = 100 – 所有问题扣分,彻底杜绝基础分与扣分双重计算的逻辑矛盾,让评分过程更透明、结果更可重复;新增 6 项核心检测项,形成标准化强制清单,明确每项检测的具体标准与判定等级,取代此前 AI “扫一眼” 的不稳定检测模式,有效避免漏检问题;优化扣分规则,结合设计稿成熟度(A/B/C/D 四级)调整扣分幅度。

总结

从初版误报率 70% 的 “翻车”,到 5 轮迭代后误报率降至 10% 以下,「设计质检官」最终成为我工作的得力帮手。这段经历让我深知:修改 AI 技能的关键,并非让 AI 更聪明,而是让 AI 明确自身边界,制定贴合实际需求、逻辑严谨的规则。

它虽不完美,但足够实用。希望这份复盘经验,能为想打造或修改 AI 技能的人提供参考,少走弯路。

当然,不同模型得出的结论可能不同,可以多尝试几个模型,挑选最好用的。