我用 AI 做了一个「设计质检官skill」,踩过的坑都在这儿了-夜雨聆风

我用 AI 做了一个「设计质检官skill」,踩过的坑都在这儿了

身为设计师，常因老板与设计师间各执一词，为修改设计稿而困扰，于是我萌生打造「设计质检官」AI 技能的想法，期望让设计评审更客观。然而初版就 “翻车”，AI 给出 15 条评审问题，经设计师反驳，误报率竟超 70% 。本文着重复盘我如何历经 5 轮迭代，解决 AI 误判难题、完善技能规则，分享修改 AI 技能的核心经验与踩坑教训。

参照行业标准，明确方向

动手前，我参考网易、腾讯等大厂通用的 UI 验收 SOP，其核心是标准化检查清单，涵盖色彩、布局、间距等 6 个维度，有明确评分和判定标准。但它存在 3 个明显不足：维度划分较粗、无成熟度预判、缺少强制清单，易导致漏检。所以，我的核心思路是以行业标准为基础，新增成熟度机制和强制清单，着重解决 AI 评审的误判问题，打造实用的 AI 技能。

从高误报到精准评审

技能迭代的关键痛点在于 AI 误报率高，对设计逻辑理解有偏差。每一轮迭代都针对性解决具体问题，逐步优化规则，最终将误报率从 70% 降至 10% 以下，构建出完整、可靠的评审框架。

起点：满是错误的评审结果（初版致命问题）

初版 AI 技能接入视觉大模型后，首次评审输出 15 条问题，可大多被设计师认定为误判。核心问题在于 AI 对 “一致性” 的判断逻辑有误，将所有元素混为同类对比。典型误判案例如下：

❌ “标签和按钮之间的间距不一致”—— 标签与按钮层级不同，间距有别属正常设计；

❌ “状态标签、操作按钮、选项按钮的圆角不统一”—— 无需所有圆角统一，同组同类保持一致即可；

❌ “人名、时间、说明文字的颜色不统一”—— 这些元素类别不同，颜色有差异属合理。

15 条问题中，真正有价值的仅 3 – 4 条，误报率超 70%。复盘发现，并非模型不智能，而是评审规则存在根本性漏洞，未契合实际设计逻辑。

第一轮迭代：补齐关键漏洞 —— 添加 “分组判断” 前置流程

复盘所有误判案例，发现规律：AI 判断 “一致性” 时，未区分元素分组与层级。于是，我为 AI 新增「前置判断流程」，要求评审任何样式问题前，先完成 4 步：

识别元素分组（模块分组 / 语义分组 / 类型分组）；

识别元素层级（模块级→组件级→元素级→细节级）；

确定对比范围（仅 “同分组 + 同类型 + 同场景” 的元素需保持样式一致）；

判断是否影响用户体验。

同时明确核心判断标准：同分组 + 同类型 + 同场景必须一致；同分组 + 不同类型可有差异；不同分组无论类型是否一致，均允许或预期有差异。此次迭代后，误报率从 70% 降至 40%。

第二轮迭代：细化规则 —— 修正 “分组认知” 与间距判断偏差

第二轮测试又出现新的误判问题，主要是分组划分不够细致，且混淆内边距（padding）与外边距（margin）的检查重点。典型误判如下：

❌ “字段标签和字段值的颜色不一致”—— 标签与字段值分属不同分组，不应对比颜色；

❌ “选项按钮之间的间距不均匀”—— 按钮宽度自适应文字长度，只需内边距一致，外边距可不同。

针对这些问题，我追加两条规则：字段标签与字段值分属不同分组，不对比颜色；检查间距时，重点关注内边距一致性，而非外边距完全相同。迭代后，误报率进一步降至 25%。

第三轮迭代：正视局限 —— 加入 “精度限制说明”

这次遇到根本问题：AI 无法精准识别色值、计算对比度，导致定量判断出错，比如误判 “按钮对比度约 3.2:1，不达标”，但设计师实测该按钮符合标准。

梳理视觉模型可靠度后发现：AI 擅长定性判断（如 “按钮是绿色的”“文字看不清”），但定量判断（识别具体色值、计算对比度、测量像素值）可靠度极低。基于此，我加入「精度限制说明」：

确定性问题（如文字被截断）：直接判断，仅描述现象；

模糊问题（如疑似对比度不达标）：输出 “💡 建议验证”，不判为问题；

此次迭代后，误报率降至 10% 以下。

第四轮迭代：解决图片模型问题导致的误报

剩余顽固误判多源于 “模型观察误差”：AI 视觉上认为有问题，但实际并无异常（如箭头对齐、按钮内边距，看似不一致，实际均符合标准）。

针对这类问题，我调整评审策略：对模型无法确认的差异，标注 “需二次确认”，不直接判为问题，以免误报影响评审可信度。

第五轮迭代：完善框架 —— 构建三层防护机制

经过前四轮迭代，为技能搭建了完整的三层防护机制，彻底解决误判问题，同时完善评分与检测规则：

第一层：前置判断（分组 + 类型 + 层级）→ 决定 “要不要对比”，防止混淆；

第二层：精度限制（模型可靠度分级）→ 决定 “怎么输出结果”，规避定量误判；

第三层：保守策略（不可误报）→ 决定 “不确定时怎么办”，降低误报率。

同时明确评审输出三级标准：🔴 确定性问题（如文字截断）、⚠️ 需二次确认（模型观察有差异）、💡 建议验证（需专业工具判断），让评审结果更清晰、可靠。

评分体系与检测规则

解决误判问题的同时，我同步优化技能的评分与检测规则，避免其他漏洞：

评分体系：废除基础分，采用 “清零计分”（100 分起步，最终分 = 100 – 所有问题扣分），逻辑透明、可重复，避免双重计算；

强制清单：新增 6 项核心检测项，明确标准与判定等级，避免漏检，取代 “AI 扫一眼” 的不稳定模式；

扣分规则：结合设计成熟度调整扣分幅度，粗糙设计扣分更重，贴合实际评审需求；

独立评估：明确不同版本设计独立判断，不交叉参照，反映真实质量差异。

技能历经 5 轮迭代逐步完善：
第一版 “两阶段评审” 存在扣分不固定、双重计算、检测不稳定等致命问题；
第二版推行清零计分、标准化扣分并精简文件，仍有精度阈值缺失和无强制清单的漏洞；
第三版明确间距、WCAG 2.1 AA 两个精确判断锚点，解决分数同步升降问题；
第五版新增规则避免概念替换错误，解决漏判问题，逐步实现 AI 评审从高误报到精准的转变。与此同时，同步优化评分与检测规则，针对性开展评分复盘，避免各类隐性漏洞。

具体调整如下：废除第一版不合理的基础分机制，全面推行 “清零计分” 模式，以 100 分为起始分，最终得分 = 100 – 所有问题扣分，彻底杜绝基础分与扣分双重计算的逻辑矛盾，让评分过程更透明、结果更可重复；新增 6 项核心检测项，形成标准化强制清单，明确每项检测的具体标准与判定等级，取代此前 AI “扫一眼” 的不稳定检测模式，有效避免漏检问题；优化扣分规则，结合设计稿成熟度（A/B/C/D 四级）调整扣分幅度。

总结

从初版误报率 70% 的 “翻车”，到 5 轮迭代后误报率降至 10% 以下，「设计质检官」最终成为我工作的得力帮手。这段经历让我深知：修改 AI 技能的关键，并非让 AI 更聪明，而是让 AI 明确自身边界，制定贴合实际需求、逻辑严谨的规则。

它虽不完美，但足够实用。希望这份复盘经验，能为想打造或修改 AI 技能的人提供参考，少走弯路。

当然，不同模型得出的结论可能不同，可以多尝试几个模型，挑选最好用的。