【AI辅助设计】AI 会画图了,但它真的懂什么是好设计吗

图，Design Crit 研究封面。

一、AI 会画图了，但它会判断好坏吗

事情是这样的。

Contra Labs 发了一篇很有意思的研究，叫 Design Crit。它想解决的问题非常直白，AI 现在已经很会生成设计图了，但它会不会判断一张设计图到底好不好？

这个问题乍一看像玄学。

大家平时聊设计，经常会说一个词，taste，品味。一个人有没有品味，一个设计是不是高级，一张图是不是对，很多时候好像都靠感觉。

但 Contra Labs 这次的态度很硬。

他们说，大家都在聊 taste，可如果一个东西没法测量，你就没法改进它。所以他们真的去测了。

Design Crit，全称 Criteria-Resolved Image Taste，是一个由设计师标注的 AI 图形设计偏好数据集。里面有 10 位专业设计师，对 4 个前沿图像模型生成的设计作品进行盲评，而且不是只问一句「哪张更好」，而是拆成 9 个真实设计工作里会用到的维度逐项评价。

1. 设计不是一句「哪张更好」

这个点其实很关键。

因为现在的文生图模型已经从早期研究 demo，变成了真的生产工具。海报、社媒图、UI mockup、logo，很多东西已经可以直接从模型里出来。但训练和评估这些模型的偏好数据，大多还是从照片式、场景式生成那里来的。

那种场景里，一个总体判断往往够用。

哪张更清晰？哪张更符合 prompt？哪张看起来更像一张正常照片？

但设计不是这样。

一张平面设计图，可能空间结构很对，但颜色意图完全跑偏。另一张图可能满足了 brief，却把字体层级搞崩了。它们都可能得到同一个整体赞成票，但原因完全不同。

真正设计师在判断时用到的信号，就藏在这些单一标签平均掉的维度里。

所以 Contra Labs 做的事情，可以理解成补了一层判断层。

它不是让 AI 再生成一张更漂亮的图，而是想让系统能像设计师一样，分维度说出这张图哪里对、哪里错、哪里只是看起来对。

图，Design Crit 的核心链路，数据集、评测、训练和结论之间的关系。

二、Design Crit 到底怎么做

他们这次把 4 个当前的文生图模型放到一起比较。

分别是 bfl.ai 的 FLUX.2 max，OpenAI 的 ChatGPT Image 1.5，Google DeepMind / Gemini 的 Nano Banana 2，还有 BytePlus 的 Seedream 5.0 Lite。

所有作品在评审面前都隐藏品牌，只用盲码展示，避免设计师因为模型名字产生预设。

10 位专业设计师来自 Contra 的创意专家网络，被分成两组，每组 5 人。

一组负责审美维度，包括整体偏好、情绪和调性、视觉层级、色彩和谐、字体工艺。

另一组负责描述忠实度，包括整体偏好、颜色准确性、空间准确性，以及 brief 要求出现的文字是否真的被正确渲染。

这 9 个标准不是拍脑袋来的。团队先从更长的标准列表出发，通过 pilot study 和设计师访谈收窄维度，同时参考了 Contra Labs 之前的 Human Creativity Benchmark，最后留下那些设计师会稳定区分开的判断轴。

图，Design Crit 的评测样例、模型来源和评价维度。

2. 数据规模和评分方式

具体数据规模是这样的。

9 个标准，每个标准 80 个 prompt。每个 prompt 由 5 位设计师对 4 个模型生成结果进行评分。每个标准一共 1600 条评分。

设计师还会完成每个 prompt 下 4 个模型之间的 6 组两两比较，然后研究团队把这些 pairwise comparison 聚合成严格的四模型排序。

在两个整体偏好轨道上，设计师还会给每张图标注是否有幻觉。

这些评价来自真正工作的专业设计师，补的是当前模型训练和评估里大家一直在盲飞的那一层。

三、设计判断是玄学吗

说到这里，一个很自然的问题会冒出来。

设计不是主观的吗？设计师之间真的有一致性吗？如果每个人都只是凭个人喜好投票，那这个数据还有什么可学的？

Contra Labs 直接测了这件事。他们检查设计师之间的一致性是否高于随机评审，并且对照精确的零分布。

结果是，有信号。

设计师对好设计的共识，大概类似人们对最喜欢哪部电影的共识。比大家判断哪张照片更清晰要弱，但不是一盘散沙。

而且这种分歧是健康的。

大家共享一个粗略的「好」的方向，上面叠加个人差异。并没有出现两个品味阵营，彼此完全对着干。

这恰好是模型可以学习的模式。

不过，不同维度上的一致性差别很大。

越能和 brief 对照的维度，一致性越高。比如要求的文字有没有被正确渲染，版式空间是否准确，颜色是不是按要求出现。

越接近纯感受的维度，一致性越低。色彩和谐是最低的那个。

最清楚的是成对比较。

设计师们在「文字有没有正确出现」这件事上的一致性，远高于「字体排得好不好」。他们在「要求的颜色有没有出现」上的一致性，也高于「这些颜色放在一起是否和谐」。

同一个主题，能检查的版本一致性高，靠感觉的版本一致性低。

这挺真实的。

设计不是没有信号，只是越靠近 taste，噪声越大。

图，设计判断并不等于纯主观偏好，也不等于简单客观质量。

图，不同标准上，设计师之间的一致性差别很大。

四、现在的 AI judge 表现如何

然后问题来了。

既然信号存在，那现在市场上的 AI judge 能不能读出来？

他们测了 9 个预训练系统。里面有 3 个专门的偏好和审美评分器，HPSv 2.1、PickScore-v 1、LAION-Aesthetic-V 2。还有 6 个开源权重视觉语言模型，被 prompt 成二选一评审，让它们判断哪张图更好。

结果有点尴尬。

没有一个系统和 5 位设计师多数意见的一致率超过 55%。

随机猜是 50%。表现最好的 HPSv 2.1，训练时用过超过 64 万组人类图像比较，最后也只有 54.3%。LAION-Aesthetic-V 2 甚至低于随机。

人类设计师和设计师小组多数意见的一致率是 74.1%。

所有机器评审，都卡在比抛硬币好一点点的死区里。

图，现有 AI judge 与人类设计师多数意见之间仍有明显差距。

3. 更大的模型，也没有自动变懂设计

更扎心的是，规模也没救。

他们测了 Qwen 3-VL 的 4 B、8 B、32 B，结果都在 51% 到 54% 之间。

原因不是大模型完全没变化，而是变化被抵消了。

更大的模型位置偏差更少。也就是说，你把两张图左右顺序换一下，它的选择不太会变，所以它更稳定。

但这种稳定没有带来准确率。它真正做出判断时，并没有更接近设计师，甚至略差一点。

小模型更容易受位置影响，但在它不受位置影响、真正做出选择的那些 case 上，反而更锐利。

研究里还有一个很有意思的相关性，模型越依赖位置偏差，在它不依赖位置时判断反而越好，Spearman ρ 等于 +0.94。两个效果互相抵消，整体表现就一直上不去。

瓶颈不是算力，是数据。

图，模型规模变大，并没有自动带来更好的设计判断。

五、生成模型自己看不见的问题

他们还发现了另一个问题，生成模型会在设计里产生幻觉。

设计师在排序时，同时会给整体偏好轨道上的每张图标记是否有 hallucination，也就是出现了 brief 没要求的元素，或者和任务无关的漂移。

在每组 1600 个标记里，大约 55% 是干净的，35% 是轻微幻觉，10% 是严重幻觉。

也就是说，每 10 张完成设计里，就有 1 张带着重大幻觉。

它可能多了一个 prompt 从没要求的元素，可能文字乱了，可能某个视觉对象跑偏了。

这些东西设计师一眼就能看出来，但生成它的模型自己看不见。

图，AI 生成设计中的幻觉比例。

六、真正的转折，taste 可以被学习

不过这篇研究不是只在吐槽。

真正的转折在后面。

他们训练了一个很小的 pairwise-difference head，放在冻结的视觉语言编码器上。没有微调 backbone，模型故意做得很克制，直接用 Design Crit 数据训练。

结果达到了 0.611 的设计师一致率。

这个数字补上了从随机 0.500 到人类上限 0.741 之间大约 46% 的差距，也是他们 sweep 里第一个越过标准正则化无法推动的噪声地板的配置。

这和前面的 benchmark 形成了反向证明。

信号一直都在。

只是它不能从照片偏好数据里借来，必须从真正的设计判断数据里学。

图，用 Design Crit 数据训练后，模型补上了从随机到人类上限之间约一半差距。

4. 最难的样本上，模型反而接近人类

更有意思的是困难样本。

大约一半的 pairwise comparison 是 3 比 2 的分裂，也就是 5 位设计师里 3 个选 A，2 个选 B。这种情况本来就很难，因为设计师自己都接近五五开。哪怕是完美预测器，也有一部分是在猜。

恰恰在这些真正考验判断力的 case 上，用 Design Crit 训练出来的模型拿到了 0.602，而人类上限是 0.600。

当设计师小组分裂成 3 比 2，一个单独设计师和多数意见一致的概率也不过是五次里三次。模型现在已经接近这个水平。

当然，在设计师觉得容易的 case 上，模型和人类之间还有明显差距。但在最难的那些 case 上，差距几乎没了。

图，在 3 比 2 分裂的困难样本上，模型已经接近单个设计师的人类上限。

七、为什么这件事重要

所以这件事为什么重要？

Design Crit 可以用来给设计生成系统做一个决策层。

因为它是按 criterion 拆开的，所以你可以按任务需要在不同生成模型之间路由。做 logo，就选字体能力更强的模型。做版式，就选空间准确性更强的模型。做品牌氛围图，就更看重 mood、tone 和色彩。

这比相信一个模糊的总分要靠谱很多。

同样的结构，也可以作为训练偏好 judge 和 reward model 的监督信号，让它们优化特定设计维度，而不是优化一个糊成一团的平均分。

原文最狠的一句话，其实就是这句。

AI 可以生成设计，但它还不能可靠地区分好设计和坏设计。而且光靠扩大模型规模，不会自动解决这个问题。

但比较乐观的发现是，那个缺失的信号，也就是 taste，并不是不可学的玄学。它是真实存在的，可以从专家数据里学出来。

Contra Labs 说，这就是他们的网络要提供的那一层，由创意人，为创意 AI 提供的那一层。

这项工作是 world lica 和 Contra Labs 的合作，第一份 Design Crit 数据集 TASTE 已发布在 arXiv，编号 2605.20731。

图，原线程附带动图，已转成 GIF 并转存。

八、我的一点判断

说实话，我觉得这篇最有价值的地方，不是它证明了「AI 可以学会品味」。

这个结论太容易被误读了。

很多人看到这里，可能会下意识觉得，完了，设计师最后一块护城河也要被数据化了。

但我自己的感受刚好相反。

它真正证明的是，设计判断不是一句「好看」能概括的东西。

过去很多 AI 图像评估的问题，就是把复杂的设计判断压成了一个单点偏好。最后模型学到的，往往是更亮、更清晰、更像爆款图、更像训练集里人类点赞的图。

这不是设计。

设计更像一组互相牵制的取舍。

字体要稳，但不能死。颜色要准，但不能脏。空间要对，但不能僵。brief 要满足，但不能只是机械执行。情绪要出来，但不能把信息压没。

这些东西全塞进一个总分里，当然会失真。

所以 Design Crit 的意义，反而是在提醒我们，别再用一个「好不好看」糊弄设计了。

如果未来 AI 真的要进入生产级设计流程，最先成熟的可能不是「一个全能模型直接给你完美稿」，而是一套更像设计总监的系统。

它知道这个任务更看重什么。

它知道这张图字体不行，但色彩可以保留。

它知道这个模型适合做 moodboard，那个模型适合做排版，另一个模型更适合按 brief 还原文字。

它甚至能把反馈拆成可执行的修改意见，而不是只说「再高级一点」。

这才是我觉得真正有用的方向。

九、这项研究的限制

当然，限制也很明显。

原文自己也讲了。

样本还小。每个 prompt 只有 5 位设计师评分，这足够测一致性、排除随机噪声，但还不足以对单个比较做非常确定的判断。

每个标准使用的是各自独立的 80 个 prompt，所以没有同一张设计在多个标准上被同时评价。这样能让每个评分保持干净，但也带来一个问题，我们看不到同一个设计师在同一张图上如何权衡颜色和字体，因为没人对同一张图同时评这两个维度。

所有 prompt 都是英文，所以跨语言 taste 没有被覆盖。

9 个标准覆盖了很多东西，但还不完整。可访问性、品牌一致性、动效、受众匹配，都应该是后续可以加入的自然维度。

十、下一步会走向哪里

未来研究也很清楚。

下一步应该扩大规模，让每个 prompt 有更多设计师，加入更多语言，扩展评价标准。

如果同一批设计能在所有维度上被评价，就能看到设计师如何在颜色和层级、忠实度和感受之间做权衡，而这些 trade-off 正是单一分数会隐藏掉的东西。

目前他们只是证明了这个信号可以被学成一个 judge。还没有回答另一个更重要的问题，它能不能让生成模型真的变成更好的设计师。

如果未来用这些分维度 reward 去训练生成器，直接推动字体、颜色或版式能力，再看最终作品是否真的变好，那才是下一场更有意思的实验。

十一、线程里的几个问题

原推下面的几条回复也挺有意思。

有人说，设计原则可以教，设计惯例可以学，但 taste 属于个人。

我觉得这句话很准确，但它和 Design Crit 并不冲突。

taste 当然有个人性。但个人性不等于完全随机。就像音乐、电影、建筑一样，审美判断里永远有共同结构，也永远有私人偏好。Design Crit 学的不是把所有人变成同一种口味，而是先把那些可讨论、可拆解、可反馈的部分捞出来。

也有人问，我不太理解，为什么这是一个需要解决的问题？

这个问题其实问到了核心。

如果 AI 只是拿来玩图，确实不需要解决。你喜欢哪张就用哪张。

但如果 AI 设计要进入生产流程，要替品牌出图，要进广告投放，要进 UI、包装、logo、社媒和商业素材，那判断层就非常重要。

因为生成只是第一步。

真正花时间的是筛选、诊断、修改、对齐。

如果机器只能批量生成，却不能靠谱地告诉你哪张图为什么不行，那设计师只是从「自己画」变成「在垃圾堆里翻金子」。效率提升会被审核成本吃掉一大块。

所以我觉得 Design Crit 这类工作，可能比单纯发一个更会画图的新模型还重要。

它不性感。

没有一键生成大片那么抓眼球。

但它在补生产系统最缺的那块东西。

判断力。

十二、最后真正要补上的，是判断力

大时代啊，朋友们。

以前我们以为 AI 先学会执行，再慢慢学会创造。

现在看，下一步可能是它必须先学会批评。

不然它生成得越快，人类越累。

资料来源：

原文来源，Contra Labs，Introducing Design Crit
原推链接，https://x.com/contralabs_ai/status/2067642363909144932
研究页，https://contralabs.com/research/design-crit
论文，https://arxiv.org/abs/2605.20731

「更多 AI 前沿技术与设计灵感，欢迎关注「设计小站」公众号（ID：sjxz00），一起探索科技与设计的融合创新。」