
最近一个基准测试火了: FrontierCode ,由 20 多位顶级开源维护者手工制作 150 个任务,依据 3000 多条规则判断维护者是否愿意合并代码。
结果令人震惊:最强的 AI 模型 Claude Opus 4.8 ,在最高难度档的维护者审核通过率只有13.4%。
这意味着什么?意味着 AI 写了 10 行代码,只有 1 行半能让有经验的人愿意接受。
为什么 AI 写的代码"差"?
不是 AI 写得不"对"——它能跑、能编译、甚至功能完全正确。
问题出在代码的可维护性上。
AI 写的代码往往缺少上下文理解。它不知道这段代码未来会怎么扩展,不知道它和其他模块的耦合关系,不知道团队的编码规范。
它只是根据提示词"写出来",但不会"写好"。
设计工具会面临同样的问题吗?
答案是:已经开始了。
当我们用 AI 生图工具生成设计稿时,经常会遇到一种情况——单看一张图,效果不错;但放到整个项目里,就是"差点意思"。
这个"差点意思",和 AI 写代码的问题如出一辙:
单点优秀不等于系统优秀。
设计信任危机

这就引出了一个被忽视的问题:设计信任。
AI 生成的设计,你敢直接交给客户吗?你敢直接上线吗?
大概率不敢。你会反复修改,反复确认,反复加自己的判断。
这很正常。因为信任不是靠"单次质量"建立的,而是靠"持续可靠性"建立的。
当 AI 在某个环节表现不稳定时,你就会对它产生"防御性审核"——每份输出都要检查一遍。
这种审核成本,恰恰是 AI 本该降低的。
怎么破?

第一,降低期望。 AI 不是一张"完美设计稿生成器",而是一个"设计灵感加速器"。你的预期从"生成完美方案"调整为"生成 5 个起点方案",心理落差会小很多。
第二,建立工作流。 把 AI 的输出作为"第一轮草案",你的专业判断作为"第二轮精修"。这样 AI 的效率价值就能真正发挥。
第三,关注"上下文感知"的能力。 未来能脱颖而出的 AI 设计工具,不是那些单点生图能力最强的,而是那些能理解整个设计系统、理解品牌规范、理解用户路径的。
最后的实话

AI 在设计领域的困境,本质上是一个"信任建立"的问题。
它现在能给你一张"看起来不错"的单图,但还给不了你一套"用起来放心"的完整方案。
信任一旦建立,飞轮就会转起来。在飞轮转起来之前,别指望 AI 替你做任何重要决策。
把它当助手,不当老板。这才是最靠谱的姿态。
夜雨聆风