AI写的代码90%被拒,设计工具也面临同样的信任危机

最近一个基准测试火了： FrontierCode ，由 20 多位顶级开源维护者手工制作 150 个任务，依据 3000 多条规则判断维护者是否愿意合并代码。

结果令人震惊：最强的 AI 模型 Claude Opus 4.8 ，在最高难度档的维护者审核通过率只有13.4%。

这意味着什么？意味着 AI 写了 10 行代码，只有 1 行半能让有经验的人愿意接受。

为什么 AI 写的代码"差"？

不是 AI 写得不"对"——它能跑、能编译、甚至功能完全正确。

问题出在代码的可维护性上。

AI 写的代码往往缺少上下文理解。它不知道这段代码未来会怎么扩展，不知道它和其他模块的耦合关系，不知道团队的编码规范。

它只是根据提示词"写出来"，但不会"写好"。

答案是：已经开始了。

当我们用 AI 生图工具生成设计稿时，经常会遇到一种情况——单看一张图，效果不错；但放到整个项目里，就是"差点意思"。

这个"差点意思"，和 AI 写代码的问题如出一辙：

•AI 理解不了品牌调性的微妙差异

•AI 不知道这个元素在下一个页面长什么样

•AI 不会考虑用户从一个页面到另一个页面的操作流

单点优秀不等于系统优秀。

这就引出了一个被忽视的问题：设计信任。

AI 生成的设计，你敢直接交给客户吗？你敢直接上线吗？

大概率不敢。你会反复修改，反复确认，反复加自己的判断。

这很正常。因为信任不是靠"单次质量"建立的，而是靠"持续可靠性"建立的。

当 AI 在某个环节表现不稳定时，你就会对它产生"防御性审核"——每份输出都要检查一遍。

这种审核成本，恰恰是 AI 本该降低的。

第一，降低期望。 AI 不是一张"完美设计稿生成器"，而是一个"设计灵感加速器"。你的预期从"生成完美方案"调整为"生成 5 个起点方案"，心理落差会小很多。

第二，建立工作流。把 AI 的输出作为"第一轮草案"，你的专业判断作为"第二轮精修"。这样 AI 的效率价值就能真正发挥。

第三，关注"上下文感知"的能力。未来能脱颖而出的 AI 设计工具，不是那些单点生图能力最强的，而是那些能理解整个设计系统、理解品牌规范、理解用户路径的。

AI 在设计领域的困境，本质上是一个"信任建立"的问题。

它现在能给你一张"看起来不错"的单图，但还给不了你一套"用起来放心"的完整方案。

信任一旦建立，飞轮就会转起来。在飞轮转起来之前，别指望 AI 替你做任何重要决策。

把它当助手，不当老板。这才是最靠谱的姿态。