乐于分享
好东西不私藏

我看完一篇视觉 AI 论文,终于明白 AI 图为什么越改越偏

我看完一篇视觉 AI 论文,终于明白 AI 图为什么越改越偏

别再只问 AI 图好不好看,先判断它在哪一层

事情是这样的。

最近这两天,我刷到了一篇关于视觉生成的综述论文。

名字我就不念了,反正署名里有一大串高校、研究机构和厂牌,清华、南洋理工、百度全在里面。论文整整 129 页,我看了一下,里面分析了 400 多篇参考文献,几乎一半都是去年的。

这就是现在 AI 进化的速度。

但坦率的讲,这篇论文里那些复杂的模型名字、技术路线,我一个都没记住。

真正打动我的,是它提出了一个框架。一个把 AI 画图分成五个层级的框架。

我当时就愣住了。

因为这玩意解答了我最近一直在纠结的一个问题。

大家也都知道,现在随便拉个 Midjourney 或者 FLUX 出来,第一张图都能画得特别唬人。很多小伙伴一看图好看,就觉得卧槽这 AI 无敌了,肯定啥都能干。结果真拿到工作里,想做个带字的海报,或者想给同一个人物换个场景,直接被干懵了。

就,完全不知道怎么调。

给的词再多,出来的东西也是稀烂。

为啥。

因为我们搞错了一个前提。

我们总是习惯先问「这图画得好不好看」。

其实不对。我们应该先问,我现在手头这个活儿,到底需要 AI 具备第几层的能力。

顺着这个思路,咱们来聊聊。

最基础的第一层,其实就是「会画」。

你丢给它一句话,它给你一张图。这已经很爽了,你想想看,以前找个封面灵感或者情绪板,得在 Pinterest 里翻半天,还得拼来拼去。现在一句话,它能给你十几个方向。

这种感觉太爽了。

但说真的,这也仅仅是发散灵感。

你千万别把第一层的产物当成品。它看着像海报,其实上面的字根本没法读,构图稍微抠一下全是病。它好看,但不代表能交付。

这就是个草稿。

再往下走,到了第二层,就是「听指挥」。

你想想看,真实工作里,谁也不会要一张随便画的、好看的图。老板的要求永远是,左边放个人,右边留白写字,背景要干净,别挡着标题。

这时候你要是还指望一句提示词把事办了,那纯属跟自己过不去。

这块需要注意一下,你得开始给约束了。

给参考图,给画面比例,框出文字位置。很多朋友抱怨 AI 不听话。其实不是它听不懂人话,而是你把它当许愿机了。

在第二层,它是个需要被死死按在框架里干活的执行者。

继续往深了去,第三层,我叫它「记得住」。

很多人应该都踩过这个坑。你想画同一个人在不同场景里的系列图。今天在办公室,明天在街头。

结果你懂的。

让它换个背景,它把脸给换了。让它换件衣服,连人物年龄都给你改了。

越改越偏。

给我一下子整不会了。

其实这就是因为,连续保持一致本身就是个高级能力。如果你想要系列内容,每一轮都得明确告诉它啥不能动,把关键的参考图死死咬住。一旦发现它跑偏了,马上撤回重来,千万别顺着错的图继续往下走。

再往下,第四层就有点意思了,叫「会检查」。

大家想想看,平时画个复杂的流程图或者带字的海报。图是出来了,结果呢。

检查错别字、看元素有没有重叠、看箭头有没有指错,排错的时间比画图还长。真的就是一声叹息。

真正的效率提升,不是它能一秒出一百张图。而是它画完了知道自己去查。发现字被挡了,它自己挪开。

不过实话说,现在的工具大部分还没聪明到这个份上。

所以在这个阶段,屏幕前的你如果想少返工,就得替它把验收标准写清楚。别说「搞个高级点的海报」。要说「主体绝对不能遮挡文字」「最多保留三条核心卖点」「中文必须清晰可读」。

你给的不是更长的提示词。而是更清晰的验收标准。

最后,这第五层,最特么离谱,叫「懂世界」。

大家也都知道,现在经常能看到那种极其逼真的物理引擎仿真图。但看着真,不代表它懂物理规则。

一个齿轮转起来会不会卡住,一个水杯掉下来水花怎么溅。甚至一张医学解剖图里某个血管对不对。就像你用 Sora 生成视频一样,物理不自洽一眼就假。

这些都不是美术问题,这是这个世界运行的法则。

我一直觉得,把现在的 AI 当未来的 AI 用,是件挺危险的事。凡是涉及真实结构和专业知识的图,你必须亲自下场复核。它给你候选,但最终拍板的那个,必须是你。

回到刚才这块。

看到这里大家其实就明白了。不是 AI 工具不行,也不是你的提示词没写对。

而是咱们把高级任务,丢给了低级能力。

坦率的讲,真正要改变的,不是去死记硬背什么神仙提示词。而是我们要换个脑子。

放弃许愿机的心态,开始跟它协作。先定框架,再给约束,最后守住验收的标准。只有这样,那些好看的图才不会永远停留在草稿纸上。

技术这玩意,跑得再快。能不能真的用起来,最后还是取决于握着方向盘的那个人。