先讲三个真实事件。
2026年1月,人民邮电出版社出了本《人像摄影口袋书》,159张配图里有75张是AI生成的。四次印刷,没人发现。直到有网友随手翻了翻,找到六根手指、六根脚趾、扭曲的肢体——这本售价78元的”摄影教材”,教人像摄影的范例照片,有一半是人眼一看就假的AI图。
2026年5月,《一人之下》漫画763话上线。读者立刻察觉不对——核心剧情镜头”二壮生命维持仓被破坏”,俯视图和正面视角的空间逻辑互相矛盾。粉丝逐帧分析后发现,那些”剧情伏笔”根本不是作者埋的暗线,是AI随机生成的不合逻辑画面。官方替换后只描图微调,没有重绘。弹幕爆炸。
同样是5月,良品铺子的一张AI海报被全网群嘲。画面上,花生挂在树上,工人在收割。AI不知道花生是长在地底下的。
这三件事放在一起,说了一个很少被认真讨论的问题:
AI画得越像真的,它”不知道自己在画什么”这个问题就越危险。
六根手指好发现,花生上树也好发现。但那个摄影教材的问题不是”多画了一根手指”——是一本教人审美的书,配了75张没有审美的图。而读这本书的人,可能根本分辨不出来。
AI真的在看图吗?不,它在猜下一个像素
Purdue大学2026年5月发了一篇论文,144人参与对照实验。结论很有意思:
AI生成的配图在认知负荷和事实识别上,跟纯文字没有显著差异。但有一项显著胜出——mental simulation,心理模拟。61.8%的参与者说,AI生成的画面能帮他们”脑补”出场景。
这意味着什么?AI配图不是信息载体,是情绪触发器。它帮你省的不是”解释清楚”的力气,是”带入氛围”的力气。
但这也同时是它最危险的地方。因为它在触发情绪——而不是传达事实——你很容易被带进一个AI瞎编的、看起来合理但经不起推敲的叙事里。
《一人之下》那个翻车就是活生生的例子。AI生成的”二壮生命维持仓被破坏”画面,第一眼很震撼、很燃。粉丝是被情绪打中的。冷静下来后才发现,俯视和正面两格画面之间的空间关系在物理上不可能同时成立——AI把”俯视”和”正面”当成两个独立的风格标签,各画各的,完全没有”我是站在同一个房间里换了个角度”的意识。
它不是画错了。它是根本不知道自己在看着什么。
AI没有空间感,它只有”空间感的样子”
有人做了一个非常直观的实验:用ChatGPT Image 2.0画”阿强在饮水机旁倒水,手机掉进杯子”的四格漫画。
第三格,水变成了凝胶状——AI不懂流体,它检索到”水花激荡”的视觉模式,但无法理解那个视觉模式对应的物理规律。第四格,杯子凭空消失了——因为四格图是分别生成的,上一格的”杯子存在”没有传递到下一格。
这不是”还可以再加一个提示词约束”。这是AI架构层面的问题——它没有世界模型。
所谓”世界模型”,就是你知道你把杯子放在桌上,十秒后它还在桌上。你知道从正面走到侧面,看到的是同一个房间。你知道花生长在地下,不是树上。这些对人类来说不叫”知识”,叫”活着的基础经验”。但对AI来说,它每一个像素都是重新猜一遍。上一帧跟下一帧之间,没有”世界”在延续。
Google在CVPR2026发了CANVAS系统,专门解决这个问题。他们给多智能体框架加了”世界状态”模块——跟踪每一帧画面里角色的位置、环境的变化、物体的存在状态。背景连续性的得分提升了21.6%,角色一致性提升了9.6%。
但即便这样,也只是在”辅助”人类的判断。论文的结论很明确:一致性可以被算法改善,但无法被算法保障。最终那一下”看有没有杯子消失”,还是得人来做。
你以为在”生成配图”,其实在”翻译视觉模式”
CVPR 2026的另一个工作DreamShot揭示了更底层的东西。
DreamShot想做的是”个性化故事板”——你给我一段文字,我给你一套视觉上连续的分镜。传统做法是逐张用文生图模型生成,然后拼在一起。DreamShot选择了一条完全不同的路:用视频扩散模型来做。
为什么?因为视频模型天然有”帧间一致性”。它理解”前一个画面”和”后一个画面”之间的过渡,而不是把每一帧当孤立的图像。
这个洞察很关键——它告诉我们:“分镜配图”之所以难,不在于单张图不够好看,而在于图与图之间没有连续性。而连续性不是”加一句保持风格统一”能解决的,它需要模型架构层面的支持。
这对我们这些普通人意味着什么?意味着现在用市面上任何一个文生图工具去做”系列配图”,本质上都是在对抗模型的底层设计。那些工具在设计上就是针对”单张最优”的。你想让它三张风格统一,它在做的事情不是”保持统一”,而是每张图都重新从零”猜”一遍——你的指令、人物、场景、色调。三次独立的随机事件叠加在一起,风格不跑偏才不正常。
“连生成图片都要靠人画草图,AI还有用吗?”
这是全网最扎心的评论之一。起因是有人发现,做多人空间构图的成功率高做法是——在PPT里画火柴人草图,标上编号,然后把草图扔给AI。
看起来很荒谬:你都画了草图了,还用AI干嘛?
但另一个角度看,这是对AI最正确、最诚实的使用。你把AI定位成”渲染引擎”,而不是”创意大脑”。你负责所有的空间判断(谁站在左边、谁在前排、哪只手举起来了),AI负责把线条填成画面。空间归人,纹理归AI。这才是目前最合理的分工。
实测数据:用”灵魂画手草图+四层锚定词(场景→角色→关系→氛围)“这个工作流,抽卡成功率从不到30%飙升到90%以上。
AI在这种分工里没有被贬低——恰恰相反,它被放在了最正确的位置上。它的强项是视觉填充,弱项是空间理解和物理恒存。你让它在弱项上硬扛,翻车是必然的。你让它做它擅长的,它快到你不敢信。
所以”用AI给文章做分镜配图”到底是什么?
不是”给文章配几张好看的图”。那叫插图,不叫分镜。
分镜的本质是你对读者的视觉叙述。第一张图建立空间和情绪,第二张图逼近人物或核心冲突,第三张图收在一种留白的气口上。三张图之间有时间、有空间、有情绪流动。
AI能帮你省掉从零手绘的80%工作量。但剩下的20%——镜头的选择、空间关系是否正确、第三格杯子有没有凭空消失、这束光打在这个人脸上是”孤独”还是”恐怖”——这20%没有工具能替你。因为它不是技术判断,是你这个人对”这一帧应该是什么”的判断。
就像那个用完整AI管线拍出获奖短片的印度导演Karthik说的:他生成了大量的镜头素材,最终只有5-10%进了成片。“拍摄和剪辑现在同时发生了,”他说,“生成、挑选、拼在一起,不断重复。”
他不是用AI替代了自己的判断。他用AI把”试错”的成本降到了零——本来拍一个镜头需要灯光、布景、演员、摄影棚,现在只需要重写一行提示词。但最终选哪个镜头、剪成什么节奏、情绪往上还是往下走——这些决定,跟AI没有任何关系。

夜雨聆风