AI配图最大的幻觉不是六根手指,是你以为它在”理解”你的文章

先讲三个真实事件。

2026年1月，人民邮电出版社出了本《人像摄影口袋书》，159张配图里有75张是AI生成的。四次印刷，没人发现。直到有网友随手翻了翻，找到六根手指、六根脚趾、扭曲的肢体——这本售价78元的”摄影教材”，教人像摄影的范例照片，有一半是人眼一看就假的AI图。

2026年5月，《一人之下》漫画763话上线。读者立刻察觉不对——核心剧情镜头”二壮生命维持仓被破坏”，俯视图和正面视角的空间逻辑互相矛盾。粉丝逐帧分析后发现，那些”剧情伏笔”根本不是作者埋的暗线，是AI随机生成的不合逻辑画面。官方替换后只描图微调，没有重绘。弹幕爆炸。

同样是5月，良品铺子的一张AI海报被全网群嘲。画面上，花生挂在树上，工人在收割。AI不知道花生是长在地底下的。

这三件事放在一起，说了一个很少被认真讨论的问题：

AI画得越像真的，它”不知道自己在画什么”这个问题就越危险。

六根手指好发现，花生上树也好发现。但那个摄影教材的问题不是”多画了一根手指”——是一本教人审美的书，配了75张没有审美的图。而读这本书的人，可能根本分辨不出来。

AI真的在看图吗？不，它在猜下一个像素

Purdue大学2026年5月发了一篇论文，144人参与对照实验。结论很有意思：

AI生成的配图在认知负荷和事实识别上，跟纯文字没有显著差异。但有一项显著胜出——mental simulation，心理模拟。61.8%的参与者说，AI生成的画面能帮他们”脑补”出场景。

这意味着什么？AI配图不是信息载体，是情绪触发器。它帮你省的不是”解释清楚”的力气，是”带入氛围”的力气。

但这也同时是它最危险的地方。因为它在触发情绪——而不是传达事实——你很容易被带进一个AI瞎编的、看起来合理但经不起推敲的叙事里。

《一人之下》那个翻车就是活生生的例子。AI生成的”二壮生命维持仓被破坏”画面，第一眼很震撼、很燃。粉丝是被情绪打中的。冷静下来后才发现，俯视和正面两格画面之间的空间关系在物理上不可能同时成立——AI把”俯视”和”正面”当成两个独立的风格标签，各画各的，完全没有”我是站在同一个房间里换了个角度”的意识。

它不是画错了。它是根本不知道自己在看着什么。

AI没有空间感，它只有”空间感的样子”

有人做了一个非常直观的实验：用ChatGPT Image 2.0画”阿强在饮水机旁倒水，手机掉进杯子”的四格漫画。

第三格，水变成了凝胶状——AI不懂流体，它检索到”水花激荡”的视觉模式，但无法理解那个视觉模式对应的物理规律。第四格，杯子凭空消失了——因为四格图是分别生成的，上一格的”杯子存在”没有传递到下一格。

这不是”还可以再加一个提示词约束”。这是AI架构层面的问题——它没有世界模型。

所谓”世界模型”，就是你知道你把杯子放在桌上，十秒后它还在桌上。你知道从正面走到侧面，看到的是同一个房间。你知道花生长在地下，不是树上。这些对人类来说不叫”知识”，叫”活着的基础经验”。但对AI来说，它每一个像素都是重新猜一遍。上一帧跟下一帧之间，没有”世界”在延续。

Google在CVPR2026发了CANVAS系统，专门解决这个问题。他们给多智能体框架加了”世界状态”模块——跟踪每一帧画面里角色的位置、环境的变化、物体的存在状态。背景连续性的得分提升了21.6%，角色一致性提升了9.6%。

但即便这样，也只是在”辅助”人类的判断。论文的结论很明确：一致性可以被算法改善，但无法被算法保障。最终那一下”看有没有杯子消失”，还是得人来做。

你以为在”生成配图”，其实在”翻译视觉模式”

CVPR 2026的另一个工作DreamShot揭示了更底层的东西。

DreamShot想做的是”个性化故事板”——你给我一段文字，我给你一套视觉上连续的分镜。传统做法是逐张用文生图模型生成，然后拼在一起。DreamShot选择了一条完全不同的路：用视频扩散模型来做。

为什么？因为视频模型天然有”帧间一致性”。它理解”前一个画面”和”后一个画面”之间的过渡，而不是把每一帧当孤立的图像。

这个洞察很关键——它告诉我们：“分镜配图”之所以难，不在于单张图不够好看，而在于图与图之间没有连续性。而连续性不是”加一句保持风格统一”能解决的，它需要模型架构层面的支持。

这对我们这些普通人意味着什么？意味着现在用市面上任何一个文生图工具去做”系列配图”，本质上都是在对抗模型的底层设计。那些工具在设计上就是针对”单张最优”的。你想让它三张风格统一，它在做的事情不是”保持统一”，而是每张图都重新从零”猜”一遍——你的指令、人物、场景、色调。三次独立的随机事件叠加在一起，风格不跑偏才不正常。

“连生成图片都要靠人画草图，AI还有用吗？”

这是全网最扎心的评论之一。起因是有人发现，做多人空间构图的成功率高做法是——在PPT里画火柴人草图，标上编号，然后把草图扔给AI。

看起来很荒谬：你都画了草图了，还用AI干嘛？

但另一个角度看，这是对AI最正确、最诚实的使用。你把AI定位成”渲染引擎”，而不是”创意大脑”。你负责所有的空间判断（谁站在左边、谁在前排、哪只手举起来了），AI负责把线条填成画面。空间归人，纹理归AI。这才是目前最合理的分工。

实测数据：用”灵魂画手草图+四层锚定词（场景→角色→关系→氛围）“这个工作流，抽卡成功率从不到30%飙升到90%以上。

AI在这种分工里没有被贬低——恰恰相反，它被放在了最正确的位置上。它的强项是视觉填充，弱项是空间理解和物理恒存。你让它在弱项上硬扛，翻车是必然的。你让它做它擅长的，它快到你不敢信。

所以”用AI给文章做分镜配图”到底是什么？

不是”给文章配几张好看的图”。那叫插图，不叫分镜。

分镜的本质是你对读者的视觉叙述。第一张图建立空间和情绪，第二张图逼近人物或核心冲突，第三张图收在一种留白的气口上。三张图之间有时间、有空间、有情绪流动。

AI能帮你省掉从零手绘的80%工作量。但剩下的20%——镜头的选择、空间关系是否正确、第三格杯子有没有凭空消失、这束光打在这个人脸上是”孤独”还是”恐怖”——这20%没有工具能替你。因为它不是技术判断，是你这个人对”这一帧应该是什么”的判断。

就像那个用完整AI管线拍出获奖短片的印度导演Karthik说的：他生成了大量的镜头素材，最终只有5-10%进了成片。“拍摄和剪辑现在同时发生了，”他说，“生成、挑选、拼在一起，不断重复。”

他不是用AI替代了自己的判断。他用AI把”试错”的成本降到了零——本来拍一个镜头需要灯光、布景、演员、摄影棚，现在只需要重写一行提示词。但最终选哪个镜头、剪成什么节奏、情绪往上还是往下走——这些决定，跟AI没有任何关系。

AI分镜配图这件事上，你才是导演。AI是你雇来的画师——手脚麻利、不知疲倦、但不理解你在拍什么。它可以帮你画，但不能帮你定。定调的人，始终是你。