背景信息:好歹也在AI行业混,很早之前就亲自动手做过AI视频,也参与了AI动画制作,大家可以翻我视频号的历史视频,举个例子吧:https://weixin.qq.com/sph/ATkmmvCDPR
然后就发现有一个问题始终存在,无论是谁都搞不定,无论是自诩为多么厉害的AI视频生成高手都搞不定:AI 生成视频中人物眼神始终无法聚焦。
原本也曾打算做一个AI浪漫古装剧,实在忍不了这个问题,就放弃了;也不止放弃了创作,还放弃了欣赏,因为实在也接受不了男女主都是没有灵魂的僵尸,甚至还跑到红果APP去留言,要求增加一个选项:坚决拒绝AI漫剧;
AI漫剧中角色都像僵尸,眼神空洞无法聚焦,为什么?这个问题能解吗?
人物眼神空洞无法聚焦的问题,是当前 AI 视频生成技术路线的本质缺陷:AI仅仅是数据提取和模拟,AI无法产生人类眼神的 “灵魂”—因为眼神的本质,是人类内在情绪、意图、意识的外在表现。(原创不易,文末有惊喜,小伙伴们记得先赞后看,腰缠万贯)

一、主流 AI 视频生成架构的本质缺陷:2D 扩散机制的先天局限,缺乏 3D 物理与空间一致性建模
当前主流视频生成模型(如 Runway Gen 系列、可灵、Seedance 等),均基于2D 扩散机制构建,其核心逻辑是将视频拆解为独立的 2D 帧序列进行生成与拟合,而非将视频视为三维世界在时间轴上的连续投影,这从架构底层就决定了它无法精准还原眼神聚焦的物理逻辑。
无法建模眼球的 3D 光学与物理特性:人类眼球是复杂的 3D 曲面结构,虹膜、角膜、晶状体的光学特性,以及眼神光的位置、大小、亮度,必须与场景光源、头部转动角度、眼球转动方向、视角距离严格匹配,遵循物理光学规律。
而 2D 扩散模型只能学习像素级的外观统计规律,无法理解背后的 3D 空间关系与物理逻辑,极易出现 “脸部主光源在左侧,眼部高光却在右侧”“眼球转动方向与头部转向完全脱节” 等致命矛盾,直接导致眼神失去真实的聚焦感。
时序一致性的底层缺陷:标准视频扩散模型采用帧间独立采样的模式,没有构建连续的 3D 状态流,前一帧的眼神方向、瞳孔位置、高光状态,无法在后续帧中得到精准、连续的继承。哪怕单帧画面的眼睛看起来精致,连起来也会出现眼神飘忽、聚焦点跳变、微动作断层的问题,完全不符合真人眼神连续、平滑的运动规律。
二、训练数据的先天缺失与标注缺陷:模型学不到 “眼神如何工作”,只能复刻 “眼睛长什么样”
AI 的生成能力完全由训练数据决定,而当前行业在眼神相关的训练数据上,存在着无法弥补的先天短板。
核心监督信号的完全缺失:公开的大规模视频数据集中,几乎没有对 “注视目标坐标”“眼动连续轨迹”“情感状态与眼神微动作的对应关系” 做精细化的标注。模型训练时,只能看到眼睛的像素外观,学不到眼神的核心语义逻辑 —— 比如 “和人对话时要注视对方双眼”“悲伤时会垂眸回避视线”“惊讶时瞳孔会扩张”,最终只能生成通用、空洞的标准化眼睛,无法根据场景和情绪实现精准的眼神聚焦。
高质量眼动数据的极度稀缺:要让模型学会正确的眼神聚焦,需要专业的多视角动捕设备、高精度的眼动追踪系统,采集真人在不同场景、不同情绪下的完整眼动数据,标注每一刻的注视点、瞳孔变化、眼睑微动作、眼球转动角速度等细节。这种数据的采集成本极高、流程极复杂,公开数据集里几乎没有,导致模型没有足够的监督信号,无法学习到真人眼神的真实运动规律。
训练数据的 “平均化” 导致个性缺失:现有数据集中的眼神大多是大众化、平均化的,模型学不到不同个体的眼神特征,也学不到复杂场景下的眼神变化(如多人对话、快速运动、情绪剧烈波动时的眼神切换),最终生成的眼神千篇一律,没有灵魂,自然无法实现真实、有针对性的聚焦。
三、注意力机制的本质局限:AI 的 “注意力” 是像素级的,而非人类的 “心理注意”
人类的眼神聚焦,本质是内在心理注意的外在表现,而当前 AI 的注意力机制,与人类的心理注意有着本质的鸿沟,这是无法逾越的核心瓶颈。
无法理解眼神的社会性与语义逻辑:人类的眼神落点,完全由场景规则、社交礼仪、情绪意图决定---比如和长辈说话要低头垂眸,和对手谈判要直视对方,看到喜欢的东西会瞳孔放大,这些都是刻在人类社会里的通用规则。
而 AI 的注意力机制,只是在计算画面像素之间的相关性,关注的是像素分布,而非人类意义上的 “心理注意”,它无法理解 “此刻角色应该看向哪里” 的语义逻辑,只能按照提示词的模糊描述随机分配眼神落点,最终要么空洞直视镜头,要么错位偏移,无法真正聚焦在应该看的地方。
缺乏连续的 “心流” 状态,无法实现眼神的因果连贯:真人的眼神变化,是内在情绪演进与外部刺激的实时交互,是连续的、有因果逻辑的 —— 比如从开心到难过,眼神会从明亮灵动逐渐变得黯淡垂落,整个过程有完整的心理线索。而 AI 只是按提示词逐帧拼接表情,没有连续的心理状态,单帧的眼神可能没问题,连起来却像 “不同片源的混剪”,完全没有逻辑连贯性,自然无法保持持续、真实的聚焦。
四、人类视觉认知的特殊性:对眼神的极致敏感度,放大了 AI 的微小误差
人类的大脑进化出了专门识别人脸和眼神的神经区域,对眼神的变化有着极致的敏感度,这使得 AI 哪怕只有微小的误差,也会被我们立刻感知为 “失焦”“不对劲”。
纳米级的精度要求,AI 无法完全匹配:人类对眼神的识别精度,达到了像素级甚至亚像素级 —— 哪怕是瞳孔位置的几像素偏差、高光的微小错位、眼睑的细微抖动,我们的大脑都会立刻捕捉到,产生 “眼神空洞”“没有聚焦” 的感觉。而 AI 生成的画面,本质是像素的统计拟合,无法达到真人眼神的纳米级精度,尤其是在动态视频场景下,眼神的微动作、瞳孔的收缩扩张、高光的连续变化,这些细节 AI 很难精准还原,极小的误差都会被我们的大脑放大。
恐怖谷效应的放大作用:当前 AI 生成的人脸已经非常逼真,无限接近真人,这恰恰让我们进入了 “恐怖谷” 的核心区间 —当类人物体几乎和真人一致,但又有细微的不自然之处时,我们的大脑会从接受转向强烈的排斥,对眼神的不自然会更加敏感,这就使得每个AI生成的角色都像恐怖僵尸......哪怕 AI 在技术上做到了像素级的匹配,只要眼神里没有人类的情绪和灵魂,我们还是会觉得 “不对劲”,“眼神空洞没有聚焦”,这是人类进化形成的保护机制,无法通过技术优化完全消除。
本文结论:
哪怕未来模型实现了更精准的 3D 眼球建模、补充了更多的眼动训练数据,也很难真正模拟人类眼神的 “灵魂”—— 因为眼神的本质,是人类内在情绪、意图、意识的外在表现,而当前的 AI 并没有真正的意识和心理活动,只能复刻眼睛的外观,无法承载背后的心理逻辑与社会规则,这是最根本的、无法逾越的瓶颈。
![]() | ![]() |
(走过路过,点个关注呀,会经常分享一些有意思的东西,能博君一笑就值了嘛,没白写。)
夜雨聆风
