最近使用千问和豆包AI生成图像和视频中人物出现三条腿和三只鞋:

问了一下大模型,说主要是由于当前生成式AI模型在理解和重现复杂人体解剖结构方面的局限性。
以下是主要原因:
统计学习而非概念理解: AI模型通过分析海量图像数据来学习模式。它们不是真正“理解”人类解剖学,而是统计性地学习像素之间的关系。当遇到复杂姿势、遮挡或光影变化时,模型可能会错误地推断出额外的肢体,以匹配其在训练数据中观察到的统计模式。
训练数据偏差或不足: 尽管训练数据集庞大,但其中可能存在某些姿势或角度的图像较少,或者图像质量不一。这可能导致模型在生成这些特定情况时出现偏差。
缺乏强解剖学约束: 早期或较简单的AI模型在生成图像时,可能没有足够强的内部约束来确保解剖学的准确性。它们更侧重于生成视觉上连贯的纹理和形状,而不是严格遵守生物学规则。
生成过程中的误差累积: 特别是对于扩散模型,图像是逐步生成的。在生成过程的早期阶段,图像可能模糊不清,模型可能会在后续的细化步骤中将这些模糊的形状错误地解释并固化为额外的肢体。
随着AI技术的不断发展,更先进的模型(如最新的Stable Diffusion、Midjourney和DALL-E版本)通过更大的数据集、更复杂的架构和更精细的训练方法,在人体解剖学准确性方面已经取得了显著进步,但偶尔仍可能出现此类错误。
夜雨聆风