你盯着一张照片,觉得它像真的——但其实它是 AI 生成的。
这已经不稀奇了。稀奇的是:现在就连机器在统计上也分不清了。
最新的学术数据显示,AI 生成图片的"真实度评分"(FID),已经低于真实图片本身。换句话说,假图比真图更像真图。
AI 视觉技术沿用了十余年的"标准考场"——ImageNet,本周被宣告彻底饱和、失去意义。而打出这张终止牌的人,正是当年亲手把它造出来的人:李飞飞。
01|FID 是什么,为什么它失灵了
如果你用过 Midjourney、Stable Diffusion,或者最近的 GPT-5.5 图像生成功能,你一定感受过那种震撼——生成的图片看起来太真了。
但在研究界,判断一个生成模型"到底有多好",用的不是人眼,而是一个叫 FID(Fréchet Inception Distance,弗雷歇起始距离)的指标。
你可以把它理解成:把一批 AI 生成的图片和一批真实图片,分别提取它们的"视觉特征向量",然后看两组特征在统计上有多远。距离越近(FID 越低),说明 AI 图越接近真实图。
关键点:FID 分数越低 = 越像真实图片。而"真实图片自身"的参考值,理论上是这套评分体系的下界——也就是说,没有什么东西应该比真图"更真"。
但这次发生的事是:AI 生成图片的 FID,已经低于真实图片本身的参考分。
这不是模型"作弊",而是衡量的标准出了问题。
02|为什么会发生这件事?
旧基准 ImageNet 本就"对不上"现在的研究。
ImageNet 是 2009 年为"图像分类"任务设计的——它的逻辑是给每张图打一个分类标签,比如"猫""汽车""草莓"。但今天的图像生成模型,训练靠的是数亿张带有自然语言描述的图片,生成时靠的是文字提示词驱动。
真正有价值的训练数据,几乎都不对外开放。
Stable Diffusion、Midjourney、Sora 背后的训练数据,要么是商业机密,要么涉及版权纠纷,从未完整公开。学术界想复现、比较、改进这些模型,几乎无从下手。研究和产业之间,存在一道越来越宽的数据鸿沟。
现有的开放数据集,本身就不稳定。
目前学界常用的 LAION、DataComp,采用的是"URL 索引"分发——你拿到的是一份图片网址清单,还得自己去抓取原始文件。随着时间推移,大量链接失效,同一团队在不同时间用的"同一数据集",其实早已面目全非。
旧基准失效 + 工业数据封闭 + 开放数据集不稳定,共同导致视觉 AI 研究陷入"分数游戏"困局——模型可以通过优化 FID 指标拿高分,却不一定代表真正生成能力的提升。科学竞争,需要一把新的尺子。
03|时间轴:从一把尺子的诞生,到它的谢幕
2009
ImageNet 诞生。李飞飞团队历时数年,收集 1500 万张图片、2.2 万个分类,是当时人类历史上最大的人工标注视觉数据集。
2012
深度学习时代开启。ImageNet 成为全球计算机视觉的"标准考场",此后十余年,VGG、ResNet、ViT 都在这张卷子上比分。
2018
FID 指标普及。成为衡量图像生成质量的核心标准,被几乎所有生成模型论文采用,沿用至今。
2024
信号开始出现。部分顶尖模型的 FID 已接近真实图片基准线,研究界开始意识到基准饱和风险。
2026 · 本周
基准正式宣告饱和。多篇顶级论文同期公布:AI 生成图片 FID 已低于真实图片自身基准值。ImageNet 失去评分意义。李飞飞团队同步发布 GPIC 数据集,宣告新纪元开始。
04|GPIC:李飞飞打造的"新 ImageNet",有何不同
在旧基准宣告失效的同一时间窗口,李飞飞团队发布了新数据集——GPIC(Giant Permissive Image Corpus,巨型开放图像语料库)。这是她第二次主导构建一个"时代级别"的视觉数据集。
这不是对 ImageNet 的否定,而是时代的自然交替。“再好的旧尺子,也量不了新时代”。
05|这对我们意味着什么
你可能会问:ImageNet 失效,和我有什么关系?
你现在用的所有图像生成工具——无论是 Midjourney、Stable Diffusion 的最新版,还是 GPT-5.5 的图像功能——它们背后的模型,都是在被这套评分体系"训练"出来的。基准决定了模型优化的方向,基准失效,意味着接下来的竞争规则会变。更直接的影响,在内容创作层面。
当 AI 生成图在统计上已经比真实图片"更像真实图片",不只是技术上的里程碑,它也意味着,依靠统计工具来鉴别 AI 图的可信度,正在逼近极限。眼睛不行,算法也开始不行了。
这也是为什么 YouTube 近期宣布强制为"逼真 AI 内容"打标签,直接展示在视频播放界面——平台们开始意识到,单靠用户辨别已经不现实,必须由系统介入。
换个角度看,这也是一个新机会的起点。GPIC 的出现,意味着下一代视觉 AI 的评测体系正在被重新建立——新的基准、新的指标、新的比拼维度。研究界的竞争将从"优化 FID"转向更接近人类感知和实际使用场景的新尺度。
你觉得 AI 生成的图片,已经让你感到不安了吗?
欢迎在留言区告诉我们你的看法 👇
关注我,第一时间获取更多资讯
点赞 + 转发,是对我最大的支持 ❤️
夜雨聆风