乐于分享
好东西不私藏

我差点被一张AI生成的奥特曼合照吓出心脏病

我差点被一张AI生成的奥特曼合照吓出心脏病

先别急着划走,我想跟你聊个事儿。
前两天我刷着手机,突然看到一张山姆·奥特曼的照片——对,就是OpenAI那个CEO。照片里他穿着深色外套,站在某个会议室里,灯光从左侧打过来,脸上带着那种微妙的、刚谈完什么事之后还没来得及收回的礼貌笑容。
老实说,我当时第一反应是:这谁拍的?构图还挺讲究。
然后我往下翻了翻评论区,整个人愣住了。有人说这是纯AI生成的。我当时心想:你在跟我开玩笑?于是我放大照片,死活想找点破绽——眼睛里的反光有没有奇怪的形状?耳朵轮廓是不是糊成一片?发丝有没有那种“AI式融化”感?
但越看我越觉得自己像个傻子。
本来我想用“恐怖谷”这个词来嘲一下这个模型——你知道的,就是那种“差不多像人但细看又不像,让人心里发毛”的感觉。但后来我发现,真正让我发毛的不是它不够像,而是它太像了,像到我这个自认为“老司机”的人,一点都没怀疑。
这事儿我得从头说。

PART.01
一段让我怀疑人生的实测经历
我算是个半吊子AI绘画爱好者吧。去年我还在用Midjourney做海报的时候,最头疼的就是文字渲染。你想让它写个“招财进宝”的中文字,它给你画出一堆像是喝了假酒之后写的火星文。英文也强不到哪去,“OPEN”能给你写成“0P3N”,字母之间的逻辑仿佛是被猫踩出来的。
所以我看到这次泄露出来的GPT-Image-2(内部代号GPT-5o/Spud,也不知道谁起的名字)竟然能写中文书法,我内心是崩溃的——崩溃中带着一丝“我不信,我要亲自打脸”的倔强。
刚好我有个做UI设计的朋友,上周还在群里哀嚎说改一个按钮的文字标注改了十几版。我二话没说,拿这个模型试着生成一个带中文标注的复杂界面。
结果你猜怎么着?
我盯着屏幕上那个生成结果,第一个反应不是“哇好厉害”,而是“完了,我朋友可能要失业了”。那个界面上的中文标注,字体清晰、逻辑通顺,连字号层级都给你安排得明明白白。我当时整个人靠在椅背上,深吸了一口气,感觉自己像是一个乒乓球业余选手突然看到樊振东在你面前打了一板——你知道有差距,但这个差距大到让你觉得“我之前在干嘛?”
呃,说到这个,我其实有点沮丧。因为我自己之前写的那个用来生成海报的Prompt工程,现在看来就像是拿筷子去挖隧道。

PART.02
恐怖谷那头,终于有人走出来了
先让我解释一下“恐怖谷”这件事,不然你可能觉得我在故弄玄虚。
心理学上有个理论,说当机器人或CG形象越来越像真人的时候,我们的好感度会先上升,但到某个临界点——比如像了95%——会突然坠崖式下跌,觉得那个东西“瘆人”。那种感觉就像你半夜看到一个人站在床边,走近才发现是个做工精良的商场假人模特,你会汗毛倒竖。
传统的AI生图,其实就卡在这个95%的位置。你仔细看那些老模型的图:
  • 皮肤纹理像塑料薄膜上洒了一层噪点
  • 眼神光是两个位置完全对称的白点,像昆虫的复眼
  • 发丝远远看还行,放大看都在“互相对齐”——像梳子梳过的意大利面,而不是真人头发那种乱中有序
我之前有一次用某知名模型生成一张人像近景,那个“人”的笑容堪称完美,但我总觉得哪里不对。后来我把它发给我妈看,我妈说了一句我一辈子忘不了的话:“这个姑娘笑得好标准,但怎么像嘴里含了个温度计?”
就是那种僵硬感。真人的微笑,脸颊的肌肉会有一个自然的隆起,嘴角的弧度不是完美对称的,甚至牙齿表面的轻微凹凸都会影响光的反射。这些细节,之前的AI几乎全部忽略了。
GPT-Image-2这次的做法,我研究了一下(可能说得不专业,你多担待),它用了一个叫多层物理渲染架构的东西。这个术语太装逼了,我用人话给你翻译一下:
它模拟了光线照进皮肤之后怎么在里面弹来弹去、再从表面散出来的过程。你知道为什么真人的耳朵在逆光下会透出红红的颜色吗?因为血液在毛细血管里,光穿透了薄薄的皮肤。这个模型连这种细节都做了,我跟你讲,我看到这个解析的时候,鸡皮疙瘩都起来了。
这句话你细品:它能模拟“皮肤底下透出来的那一点点血色”。这在以前的AI模型里,是想都不敢想的。以前我们给皮肤“加质感”,本质是在表皮贴图;现在它是连真皮层的光路都给你算了一遍。
还有头发。传统模型处理发丝是靠“画”,一条一条往外画线条。但这个模型用的是基于发丝几何的实时渲染——不是画线,是在三维空间里给每一根头发建模。我刚才说的“意大利面现象”,就这么被解决了。

PART.03
奥特曼那张合照,才是真正的“图穷匕见”
回到开头那张奥特曼的合照。
我后来专门找了一个搞计算机视觉的朋友帮我分析了一下。他看完第一句话是:“如果你没告诉我这是AI,我会觉得这就是一张手机拍的会议记录照。”
注意,他说的是“会议记录照”而不是“精修大片”。
这个评价其实更高。因为精修大片本身就不真实——谁脸上连个毛孔都没有啊?但会议记录照有各种“缺陷”:光线不那么完美,皮肤有一点油光,表情有一点不自然,眼神里带着“我还要赶下一个会”的那种游离感。
GPT-Image-2正是抓住了这些“不完美”。
你仔细看那个微表情——嘴角的轻微不对称,眉间肌肉的细微收缩,甚至眼睛里反射出来的窗外光线——所有这些维度,它的生物学准确度已经高到让人类的视觉系统投降了。你的大脑在判断“这是不是真人”的时候,靠的是那些下意识捕捉的细节,而这些细节,全被这个模型用算法“伪造”了。
我朋友后来补了一刀,说:“你猜怎么着,连相机镜头带来的边缘畸变,它都给模拟出来了。”
我当时就:“???”
这不是在生成人像,这是在生成“一张被镜头拍下来的人像”。这两个概念之间的差距,大概相当于你画一只猫和你画“一张猫的照片”——后者需要多一层对“镜头特性”的理解。这个模型居然连这层都想到了。

PART.04
全网炸锅了,但我在想另一件事
网上有人说“PS要凉了”,有人说这是“设计圈的史诗级进化”。甚至有人开始担忧“以后还怎么相信一张照片”。
呃,怎么说呢,我觉得这些说法都对,但也都不全对。
说沮丧,我确实沮丧。 我前阵子还在学怎么精修皮肤纹理,现在发现AI一天就超越了我可能一辈子都学不会的程度。那种感觉有点像你辛辛苦苦练了三个月投篮,结果旁边来了个机器人投了100个全中,还微笑着跟你说“用算法优化了抛物线”——你想生气,但又找不到生气的理由。
但说兴奋,我也真的兴奋。 因为这意味着,以后我们可以用AI生成真正意义上的“素材”,而不用再忍受那种塑料质感的虚假人像。对于做设计、做视频、做游戏的人,这几乎是一个新大陆。
我有个做独立游戏的朋友,之前一直卡在角色头像绘制的环节,一张图来来回回改一个月。我把这个消息发给他,他半夜两点给我回了条语音:“你要是骗我,我坐高铁去你家打你。” 第二天他试完,又发了一条:“那个……你能不能帮我打听下,这个模型什么时候正式出?”
你看,人的情绪就是这么矛盾。一边怕被替代,一边又在找替代别人的工具。

PART.05
我的一点小建议(像朋友那样跟你聊)
如果你现在正在做设计、摄影、或者任何和图像打交道的活儿,我真心建议你:
别慌,但别躲。
别慌的意思是,PS不会明天就凉。工具的进化从来不是“咔嚓一下全没了”,而是慢慢慢慢改变工作流。就像当年数码相机出来,胶片也没当场去世。
别躲的意思是,你得现在就开始琢磨怎么用这玩意儿。因为你不学,你的竞争对手一定在学。我之前就犯过这个错误——Midjourney v5出来的时候我觉得“也就那样”,结果三个月后我发现同行已经用AI批量出方案了,我还在手动抠图。那种感觉,怎么说呢,就像大家都在坐电梯,你一个人还在哼哧哼哧爬楼梯,还安慰自己“锻炼身体”。
具体到GPT-Image-2,你可以先关注它的两个突破点:
  • 文字渲染能力——以后海报、UI、甚至手写风格的文字标注,都可以交给AI。你只需要负责创意和构图。
  • 人像的真实度——如果你要做产品图、虚拟模特、甚至游戏角色头像,这个模型会是你膝盖(和钱包)的救星。
但我也得提醒你一句:(这里我得压低声音跟你讲,因为我怕被喷)
别完全相信你的眼睛了。
这句话说出来我自己都觉得有点魔幻。我们从小被教育“眼见为实”,以后恐怕得改成“眼见为……先查证一下”。这是一个挺吓人的时代转折,我真不知道该怎么面对,但至少我们得意识到它正在发生。

最后,如果你看到了这里,我得老实交代:其实我写这篇文章的时候,删改了很多次。本来想写成一个严肃的技术分析,但后来发现根本装不下去——因为我自己也是一边查资料一边惊呼“还有这种操作”,完全没法假装自己很淡定。
对了,如果你也对这种“让人头皮发麻但又忍不住想看”的AI新玩意儿感兴趣,欢迎关注我的公众号
我平时会在里面分享一些实测翻车、踩坑经验,以及偶尔的“卧槽这也行”时刻。不会有太多高大上的理论,更多是一个普通爱好者的真实折腾记录。
毕竟,在这个AI一天一个样的时代,能跟朋友一起惊呼“卧槽”,可能比任何专业分析都更有价值。
你觉得呢?

P.S. 我那个做游戏的朋友最后补了一句:“如果AI连角色性格都能生成了,我就直接躺平。” 我回他:“你先别躺,帮我也占个位。”