乐于分享
好东西不私藏

Images 2.0:OpenAI这次是真的学会专注了吗?

Images 2.0:OpenAI这次是真的学会专注了吗?

从Sora坟墓上开出的花,能活多久?

4月21日,OpenAI发布ChatGPT Images 2.0。

如果只看信息流,那天很像在过年。

朋友圈里刷屏各种“让ChatGPT做的图”:菜单、海报、产品渲染图、儿童绘本、活动主视觉。微信群里有人通宵测提示词。有人丢进去一段摩托车主题漫画描述,11分钟后,8页漫画出来了:画风统一,剧情连贯,每一格里的角色还长得像同一个人。

雷科技当天的评测标题是:“中文稳、细节炸,设计师慌了。”36氪更直接,6个字:“设计真要完了。”

Images 2.0发布12小时内,在LM Arena图像相关排行榜上拿下多个类别第一,领先第二名Google Nano Banana 242分。这种分差,在AI圈差不多等于把“遥遥领先”四个字直接贴在发布页上。

但在这场喜事的另一边,Sora正安静地躺在4月26日的停用通知里。

这尤其讽刺。

因为两年前,Sora也是这样横空出世的。东京街头、雪地猛犸,一段demo把全世界看得目瞪口呆。那时候,人们讨论的也是创作者会不会失业,影视工业会不会重写,OpenAI是不是又一次提前拿到了未来。

然后,这个未来并没有来。

OpenAI这个月的日程表,读起来像一出黑色喜剧:前厅在给Images 2.0摆庆功宴,后院在给Sora撤展。

笑完之后,有一个问题绕不过去:

在Sora上交过巨额学费后,OpenAI这次真的长记性了吗?

Images 2.0这朵踩在Sora坟头上的花,能开多久?

Images 2.0到底强在哪

要理解Images 2.0为什么炸了锅,得先看AI生图这条路走了多远,又卡在哪。

AI生图领域在过去四年大致经历过几个阶段。

2021-2022年 DALL-E横空出世,Stable Diffusion开源引爆社区,Midjourney进入公测。AI第一次能”画画”了——但画出来的手有六根指头,文字像天书,社交媒体上转发一圈图个乐子,谁也不会拿它做正经事。

2023年 Midjourney生成的”教皇穿白色羽绒服”照片骗过了半个互联网,Adobe扛着”版权安全”的大旗推出Firefly。AI生图从极客圈涌入大众视野,但核心痛点纹丝不动——文字渲染一塌糊涂,品牌一致性不可控,版权说不清楚。

2024-2025年 2025年3月,OpenAI在GPT-4o里第一次集成原生图像生成。吉卜力风格转换一夜刷屏,9天内1.3亿用户生成超7亿张图片,Altman说GPU”正在融化”。热闹归热闹,但Images 1.0说到底是个玩具——你能用它画一只吉卜力风格的猫发朋友圈,但你没法用它帮品牌做一套campaign素材。

2026年4月,拐点来了。

Images 2.0在底层架构上换了轨:不再是传统的扩散模型,而是混合自回归Transformer+扩散架构的原生多模态模型。通俗讲,过去的生图AI是”翻译机”——你说一句话,它翻译成一张图,翻译得准不准全凭运气。Images 2.0更像是一个”会思考的设计师”——先理解你的意图,规划构图,验证约束,必要时还能联网查实时信息,然后再落笔。

这个架构带来的变化是质变级的:

文字渲染:因为模型是逐Token”书写”文字的(和生成文本一样),所以它能正确渲染多语言文字——包括中文、日文、韩文、印地语、西里尔字母。这直接解决了生图领域最大的痛点之一。过去,Ideogram曾因为文字渲染能力领先而获得一席之地,现在这个优势被直接抹平。

复杂指令遵循:模型能正确处理15-20个不同对象的属性绑定,而之前的扩散模型在5-8个对象时就会混乱。它还引入了”思考模式”(Thinking),在生成图像前通过O系列推理能力规划构图、验证对象数量、检查约束条件。

对话式编辑:因为它就是GPT-4o本身,所以它记得你之前说了什么,能基于上下文迭代修改图片,而不是每次从零开始。最大分辨率从1024px提升到2000px,支持7种宽高比,单次可生成10张风格一致的图片。

联网生成:在Thinking模式下,模型能在生成过程中搜索网络,获取实时信息——比如你可以让它生成一张包含昨天NBA比赛比分的信息图,数据是准确的。

它对世界知识、复杂指令、密集文字和多轮编辑的理解明显增强。

注意,它不是升级,是换轨。

这就是为什么这次反应格外大。

生图行业过去最影响商用的地方,是那些细碎、具体、麻烦的脏活累活:菜单上的字不能错,海报上的层级要清楚,信息图里箭头关系不能乱,PPT封面要贴合主题,广告素材要能连续出十几版。

Images 2.0突破的地方,正好踩在这些麻烦上。

一个模型如果开始能处理菜单、海报、广告图、UI mockup、产品说明和教学材料,它摸到的就是企业预算的后门。

ChatGPT开始伸手拿视觉预算

技术突破要放进产业格局里看,才能称出它的分量。

据多家研究机构综合估算,AI生图市场目前规模约87-91亿美元(2024-2025),预计2030年超过600亿美元。而它正在吞噬的对象——传统图库摄影市场,2024年仅46.5亿美元,增长近乎停滞。

这不是”增量市场”的故事,而是”替代市场”的故事。

Getty Images创意业务收入2024年下降4.5%。Shutterstock 2025年Q4收入同比暴跌12%,当季净亏损1600万美元。2025年1月两家宣布合并,估值37亿美元——昔日的图库双雄,被迫抱团过冬。26%的插画师已因AI失去工作,37%报告收入下降。近40%的营销人员在用AI做日常的社交媒体配图。

玩家依据商业模式分化出几条路线:

Getty、Shutterstock传统市场玩家虽然危机四伏,但占住的是版权素材库。传统图库有版权资产,有企业合规,有历史客户,也有很深的行业关系。

Midjourney占住的是审美社区和高质量风格心智,纯订阅制,约130人团队,5亿美元年收入,零风投,可能是AI行业最极端的效率样本。

Adobe Firefly平台嵌入式,4100万Creative Cloud订阅加”版权安全”定位,高端品牌和广告代理商,被它拿得死死的。

Canva占住的是模板、协作和轻设计入口,2.6亿月活,40亿美元年收入。

OpenAI则走的是API+订阅双轨制,底牌是ChatGPT的逾9亿周活和5000万付费用户。很明显,它想让ChatGPT从文字工作台,长成一个更完整的内容生产入口。你让它写一份营销文案,顺手让它配一张主视觉;你让它整理一页产品说明,顺手让它画结构图;你让它改一套活动方案,顺手让它出海报草案。

OpenAI在Sora上的学费没白交。至少它知道了,能力本身不够,能力还要贴着工作流走,贴着企业的预算走。

Images 2.0的出现,会加速AI生图向社交媒体、电商、营销素材等领域的全面渗透。尤其在文字渲染和复杂指令遵循这两项技术上的突破,直接打通了信息图、产品包装、UI原型等此前AI碰不了的商业场景。

但也别过于乐观,因为产业层面最核心的瓶颈——版权法律风险和企业级精细控制——OpenAI尚未攻克或完全解决。一些企业品牌和广告代理商,大概率还会留在Adobe和传统玩家那里。

Sora之死:OpenAI的战略教训

在严肃认真地讨论Images 2.0的前景之前,咱们不得不先正视房间里的大象——Sora。

Sora当年轰动得也让人觉得OpenAI提前拿到了未来的入场券。

然后,它死了。

2026年3月24日,OpenAI宣布关停Sora。

以下这组数字,足以写出这部烧钱史诗的墓志铭:日均推理成本峰值约1500万美元,年化约54亿美元。而Sora整个生命周期的总收入——没错,是累计总额——210万美元。投入产出比2500:1。30天用户留存率1%。

TechCrunch不留情面地说:Sora是”一个没有人的社交网络,里面全是AI生成的垃圾(slop)”。

是Sora的技术不行吗?当然不是。

2024年2月那段令世界惊叹的东京街头视频,几乎重新定义了大众对“AI视频”的想象。Sora app上线后,短时间就吸引了大量尝鲜用户。但下载量撑不起留存,围观更撑不起付费。

与此同时,同样是文生视频应用的可灵和即梦/Seedance,在遥远的东方国度活得风生水起。

可灵嵌在快手的短视频生态里——创作者拿它生成电商广告视频,挂商品链接,平台按播放和点击分成。模型→内容→流量→变现,一个完整的闭环。Seedance则嵌在字节的剪映/CapCut里,全球数亿用户直接调用。快手2026年1月披露,可灵AI年化收入是3亿美元。而Sora的累计收入210万美元。

而Sora最致命的错误,是把AI视频做成了一个”孤岛“。Sora从零获客,还异想天开地做社交Feed。奈何它就只是个展厅,大家进去看一圈,拍几张照片,就再也不回来了。

而快手和字节都有内容平台,创作者,也有商业化系统。模型哪里不好,用户会立刻用脚投票;哪个模板能跑起来,数据会立刻反馈;什么场景愿意付费,销售和运营比实验室更早知道。

这正是第一层最本质的差异:产品形态的差异。

可灵、Seedance把AI视频当成功能,塞进已有生态。Sora把AI视频当成一个孤立的新大陆,试图让用户迁徙过去。

第二层差异是付费场景。

Sora解决的是”用文字生成一段视频”这个技术问题,没有回答”然后呢?”。它的用户是想”玩”的消费者,替代品是免费的TikTok;

中国的视频生成产品很清楚自己要服务谁:想“赚钱”的短视频创作者、电商商家、广告团队、品牌内容团队。短视频创作者需要更快出片、电商需要产品视频、社交媒体需要内容——他们过去只能花更多钱请人类拍视频。

这两种付费意愿,天差地别。

第三层差异是成本结构。

视频生成非常消耗算力,也更依赖后期剪辑、镜头连贯、动作一致性和分发效率。

一个高成本产品同时又没有明确的付费场景,那么越火越容易变成财务噩梦。可灵和Seedance有完整的短视频电商生态闭环,而且在工程效率和成本控制上做得好得多。

Images 2.0会重蹈Sora的覆辙吗?

这也是为什么Images 2.0大概率不会变成第二个Sora。

原因不在技术更强,在于底下的产业结构完全不同。

市场体量差了一个量级。 AI生图已是数十亿美元规模的成熟市场,年增长超100%。AI生视频2025年仅约7.9亿美元。

使用频次天差地别。 图片是高频需求,89%的个人用户在使用AI生图。社交帖、电商listing、广告创意、PPT、UI原型——每天有数以亿计的图片需求。生视频是低频行为,大多数用户试玩几次就走了。

成本结构不同。 一张图的推理成本0.02-0.21美元;一段10秒视频1.30美元起步(据Cantor Fitzgerald分析师估算)

竞争格局有利。 Sora面对的是免费的TikTok。Images 2.0面对的是Midjourney(无平台优势)、Adobe(不直接面向消费者)和Google Gemini,ChatGPT的分发优势在生图市场使得上劲。

最关键的:产品形态对了。

Images 2.0没有被做成一个孤岛。它长在ChatGPT里。

用户不需要重新下载一个app,也不需要学习一个新工具。他只要在原来的对话里说一句:帮我做一张图。

这个动作太轻了。

让ChatGPT写文案、改邮件、做表格、理方案,再顺手配张图,本来就是同一个工作流。

这是生意上最要命的区别。

企业原本就要买图库、买设计软件、请外包。OpenAI不需要说服企业突然爱上AI艺术,它只需要证明:同样一张菜单、海报、产品图、社媒配图和营销素材,ChatGPT能更快、更便宜地设计出来。

只要这件事成立,Images 2.0就有了Sora没有的东西:

入口、频次、付费意愿。

这三个词,比任何榜单都硬。

但别急着宣布胜利

不重蹈覆辙,不等于前路坦途。两个真实风险必须正视。

第一,护城河可能比想象中浅。

生图用户的切换成本非常低。今天用ChatGPT,明天用Midjourney,后天换Google的新模型,再过几个月可能又冒出一个更便宜、更会画、更懂中文的对手。

而且,单从成本看。跟其他AI生图工具比,Images 2.0反而是贵的那个:Adobe Firefly消费级套餐约0.04-0.10美元/张,Nano Banana 2的API 0.067美元/张,Midjourney Relax模式低至0.03美元/张。换句话说,一张图0.21美元的OpenAI对比竞品价格并不占优,它卖点是”更好”。那这个溢价能撑多久,取决于质量差距能保持多久。

更何况,生图市场早就越过了单纯比画功的阶段。Midjourney以百人团队做到5亿美元年收入也在提醒各位:这个市场的壁垒可能压根不在模型能力上,而在品牌、社区和工作流嵌入度上。

Adobe卖的是企业安全感,Canva卖的是模板和协同,Midjourney卖的是美学社区,Google卖的是模型和搜索生态,图库公司卖的是版权资产。

OpenAI想拿走视觉预算,就不能只靠模型能力。

第二,版权问题是达摩克利斯之剑。

对个人用户来说,一张图好看就够了。对企业来说,好看只是开始。

市场部会问:能不能商用?法务会问:训练数据从哪来?品牌团队会问:有没有侵权?

这反而成为Adobe这类公司的防线。它未必每一次模型能力都最强,但Adobe Firefly的训练数据仅来自Adobe Stock和公共领域,版权确定性高得多。

AI版权诉讼从2024年底约30起翻倍到2025年底超60起。吉卜力风格事件闹得沸沸扬扬,宫崎骏本人曾称AI是”对生命的侮辱”。

OpenAI说可以屏蔽”在世个人艺术家的风格”,但允许”更宽泛的工作室风格”——这个区分在法律上非常脆弱。

如果要吃企业视觉预算,版权问题迟早绕不过。

所以,Images 2.0的最终考场不在发布页,也不在榜单。

它在采购系统里。

比Images 2.0重要一百倍的事

最后,回到一个更大的问题上。

Sora之死,表面上是一个产品的失败,底下是OpenAI为”战略不聚焦”付出的巨大代价。过去半年这家公司砍项目砍得刀光剑影:关掉Sora(葬送10亿美元Disney合作)、叫停英国300亿美元数据中心计划、半年内两次改产品路线图。2026年3月,应用业务CEO Fidji Simo在全员大会上说了句迟到的实话:Anthropic是”警钟”,公司”把精力分散在太多应用和技术栈上”。

与此同时,Anthropic年化收入据报达300亿美元,其中80%来自企业客户。而OpenAI约250亿美元年化收入中,企业只占约100亿美元。Financial Times报道,早期投资人批评OpenAI”深度不聚焦”,有人将其比作”AI界的网景”——90年代的浏览器明星,最终被微软超越,卖给了AOL。

在这个背景下看Images 2.0,它的意义已远超一个生图模型。这是OpenAI从To C通用助手转向To B企业服务这条路上的一次关键验证——它的能力组合(信息图、产品图、UI mockup、多图campaign素材)天然服务企业用户。它看来就是OpenAI刚宣布的”聚焦编码和企业”新战略的一颗子弹。

但一颗子弹能不能打赢一场战争。

Sora之死留下了最贵的教训是:技术领先≠商业胜利。Images 2.0如果只是一场漂亮的发布会,而不是长期投入和产品纪律的开始,那它也可能很快被后来者追平。

最终检验Images 2.0成败的,不是Arena上远超第二名的分数,不是发布当天的全网刷屏,而是一个朴素的商业问题:

12个月后,有多少企业把原来花在Adobe和Shutterstock上的预算,转到了ChatGPT上?

这个答案,现在谁都给不了。

但至少这一次,OpenAI踩上了一个正确的战场。

能不能把仗打赢、把阵地守住——那就看Sam Altman这回是真的学会了专注,还是又准备去铺下一个摊子。

END

关注我,获取更多AI非共识!