Images 2.0:OpenAI这次是真的学会专注了吗?-夜雨聆风

Images 2.0:OpenAI这次是真的学会专注了吗?

从Sora坟墓上开出的花，能活多久？

4月21日，OpenAI发布ChatGPT Images 2.0。

如果只看信息流，那天很像在过年。

朋友圈里刷屏各种“让ChatGPT做的图”：菜单、海报、产品渲染图、儿童绘本、活动主视觉。微信群里有人通宵测提示词。有人丢进去一段摩托车主题漫画描述，11分钟后，8页漫画出来了：画风统一，剧情连贯，每一格里的角色还长得像同一个人。

雷科技当天的评测标题是：“中文稳、细节炸，设计师慌了。”36氪更直接，6个字：“设计真要完了。”

Images 2.0发布12小时内，在LM Arena图像相关排行榜上拿下多个类别第一，领先第二名Google Nano Banana 242分。这种分差，在AI圈差不多等于把“遥遥领先”四个字直接贴在发布页上。

但在这场喜事的另一边，Sora正安静地躺在4月26日的停用通知里。

这尤其讽刺。

因为两年前，Sora也是这样横空出世的。东京街头、雪地猛犸，一段demo把全世界看得目瞪口呆。那时候，人们讨论的也是创作者会不会失业，影视工业会不会重写，OpenAI是不是又一次提前拿到了未来。

然后，这个未来并没有来。

OpenAI这个月的日程表，读起来像一出黑色喜剧：前厅在给Images 2.0摆庆功宴，后院在给Sora撤展。

笑完之后，有一个问题绕不过去：

在Sora上交过巨额学费后，OpenAI这次真的长记性了吗？

Images 2.0这朵踩在Sora坟头上的花，能开多久？

Images 2.0到底强在哪

要理解Images 2.0为什么炸了锅，得先看AI生图这条路走了多远，又卡在哪。

AI生图领域在过去四年大致经历过几个阶段。

2021-2022年 DALL-E横空出世，Stable Diffusion开源引爆社区，Midjourney进入公测。AI第一次能”画画”了——但画出来的手有六根指头，文字像天书，社交媒体上转发一圈图个乐子，谁也不会拿它做正经事。

2023年 Midjourney生成的”教皇穿白色羽绒服”照片骗过了半个互联网，Adobe扛着”版权安全”的大旗推出Firefly。AI生图从极客圈涌入大众视野，但核心痛点纹丝不动——文字渲染一塌糊涂，品牌一致性不可控，版权说不清楚。

2024-2025年 2025年3月，OpenAI在GPT-4o里第一次集成原生图像生成。吉卜力风格转换一夜刷屏，9天内1.3亿用户生成超7亿张图片，Altman说GPU”正在融化”。热闹归热闹，但Images 1.0说到底是个玩具——你能用它画一只吉卜力风格的猫发朋友圈，但你没法用它帮品牌做一套campaign素材。

2026年4月，拐点来了。

Images 2.0在底层架构上换了轨：不再是传统的扩散模型，而是混合自回归Transformer+扩散架构的原生多模态模型。通俗讲，过去的生图AI是”翻译机”——你说一句话，它翻译成一张图，翻译得准不准全凭运气。Images 2.0更像是一个”会思考的设计师”——先理解你的意图，规划构图，验证约束，必要时还能联网查实时信息，然后再落笔。

这个架构带来的变化是质变级的：

文字渲染：因为模型是逐Token”书写”文字的（和生成文本一样），所以它能正确渲染多语言文字——包括中文、日文、韩文、印地语、西里尔字母。这直接解决了生图领域最大的痛点之一。过去，Ideogram曾因为文字渲染能力领先而获得一席之地，现在这个优势被直接抹平。

复杂指令遵循：模型能正确处理15-20个不同对象的属性绑定，而之前的扩散模型在5-8个对象时就会混乱。它还引入了”思考模式”（Thinking），在生成图像前通过O系列推理能力规划构图、验证对象数量、检查约束条件。

对话式编辑：因为它就是GPT-4o本身，所以它记得你之前说了什么，能基于上下文迭代修改图片，而不是每次从零开始。最大分辨率从1024px提升到2000px，支持7种宽高比，单次可生成10张风格一致的图片。

联网生成：在Thinking模式下，模型能在生成过程中搜索网络，获取实时信息——比如你可以让它生成一张包含昨天NBA比赛比分的信息图，数据是准确的。

它对世界知识、复杂指令、密集文字和多轮编辑的理解明显增强。

注意，它不是升级，是换轨。

这就是为什么这次反应格外大。

生图行业过去最影响商用的地方，是那些细碎、具体、麻烦的脏活累活：菜单上的字不能错，海报上的层级要清楚，信息图里箭头关系不能乱，PPT封面要贴合主题，广告素材要能连续出十几版。

Images 2.0突破的地方，正好踩在这些麻烦上。

一个模型如果开始能处理菜单、海报、广告图、UI mockup、产品说明和教学材料，它摸到的就是企业预算的后门。

ChatGPT开始伸手拿视觉预算

技术突破要放进产业格局里看，才能称出它的分量。

据多家研究机构综合估算，AI生图市场目前规模约87-91亿美元（2024-2025），预计2030年超过600亿美元。而它正在吞噬的对象——传统图库摄影市场，2024年仅46.5亿美元，增长近乎停滞。

这不是”增量市场”的故事，而是”替代市场”的故事。

Getty Images创意业务收入2024年下降4.5%。Shutterstock 2025年Q4收入同比暴跌12%，当季净亏损1600万美元。2025年1月两家宣布合并，估值37亿美元——昔日的图库双雄，被迫抱团过冬。26%的插画师已因AI失去工作，37%报告收入下降。近40%的营销人员在用AI做日常的社交媒体配图。

玩家依据商业模式分化出几条路线：

Getty、Shutterstock传统市场玩家虽然危机四伏，但占住的是版权素材库。传统图库有版权资产，有企业合规，有历史客户，也有很深的行业关系。

Midjourney占住的是审美社区和高质量风格心智，纯订阅制，约130人团队，5亿美元年收入，零风投，可能是AI行业最极端的效率样本。

Adobe Firefly平台嵌入式，4100万Creative Cloud订阅加”版权安全”定位，高端品牌和广告代理商，被它拿得死死的。

Canva占住的是模板、协作和轻设计入口，2.6亿月活，40亿美元年收入。

OpenAI则走的是API+订阅双轨制，底牌是ChatGPT的逾9亿周活和5000万付费用户。很明显，它想让ChatGPT从文字工作台，长成一个更完整的内容生产入口。你让它写一份营销文案，顺手让它配一张主视觉；你让它整理一页产品说明，顺手让它画结构图；你让它改一套活动方案，顺手让它出海报草案。

OpenAI在Sora上的学费没白交。至少它知道了，能力本身不够，能力还要贴着工作流走，贴着企业的预算走。

Images 2.0的出现，会加速AI生图向社交媒体、电商、营销素材等领域的全面渗透。尤其在文字渲染和复杂指令遵循这两项技术上的突破，直接打通了信息图、产品包装、UI原型等此前AI碰不了的商业场景。

但也别过于乐观，因为产业层面最核心的瓶颈——版权法律风险和企业级精细控制——OpenAI尚未攻克或完全解决。一些企业品牌和广告代理商，大概率还会留在Adobe和传统玩家那里。

Sora之死：OpenAI的战略教训

在严肃认真地讨论Images 2.0的前景之前，咱们不得不先正视房间里的大象——Sora。

Sora当年轰动得也让人觉得OpenAI提前拿到了未来的入场券。

然后，它死了。

2026年3月24日，OpenAI宣布关停Sora。

以下这组数字，足以写出这部烧钱史诗的墓志铭：日均推理成本峰值约1500万美元，年化约54亿美元。而Sora整个生命周期的总收入——没错，是累计总额——210万美元。投入产出比2500:1。30天用户留存率1%。

TechCrunch不留情面地说：Sora是”一个没有人的社交网络，里面全是AI生成的垃圾（slop）”。

是Sora的技术不行吗？当然不是。

2024年2月那段令世界惊叹的东京街头视频，几乎重新定义了大众对“AI视频”的想象。Sora app上线后，短时间就吸引了大量尝鲜用户。但下载量撑不起留存，围观更撑不起付费。

与此同时，同样是文生视频应用的可灵和即梦/Seedance，在遥远的东方国度活得风生水起。

可灵嵌在快手的短视频生态里——创作者拿它生成电商广告视频，挂商品链接，平台按播放和点击分成。模型→内容→流量→变现，一个完整的闭环。Seedance则嵌在字节的剪映/CapCut里，全球数亿用户直接调用。快手2026年1月披露，可灵AI年化收入是3亿美元。而Sora的累计收入210万美元。

而Sora最致命的错误，是把AI视频做成了一个”孤岛“。Sora从零获客，还异想天开地做社交Feed。奈何它就只是个展厅，大家进去看一圈，拍几张照片，就再也不回来了。

而快手和字节都有内容平台，创作者，也有商业化系统。模型哪里不好，用户会立刻用脚投票；哪个模板能跑起来，数据会立刻反馈；什么场景愿意付费，销售和运营比实验室更早知道。

这正是第一层最本质的差异：产品形态的差异。

可灵、Seedance把AI视频当成功能，塞进已有生态。Sora把AI视频当成一个孤立的新大陆，试图让用户迁徙过去。

第二层差异是付费场景。

Sora解决的是”用文字生成一段视频”这个技术问题，没有回答”然后呢？”。它的用户是想”玩”的消费者，替代品是免费的TikTok；

中国的视频生成产品很清楚自己要服务谁：想“赚钱”的短视频创作者、电商商家、广告团队、品牌内容团队。短视频创作者需要更快出片、电商需要产品视频、社交媒体需要内容——他们过去只能花更多钱请人类拍视频。

这两种付费意愿，天差地别。

第三层差异是成本结构。

视频生成非常消耗算力，也更依赖后期剪辑、镜头连贯、动作一致性和分发效率。

一个高成本产品同时又没有明确的付费场景，那么越火越容易变成财务噩梦。可灵和Seedance有完整的短视频电商生态闭环，而且在工程效率和成本控制上做得好得多。

Images 2.0会重蹈Sora的覆辙吗？

这也是为什么Images 2.0大概率不会变成第二个Sora。

原因不在技术更强，在于底下的产业结构完全不同。

市场体量差了一个量级。 AI生图已是数十亿美元规模的成熟市场，年增长超100%。AI生视频2025年仅约7.9亿美元。

使用频次天差地别。 图片是高频需求，89%的个人用户在使用AI生图。社交帖、电商listing、广告创意、PPT、UI原型——每天有数以亿计的图片需求。生视频是低频行为，大多数用户试玩几次就走了。

成本结构不同。 一张图的推理成本0.02-0.21美元；一段10秒视频1.30美元起步（据Cantor Fitzgerald分析师估算）

竞争格局有利。 Sora面对的是免费的TikTok。Images 2.0面对的是Midjourney（无平台优势）、Adobe（不直接面向消费者）和Google Gemini，ChatGPT的分发优势在生图市场使得上劲。

最关键的：产品形态对了。

Images 2.0没有被做成一个孤岛。它长在ChatGPT里。

用户不需要重新下载一个app，也不需要学习一个新工具。他只要在原来的对话里说一句：帮我做一张图。

这个动作太轻了。

让ChatGPT写文案、改邮件、做表格、理方案，再顺手配张图，本来就是同一个工作流。

这是生意上最要命的区别。

企业原本就要买图库、买设计软件、请外包。OpenAI不需要说服企业突然爱上AI艺术，它只需要证明：同样一张菜单、海报、产品图、社媒配图和营销素材，ChatGPT能更快、更便宜地设计出来。

只要这件事成立，Images 2.0就有了Sora没有的东西：

入口、频次、付费意愿。

这三个词，比任何榜单都硬。

但别急着宣布胜利

不重蹈覆辙，不等于前路坦途。两个真实风险必须正视。

第一，护城河可能比想象中浅。

生图用户的切换成本非常低。今天用ChatGPT，明天用Midjourney，后天换Google的新模型，再过几个月可能又冒出一个更便宜、更会画、更懂中文的对手。

而且，单从成本看。跟其他AI生图工具比，Images 2.0反而是贵的那个：Adobe Firefly消费级套餐约0.04-0.10美元/张，Nano Banana 2的API 0.067美元/张，Midjourney Relax模式低至0.03美元/张。换句话说，一张图0.21美元的OpenAI对比竞品价格并不占优，它卖点是”更好”。那这个溢价能撑多久，取决于质量差距能保持多久。

更何况，生图市场早就越过了单纯比画功的阶段。Midjourney以百人团队做到5亿美元年收入也在提醒各位：这个市场的壁垒可能压根不在模型能力上，而在品牌、社区和工作流嵌入度上。

Adobe卖的是企业安全感，Canva卖的是模板和协同，Midjourney卖的是美学社区，Google卖的是模型和搜索生态，图库公司卖的是版权资产。

OpenAI想拿走视觉预算，就不能只靠模型能力。

第二，版权问题是达摩克利斯之剑。

对个人用户来说，一张图好看就够了。对企业来说，好看只是开始。

市场部会问：能不能商用？法务会问：训练数据从哪来？品牌团队会问：有没有侵权？

这反而成为Adobe这类公司的防线。它未必每一次模型能力都最强，但Adobe Firefly的训练数据仅来自Adobe Stock和公共领域，版权确定性高得多。

AI版权诉讼从2024年底约30起翻倍到2025年底超60起。吉卜力风格事件闹得沸沸扬扬，宫崎骏本人曾称AI是”对生命的侮辱”。

OpenAI说可以屏蔽”在世个人艺术家的风格”，但允许”更宽泛的工作室风格”——这个区分在法律上非常脆弱。

如果要吃企业视觉预算，版权问题迟早绕不过。

所以，Images 2.0的最终考场不在发布页，也不在榜单。

它在采购系统里。

比Images 2.0重要一百倍的事

最后，回到一个更大的问题上。

Sora之死，表面上是一个产品的失败，底下是OpenAI为”战略不聚焦”付出的巨大代价。过去半年这家公司砍项目砍得刀光剑影：关掉Sora（葬送10亿美元Disney合作）、叫停英国300亿美元数据中心计划、半年内两次改产品路线图。2026年3月，应用业务CEO Fidji Simo在全员大会上说了句迟到的实话：Anthropic是”警钟”，公司”把精力分散在太多应用和技术栈上”。

与此同时，Anthropic年化收入据报达300亿美元，其中80%来自企业客户。而OpenAI约250亿美元年化收入中，企业只占约100亿美元。Financial Times报道，早期投资人批评OpenAI”深度不聚焦”，有人将其比作”AI界的网景”——90年代的浏览器明星，最终被微软超越，卖给了AOL。

在这个背景下看Images 2.0，它的意义已远超一个生图模型。这是OpenAI从To C通用助手转向To B企业服务这条路上的一次关键验证——它的能力组合（信息图、产品图、UI mockup、多图campaign素材）天然服务企业用户。它看来就是OpenAI刚宣布的”聚焦编码和企业”新战略的一颗子弹。

但一颗子弹能不能打赢一场战争。

Sora之死留下了最贵的教训是：技术领先≠商业胜利。Images 2.0如果只是一场漂亮的发布会，而不是长期投入和产品纪律的开始，那它也可能很快被后来者追平。

最终检验Images 2.0成败的，不是Arena上远超第二名的分数，不是发布当天的全网刷屏，而是一个朴素的商业问题：

12个月后，有多少企业把原来花在Adobe和Shutterstock上的预算，转到了ChatGPT上？

这个答案，现在谁都给不了。

但至少这一次，OpenAI踩上了一个正确的战场。

能不能把仗打赢、把阵地守住——那就看Sam Altman这回是真的学会了专注，还是又准备去铺下一个摊子。

–END–

关注我，获取更多AI非共识！