乐于分享
好东西不私藏

OpenAI 重新定义了「生成图像」这件事

OpenAI 重新定义了「生成图像」这件事

4月21日,OpenAI 正式发布 ChatGPT Images 2.0,这是OpenAI 迄今最强的图像生成模型,模型一经发布立马在互联网掀起了生图热潮。CEO Sam Altman将这次发布定性为代际跨越,而非版本迭代——更像是从 GPT-3 到 GPT-5 的跨代飞跃。官方用三段历史类比来标定这次发布的位置:DALL-E 对应洞穴壁画,Images 1 对应古代艺术,Images 2.0 则是图像生成领域的文艺复兴。

Altman 表示,一年多前图像功能上线后,用户释放的创造力让他印象深刻,而 Images 2.0 将在此基础上实现跨越式发展——它在创作惊人图像、表达创意以及构建复杂美学事物方面的能力非常卓越,团队在这一项目上倾注了巨大心血。

此次模型分两个版本发布,即时版本面向全体用户,思考版本面向付费用户。思考版本在输出前完成逻辑推演、提示词撰写与联网检索,用于处理复杂任务。为何模型能力的迭代更像是从 GPT-3 到 GPT-5 的跨代飞跃?这背后源于根本性的能力转变:Images 2.0 不只是生成图像,它会在生成前进行推理。

模型发布后,Sam AltmanChatGPT Images 的研究负责人Gabriel Goh 以及研究员 Kiwhan SongKenji HataAlex YuBoyuan ChenNithanth Kudige 等开启线上直播,现场演示ChatGPT Images 2.0文本渲染、多图一致性、联网搜索、多语言支持与高分辨率生成等核心能力。

文本渲染:长期痛点的系统性突破

研究负责人 Gabriel Goh 用团队四人的合照生成了一张杂志封面作为开场演示。他指出,Images 2.0 生成的图像具备一种自然质感,完全符合真实图像的视觉逻辑——当你习惯了这些作品后再回顾旧模型,会发现以前从未察觉的视觉瑕疵

文本渲染是 Goh 重点强调的突破方向。他表示,以前图像模型甚至无法准确拼写单词,而现在模型可以生成一整段乃至整页无误的文本,驾驭复杂的杂志排版,所有微小文字的渲染都非常到位,错别字几乎绝迹,甚至很难找到任何排版漏洞Altman 也在旁印证了这一判断:视觉连贯性、零错别字、复杂文本处理,以及单张图像中海量细节的呈现,这些以前被认为难以企及的目标,如今已成常规——很难在画中发现错误

视觉理解与生成的协同

Kiwhan Song 以一个日常场景演示了即时模式的视觉智能水平:他提供一张肖像照,要求模型为即将到来的暑假旅行推荐八套夏日穿搭,随后进一步要求放大其中一套并拍摄同风格时尚大片,展示不同视角与衣物细节。

这一任务同时调动了模型的两项核心能力——通过图像分析理解外貌特征并制定搭配方案,以及将构思转化为连贯有序的视觉输出。最终图像中,每件衣物均附有文字标注,视觉效果高度写实。Song 认为,这种能力来自视觉理解与视觉生成的深度融合,而非单一的图像生成能力的提升。他将新模型定性为首个在日常生活中真正具备实用价值的图像模型,它更像是一个可以交互协作的 AI,能通过极具理解力的图像来响应用户需求。

思考模式:多图一致性与现实信息接入

Kenji Hata 介绍了思考版本的核心能力边界。思考模式的价值在于将复杂任务分解为可验证的推理步骤,在最终输出前完成联网检索、信息综合与自我校对,从而保证多图生成中的角色一致性与叙事连贯性。

他以 Goh 的漫画演示为例说明这一能力:通过单一提示词生成三页连贯漫画,第一张精准还原人物特征,后续页面在维持角色一致性的同时完整延续首页的艺术风格,三页之间的叙事逻辑非常严谨一致

Hata 还借演示场合披露了一个测试项目的来龙去脉。几周前,团队以代号胶带在公开测试平台上灰度测试即时版本,部分网友由此推断出了团队身份。在现场演示中,他要求 Images 2.0 检索社交媒体上对胶带模型的真实反馈,将 ThreadsLinkedInReddit 上的真实评价生成为可引用的图像,并附上一枚指向官网的可扫描二维码。这一演示展示的是思考模式下联网检索、信息整合与结构化输出的完整链路。

画面自然感与极端纵横比

Alex Yu 将画面自然感定义为这一代模型在视觉质量上最核心的进步。他表示,当前输出可以表现得如摄影原作般自然,用户只需在提示词中加入写实“”专业摄影“iPhone 拍摄等关键词即可触发这种效果。

他以模拟 2015 年微软及 OpenAI 成立初期场景的图像为例:模型精准还原了演讲厅的颗粒感、视觉瑕疵与光影氛围,幻灯片上的文字与讲座内容逻辑自洽。另一张 360 度月球着陆全景图则展示了极端纵横比下的生成能力——模型支持高达 1:3 或 3:1 的比例,光影方向在空间逻辑上完全准确。Altman 在观看后表示,新模型与市面上其他服务的根本区别,不在于画面本身的精美,而在于图像背后的智能水平

多语言支持:亚洲语系实现整页无误渲染

Boyuan Chen 负责多语言文本渲染的演示。他指出,亚洲语系长期是图像生成模型的短板,原因在于这些语言的字符集通常包含数千个汉字或字母,与仅有 26 个字母的英语完全不同——以前的模型很难精准记忆这些字符,而 Images 2.0 现在可以通过提示词生成整页无误的多语言文本,覆盖印地语、中文、韩语和日语。

演示中,一张多语言排版艺术海报呈现了中文你好与法语“Bonjour”,一张纯日语的 OpenAI 虚拟面包店宣传海报中,所有汉字与平假名清晰准确,细节可经放大验证,模型还将 OpenAI 标识创意融入了面包造型。

极限精度演示以一张大米图像收尾:通过实验性 4K 接口生成,画面看起来只是一堆普通大米,其中一颗米粒上刻有“GPT Image 2”字样。Chen 说:在一整堆大米中,真的可以找到那颗米粒。这就是最新模型所能达到的精度。

Nithanth Kudige以印地语 Aloo Paratha 食谱为例演示了本地化能力,印地语、泰卢固语、泰米尔语等高密度文本均能精准还原,文字无瑕疵。应用内同步上线了一系列预设风格功能,支持用户快速生成多套设计方案,通过对话持续迭代至符合特定品牌语言或美学要求。

现场演示结束后,Altman 以一句话总结了 OpenAI 对这款模型的定位:图像的美感与深层的智能相得益彰。官方的更深层表述是:Images 2.0 的目标不是制造视觉震撼,而是让图像成为发现、导航、发明与建造的工具。

Images 2.0 现已在 ChatGPT 网页端、移动端及 API 中同步上线。

| 文章来源:数字开物

【AI技术与应用交流群|仅限受邀加入】

AI算力领域TOP级从业者专属圈层

√  与头部算力企业深度对话

√  与AI上下游企业深度对话
√  获取一手全球AI与算力产业信息
√  获取AI热点及前沿产业独家信息
√  随时了解全球AI领域高管最新观点及实录全文
√  有机会参与AI主题产业交流活动

扫码验证身份(需备注姓名/公司/职务

不止有 DeepSeek,更有 AI产业的未来!

• END• 

【专栏】精品再读

中国并不缺少芯片 | 黄仁勋最新对话实录
杨植麟、张鹏、罗福莉中关村畅聊OpenClaw | 未来的软件是面向Agent原生设计的
AI正在经历“物种分化”| Andrej Karpathy最新对话实录