OpenAI 重新定义了「生成图像」这件事


4月21日,OpenAI 正式发布 ChatGPT Images 2.0,这是OpenAI 迄今最强的图像生成模型,模型一经发布立马在互联网掀起了生图热潮。CEO Sam Altman将这次发布定性为代际跨越,而非版本迭代——“更像是从 GPT-3 到 GPT-5 的跨代飞跃“。官方用三段历史类比来标定这次发布的位置:DALL-E 对应洞穴壁画,Images 1 对应古代艺术,Images 2.0 则是图像生成领域的文艺复兴。
Altman 表示,一年多前图像功能上线后,用户释放的创造力让他印象深刻,而 Images 2.0 将在此基础上实现跨越式发展——它在创作惊人图像、表达创意以及构建复杂美学事物方面的能力非常卓越,团队在这一项目上倾注了巨大心血。
此次模型分两个版本发布,即时版本面向全体用户,思考版本面向付费用户。思考版本在输出前完成逻辑推演、提示词撰写与联网检索,用于处理复杂任务。为何模型能力的迭代更像是从 GPT-3 到 GPT-5 的跨代飞跃?这背后源于根本性的能力转变:Images 2.0 不只是生成图像,它会在生成前进行推理。
模型发布后,Sam Altman与ChatGPT Images 的研究负责人Gabriel Goh 以及研究员 Kiwhan Song、Kenji Hata、Alex Yu、Boyuan Chen、Nithanth Kudige 等开启线上直播,现场演示ChatGPT Images 2.0文本渲染、多图一致性、联网搜索、多语言支持与高分辨率生成等核心能力。
文本渲染:长期痛点的系统性突破
研究负责人 Gabriel Goh 用团队四人的合照生成了一张杂志封面作为开场演示。他指出,Images 2.0 生成的图像具备一种自然质感,完全符合真实图像的视觉逻辑——“当你习惯了这些作品后再回顾旧模型,会发现以前从未察觉的视觉瑕疵“。
文本渲染是 Goh 重点强调的突破方向。他表示,以前图像模型甚至无法准确拼写单词,而现在模型可以生成一整段乃至整页无误的文本,驾驭复杂的杂志排版,所有微小文字的渲染都非常到位,“错别字几乎绝迹,甚至很难找到任何排版漏洞“。Altman 也在旁印证了这一判断:视觉连贯性、零错别字、复杂文本处理,以及单张图像中海量细节的呈现,这些以前被认为难以企及的目标,如今已成常规——“很难在画中发现错误“。
视觉理解与生成的协同
Kiwhan Song 以一个日常场景演示了即时模式的视觉智能水平:他提供一张肖像照,要求模型为即将到来的暑假旅行推荐八套夏日穿搭,随后进一步要求放大其中一套并拍摄同风格时尚大片,展示不同视角与衣物细节。
这一任务同时调动了模型的两项核心能力——通过图像分析理解外貌特征并制定搭配方案,以及将构思转化为连贯有序的视觉输出。最终图像中,每件衣物均附有文字标注,视觉效果高度写实。Song 认为,这种能力来自视觉理解与视觉生成的深度融合,而非单一的图像生成能力的提升。他将新模型定性为“首个在日常生活中真正具备实用价值的图像模型“,它更像是一个可以交互协作的 AI,能通过极具理解力的图像来响应用户需求。
思考模式:多图一致性与现实信息接入
Kenji Hata 介绍了思考版本的核心能力边界。思考模式的价值在于将复杂任务分解为可验证的推理步骤,在最终输出前完成联网检索、信息综合与自我校对,从而保证多图生成中的角色一致性与叙事连贯性。
他以 Goh 的漫画演示为例说明这一能力:通过单一提示词生成三页连贯漫画,第一张精准还原人物特征,后续页面在维持角色一致性的同时完整延续首页的艺术风格,“三页之间的叙事逻辑非常严谨一致“。
Hata 还借演示场合披露了一个测试项目的来龙去脉。几周前,团队以代号“胶带“在公开测试平台上灰度测试即时版本,部分网友由此推断出了团队身份。在现场演示中,他要求 Images 2.0 检索社交媒体上对“胶带模型“的真实反馈,将 Threads、LinkedIn、Reddit 上的真实评价生成为可引用的图像,并附上一枚指向官网的可扫描二维码。这一演示展示的是思考模式下联网检索、信息整合与结构化输出的完整链路。
画面自然感与极端纵横比
Alex Yu 将画面自然感定义为这一代模型在视觉质量上最核心的进步。他表示,当前输出可以表现得如摄影原作般自然,用户只需在提示词中加入“写实“”专业摄影“或“iPhone 拍摄“等关键词即可触发这种效果。
他以模拟 2015 年微软及 OpenAI 成立初期场景的图像为例:模型精准还原了演讲厅的颗粒感、视觉瑕疵与光影氛围,幻灯片上的文字与讲座内容逻辑自洽。另一张 360 度月球着陆全景图则展示了极端纵横比下的生成能力——模型支持高达 1:3 或 3:1 的比例,光影方向在空间逻辑上完全准确。Altman 在观看后表示,新模型与市面上其他服务的根本区别,不在于画面本身的精美,而在于“图像背后的智能水平“。
多语言支持:亚洲语系实现整页无误渲染
Boyuan Chen 负责多语言文本渲染的演示。他指出,亚洲语系长期是图像生成模型的短板,原因在于这些语言的字符集通常包含数千个汉字或字母,与仅有 26 个字母的英语完全不同——以前的模型很难精准记忆这些字符,而 Images 2.0 现在可以通过提示词生成整页无误的多语言文本,覆盖印地语、中文、韩语和日语。
演示中,一张多语言排版艺术海报呈现了中文“你好“与法语“Bonjour”,一张纯日语的 OpenAI 虚拟面包店宣传海报中,所有汉字与平假名清晰准确,细节可经放大验证,模型还将 OpenAI 标识创意融入了面包造型。
极限精度演示以一张大米图像收尾:通过实验性 4K 接口生成,画面看起来只是一堆普通大米,其中一颗米粒上刻有“GPT Image 2”字样。Chen 说:“在一整堆大米中,真的可以找到那颗米粒。这就是最新模型所能达到的精度。“
Nithanth Kudige以印地语 Aloo Paratha 食谱为例演示了本地化能力,印地语、泰卢固语、泰米尔语等高密度文本均能精准还原,文字无瑕疵。应用内同步上线了一系列预设风格功能,支持用户快速生成多套设计方案,通过对话持续迭代至符合特定品牌语言或美学要求。
现场演示结束后,Altman 以一句话总结了 OpenAI 对这款模型的定位:“图像的美感与深层的智能相得益彰。“官方的更深层表述是:Images 2.0 的目标不是制造视觉震撼,而是让图像成为发现、导航、发明与建造的工具。
Images 2.0 现已在 ChatGPT 网页端、移动端及 API 中同步上线。
| 文章来源:数字开物

【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
扫码验证身份(需备注姓名/公司/职务
不止有 DeepSeek,更有 AI产业的未来!
【专栏】精品再读
夜雨聆风