OpenAI 重新定义了「生成图像」这件事-夜雨聆风

OpenAI 重新定义了「生成图像」这件事

4月21日，OpenAI 正式发布 ChatGPT Images 2.0，这是OpenAI 迄今最强的图像生成模型，模型一经发布立马在互联网掀起了生图热潮。CEO Sam Altman将这次发布定性为代际跨越，而非版本迭代——“更像是从 GPT-3 到 GPT-5 的跨代飞跃“。官方用三段历史类比来标定这次发布的位置：DALL-E 对应洞穴壁画，Images 1 对应古代艺术，Images 2.0 则是图像生成领域的文艺复兴。

Altman 表示，一年多前图像功能上线后，用户释放的创造力让他印象深刻，而 Images 2.0 将在此基础上实现跨越式发展——它在创作惊人图像、表达创意以及构建复杂美学事物方面的能力非常卓越，团队在这一项目上倾注了巨大心血。

此次模型分两个版本发布，即时版本面向全体用户，思考版本面向付费用户。思考版本在输出前完成逻辑推演、提示词撰写与联网检索，用于处理复杂任务。为何模型能力的迭代更像是从 GPT-3 到 GPT-5 的跨代飞跃？这背后源于根本性的能力转变：Images 2.0 不只是生成图像，它会在生成前进行推理。

模型发布后，Sam Altman与ChatGPT Images 的研究负责人Gabriel Goh 以及研究员 Kiwhan Song、Kenji Hata、Alex Yu、Boyuan Chen、Nithanth Kudige 等开启线上直播，现场演示ChatGPT Images 2.0文本渲染、多图一致性、联网搜索、多语言支持与高分辨率生成等核心能力。

文本渲染：长期痛点的系统性突破

研究负责人 Gabriel Goh 用团队四人的合照生成了一张杂志封面作为开场演示。他指出，Images 2.0 生成的图像具备一种自然质感，完全符合真实图像的视觉逻辑——“当你习惯了这些作品后再回顾旧模型，会发现以前从未察觉的视觉瑕疵“。

文本渲染是 Goh 重点强调的突破方向。他表示，以前图像模型甚至无法准确拼写单词，而现在模型可以生成一整段乃至整页无误的文本，驾驭复杂的杂志排版，所有微小文字的渲染都非常到位，“错别字几乎绝迹，甚至很难找到任何排版漏洞“。Altman 也在旁印证了这一判断：视觉连贯性、零错别字、复杂文本处理，以及单张图像中海量细节的呈现，这些以前被认为难以企及的目标，如今已成常规——“很难在画中发现错误“。

视觉理解与生成的协同

Kiwhan Song 以一个日常场景演示了即时模式的视觉智能水平：他提供一张肖像照，要求模型为即将到来的暑假旅行推荐八套夏日穿搭，随后进一步要求放大其中一套并拍摄同风格时尚大片，展示不同视角与衣物细节。

这一任务同时调动了模型的两项核心能力——通过图像分析理解外貌特征并制定搭配方案，以及将构思转化为连贯有序的视觉输出。最终图像中，每件衣物均附有文字标注，视觉效果高度写实。Song 认为，这种能力来自视觉理解与视觉生成的深度融合，而非单一的图像生成能力的提升。他将新模型定性为“首个在日常生活中真正具备实用价值的图像模型“，它更像是一个可以交互协作的 AI，能通过极具理解力的图像来响应用户需求。

思考模式：多图一致性与现实信息接入

Kenji Hata 介绍了思考版本的核心能力边界。思考模式的价值在于将复杂任务分解为可验证的推理步骤，在最终输出前完成联网检索、信息综合与自我校对，从而保证多图生成中的角色一致性与叙事连贯性。

他以 Goh 的漫画演示为例说明这一能力：通过单一提示词生成三页连贯漫画，第一张精准还原人物特征，后续页面在维持角色一致性的同时完整延续首页的艺术风格，“三页之间的叙事逻辑非常严谨一致“。

Hata 还借演示场合披露了一个测试项目的来龙去脉。几周前，团队以代号“胶带“在公开测试平台上灰度测试即时版本，部分网友由此推断出了团队身份。在现场演示中，他要求 Images 2.0 检索社交媒体上对“胶带模型“的真实反馈，将 Threads、LinkedIn、Reddit 上的真实评价生成为可引用的图像，并附上一枚指向官网的可扫描二维码。这一演示展示的是思考模式下联网检索、信息整合与结构化输出的完整链路。

画面自然感与极端纵横比

Alex Yu 将画面自然感定义为这一代模型在视觉质量上最核心的进步。他表示，当前输出可以表现得如摄影原作般自然，用户只需在提示词中加入“写实“”专业摄影“或“iPhone 拍摄“等关键词即可触发这种效果。

他以模拟 2015 年微软及 OpenAI 成立初期场景的图像为例：模型精准还原了演讲厅的颗粒感、视觉瑕疵与光影氛围，幻灯片上的文字与讲座内容逻辑自洽。另一张 360 度月球着陆全景图则展示了极端纵横比下的生成能力——模型支持高达 1:3 或 3:1 的比例，光影方向在空间逻辑上完全准确。Altman 在观看后表示，新模型与市面上其他服务的根本区别，不在于画面本身的精美，而在于“图像背后的智能水平“。

多语言支持：亚洲语系实现整页无误渲染

Boyuan Chen 负责多语言文本渲染的演示。他指出，亚洲语系长期是图像生成模型的短板，原因在于这些语言的字符集通常包含数千个汉字或字母，与仅有 26 个字母的英语完全不同——以前的模型很难精准记忆这些字符，而 Images 2.0 现在可以通过提示词生成整页无误的多语言文本，覆盖印地语、中文、韩语和日语。

演示中，一张多语言排版艺术海报呈现了中文“你好“与法语“Bonjour”，一张纯日语的 OpenAI 虚拟面包店宣传海报中，所有汉字与平假名清晰准确，细节可经放大验证，模型还将 OpenAI 标识创意融入了面包造型。

极限精度演示以一张大米图像收尾：通过实验性 4K 接口生成，画面看起来只是一堆普通大米，其中一颗米粒上刻有“GPT Image 2”字样。Chen 说：“在一整堆大米中，真的可以找到那颗米粒。这就是最新模型所能达到的精度。“

Nithanth Kudige以印地语 Aloo Paratha 食谱为例演示了本地化能力，印地语、泰卢固语、泰米尔语等高密度文本均能精准还原，文字无瑕疵。应用内同步上线了一系列预设风格功能，支持用户快速生成多套设计方案，通过对话持续迭代至符合特定品牌语言或美学要求。

现场演示结束后，Altman 以一句话总结了 OpenAI 对这款模型的定位：“图像的美感与深层的智能相得益彰。“官方的更深层表述是：Images 2.0 的目标不是制造视觉震撼，而是让图像成为发现、导航、发明与建造的工具。

Images 2.0 现已在 ChatGPT 网页端、移动端及 API 中同步上线。

| 文章来源：数字开物