OpenAI Image2 核心团队成员爆料:历时4个月,断崖反超谷歌 Nano Banana!几乎所有图像生成团队都上了!业内都在深扒Image2技术路径!-夜雨聆风

OpenAI Image2 核心团队成员爆料:历时4个月,断崖反超谷歌 Nano Banana!几乎所有图像生成团队都上了!业内都在深扒Image2技术路径!

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自51CTO技术栈，仅用于学术分享，如有侵权留言删除

编辑 | 云昭

“这是我过去四个月一直在研究的东西！”

几个小时前，OpenAI 的 Image 2 成功反超 Google ！

而这款上线即 SOTA 的文生图模型，直接在榜单上以碾压性的 242 分的优势超过了第二名 Nano Banana 2！

如此强悍的模型悄然而至，似乎一下让开年以来不断被 Anthropic 盖过风头的OpenAI，再次回到了舞台 C 位！

这这款模型背后，究竟是如何做到？本篇就带大家一探背后的技术实现路径。

随着 OpenAI CEO Sam Altman 的一场直播，大家开始注意到 Image 2 核心研发者：Boyuan Chen！

Chen 在帖子中爆料到：

这款模型研发周期持续了四个月。

直播一开场，Sam 就为这款模型给出了一个相当高的评价：就好像直接从GPT3跳到了GPT5一样！

Text-to-Image 项目中实现了完美统治，以创纪录的+242 分领先优势 – 这是迄今为止我们见过的最大差距。

首个具备思考能力的文生图模型

这是 Image 2.0 最为让人惊艳的地方。

这是一个范式变化。用 Sam 的话来说：如果 DALL·E 是洞穴壁画，Image Gen 1 是古代艺术，那么 Image 2.0 就是文艺复兴。

简单理解，就是学前班画画水平跟专业设计师之间的区别！

这里之所以用了“文艺复兴”，其实一点也不夸张。大家只要简单回顾一下前两代模型的使用经历，再试一把 Image 2.0 就能明显感觉到代际差异。

先看下这个例子就知道了。小编考了一道中学生未必都能半分钟回答出来的问题：帮我在一张A4纸上用红色中性笔证明一下勾股定理。

Image 2 似乎理解了我所提的每一个概念要素：A4 纸、红色中性笔、勾股定理、证明。

结果就这么水灵灵的给出了一个几何证明题的作业纸。“白纸红字”，不服不行！

这就如同文艺复兴时期，人们开始走出原始表达和理想化审美的束缚，开始系统地理解世界，并学会用科学方法去重建现实。

具体怎么触发这一功能？

只需要在 ChatGPT 里选 thinking 或 Plus、Pro 模型即可。然后你吩咐模型做图，模型就会做三件事：联网搜索实时信息、基于用户上传的文件生成可视化解释内容（一次产出最多 8 张连贯图）、图像生成前自我检查输出质量。

升级后的模型，作图过程也变得更加专业范儿：

先打个草稿，生成初稿中，搭好场景，打磨细节，收尾中，最后润色中，最后微调一下，创建完成。

下面这个例子，很好的体现了这一过程，在不同画面中保持人物、物体和风格的一致性。

总结一下，OpenAI 这波释放了一个图像模型的演进方向：

模型不只是生成图像，它在“思考”。它可以进行研究，甚至能搜索网络，以最准确的信息生成图像。

基于这些能力，它可以生成解释复杂系统的信息图，甚至用带证明的方式解决数学问题。

OpenAI 表示，这将使生成漫画页面、社交媒体视觉内容系列，或整套家居设计方案变得更加容易。

比如，我们已经可以在毫无上下文背景的情况下，让 Image 2 生成一张流川枫三步篮的动作拆解图。

可以看出，原本需要专业体育+绘画知识的一张分解图，就这样被 OpenAI 分分钟秒出了。文本内容非常专业准确，而结构化的构图设计也非常合理，视觉布局能力也没的说。

毫无疑问，OpenAI 这次是真的瞅准了生产级环境的视觉内容。

那么，如此聪明的会思考的模型是如何实现的呢？

目前，OpenAI Imagegen 团队研究员 Ayaan Haque （多说一嘴，前 Luma 团队成员），透露了一些工程信号：模型先做研究，再去做。

以前，如果你让图像模型去研究一个主题，它其实并不具备足够的世界知识，也缺乏各个领域的专业能力。

现在，它已经可以执行完整任务：先做研究，查看图片，找出它们之间的共性，还能生成多个相互一致的输出，把它们组织成一个完整的故事。

Sam 也在直播中表示：Image 2 在生成图像之前，会先进行一轮思考，甚至主动检索信息，再将结果组织成视觉画面。图像不再是死板地依赖一句提示词直接生成，中间多了一层内容梳理的过程。

生成前进行推理、结构规划，并结合网络信息完成复杂图像任务

它会主动思考这些内容：哪些信息需要放进去、以什么顺序呈现、最终输出什么结构图片。

在团队成员演示过程中，曾提到了两处模型的自主思考点：

第一处，模型会自主决定文字的位置，保证整个图片设计布局的高完成度；

第二处，则是模型会在最终输出前检查自身生成的结果，以确保多张图片之间的一致性。

小编认为，虽然 OpenAI 短期不会公开背后的技术细节，但对于人才辈出的今天，很快就会有人“逆向”出来。

对此，不少业界分析也有质疑的声音，所谓的图像“thinking mode”，仍属于工程层面的推理增强，而非真正意义上的“思考”。

中文不再是生图模型的二等公民

非拉丁语也能精确渲染

另一个值得关注的点是，Image 2 成功攻克了“多语言”文字显示的问题。

这可以说是无数创作者以前“心中最大的伤疤”之一了。

过去的图像模型常将文字视为“贴入画面的元素”，导致中文、日语等语言笔画变形或乱码，而新模型实现了“语言融入设计”——不仅保证字形准确，还能匹配字体选择、排版节奏与书写习惯，例如中文海报的留白和日文漫画的分镜逻辑。

官方测试案例显示，该模型能稳定处理密集文本场景：

在中文连环漫画中，连底部超小字号的注释“(此处为极小字号测试)无锡是作者的故乡”都清晰可辨；

在印度书店场景中，同时渲染印地语、孟加拉语等九种印度语言的书封文字，且语句通顺连贯。

Boyuan 还演示了自己让 Image 2 渲染成一篇论文的过程，这种高度密集的中英文混合小字排版，也被 OpenAI 成功接住了！

据悉，Image 2 之所以能够突破这个痛点，是源于模型对非拉丁语系语言的底层训练优化，而非简单的字符映射——它能理解文字的语义和排版规则，例如中文从左到右的阅读顺序、日语竖排文字的行距要求。

更关键的是，Image 2 将多语言能力与“思考模式”结合：生成前会分析语言特性、搜索字体参考（如中文宋体的笔画细节），再输出符合文化习惯的设计。

这意味着用户无需额外标注“使用黑体”或“竖排文字”，模型会自动适配——例如生成韩语广告时，标题会采用符合韩屋风格的手写字体，而非通用印刷体。

不要小看，这一层面的变化。

这种能力直接改变了内容创作流程：过去生成中文海报需在Photoshop中手动补字，现在模型可直接输出可用的文字图层。

更重要的是，对非英语市场的用户而言，更是大大的福音！之前事后再P“中文”的时代一去不复返了，跟英文一样成为了图像生成领域的“一等公民”。

指令遵循能力也变强了，

10点10分的钟表魔咒被打破了

指令遵循一直是创作者和设计者非常关注的细节能力，OpenAI 团队这次也在这方面下足了功夫。

实测显示，Image 2 对于构图、方位、时钟渲染问题都得了质的飞跃。

以时钟渲染为例，众所周知，以前很多模型对于生成时钟图片，都普遍存在一个问题：

即使你输入其他时间，它也很容易画成 10:10。

因为在现实中，钟表广告大多都会用 10:10 这个时间点，所以互联网上大量图片都是这个样子。

而这次 Image 2 解决了这个问题，结果对比非常明显。

小编实测问题如下：

生成一张Apple Watch S11 （钟表刻度盘）显示不同时刻的图片，它画不同时间：5:15、9:10、10:59，最后一个是 12:45。

结果四个图中的指针位置全都精确地显示正确了。

可变宽高比，最高2k分辨率，怎么实现的？

目前公开的信息里，Image 2 支持非常灵活的输出尺寸调整，几乎覆盖了所有主流平台的图片尺寸。此外 API 端甚至支持高达 2K 分辨率输出，最大边长像素为 3840 px，总像素达 829 万。

要知道过去版本的模型，也只够支持固定的竖版、横版或者正方形。API 端最高仅支持 1K 分辨率。

小编整理了一张核心能力特点，如下：

包括超广角的“专业摄影”设置也能心领神会，那种轻微的扭曲感也达到了以假乱真的地步。

prompt：用超广角手法拍摄春天里的上海外滩

稻米上的小黑字清晰可见

不过，根据官方披露的信息，当前 Images 2.0 的高分辨率输出仍处于beta阶段，2K以上分辨率结果可能不稳定；同时对于折纸步骤图、倾斜面细节等需要完整物理世界模型的复杂场景，细节处理仍存在局限。

那么，如此灵活多变的尺寸，技术上如何实现的呢？

很明显，OpenAI 不会这么快就公开出来。不过，结合当前图像生成领域的通用技术路径，Images 2.0 的可变像素输出大概率通过以下三种方式实现：

基于扩散模型的弹性输入输出架构

采用可变尺寸的latent扩散架构，支持不同长宽比的 latent 张量输入，无需固定尺寸输入即可生成对应尺寸图像，这是当前主流文生图模型实现可变尺寸的通用方案。
位置编码适配

通过可学习的旋转位置编码或正弦位置编码，适配不同尺寸的空间位置信息，保证不同比例下生成内容的结构合理性，这也解释了为什么它能重新组织构图而不是简单裁切。
训练数据覆盖多尺寸场景

训练阶段引入不同比例、不同分辨率的训练数据，让模型学习到不同尺寸下的合理构图逻辑，所以针对不同平台尺寸都能输出适配结果。