GPT Image 2 爆火:AI画图终于能写字了-夜雨聆风

GPT Image 2 爆火:AI画图终于能写字了

GPT Image 2 爆火：AI画图终于能写字了

事情是这样的。

4月22日，OpenAI突然发布了GPT Image 2。几乎没有预告，就这么甩出来了。

然后全网炸了。

我刷到几张图，第一反应是「等等，这真的是AI生成的？」上面的中文文字，工整、清晰、笔画正确。不是那种鬼画符，是真的能看懂的文字。

你知道之前的AI画图有多惨吗。让它画个招牌，出来的图上写着「深夜食堂」，笔画歪歪扭扭像喝了假酒。让它做个信息图，数据标签糊成一团。文字渲染一直是AI画图的死穴，搞得创作者们只能先让AI画背景，自己再用PS把文字贴上去。

但现在，GPT Image 2直接把这个问题给解决了。

不是修修补补的优化，是从根子上换了一套玩法。

首个能「思考」的图像模型

这个才是真正的杀手锏。

GPT Image 2是OpenAI首个具备推理能力的图像生成模型。

什么意思？它可以联网搜索，可以自我复核输出，可以像人一样「想一下再画」。

以前你让它画「某品牌的咖啡店」，它只能靠训练数据里的模糊印象去猜。现在它会先联网查一下这个品牌的视觉风格，再根据查到的信息去生成。画完之后还能自己检查一遍，看看有没有明显错误。

这带来的变化是质的飞跃。Arena评测榜单上，GPT Image 2直接拿下综合表现第一。文生图榜单1512分，甩第二名242分，这不是一点点领先，是断层式碾压。

中文文字渲染99%准确率

这个数字我得单独说一下。

腾讯云那边的实测报告，GPT Image 2的中文文字排版准确率达到99%以上。对比一下，DALL-E 3大概在60%左右，前代GPT Image 1.5在90-95%。

从95%到99%，听着好像只提升了4个百分点。但实际用起来，感受完全不一样。95%意味着每画20张图就有1张文字出错，你得盯着检查。99%意味着你可以放心让它画，基本不会出问题。

更骚的是，它支持多语言渲染。中文、日语、韩语、印地语、孟加拉语，都能精准处理。

我放一张实测图，大家感受一下。

上面的「GPT」三个字母，清晰、标准、没有任何歪斜。之前的AI画这种带文字的图，要么字母糊掉，要么位置不对。现在？一气呵成。

4096×4096分辨率

标准输出分辨率4096×4096。

对比一下，DALL-E 3最高1792×1024，Midjourney大概在1024-2048这个范围。GPT Image 2直接翻倍。

这意味着什么？你可以直接用它生成印刷级别的图片，不用再放大或者重绘。海报、杂志封面、产品包装，一次生成直接可用。

全新独立架构

这个技术点听着有点硬，但挺重要。

GPT Image 2采用全新的独立架构，内部代号「Spud」。不是基于之前GPT-4o的图像管线，是重新设计的一套多模态推理模型。

OpenAI还宣布了一个消息，DALL-E 2和DALL-E 3将于2026年5月12日正式关闭。GPT Image 2是DALL-E系列的正式继任者。

这信号挺明确，OpenAI认为新架构已经成熟到可以完全替代旧产品了。

对话式编辑

还有一个我觉得特别实用的功能。

你生成了一张图，觉得不太满意，可以直接跟它说「把背景换成日落」「加一只猫」「把这个人衣服改成红色」。

它会精准修改你指定的部分，不会把整张图重画一遍把好的地方也毁了。

这个功能的背后，是模型对图像的语义理解。它知道哪个区域是「背景」，哪个区域是「人物」，哪个区域是「衣服」。修改指令可以精确落实到具体位置。

说真的，这种交互方式让AI画图从「工具」变成了「协作者」。

单次生成8张图

还有一个升级，单次提示最多可以生成8张图像。

而且不同场景之间可以保持角色、物体、风格的一致性。

这意味着什么？你可以让它画一套系列图，比如「同一个人物在不同场景里的表现」，不用一个个分开画，一次搞定，风格统一。

几个效果展示

我再放几张GPT Image 2生成的图，大家感受一下这个质量。

看着这些图，我是真的觉得AI画图终于跨过了那个「能用但不好用」的阶段，进到了「好用」的阶段。

怎么体验

GPT Image 2已向所有ChatGPT用户开放。免费用户每天大约可生成5张图片。高级功能（思考能力、高质量输出）需要Plus、Pro或Business订阅。

如果你想体验完整功能，需要ChatGPT Plus账号。

如果你需要Plus代充，可以扫描下面的二维码。

团队亮点

还有一个小细节值得提一下。

GPT Image 2的团队13个人，用了4个月做出来。超半数是华人工程师，带头的是个无锡小伙子叫陈博远。

OpenAI里华人工程师的比例这几年一直在上升，黄仁勋之前说过「华人AI人才占一半」，这话的含金量还在涨。

一点感受

我一直在想一个问题，AI画图的进步到底是什么级别的进步。

以前我觉得这只是工具效率的提升，画得快一点、好一点，但本质还是工具。

现在我开始觉得，这是创作方式的变化。

当图像模型开始能「思考」，能联网查资料，能自我检查输出，它就从单纯的执行工具变成了有判断力的协作者。

这种变化听着好像只是功能叠加，但我觉得它触及了一个更本质的东西。

创作的核心从来不是技术能力，而是判断力。你得知道这张图好不好，文字对不对，风格合不合适。以前这些判断全靠人，工具只负责执行。现在工具开始能分担一部分判断，创作者可以更专注于表达本身。

我不知道这个变化会走到哪里，但「能思考的图像模型」这个概念，确实是值得认真关注的事。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。