OpenAI 最新生图模型 GPT Image 2 在 SuperCLUE 相关评测中超过谷歌 Nano Banana2!
AI绘图变天了:OpenAI刚刚把“乱码时代”打穿
过去一年,很多人用AI画图时都有一个共同崩溃瞬间:画面很漂亮,光影很高级,构图很电影。但只要你让它写几个中文大字,结果往往像——“奶荼新品上市”“开业犬吉”“限时钜惠”变成一堆看不懂的符号。
所以很多设计师、运营、电商老板对AI生图的评价一直很矛盾:它能出灵感,但不能直接交付;它能做氛围,但不能做成品;它能画画,但不会“干活”。
而这一次,情况真的变了。
4月29日,AIBase报道称,OpenAI旗下最新文生图模型GPT Image 2在SuperCLUE相关评测中超过谷歌Nano Banana2,登上全球文生图模型榜首。报道中特别提到,它在汉字生成维度拿到93.07分,文字准确度获得满分评级。
这不是一次普通的模型升级。它更像是AI绘图行业从“玩具阶段”迈向“生产工具阶段”的分水岭。
01|以前的AI生图,输在最后5%
过去我们判断一个AI绘图模型强不强,常常看三件事:画面美不美?风格像不像?细节多不多?
但真正做过商业设计的人都知道,决定一张图能不能交付的,往往不是前面95%,而是最后5%。
比如:海报上的字能不能读?商品包装上的logo会不会变形?菜单价格有没有写错?活动日期是不是清楚?品牌色、版式、人物、产品能不能保持一致?
AI以前最容易翻车的地方,恰恰就是这些“看起来小、实际上致命”的细节。
这也是为什么很多公司用AI生图,最后流程会变成:AI出概念图→设计师重画文字→修图师补细节→运营再检查三遍。效率确实提高了,但离“直接可用”还差一口气。
GPT Image 2这次最值得关注的,并不是“画得更漂亮”这么简单,而是它开始解决AI图像生成里最硬的商业问题:准确性。
OpenAI在开发者社区介绍gpt-image-2时称,这是其目前最强的图像生成模型,面向复杂视觉任务,强调更强编辑、更好布局、更好的文本渲染,以及更可靠的指令遵循能力;官方还表示它适合生产级工作流,因为图像需要准确、可读、符合品牌、本地化,并能减少后期清理。
注意这几个词:准确、可读、符合品牌、本地化、少返工。这才是设计行业真正关心的东西。
02|中文终于不再是AI生图的“地狱关卡”
如果你长期用过AI画图,一定知道中文有多难。
英文还好,短词还能凑合。但中文一上来,很多模型就开始“精神恍惚”。原因很简单:中文不是字母拼接,而是结构复杂的方块字。一个字里可能有上下、左右、包围、穿插。字体、笔画、排版、材质、透视,还要同时对齐。
更要命的是,商业场景里的中文不是孤立存在的。它可能要刻在青花瓷上,可能要印在亚克力招牌上,可能要贴在奶茶杯身上,可能要出现在电商详情页、展会背板、门店海报、包装盒上。
AIBase报道中提到,GPT Image 2不仅能生成复杂汉字,还能让文字与亚克力、青花瓷等材质纹理融合,减少文字“漂浮感”和乱码问题。
这件事的影响非常直接。以前你让AI生成一张“新中式茶饮开业海报”,它可能给你一张很美的图,但文字全部报废。现在它开始接近这样的能力:“生成一张青花瓷质感的品牌海报,主标题写‘春山新茶’,副标题写‘4月限定’,下方加上‘第二杯半价’。”
如果模型真的能稳定完成,意味着什么?
-
小商家可以快速做促销海报
-
电商可以批量生成商品主图
-
内容团队可以一天测试几十版封面
-
设计师从“修AI的错别字”转向“做审美和策略判断”
这才是最恐怖的地方。不是AI会画图了,而是AI终于开始会做图了。
03|这次升级的核心,不是“画”,而是“先想清楚再画”
过去很多AI生图模型像一个很有天赋但不太听话的画师。你说“画一张科技感发布会海报,左边是产品,右边是文字,底部放二维码区域”,它可能画得很酷,但二维码区域没了,产品变形了,文字乱了,左右结构也忘了。
而GPT Image 2背后的变化,是图像生成开始接入更强的推理能力。
OpenAI的系统卡提到,ChatGPT Images 2.0是图像生成能力的重要进步,包括更强的世界知识、指令遵循,以及生成密集文本等复杂细节的能力;新的thinking mode会把推理和工具使用加入图像生成流程,让系统可以整合实时网页搜索数据,从一个基础提示词推导出更充分思考后的最终图像。
换句话说,AI不再只是“看到提示词就开画”。它开始像一个视觉策划一样,先理解任务:这张图是给谁看的?要传达什么信息?文字应该放在哪里?画面结构怎么安排?不同元素之间如何保持一致?
这会让AI生图从“随机出惊喜”变成“稳定交付结果”。而稳定,恰恰是商业化最需要的东西。
04|设计师真正要警惕的,不是失业,而是工作流被重写
每次AI工具升级,互联网上都会出现两个极端声音:一种说“设计师完了”,另一种说“AI永远替代不了人”。
但更现实的答案可能是:设计师不会被一张AI图替代,但会被会用AI的设计流程替代。
因为GPT Image 2这类模型最先冲击的,不是顶级创意总监,而是大量重复性视觉生产。比如:公众号封面图、小红书种草图、电商活动海报、课程宣传长图、门店节日物料、信息图、PPT配图、产品mockup、短视频封面和多版本A/B测试素材。
这些图过去最大的成本不是“灵感”,而是“反复改”——改尺寸、改文案、改色调、改人物、改产品位置、改十版客户才点头。
现在,模型如果能更好地遵循指令、保留细节、生成多张一致图片,就会直接改变内容生产的节奏。
The Verge报道称,ChatGPT Images 2.0支持更强的指令遵循、细节保留和文本生成;在开启thinking能力时,可以一次生成最多8张图,并保持角色、物体和风格一致,还支持最高2K分辨率以及3:1到1:3等更多比例。
这意味着,未来很多团队的视觉生产会变成:先用AI批量出方向→再由人筛选、审美、定调→然后用AI继续迭代→最后由设计师做品牌把关和精修。
设计师的价值不会消失,但重心会变化:从“画得出来”变成“判断什么值得画”,从“手动执行”变成“控制系统输出”,从“做一张图”变成“搭一套视觉生产流程”。
05|对普通人来说,机会反而更大了
很多人看到AI图像模型升级,第一反应是焦虑。但换个角度看,这其实是普通人内容创业的门槛再次降低。
以前你想做一个公众号、短视频号、小红书账号,最大的问题不是写不出内容,而是视觉跟不上:封面太普通没人点,配图太粗糙不高级,排版没质感转化低,找设计师太贵自己做又慢。
现在,AI图像模型正在把“视觉表达能力”平民化。一个不会PS的人也能做出像样封面,一个小团队也能测试多套品牌视觉,一个本地商家也能快速生成活动海报,一个知识博主也能把复杂概念做成信息图。
OpenAI API文档显示,开发者可以通过Image API生成和编辑图像,也可以通过Responses API在对话或多步骤流程中生成图像;Responses API还支持多轮编辑和更灵活的图像输入。
这意味着,AI生图不只是ChatGPT里的一个按钮,而会逐渐嵌入各种产品:营销工具、电商后台、PPT插件、设计平台、内容CMS、企业品牌资产系统。未来你可能不会专门打开一个“AI绘图软件”,你只是在写文章、做海报、改网页、上新品时,顺手让系统生成一套视觉方案。
06|但越强的图像模型,也越需要被认真约束
当然,硬币还有另一面。图像生成越逼真,风险也越高。
OpenAI在系统卡中也明确提到,相比过去模型,ChatGPT Images 2.0的更高真实感可能带来更有说服力的深度伪造风险,尤其涉及真实人物、地点或事件时,需要额外安全措施。
这提醒我们:AI生图越强,越不能只谈效率,还要谈版权、肖像、误导、虚假信息和平台责任。
未来真正成熟的AI视觉生产,不会只是“想画什么就画什么”。它一定会变成三件事的结合:能力更强、边界更清楚、责任更明确。
对创作者来说,也应该形成新的底线:不要伪造真实新闻现场,不要冒用他人肖像做商业宣传,不要用AI图假装真实摄影,不要未经授权模仿特定在世艺术家或品牌资产,不要把“生成得像真的”当成传播虚假的理由。
AI可以提高创作效率,但不应该降低内容伦理。
结语:AI绘图的下一站,是“可交付”
这次GPT Image 2登顶,真正的信号不是OpenAI又赢了一次榜单。而是AI图像生成正在进入一个新阶段:
-
从好玩到好用
-
从惊艳到稳定
-
从灵感图到交付图
-
从“画一张漂亮图片”到“完成一个视觉任务”
过去,AI生图最大的魅力是:它能把想象画出来。现在,它更重要的价值可能是:它能把需求做出来。
当中文能写对,版式能排好,角色能保持一致,信息图能看懂,海报能直接用——AI绘图就不再只是设计圈的玩具,而会成为每个内容团队、品牌团队、电商团队、创业者的基础设施。
未来的竞争,也许不再是谁会用AI画一张图。而是谁能用AI,搭出一整套内容生产机器。
AI绘图的乱码时代,正在结束。可交付时代,刚刚开始。
文末互动
你最希望AI图像生成帮你解决什么“最后5%”的交付问题?是中文文字、版式排版,还是角色一致性?
欢迎在评论区聊聊你的真实需求。
夜雨聆风