乐于分享
好东西不私藏

“会思考”的AI生图工具来了!ChatGPT Images 2.0把设计变成一句话的事儿

“会思考”的AI生图工具来了!ChatGPT Images 2.0把设计变成一句话的事儿

智元宇宙是一家致力于普及AIGC技术与应用的新媒体平台。我们为您提供最新的AIGC行业资讯,精选优质企业应用案例和实用方法,旨在帮助企业和个人迅速掌握人工智能应用技巧。我们的愿景是让人工智能成为普惠企业和个人的基础设施,实现无处不在的智能化服务。

没有任何预兆,OpenAI突然发布ChatGPT Images 2.0,这波看上去又将AI生图卷到了新高度。

先澄清下,它的官方全名是ChatGPT Images 2.0,不是网传的GPT-Image-2(别跟谷歌的混了),而且大家看到的大部分示例图,都不是截图,全是模型一秒生成的,离谱到让人分不清真假。

已关注

关注

重播 分享

看官方的宣传片就知道,这次玩的根本不是简单的“画画工具”,而是能把复杂设计工序,变成“一句话指令+几秒钟等待”的生产力神器。设计师们真得赶紧跟上节奏了不说了,时代变了

实测封神:简单Prompt,效果直接拉满

官方说这是OpenAI首个有“思考”能力的图像模型,听起来有点玄乎,但实测之后才发现,这话真没吹牛。

所谓的“Thinking能力”,说白了就是能精准get你的需求,生成的图不仅逼真,还能保持逻辑连贯,再也不是以前那种“像素拼凑”的样子了。

首先看个“套娃”案例:“截图生截图”。对,下面这个是Images 2.0生出来的,不是某个程序员的屏幕截图!仔细看,出来的图连窗口布局、文字排版都和真的一模一样。

a screenshot of chatgpt, in a browser, in macosx. the user types “draw me a dog” chatgpt draws an ascii dog the front window is chatgpt, but the desktop is quite messy with lots of random windows open (e.g. a terminal). they’re all in the background

再来一张课堂盗射,结果依旧能以假乱真。

a 2015 ubc lecture hall with professor showing slides about GPT imagegen 2, photorealistic. the slides show a professor showing slides about GPT imagegen 2, and so on, recursively, forever.

这都不算啥,ChatGPT Images 2.0的“思考”能力,还能让它处理更复杂的任务。比如你让它画一张康托尔对角线证明的图解,这是集合论里超抽象的数学概念,它不仅能画出来,还能把证明逻辑、符号标注做得工工整整。

cantor’s diagonalization proof, infographic

最让人惊喜的是文本渲染能力,彻底终结了“AI写字如画符”的历史。不管是中文、英文,还是其他多语言,排版都精准到印刷级,再也不会出现歪歪扭扭、认不出的“乱码文字”。以下这张图,简直是五花八门,眼花缭乱,眼睛不够看了。

(👆信息量太大了,提示词太长了,大家可以自己去官方博客上看,见文末链接)

虽然偶尔在文字生成上会有小瑕疵,但在颠覆设计工作流这一块,它确实在Nano Banana之后,又把行业进度条往前拉了一大截。

离谱玩法大赏:不止生产力,还能解锁新乐趣

除了正经干活,网友们还解锁了各种离谱玩法,只能说人类的脑洞真的无限大。

有大神让它直接生成X平台的截图,真是有模有样。

生成课后练习题。这以后还需要买习题吗?

还有武术招式示意图……别害怕会不会走火入魔,这可是Images 2.0做了功课之后画出来的,不是瞎画的。

核心优势:不止逼真,更懂需求

能有这么强的表现,离不开它的几个核心优势。

首先是细节和保真度,官方说它给图像生成带来了划时代的提升,API里最高支持2K分辨率,而且能捕捉照片里的微小瑕疵,不管是电影感画面、像素艺术还是漫画,都能稳定还原,纹理、光影都很连贯。

其次是多语言理解能力,尤其是中文排版,终于达到了商业可用级别,再也不是以前那种扭曲的“天书”了,跨境电商、本地化营销团队再也不用为多语言海报头疼。

还有灵活的宽高比,支持从3:1到1:3,不管是横幅海报、手机界面,还是演示文稿、书签,都能直接适配,不用再手动调整尺寸。

另外,它的知识更新到了2025年12月,生成说明图、教育图形的时候,准确性和清晰度都有保障。

最实用的一点,一次提示最多能生成8张图,而且图里的角色和物体能保持连续性,不管是多页漫画、整屋设计方案,还是系列海报,都能一次性搞定,省去逐张生成、手动拼接的麻烦。

目前它已经在文本到图像任务中断层领先,比第二名Nano Banana 2高出240分,实力直接拉满。

背后团队揭秘:华人大佬坐镇,团队小而精

这么厉害的模型,背后的团队其实不算庞大。这次发布会上,奥特曼身旁又是一水儿的东方面孔,团队负责人是Gabriel Goh(挨着奥特曼那位,数学博士出身,2019年从苹果离职后加入OpenAI。

已关注

关注

重播 分享

其中最受关注的就是华人科学家陈博远(下图这位意气风发的小哥就是),江苏人,本科毕业于伯克利,后来在麻省理工拿到博士学位,研究方向是世界模型、具身智能和强化学习。更有意思的是,研究之余,他还是个爱喝珍珠奶茶的大厨,反差感拉满。

陈博远自己也说,他是为数不多从事GPT图像生成模型训练的研究者之一。

不吹不黑:这些局限性要知道

当然啦,它也不是完美的,OpenAI自己也在博客里提到了局限性。

比如涉及完整物理世界建模的任务,像折纸教程、魔方这种复杂结构,还有隐藏面、倾斜面的精确细节,模型表现还不够好;极高密度或重复性的细节,比如细沙,也会让它犯难。

另外,标签和图示如果涉及精确箭头或部件标注,还是建议人工校对一下,更稳妥。

还有API里超过2K的输出,目前还在测试阶段,可能会出现不稳定的情况,这些都是未来需要改进的地方。

定价与可用性:普通人也能玩得起

目前ChatGPT Images 2.0已经全量上线到ChatGPT、Codex和OpenAI API中,ChatGPT Plus、Pro和Business用户,还能使用具备“思考”能力的高级输出。

GPT-image-2 模型可在 API 中使用,价格根据所选图像的质量和分辨率而有所不同。

另外,它还整合进了Codex,设计师、产品经理可以在同一个工作空间里完成视觉创作、迭代和交付,不用来回切换工具;开发者也能通过API把它嵌入自己的产品,拓展设计、教育、创意等领域的应用。

最后唠唠:AI生图,到底是终结者还是解放者?

这次ChatGPT Images 2.0的发布,有人会问设计师还有未来吗?

其实不用太焦虑,它不是艺术的终结者,而是生产力的解放者。

AI能替代的,是重复的技能性工作,但它替代不了人类独一无二的创意和灵魂。当AI成为我们的“视觉思考伙伴”,思考着如何才能帮我们实现脑中想法,而我们只需要更专注于更有价值的创意本身——毕竟,想法才是最稀缺的东西。

总的来说,ChatGPT Images 2.0的发布,AI生图正式进入“会思考”的新阶段。接下来压力给到谷歌。

产品博客:https://openai.com/index/introducing-chatgpt-images-2-0/

– END –

智元易成科技有限公司专注于先进人工智能底层技术和专业应用开发,现已推出面向企业专属的AIGC应用平台——智元3.0,独有的企业级架构、自主可控的BrainByte AI大模型底座、无监督学习技术、低成本微调技术和各类企业级强应用。

👇点击关注“智元宇宙”,AIGC就在你身边