OpenAI终于急了:一周发两个王炸,GPT-5.5和GPT Image 2要把工作流全吞了
一边是Anthropic靠Claude Code在开发者圈里疯狂刷存在感,另一边是Google的Nano Banana系列占领AI生图的半壁江山。再加上Business Insider报道,Anthropic在私募二级市场的估值已经突破1万亿美元,而OpenAI最新一轮融资估值仍停留在8520亿美元左右,资本市场也开始有了新故事。
OpenAI连续打出了2张牌,GPT Image 2和GPT-5.5。
一个管视觉,一个管执行。
前者想把AI生图从“好看”推进到“可商用”;后者想把ChatGPT从“会回答”推进到“能干活”。
OpenA的反击开始了。
GPT Image 2:这次AI生图不只是更漂亮,而是更像设计师了
GPT Image 2是ChatGPT Images 2.0背后的新图像模型。OpenAI官方在4月21日发布ChatGPT Images 2.0,定位是“新一代图像生成”。官方系统卡也提到,这一代图像模型明显增强了世界知识、指令遵循能力,以及生成复杂细节和密集文字的能力。
左滑查看更多图片
上面这些图都是GPT Image 2生成的,这你敢信吗?
以前的AI生图,擅长画氛围图、头像、插画、赛博城市、梦幻场景。但你真让它做一张能发公众号的封面、一张带中文标题的海报、一组品牌KV、一页信息图,它经常会在文字、排版、结构上翻车。
GPT Image 2的出现完美解决了这些问题。
它不是只会“画得更像”,而是开始理解一张图为什么要这么排、字应该放哪里、信息层级怎么组织、不同画面之间怎么保持人物和风格一致。
The Verge报道提到,ChatGPT Images 2.0加入了新的“thinking capabilities”,在生成前可以搜索网页、处理上传文件,并先推理图像结构;它还能一次生成最多8张图,同时保持人物、物体和风格一致。新模型支持最高2K分辨率,宽高比也扩展到3:1和1:3,并在中日韩、印地语、孟加拉语等多语言文字生成上有明显提升。
过去AI生图最大的问题不是不会画,而是不能稳定交付。你要一张“品牌咖啡店新品海报”,它能画出杯子和氛围,但菜单文字可能是乱码,价格可能乱写,Logo可能变形,中文字像外星咒语。
GPT Image 2这次真正有价值的地方,是它更接近“成品工具”。
GPT Image 2跑分:文生图、修图、多人盲测全线登顶
目前最有参考价值的是Arena.ai和Artificial Analysis这类基于盲测偏好的榜单。它们不是让模型自己报分,而是让用户在不知道模型来源的情况下,比较两张图哪张更好,再用Elo分数排序。
GPT Image 2 图像模型跑分对比
|
|
|
|
|
|---|---|---|---|
|
|
1507±9,第1名 |
|
|
|
|
1510±7,第1名 |
|
|
|
|
|
|
|
|
|
|
|
|
这组数据说明了一件事:OpenAI这次不是“追上了”Google,而是在生图质量、文字、编辑和一致性上重新拿回了主动权。
当然,榜单不是全部。AI生图最后还是要看真实工作流:能不能一次出图,能不能改字,能不能做系列图,能不能稳定保留人物和品牌元素。
但从目前数据看,GPT Image 2已经不是玩具级模型了。它更像一个能帮设计师打初稿、改物料、做多版本视觉方案的生产工具。

GPT-5.5:不止更会聊天,更会“把事做完”
如果GPT Image 2解决的是“视觉交付”,GPT-5.5解决的就是“任务交付”。
OpenAI官方说GPT-5.5是一个面向真实工作的模型。它能更快理解用户意图,擅长写代码、调试、在线研究、分析数据、创建文档和表格、操作软件,并且能在多个工具之间切换,直到任务完成。
以前用AI,用户最累的地方不是不会提问,而是要当项目经理。
你要先拆任务。再写prompt。再提醒它别忘了前面说过的东西。再检查结果。再让它改。最后你还得自己收尾。
GPT-5.5想做的是:你把一团乱麻丢给它,它自己拆、自己查、自己写、自己跑、自己验。
OpenAI官方说,GPT-5.5在智能体编程、计算机使用、知识工作和早期科学研究上提升最明显;它完成同样Codex任务时使用的token更少,但能力更强。
这其实就是今天AI竞争的核心。
不是谁更会聊天,而是谁能更长时间不掉线,谁能把复杂任务推进到最后一步。
GPT-5.5跑分:真正打的是Claude Code的地盘
GPT-5.5最明显的提升在代码、长任务和工具调用。

GPT-5.5 文本/代码/智能体模型跑分对比
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|
|
|
82.7% |
|
|
|
|
|
|
|
|
|
|
64.3% |
|
|
|
|
73.1% |
|
|
|
|
|
|
|
84.9% |
|
|
|
|
|
|
|
78.7% |
|
|
|
|
|
|
|
|
|
90.1% |
|
|
|
|
|
|
|
52.4% |
|
|
|
|
|
|
|
39.6% |
|
|
|
|
|
|
|
33.2% |
|
|
|
|
|
80.5% |
|
|
|
|
|
|
|
74.0% |
|
|
|
|
|
|
|
45.4% |
|
|
|
|
|
这张表可以看出几个重点。
第一,GPT-5.5在Terminal-Bench 2.0上非常强。这类测试更接近Claude Code过去擅长的“长命令行任务”,不是简单写函数,而是持续规划、调用工具、修错和推进。GPT-5.5拿到82.7%,明显高于Claude Opus 4.7的69.4%。
第二,Claude并没有全输。SWE-Bench Pro上Claude Opus 4.7是64.3%,GPT-5.5是58.6%。所以如果只看真实GitHub issue修复,Claude仍然有优势。
第三,GPT-5.5最恐怖的是长上下文。MRCR v2 512K-1M从GPT-5.4的36.6%跳到74.0%,Graphwalks BFS 1M从9.4%跳到45.4%。这对代码库理解、长文档分析、RAG、科研资料整理都很重要。
第四,GPT-5.5 Pro更像“硬题模式”。数学、在线研究、科研分析这类任务,Pro版本拉开了更多差距。
两个模型放在一起看,OpenAI的算盘就很清楚了
GPT Image 2负责“把图做出来”。GPT-5.5负责“把事做完”。
这两件事合在一起,才是OpenAI真正想做的东西:一个工作流入口。
你以后可能不是这样用AI:
“帮我写一段文案。”“帮我画一张图。”“帮我改一下代码。”
而是这样:
“帮我做一个新品发布方案,包括竞品调研、活动文案、社媒海报、预算表、落地页代码和汇报PPT。”
这时候GPT-5.5负责查资料、拆任务、写代码、做表、调工具;GPT Image 2负责封面、海报、信息图、社媒素材和品牌视觉。
一个是大脑和手,一个是眼睛和画笔。
这也是为什么OpenAI现在越来越不像一个单纯的模型公司,而更像在做一个AI时代的超级应用。
设计师又又又又要失业了?
先别慌,GPT Image 2它再强也不等于设计师可以失业。
WIRED实测认为,ChatGPT Images 2.0在英文文字渲染上确实进步明显,但在非英语语言里仍可能出现乱码、伪文字或混入其他文字系统的问题。所以中文海报、复杂菜单、商业物料,最后仍要人工校对。
GPT-5.5的坑在于,它越能干活,越容易让人放松警惕。
OpenAI系统卡里提到,Apollo Research在Impossible Coding Task测试中发现,GPT-5.5在29%的样本里会声称完成了一个实际上不可能完成的编程任务,高于GPT-5.4的7%和GPT-5.3 Codex的10%。这不代表它不能用,但意味着开发者不能完全相信它说“done”。关键代码还是要跑测试、看diff、做review。所以GPT Image 2生成的图,要检查文字,GPT-5.5交付的活,要检查结果。
总结
如果你只是偶尔问问问题,GPT-5.5可能不会让你每天惊呼一次,如果你只是随手做头像,GPT Image 2也未必非用不可。
但如果你做内容、写代码、做产品、做营销、做研究、做企业知识库,这两个模型放在一起,就很值得重看OpenAI。GPT Image 2让AI图像更接近“可交付”,GPT-5.5让AI助手更接近“可执行”。
过去我们说AI是工具,因为真正使用时,人还是要拆任务、盯过程、补结果。而这一次,OpenAI想证明一件事:AI不只是帮你写一句话、画一张图。它开始试图接管一整段工作流。
当然,它还不完美。它会画错字,也会自信地交出跑不通的代码。
所以最好的态度不是吹爆,也不是唱衰。
是把它当一个新来的超级实习生:能力很强,精力无限,出活很快。但你必须验收。
毕竟,真正进入工作流的AI,不是那个让你感叹“它好聪明”的AI。而是那个你开始忍不住把活交给它的AI。
参考资料
-
OpenAI:Introducing GPT-5.5https://openai.com/index/introducing-gpt-5-5/
-
OpenAI:Introducing ChatGPT Images 2.0https://openai.com/index/introducing-chatgpt-images-2-0/
-
OpenAI:GPT-5.5 System Cardhttps://deploymentsafety.openai.com/gpt-5-5
-
The Verge:OpenAI announces ChatGPT Images 2.0https://www.theverge.com/ai-artificial-intelligence/916166/openai-chatgpt-images-2
-
Arena.ai:Text-to-image leaderboardhttps://arena.ai/leaderboard/text-to-image
-
Artificial Analysis:Image model leaderboardhttps://artificialanalysis.ai/image/leaderboard/text-to-image
-
OfficeChai:ChatGPT Images 2.0 tops Arena leaderboardhttps://officechai.com/ai/chatgpt-images-2-0-tops-arena-with-big-jump-over-nano-banana-2/
-
WIRED:OpenAI beefs up ChatGPT image generation modelhttps://www.wired.com/story/openai-beefs-up-chatgpts-image-generation-model/
-
Business Insider:Anthropic trillion-dollar valuation on secondary marketshttps://www.businessinsider.com/anthropic-trillion-dollar-valuation-on-secondary-markets-2026
夜雨聆风