OpenAI三连发:图像开始"思考",模型开始"自进化"
凌晨三点,GPT-Image 2落地。几个小时后,一张图片在开发者社区炸开了——雷军直播跑步的截图。
不,不是真截图。是AI生成的。但让人倒吸凉气的不是像不像,而是图上的数字:直播目标1313km,已跑里程425.7km,剩余里程887.3km,当前海拔3658m。
3658米是什么概念?从北京到拉萨进入藏区的典型海拔。
对于一个图像模型来说,这不是在”画画”。它理解了里程的含义,理解了加减法,还知道西藏的海拔长什么样。在生成第一个像素之前,它已经完成了一轮推理。
这张图让我意识到一件事:图像生成的竞争维度,变了。
图像成为语言
OpenAI在发布页上写了一句话:”Images are a language, not decoration.”
字面翻译:图像是语言,不是装饰。更准确地说,图像从”被观看的对象”变成了”表达意义的载体”。过去一年的AI绘图困在”画得像不像”的泥潭里,Midjourney、DALL-E、Stable Diffusion都在拼分辨率、拼审美风格。GPT-Image 2的出现,把评价标准从视觉相似度拉到了逻辑正确性上。
中文渲染是另一个惊喜。罗永浩王自如辩论赛截图、医生手写处方、马斯克直播带货老干妈——汉字呈现不是歪七扭八的伪中文,而是具备排版艺术的设计稿。很显然,OpenAI在训练集里灌入了海量中文语料图像。
API层面的改动更实用。通过Responses API,用户可以多轮对话修改:”背景再暗一点”、”Logo往左挪几个像素”——那些让乙方血压飙升的需求,现在可以交互完成。
36氪用”毁灭性”形容GPT-Image 2对设计行业的冲击。我以为这个词不夸张,但需要补充一点:它替代的不是创意,是执行。海报、插画、营销素材的生产成本从”上千元+多轮沟通”降到”几美元+交互修改”,对中小企业尤其友好。
当模型开始优化自己
GPT-5.5的发布比图像模型更值得注意,但讨论热度反而低。
上下文窗口扩展到100万Token,这个数字只是开场。真正要说的是:模型更大了,速度却没变慢。
OpenAI的推理系统重新设计了,而Codex和GPT-5.5直接参与了优化。团队面临一个负载均衡问题——此前将请求拆分为固定数量的块以均衡GPU工作,但静态分块对所有流量形态并非最优。Codex分析了数周的生产流量数据,编写了自定义启发式算法,把Token生成速度提升了20%以上。
GDPval:(44种职业场景):84.9%的任务达到或超过专家水平
OSWorld-Verified:(独立操作电脑):成功率78.7%,超人类基线
Terminal-Bench 2.0:(命令行工作流):82.7%
这些数字意味着什么?用一个开发者的话说:”失去GPT-5.5的访问权限,感觉就像截肢。”——来自英伟达工程师。
Cursor联合创始人补充了一句更具体的:GPT-5.5比前代更坚韧,在复杂长时任务中能坚持更久而不提前停下。这恰恰是工程工作最需要的。
科研方向的突破也值得关注。GPT-5.5参与发现了一项关于拉姆齐数的新数学证明,在Lean中通过验证。拉姆齐数是组合数学的核心对象,这个领域的成果本就罕见。不是AI提供代码或解释,而是真正贡献了一个数学论证。
定价涨了。API从GPT-5.4的输入2.50/输出15美元,变成输入5/输出30美元(每百万Token)。但官方强调完成相同任务所需Token减少,综合成本未必显著上升。这其实是一个信号:定价从”按Token计费”向”按任务效果计费”转变。
GPTs的继任者
Workspace Agents是的GPTs的进化形态,定位很明确——面向团队的工作流Agent。
GPTs的问题是单人配置、单人使用。创建一个Agent,只有你自己能用。Workspace Agents把这个能力扩展到了团队层面:工作流可以共享、可以协作修正、可以持续运行。
它的核心特征不是”Agent”这个概念,而是”工作空间”。每个Agent有独立的文件系统、工具调用权限、执行日志。创建好之后,它会出现在团队目录里,其他人直接调用。如果是敏感操作——修改数据、发送对外信息——可以要求人工确认。
OpenAI给了五个典型场景:软件审查、产品反馈整理、周报生成、销售线索跟进、第三方风险评估。共同点是规则明确、需要跨系统整合、可结构化执行。
从产品形态看,这是泰勒科学管理法的AI版本。把工作从”依赖个人经验”变成”可以被拆分、被记录、被重复执行的步骤”。此前这些流程散在文档、系统、人脑子里,同一件事不同人来做,顺序可能不一样,判断标准也不完全一致。现在这部分经验可以被写进流程里,团队里的其他人直接调用同一套做法。
方向和OpenAI最近收购的OpenClaw高度重合。本质上都是在解决同一类问题:流程存在,但执行需要人在不同工具间来回切换。Workspace Agents把这些步骤连起来,让它自己跑完。
一个开源的意外
Privacy Filter是这次发布中唯一的开源项目,也是讨论度最低的。
一个1.5B参数的双向token分类模型,用于识别和脱敏个人身份信息。Apache 2.0许可,可在本地部署。F1分数96%——精确率94.04%,召回率98.04%。
技术层面没什么花哨的。模型从预训练检查点开始,把语言建模头替换为token分类头,使用受约束的Viterbi过程解码连贯span。总参数1.5B,但激活参数只有50M,这意味着推理成本很低。
Hacker News上有人说:”一个设计用来保护PII的模型,也可以被用来定位PII。”有人开玩笑说这是AI界的”双刃剑”。但更实际的争议点是96%的F1分数——约4%的数据可能漏检。在合规语境下,这不是一个可以忽略的数字。
不过从另一个角度看,这是OpenAI把隐私能力开源出来的一个信号。此前企业PII脱敏依赖正则+Presidio的方案,现在有了模型层面的补充。开源+本地部署,至少在合规方向是友好的。
GPT-Image 2把图像生成从”像素拼接”推进到”逻辑推理”,GPT-5.5让模型介入基础设施优化,Workspace Agents把工作流从人身上拆下来。
三个方向看起来不同,但都在回答同一个问题:AI从”工具”变成”系统”。
图像不再是静态输出,可以交互修改;语言模型不再是被动响应,开始优化自己的推理架构;工作流不再是单人配置,可以让团队协作使用。
这不是能力升级,是产品形态升级。如果你是开发者或企业决策者,值得问自己一个问题:公司的工作流有没有被这三款产品覆盖到?如果有,是时候重新评估整合方式了。