OpenAI三连发:图像开始＂思考＂,模型开始＂自进化＂

凌晨三点，GPT-Image 2落地。几个小时后，一张图片在开发者社区炸开了——雷军直播跑步的截图。

不，不是真截图。是AI生成的。但让人倒吸凉气的不是像不像，而是图上的数字：直播目标1313km，已跑里程425.7km，剩余里程887.3km，当前海拔3658m。

3658米是什么概念？从北京到拉萨进入藏区的典型海拔。

对于一个图像模型来说，这不是在”画画”。它理解了里程的含义，理解了加减法，还知道西藏的海拔长什么样。在生成第一个像素之前，它已经完成了一轮推理。

这张图让我意识到一件事：图像生成的竞争维度，变了。

图像成为语言

OpenAI在发布页上写了一句话：”Images are a language, not decoration.”

字面翻译：图像是语言，不是装饰。更准确地说，图像从”被观看的对象”变成了”表达意义的载体”。过去一年的AI绘图困在”画得像不像”的泥潭里，Midjourney、DALL-E、Stable Diffusion都在拼分辨率、拼审美风格。GPT-Image 2的出现，把评价标准从视觉相似度拉到了逻辑正确性上。

中文渲染是另一个惊喜。罗永浩王自如辩论赛截图、医生手写处方、马斯克直播带货老干妈——汉字呈现不是歪七扭八的伪中文，而是具备排版艺术的设计稿。很显然，OpenAI在训练集里灌入了海量中文语料图像。

API层面的改动更实用。通过Responses API，用户可以多轮对话修改：”背景再暗一点”、”Logo往左挪几个像素”——那些让乙方血压飙升的需求，现在可以交互完成。

36氪用”毁灭性”形容GPT-Image 2对设计行业的冲击。我以为这个词不夸张，但需要补充一点：它替代的不是创意，是执行。海报、插画、营销素材的生产成本从”上千元+多轮沟通”降到”几美元+交互修改”，对中小企业尤其友好。

当模型开始优化自己

GPT-5.5的发布比图像模型更值得注意，但讨论热度反而低。

上下文窗口扩展到100万Token，这个数字只是开场。真正要说的是：模型更大了，速度却没变慢。

OpenAI的推理系统重新设计了，而Codex和GPT-5.5直接参与了优化。团队面临一个负载均衡问题——此前将请求拆分为固定数量的块以均衡GPU工作，但静态分块对所有流量形态并非最优。Codex分析了数周的生产流量数据，编写了自定义启发式算法，把Token生成速度提升了20%以上。

这是字面意义上的”AI改进了跑自己的系统”。

更具体的信号来自三个榜单：

GDPval:（44种职业场景）：84.9%的任务达到或超过专家水平

OSWorld-Verified:（独立操作电脑）：成功率78.7%，超人类基线

Terminal-Bench 2.0:（命令行工作流）：82.7%

这些数字意味着什么？用一个开发者的话说：”失去GPT-5.5的访问权限，感觉就像截肢。”——来自英伟达工程师。

Cursor联合创始人补充了一句更具体的：GPT-5.5比前代更坚韧，在复杂长时任务中能坚持更久而不提前停下。这恰恰是工程工作最需要的。

科研方向的突破也值得关注。GPT-5.5参与发现了一项关于拉姆齐数的新数学证明，在Lean中通过验证。拉姆齐数是组合数学的核心对象，这个领域的成果本就罕见。不是AI提供代码或解释，而是真正贡献了一个数学论证。

定价涨了。API从GPT-5.4的输入2.50/输出15美元，变成输入5/输出30美元（每百万Token）。但官方强调完成相同任务所需Token减少，综合成本未必显著上升。这其实是一个信号：定价从”按Token计费”向”按任务效果计费”转变。

GPTs的继任者

Workspace Agents是的GPTs的进化形态，定位很明确——面向团队的工作流Agent。

GPTs的问题是单人配置、单人使用。创建一个Agent，只有你自己能用。Workspace Agents把这个能力扩展到了团队层面：工作流可以共享、可以协作修正、可以持续运行。

它的核心特征不是”Agent”这个概念，而是”工作空间”。每个Agent有独立的文件系统、工具调用权限、执行日志。创建好之后，它会出现在团队目录里，其他人直接调用。如果是敏感操作——修改数据、发送对外信息——可以要求人工确认。

OpenAI给了五个典型场景：软件审查、产品反馈整理、周报生成、销售线索跟进、第三方风险评估。共同点是规则明确、需要跨系统整合、可结构化执行。

从产品形态看，这是泰勒科学管理法的AI版本。把工作从”依赖个人经验”变成”可以被拆分、被记录、被重复执行的步骤”。此前这些流程散在文档、系统、人脑子里，同一件事不同人来做，顺序可能不一样，判断标准也不完全一致。现在这部分经验可以被写进流程里，团队里的其他人直接调用同一套做法。

方向和OpenAI最近收购的OpenClaw高度重合。本质上都是在解决同一类问题：流程存在，但执行需要人在不同工具间来回切换。Workspace Agents把这些步骤连起来，让它自己跑完。

一个开源的意外

Privacy Filter是这次发布中唯一的开源项目，也是讨论度最低的。

一个1.5B参数的双向token分类模型，用于识别和脱敏个人身份信息。Apache 2.0许可，可在本地部署。F1分数96%——精确率94.04%，召回率98.04%。

技术层面没什么花哨的。模型从预训练检查点开始，把语言建模头替换为token分类头，使用受约束的Viterbi过程解码连贯span。总参数1.5B，但激活参数只有50M，这意味着推理成本很低。

Hacker News上有人说：”一个设计用来保护PII的模型，也可以被用来定位PII。”有人开玩笑说这是AI界的”双刃剑”。但更实际的争议点是96%的F1分数——约4%的数据可能漏检。在合规语境下，这不是一个可以忽略的数字。

不过从另一个角度看，这是OpenAI把隐私能力开源出来的一个信号。此前企业PII脱敏依赖正则+Presidio的方案，现在有了模型层面的补充。开源+本地部署，至少在合规方向是友好的。

这三连发的共同点是什么？

GPT-Image 2把图像生成从”像素拼接”推进到”逻辑推理”，GPT-5.5让模型介入基础设施优化，Workspace Agents把工作流从人身上拆下来。

三个方向看起来不同，但都在回答同一个问题：AI从”工具”变成”系统”。

图像不再是静态输出，可以交互修改；语言模型不再是被动响应，开始优化自己的推理架构；工作流不再是单人配置，可以让团队协作使用。

这不是能力升级，是产品形态升级。如果你是开发者或企业决策者，值得问自己一个问题：公司的工作流有没有被这三款产品覆盖到？如果有，是时候重新评估整合方式了。

如果没有，下一次发布可能就轮到你了。