乐于分享
好东西不私藏

代号"土豆":GPT-5.5 来了,AI 编程从助手变同事

代号"土豆":GPT-5.5 来了,AI 编程从助手变同事

一位 NVIDIA 的资深工程师在内部论坛写下了这样一句话:

“失去 GPT-5.5 的使用权,感觉像被截肢了。”

这不是夸张。这是超过一万名 NVIDIA 员工在内部试用 GPT-5.5 后的真实反馈。

北京时间 4 月 24 日凌晨,OpenAI 悄无声息地发布了 GPT-5.5,代号 Spud——土豆。没有盛大的发布会,没有 Sam Altman 的万字长文,只有一个简短的博客页面。

上个月刚发 GPT-5.4,这个月就 5.5 了。OpenAI 的发版节奏,堪比手游更新。但别被”小版本号”骗了。

这不是挤牙膏。这是一次质变。

一、不再需要手把手教了

用一句话概括 GPT-5.5 的核心变化:

你给一个模糊的、多步骤的任务,它自己规划、自己用工具、自己检查、自己纠错,直到完成。

以前的 AI 编程助手,你得像一个项目经理一样——拆任务、写需求、检查输出、修正方向、再检查……循环往复。GPT-5.5 的思路是:你不需要再管理每一步了

OpenAI 首席科学家 Jakub Pachocki 说了一句让人后背发凉的话:”我认为过去两年其实出奇地慢。”

更值得关注的是效率。GPT-5.5 完成同样的 Codex 任务,用的 token 更少了。按照 Artificial Analysis 的 Coding Index,它在达到 SOTA 智力水平的同时,成本只有竞争对手前沿编程模型的一半

更大的模型,更快的速度,更低的成本。这在过去是鱼和熊掌不可兼得的事。

二、编程能力:从”助手”到”同事”

GPT-5.5 在编程领域的进步是最直观的。

先看数据:

  • • Terminal-Bench 2.0:82.7%(上代 75.1%,Claude Opus 4.7 为 69.4%)
  • • SWE-Bench Pro:58.6%(解决真实 GitHub issue 的能力)
  • • Expert-SWE:73.1%(平均人类需 20 小时完成的复杂编程任务)

但数据只是表象。真正让工程师兴奋的,是它在实际工作中的表现

Every 的 CEO Dan Shipper 分享了一个案例:产品上线后出了个 bug,他自己调了几天没搞定,最后叫来最好的工程师重写了系统的一部分。后来他想”倒带”测试——把同样的烂摊子分别丢给 GPT-5.4 和 GPT-5.5。

GPT-5.4 搞不定。

GPT-5.5 给出的方案,和那位资深工程师的重写方向一致

Shipper 说:”这是第一个让我觉得有真正概念清晰度的编程模型。”

MagicPath 的 CEO Pietro Schirano 的体验更极端:几百个前端变更和重构,合并到一个也有大量变更的主分支——GPT-5.5 一次性在 20 分钟内搞定

而这一切背后,是 Codex 的全面进化

Codex 已经从早期的代码补全工具,变成了一个完整的 Agent 运行时。你给一个任务,它会在沙箱环境里自动拉代码、写代码、跑测试、修 bug、提交 PR。GPT-5.5 作为引擎,让这个流程的可靠性和自主性上了一个台阶。

三、能操控电脑了:Computer Use 时代到来

如果说编程是 AI 的第一战场,那”操控电脑”就是下一个。

GPT-5.5 在 OSWorld-Verified 上拿到了 78.7%——这个 benchmark 测试的是模型能否在真实的电脑环境中自主操作,不是模拟器,不是沙盒,是真正的桌面。

在 Toolathlon(跨工具协调能力测试)上得分 55.6%,比 Gemini 3.1 Pro 的 48.8% 高出不少。

这意味着什么?

意味着你可以给 GPT-5.5 一个任务:”帮我把这个数据从 Excel 导出来,整理成报告格式,做成 PPT,然后发邮件给团队。”它能自己打开 Excel、处理数据、打开 PowerPoint、生成幻灯片、打开邮件客户端、写邮件、发送。

OpenAI 在博客里展示了一个更疯狂的案例:给一张 NASA Artemis II 火星轨道的截图,GPT-5.5 直接用 WebGL 和 Vite 生成了一个完整的 3D 交互应用,包括真实的轨道力学数据。

从写代码到操作软件,AI 正在从”开发者的工具”变成”所有人的工具”。

四、从编程到科研:AI 的下一个主战场

GPT-5.5 不止于编程。

FrontierMath Tier 4(最高难度的前沿数学题)得分 35.4%,比 GPT-5.4 的 27.1% 提升了 8 个百分点。GPT-5.5 Pro 版本更是达到了 39.6%。

OpenAI 的首席研究官 Mark Chen 表示,GPT-5.5 在科学研究工作流上展现了”显著进展”,特别是在药物发现领域。

NVIDIA 的创始人 Jensen Huang 甚至在全员邮件中写道:

“Let’s jump to lightspeed. Welcome to the age of AI.”

一万多名 NVIDIA 员工,覆盖工程、产品、法务、市场、财务、HR 等所有部门,已经在使用 GPT-5.5 驱动的 Codex。”调试周期从几天缩短到几小时,需要几周的实验变成过夜完成。”

五、这一周,AI 圈炸了

如果说 GPT-5.5 是一颗炸弹,那它落下的这周,整个 AI 圈就是连环爆炸。

4 月 22 日,月之暗面发布 Kimi K2.6。 万亿参数 MoE 架构,开源,256K 上下文。代码生成准确率比上代提升 12%,工具调用成功率 96.6%。能跑 12 小时自主编程 session,支持 300 个并行 Agent。单价 $27/M tokens,小幅涨价但总成本可控。

4 月 23 日,小米发布 MiMo-V2.5-Pro。 登顶全球开源大模型综合智能指数并列第一,Agent 专项指数开源第一,跻身全球总榜前五。万亿参数总参、42B 激活参数,支持百万级上下文。API 定价约国际竞品的 1/5。

4 月 24 日,OpenAI 发布 GPT-5.5。 闭源 SOTA,Terminal-Bench 82.7%,OSWorld 78.7%。速度不变,效率翻倍,成本仅对手的一半。

同一天,DeepSeek 发布 V4。 1.6T 总参、49B 激活,百万字上下文。开源 SOTA 的 Agent 编程能力,BrowseComp 83.4% 紧追 GPT-5.5 的 84.4%。成本仅为 GPT-5.5 和 Opus 4.7 的 1/6。适配华为昇腾 950 芯片。

三天四连发,史无前例。

这意味着什么?

开源阵营(DeepSeek V4、Kimi K2.6、MiMo-V2.5-Pro)正在快速逼近闭源天花板。成本战进入白热化——DeepSeek V4 的价格已经低到让人怀疑人生。Agent 编程能力成为所有厂商的核心战场。

2026 年 4 月的最后一周,可能被后人标记为“AI Agent 元年”的起点。

六、写在最后

GPT-5.5 不是一次常规升级。

从 GPT-5 到 GPT-5.4,是同一套架构的持续优化。GPT-5.5 是从头训练的新模型——Sam Altman 说它是”真正能加速经济的基石”。

它代表的是 AI 从”工具”到”协作者”的转变。不再是你精确指挥它做事,而是你描述意图,它自己想办法完成。

NVIDIA 那位说”像被截肢”的工程师,失去的不是一个工具——失去的是一个同事

而这个同事,正变得越来越能干。

你觉得 GPT-5.5 最让你兴奋的能力是什么?评论区聊聊 👇