代号＂土豆＂:GPT-5.5 来了,AI 编程从助手变同事-夜雨聆风

代号＂土豆＂:GPT-5.5 来了,AI 编程从助手变同事

一位 NVIDIA 的资深工程师在内部论坛写下了这样一句话：

“失去 GPT-5.5 的使用权，感觉像被截肢了。”

这不是夸张。这是超过一万名 NVIDIA 员工在内部试用 GPT-5.5 后的真实反馈。

北京时间 4 月 24 日凌晨，OpenAI 悄无声息地发布了 GPT-5.5，代号 Spud——土豆。没有盛大的发布会，没有 Sam Altman 的万字长文，只有一个简短的博客页面。

上个月刚发 GPT-5.4，这个月就 5.5 了。OpenAI 的发版节奏，堪比手游更新。但别被”小版本号”骗了。

这不是挤牙膏。这是一次质变。

一、不再需要手把手教了

用一句话概括 GPT-5.5 的核心变化：

你给一个模糊的、多步骤的任务，它自己规划、自己用工具、自己检查、自己纠错，直到完成。

以前的 AI 编程助手，你得像一个项目经理一样——拆任务、写需求、检查输出、修正方向、再检查……循环往复。GPT-5.5 的思路是：你不需要再管理每一步了。

OpenAI 首席科学家 Jakub Pachocki 说了一句让人后背发凉的话：”我认为过去两年其实出奇地慢。”

更值得关注的是效率。GPT-5.5 完成同样的 Codex 任务，用的 token 更少了。按照 Artificial Analysis 的 Coding Index，它在达到 SOTA 智力水平的同时，成本只有竞争对手前沿编程模型的一半。

更大的模型，更快的速度，更低的成本。这在过去是鱼和熊掌不可兼得的事。

二、编程能力：从”助手”到”同事”

GPT-5.5 在编程领域的进步是最直观的。

先看数据：

• Terminal-Bench 2.0：82.7%（上代 75.1%，Claude Opus 4.7 为 69.4%）
• SWE-Bench Pro：58.6%（解决真实 GitHub issue 的能力）
• Expert-SWE：73.1%（平均人类需 20 小时完成的复杂编程任务）

但数据只是表象。真正让工程师兴奋的，是它在实际工作中的表现。

Every 的 CEO Dan Shipper 分享了一个案例：产品上线后出了个 bug，他自己调了几天没搞定，最后叫来最好的工程师重写了系统的一部分。后来他想”倒带”测试——把同样的烂摊子分别丢给 GPT-5.4 和 GPT-5.5。

GPT-5.4 搞不定。

GPT-5.5 给出的方案，和那位资深工程师的重写方向一致。

Shipper 说：”这是第一个让我觉得有真正概念清晰度的编程模型。”

MagicPath 的 CEO Pietro Schirano 的体验更极端：几百个前端变更和重构，合并到一个也有大量变更的主分支——GPT-5.5 一次性在 20 分钟内搞定。

而这一切背后，是 Codex 的全面进化。

Codex 已经从早期的代码补全工具，变成了一个完整的 Agent 运行时。你给一个任务，它会在沙箱环境里自动拉代码、写代码、跑测试、修 bug、提交 PR。GPT-5.5 作为引擎，让这个流程的可靠性和自主性上了一个台阶。

三、能操控电脑了：Computer Use 时代到来

如果说编程是 AI 的第一战场，那”操控电脑”就是下一个。

GPT-5.5 在 OSWorld-Verified 上拿到了 78.7%——这个 benchmark 测试的是模型能否在真实的电脑环境中自主操作，不是模拟器，不是沙盒，是真正的桌面。

在 Toolathlon（跨工具协调能力测试）上得分 55.6%，比 Gemini 3.1 Pro 的 48.8% 高出不少。

这意味着什么？

意味着你可以给 GPT-5.5 一个任务：”帮我把这个数据从 Excel 导出来，整理成报告格式，做成 PPT，然后发邮件给团队。”它能自己打开 Excel、处理数据、打开 PowerPoint、生成幻灯片、打开邮件客户端、写邮件、发送。

OpenAI 在博客里展示了一个更疯狂的案例：给一张 NASA Artemis II 火星轨道的截图，GPT-5.5 直接用 WebGL 和 Vite 生成了一个完整的 3D 交互应用，包括真实的轨道力学数据。

从写代码到操作软件，AI 正在从”开发者的工具”变成”所有人的工具”。

四、从编程到科研：AI 的下一个主战场

GPT-5.5 不止于编程。

FrontierMath Tier 4（最高难度的前沿数学题）得分 35.4%，比 GPT-5.4 的 27.1% 提升了 8 个百分点。GPT-5.5 Pro 版本更是达到了 39.6%。

OpenAI 的首席研究官 Mark Chen 表示，GPT-5.5 在科学研究工作流上展现了”显著进展”，特别是在药物发现领域。

NVIDIA 的创始人 Jensen Huang 甚至在全员邮件中写道：

“Let’s jump to lightspeed. Welcome to the age of AI.”

一万多名 NVIDIA 员工，覆盖工程、产品、法务、市场、财务、HR 等所有部门，已经在使用 GPT-5.5 驱动的 Codex。”调试周期从几天缩短到几小时，需要几周的实验变成过夜完成。”

五、这一周，AI 圈炸了

如果说 GPT-5.5 是一颗炸弹，那它落下的这周，整个 AI 圈就是连环爆炸。

4 月 22 日，月之暗面发布 Kimi K2.6。 万亿参数 MoE 架构，开源，256K 上下文。代码生成准确率比上代提升 12%，工具调用成功率 96.6%。能跑 12 小时自主编程 session，支持 300 个并行 Agent。单价 $27/M tokens，小幅涨价但总成本可控。

4 月 23 日，小米发布 MiMo-V2.5-Pro。 登顶全球开源大模型综合智能指数并列第一，Agent 专项指数开源第一，跻身全球总榜前五。万亿参数总参、42B 激活参数，支持百万级上下文。API 定价约国际竞品的 1/5。

4 月 24 日，OpenAI 发布 GPT-5.5。 闭源 SOTA，Terminal-Bench 82.7%，OSWorld 78.7%。速度不变，效率翻倍，成本仅对手的一半。

同一天，DeepSeek 发布 V4。 1.6T 总参、49B 激活，百万字上下文。开源 SOTA 的 Agent 编程能力，BrowseComp 83.4% 紧追 GPT-5.5 的 84.4%。成本仅为 GPT-5.5 和 Opus 4.7 的 1/6。适配华为昇腾 950 芯片。

三天四连发，史无前例。

这意味着什么？

开源阵营（DeepSeek V4、Kimi K2.6、MiMo-V2.5-Pro）正在快速逼近闭源天花板。成本战进入白热化——DeepSeek V4 的价格已经低到让人怀疑人生。Agent 编程能力成为所有厂商的核心战场。

2026 年 4 月的最后一周，可能被后人标记为“AI Agent 元年”的起点。

六、写在最后

GPT-5.5 不是一次常规升级。

从 GPT-5 到 GPT-5.4，是同一套架构的持续优化。GPT-5.5 是从头训练的新模型——Sam Altman 说它是”真正能加速经济的基石”。

它代表的是 AI 从”工具”到”协作者”的转变。不再是你精确指挥它做事，而是你描述意图，它自己想办法完成。

NVIDIA 那位说”像被截肢”的工程师，失去的不是一个工具——失去的是一个同事。

而这个同事，正变得越来越能干。

◆

你觉得 GPT-5.5 最让你兴奋的能力是什么？评论区聊聊 👇