乐于分享
好东西不私藏

OpenAI 史诗级发布 GPT-5.5:代码、科研、电脑操作全面碾压, 正在接管你的工作

OpenAI 史诗级发布 GPT-5.5:代码、科研、电脑操作全面碾压, 正在接管你的工作

↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新

大家好,我是杰克王,AI 算法 6 年老兵。

OpenAI 刚刚正式发布了 GPT-5.5——迄今为止最智能、最直觉化的模型,也是 AI 全面接管电脑工作方式的下一个里程碑。

不是小更新,是范式转变。

GPT-5.5 理解你的意图更快,能自己承担更多工作。它在代码编写和调试、在线研究、数据分析、文档和表格创建、软件操作、跨工具任务推进等方面全面提升。你不再需要精心管理每一步——把一个混乱的多步任务交给它,它会自己规划、使用工具、验证结果、应对模糊情况,并一路坚持到任务完成。

最亮眼的提升体现在:Agentic(智能体)编码、计算机使用、知识工作,以及早期科学研究。


一、速度与智能兼得

更大、更强的模型通常意味着更慢。但 GPT-5.5 打破了这个规律:在真实服务环境中,它的每 token 延迟与 GPT-5.4 持平,同时智能水平大幅跃升。

更难得的是,完成同样的 Codex 任务,GPT-5.5 使用的 token 数量显著更少——更省钱、更高效。在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以不到竞争对手前沿编程模型一半的成本,实现了最先进的智能水平。


二、编程能力:直接碾压

GPT-5.5 是目前最强的 Agentic 编程模型:

       

         
           
           
         

Eval GPT-5.5 GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5%
SWE-Bench Pro (Public) 58.6% 57.7% 64.3% 54.2%
Expert-SWE (Internal) 73.1% 68.5%

       

     

Terminal-Bench 2.0 测试的是需要规划、迭代和工具协调的复杂命令行工作流,GPT-5.5 达到了 82.7% 的最先进准确率。Expert-SWE 是内部前沿评测,对应人类专家平均需要 20 小时完成的长周期编程任务,GPT-5.5 同样超越了 GPT-5.4。

真实使用者怎么说?

Every 的创始人兼 CEO Dan Shipper 说:”GPT-5.5 是我用过的第一个具备真正概念清晰度的编程模型。” 他用一个真实案例测试:一个上线后持续 bug 的系统,最终需要工程师重写部分代码——GPT-5.4 做不到,GPT-5.5 直接给出了相同的重写方案。

MagicPath CEO Pietro Schirano 看到了类似的质变:GPT-5.5 在约 20 分钟内,将一个包含数百个前端和重构变更的分支,合并进了同样变化巨大的主分支,一次性解决所有冲突。

NVIDIA 的一位早期测试工程师甚至说:”失去 GPT-5.5 的感觉,就像被截肢一样。”

Cursor CEO Michael Truell 表示:”GPT-5.5 明显比 GPT-5.4 更聪明、更持久,编程性能更强,工具使用更可靠。它在不提前停止的情况下,能在任务上坚持更长时间——这对我们用户委托的复杂长期工作至关重要。”


三、知识工作与电脑操作

使 GPT-5.5 擅长编程的相同优势,也让它在日常电脑工作中大放异彩。由于模型更善于理解意图,它能更自然地穿越完整的知识工作循环:找信息、理解重点、使用工具、验证输出、将原始材料转化为有用成果。

       

         
           
           
         

Eval GPT-5.5 GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro
GDPval(44 个职业知识工作) 84.9% 83.0% 80.3% 67.3%
OSWorld-Verified(真实电脑环境操作) 78.7% 75.0% 78.0%
Tau2-bench Telecom(复杂客服工作流) 98.0% 92.8%
FinanceAgent v1.1 60.0% 56.0% 64.4% 59.7%
OfficeQA Pro 54.1% 53.2% 43.6% 18.1%

       

     

OpenAI 内部已经用起来了:

  • • 目前公司超过 85% 的员工每周使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理。
  • • 传播团队用 GPT-5.5 分析 6 个月的演讲请求数据,构建评分和风险框架,实现了低风险请求自动处理。
  • • 财务团队用 Codex 审查 24,771 份 K-1 税务表格(共 71,637 页),整体流程比上年加速了两周。
  • • 某 Go-to-Market 员工用它自动生成每周业务报告,每周节省 5-10 小时。

四、科学研究:向 AI 科学家迈进

GPT-5.5 在需要”探索想法 → 收集证据 → 测试假设 → 解读结果 → 决定下一步”这一完整科研循环上,持久性明显强于其他模型。

在 GeneBench(遗传学和定量生物学多阶段科学数据分析)上,GPT-5.5 相比 GPT-5.4 有明显提升——这些任务通常对应科学专家多天的项目。

在 BixBench(真实世界生物信息学和数据分析)上,GPT-5.5 在已发布成绩的模型中取得了领先性能。

       

         
           
           
         

Eval GPT-5.5 GPT-5.4 GPT-5.5 Pro
GeneBench 25.0% 19.0% 33.2%
BixBench 80.5% 74.0%
FrontierMath Tier 1–3 51.7% 47.6% 52.4%
FrontierMath Tier 4 35.4% 27.1% 39.6%

       

     

一个真实的数学突破: 内部版 GPT-5.5 配合自定义工具框架,帮助发现了关于 Ramsey 数(组合数学的核心研究对象)的一个新证明——这是一个长期悬而未决的渐近性事实,后来在 Lean 中得到验证。这是 GPT-5.5 不仅贡献代码或解释,而是在核心研究领域提出令人惊讶且有用的数学论证的具体案例。

Derya Unutmaz,杰克逊基因组医学实验室免疫学教授,用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,生成了一份详细研究报告,不仅总结了发现,还提炼了关键问题和洞见——他说这项工作他的团队需要数月才能完成。

Axiom Bio 联合创始人兼 CEO Brandon White 说:”如果 OpenAI 继续这样干,药物发现的基础将在年底前改变。”


五、安全与准备框架

OpenAI 将 GPT-5.5 的生物/化学和网络安全能力列为准备框架下的”高”级别。

  • • 部署了业界领先的网络安全防护,包括针对重复滥用的更严格控制
  • • 扩展了受信任用户对增强网络安全能力的访问权限(chatgpt.com/cyber)
  • • 正在与政府合作伙伴合作,保护关键基础设施

六、发布方式与定价

ChatGPT:

  • • GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用
  • • GPT-5.5 Pro:Pro、Business、Enterprise 用户可用

Codex:

  • • Plus、Pro、Business、Enterprise、Edu、Go 计划,400K context window
  • • Fast 模式:token 生成速度提升 1.5x,价格 2.5x

API(即将上线):

  • • gpt-5.5:$5/百万输入 token,$30/百万输出 token,1M context window
  • • gpt-5.5-pro:$30/百万输入 token,$180/百万输出 token
  • • Batch/Flex 定价:标准价格 50%;Priority 处理:标准价格 2.5x

虽然 GPT-5.5 比 GPT-5.4 价格更高,但它更智能,同时 token 效率显著更高。在 Codex 中,GPT-5.5 对大多数用户完成同样任务所用的 token 少于 GPT-5.4。


七、关键 Benchmarks 汇总

       

         
           
           
         

类别 Eval GPT-5.5 GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro
抽象推理 ARC-AGI-2 (Verified) 85.0% 73.3% 75.8% 77.1%
抽象推理 ARC-AGI-1 (Verified) 95.0% 93.7% 93.5% 98.0%
长上下文 Graphwalks BFS 1mil 45.4% 9.4% 41.2%
网络安全 CyberGym 81.8% 79.0% 73.1%
学术 GPQA Diamond 93.6% 92.8% 94.2% 94.3%
网络搜索 BrowseComp 84.4% 82.7% 79.3% 85.9%

       

     


GPT-5.5 代表的不仅是模型能力的跃升,更是 AI 工作方式的根本转变——从”帮你干活”到”替你干活”,从”回答问题”到”完成任务”。

我们正站在一个新时代的入口。AI 不再只是工具,它正在成为你的同事、你的研究伙伴、甚至你的工程师。

感谢阅读。我是杰克王,欢迎加微交流 🚀