OpenAI 史诗级发布 GPT-5.5:代码、科研、电脑操作全面碾压, 正在接管你的工作
↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新
大家好,我是杰克王,AI 算法 6 年老兵。
OpenAI 刚刚正式发布了 GPT-5.5——迄今为止最智能、最直觉化的模型,也是 AI 全面接管电脑工作方式的下一个里程碑。
不是小更新,是范式转变。
GPT-5.5 理解你的意图更快,能自己承担更多工作。它在代码编写和调试、在线研究、数据分析、文档和表格创建、软件操作、跨工具任务推进等方面全面提升。你不再需要精心管理每一步——把一个混乱的多步任务交给它,它会自己规划、使用工具、验证结果、应对模糊情况,并一路坚持到任务完成。
最亮眼的提升体现在:Agentic(智能体)编码、计算机使用、知识工作,以及早期科学研究。
一、速度与智能兼得
更大、更强的模型通常意味着更慢。但 GPT-5.5 打破了这个规律:在真实服务环境中,它的每 token 延迟与 GPT-5.4 持平,同时智能水平大幅跃升。
更难得的是,完成同样的 Codex 任务,GPT-5.5 使用的 token 数量显著更少——更省钱、更高效。在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以不到竞争对手前沿编程模型一半的成本,实现了最先进的智能水平。
二、编程能力:直接碾压
GPT-5.5 是目前最强的 Agentic 编程模型:
| Eval | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| SWE-Bench Pro (Public) | 58.6% | 57.7% | 64.3% | 54.2% |
| Expert-SWE (Internal) | 73.1% | 68.5% | – | – |
Terminal-Bench 2.0 测试的是需要规划、迭代和工具协调的复杂命令行工作流,GPT-5.5 达到了 82.7% 的最先进准确率。Expert-SWE 是内部前沿评测,对应人类专家平均需要 20 小时完成的长周期编程任务,GPT-5.5 同样超越了 GPT-5.4。
真实使用者怎么说?
Every 的创始人兼 CEO Dan Shipper 说:”GPT-5.5 是我用过的第一个具备真正概念清晰度的编程模型。” 他用一个真实案例测试:一个上线后持续 bug 的系统,最终需要工程师重写部分代码——GPT-5.4 做不到,GPT-5.5 直接给出了相同的重写方案。
MagicPath CEO Pietro Schirano 看到了类似的质变:GPT-5.5 在约 20 分钟内,将一个包含数百个前端和重构变更的分支,合并进了同样变化巨大的主分支,一次性解决所有冲突。
NVIDIA 的一位早期测试工程师甚至说:”失去 GPT-5.5 的感觉,就像被截肢一样。”
Cursor CEO Michael Truell 表示:”GPT-5.5 明显比 GPT-5.4 更聪明、更持久,编程性能更强,工具使用更可靠。它在不提前停止的情况下,能在任务上坚持更长时间——这对我们用户委托的复杂长期工作至关重要。”
三、知识工作与电脑操作
使 GPT-5.5 擅长编程的相同优势,也让它在日常电脑工作中大放异彩。由于模型更善于理解意图,它能更自然地穿越完整的知识工作循环:找信息、理解重点、使用工具、验证输出、将原始材料转化为有用成果。
| Eval | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| GDPval(44 个职业知识工作) | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified(真实电脑环境操作) | 78.7% | 75.0% | 78.0% | – |
| Tau2-bench Telecom(复杂客服工作流) | 98.0% | 92.8% | – | – |
| FinanceAgent v1.1 | 60.0% | 56.0% | 64.4% | 59.7% |
| OfficeQA Pro | 54.1% | 53.2% | 43.6% | 18.1% |
OpenAI 内部已经用起来了:
- • 目前公司超过 85% 的员工每周使用 Codex,覆盖软件工程、财务、传播、市场、数据科学和产品管理。
- • 传播团队用 GPT-5.5 分析 6 个月的演讲请求数据,构建评分和风险框架,实现了低风险请求自动处理。
- • 财务团队用 Codex 审查 24,771 份 K-1 税务表格(共 71,637 页),整体流程比上年加速了两周。
- • 某 Go-to-Market 员工用它自动生成每周业务报告,每周节省 5-10 小时。
四、科学研究:向 AI 科学家迈进
GPT-5.5 在需要”探索想法 → 收集证据 → 测试假设 → 解读结果 → 决定下一步”这一完整科研循环上,持久性明显强于其他模型。
在 GeneBench(遗传学和定量生物学多阶段科学数据分析)上,GPT-5.5 相比 GPT-5.4 有明显提升——这些任务通常对应科学专家多天的项目。
在 BixBench(真实世界生物信息学和数据分析)上,GPT-5.5 在已发布成绩的模型中取得了领先性能。
| Eval | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro |
|---|---|---|---|
| GeneBench | 25.0% | 19.0% | 33.2% |
| BixBench | 80.5% | 74.0% | – |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% |
一个真实的数学突破: 内部版 GPT-5.5 配合自定义工具框架,帮助发现了关于 Ramsey 数(组合数学的核心研究对象)的一个新证明——这是一个长期悬而未决的渐近性事实,后来在 Lean 中得到验证。这是 GPT-5.5 不仅贡献代码或解释,而是在核心研究领域提出令人惊讶且有用的数学论证的具体案例。
Derya Unutmaz,杰克逊基因组医学实验室免疫学教授,用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,生成了一份详细研究报告,不仅总结了发现,还提炼了关键问题和洞见——他说这项工作他的团队需要数月才能完成。
Axiom Bio 联合创始人兼 CEO Brandon White 说:”如果 OpenAI 继续这样干,药物发现的基础将在年底前改变。”
五、安全与准备框架
OpenAI 将 GPT-5.5 的生物/化学和网络安全能力列为准备框架下的”高”级别。
- • 部署了业界领先的网络安全防护,包括针对重复滥用的更严格控制
- • 扩展了受信任用户对增强网络安全能力的访问权限(chatgpt.com/cyber)
- • 正在与政府合作伙伴合作,保护关键基础设施
六、发布方式与定价
ChatGPT:
- • GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用
- • GPT-5.5 Pro:Pro、Business、Enterprise 用户可用
Codex:
- • Plus、Pro、Business、Enterprise、Edu、Go 计划,400K context window
- • Fast 模式:token 生成速度提升 1.5x,价格 2.5x
API(即将上线):
- • gpt-5.5:$5/百万输入 token,$30/百万输出 token,1M context window
- • gpt-5.5-pro:$30/百万输入 token,$180/百万输出 token
- • Batch/Flex 定价:标准价格 50%;Priority 处理:标准价格 2.5x
虽然 GPT-5.5 比 GPT-5.4 价格更高,但它更智能,同时 token 效率显著更高。在 Codex 中,GPT-5.5 对大多数用户完成同样任务所用的 token 少于 GPT-5.4。
七、关键 Benchmarks 汇总
| 类别 | Eval | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| 抽象推理 | ARC-AGI-2 (Verified) | 85.0% | 73.3% | 75.8% | 77.1% |
| 抽象推理 | ARC-AGI-1 (Verified) | 95.0% | 93.7% | 93.5% | 98.0% |
| 长上下文 | Graphwalks BFS 1mil | 45.4% | 9.4% | 41.2% | – |
| 网络安全 | CyberGym | 81.8% | 79.0% | 73.1% | – |
| 学术 | GPQA Diamond | 93.6% | 92.8% | 94.2% | 94.3% |
| 网络搜索 | BrowseComp | 84.4% | 82.7% | 79.3% | 85.9% |
GPT-5.5 代表的不仅是模型能力的跃升,更是 AI 工作方式的根本转变——从”帮你干活”到”替你干活”,从”回答问题”到”完成任务”。
我们正站在一个新时代的入口。AI 不再只是工具,它正在成为你的同事、你的研究伙伴、甚至你的工程师。
感谢阅读。我是杰克王,欢迎加微交流 🚀

夜雨聆风