OpenAI 史诗级发布 GPT-5.5:代码、科研、电脑操作全面碾压, 正在接管你的工作-夜雨聆风

OpenAI 史诗级发布 GPT-5.5:代码、科研、电脑操作全面碾压, 正在接管你的工作

↑阅读之前记得关注+星标⭐️，😄，每天才能第一时间接收到更新

大家好，我是杰克王，AI 算法 6 年老兵。

OpenAI 刚刚正式发布了 GPT-5.5——迄今为止最智能、最直觉化的模型，也是 AI 全面接管电脑工作方式的下一个里程碑。

不是小更新，是范式转变。

GPT-5.5 理解你的意图更快，能自己承担更多工作。它在代码编写和调试、在线研究、数据分析、文档和表格创建、软件操作、跨工具任务推进等方面全面提升。你不再需要精心管理每一步——把一个混乱的多步任务交给它，它会自己规划、使用工具、验证结果、应对模糊情况，并一路坚持到任务完成。

最亮眼的提升体现在：Agentic（智能体）编码、计算机使用、知识工作，以及早期科学研究。

一、速度与智能兼得

更大、更强的模型通常意味着更慢。但 GPT-5.5 打破了这个规律：在真实服务环境中，它的每 token 延迟与 GPT-5.4 持平，同时智能水平大幅跃升。

更难得的是，完成同样的 Codex 任务，GPT-5.5 使用的 token 数量显著更少——更省钱、更高效。在 Artificial Analysis 的 Coding Index 上，GPT-5.5 以不到竞争对手前沿编程模型一半的成本，实现了最先进的智能水平。

二、编程能力：直接碾压

GPT-5.5 是目前最强的 Agentic 编程模型：

Eval	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
SWE-Bench Pro (Public)	58.6%	57.7%	64.3%	54.2%
Expert-SWE (Internal)	73.1%	68.5%	–	–

Terminal-Bench 2.0 测试的是需要规划、迭代和工具协调的复杂命令行工作流，GPT-5.5 达到了 82.7% 的最先进准确率。Expert-SWE 是内部前沿评测，对应人类专家平均需要 20 小时完成的长周期编程任务，GPT-5.5 同样超越了 GPT-5.4。

真实使用者怎么说？

Every 的创始人兼 CEO Dan Shipper 说：”GPT-5.5 是我用过的第一个具备真正概念清晰度的编程模型。” 他用一个真实案例测试：一个上线后持续 bug 的系统，最终需要工程师重写部分代码——GPT-5.4 做不到，GPT-5.5 直接给出了相同的重写方案。

MagicPath CEO Pietro Schirano 看到了类似的质变：GPT-5.5 在约 20 分钟内，将一个包含数百个前端和重构变更的分支，合并进了同样变化巨大的主分支，一次性解决所有冲突。

NVIDIA 的一位早期测试工程师甚至说：”失去 GPT-5.5 的感觉，就像被截肢一样。”

Cursor CEO Michael Truell 表示：”GPT-5.5 明显比 GPT-5.4 更聪明、更持久，编程性能更强，工具使用更可靠。它在不提前停止的情况下，能在任务上坚持更长时间——这对我们用户委托的复杂长期工作至关重要。”

三、知识工作与电脑操作

使 GPT-5.5 擅长编程的相同优势，也让它在日常电脑工作中大放异彩。由于模型更善于理解意图，它能更自然地穿越完整的知识工作循环：找信息、理解重点、使用工具、验证输出、将原始材料转化为有用成果。

Eval	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
GDPval（44 个职业知识工作）	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified（真实电脑环境操作）	78.7%	75.0%	78.0%	–
Tau2-bench Telecom（复杂客服工作流）	98.0%	92.8%	–	–
FinanceAgent v1.1	60.0%	56.0%	64.4%	59.7%
OfficeQA Pro	54.1%	53.2%	43.6%	18.1%

OpenAI 内部已经用起来了：

• 目前公司超过 85% 的员工每周使用 Codex，覆盖软件工程、财务、传播、市场、数据科学和产品管理。
• 传播团队用 GPT-5.5 分析 6 个月的演讲请求数据，构建评分和风险框架，实现了低风险请求自动处理。
• 财务团队用 Codex 审查 24,771 份 K-1 税务表格（共 71,637 页），整体流程比上年加速了两周。
• 某 Go-to-Market 员工用它自动生成每周业务报告，每周节省 5-10 小时。

四、科学研究：向 AI 科学家迈进

GPT-5.5 在需要”探索想法 → 收集证据 → 测试假设 → 解读结果 → 决定下一步”这一完整科研循环上，持久性明显强于其他模型。

在 GeneBench（遗传学和定量生物学多阶段科学数据分析）上，GPT-5.5 相比 GPT-5.4 有明显提升——这些任务通常对应科学专家多天的项目。

在 BixBench（真实世界生物信息学和数据分析）上，GPT-5.5 在已发布成绩的模型中取得了领先性能。

Eval	GPT-5.5	GPT-5.4	GPT-5.5 Pro
GeneBench	25.0%	19.0%	33.2%
BixBench	80.5%	74.0%	–
FrontierMath Tier 1–3	51.7%	47.6%	52.4%
FrontierMath Tier 4	35.4%	27.1%	39.6%

一个真实的数学突破： 内部版 GPT-5.5 配合自定义工具框架，帮助发现了关于 Ramsey 数（组合数学的核心研究对象）的一个新证明——这是一个长期悬而未决的渐近性事实，后来在 Lean 中得到验证。这是 GPT-5.5 不仅贡献代码或解释，而是在核心研究领域提出令人惊讶且有用的数学论证的具体案例。

Derya Unutmaz，杰克逊基因组医学实验室免疫学教授，用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集，生成了一份详细研究报告，不仅总结了发现，还提炼了关键问题和洞见——他说这项工作他的团队需要数月才能完成。

Axiom Bio 联合创始人兼 CEO Brandon White 说：”如果 OpenAI 继续这样干，药物发现的基础将在年底前改变。”

五、安全与准备框架

OpenAI 将 GPT-5.5 的生物/化学和网络安全能力列为准备框架下的”高”级别。

• 部署了业界领先的网络安全防护，包括针对重复滥用的更严格控制
• 扩展了受信任用户对增强网络安全能力的访问权限（chatgpt.com/cyber）
• 正在与政府合作伙伴合作，保护关键基础设施

六、发布方式与定价

ChatGPT：

• GPT-5.5 Thinking：Plus、Pro、Business、Enterprise 用户可用
• GPT-5.5 Pro：Pro、Business、Enterprise 用户可用

Codex：

• Plus、Pro、Business、Enterprise、Edu、Go 计划，400K context window
• Fast 模式：token 生成速度提升 1.5x，价格 2.5x

API（即将上线）：

• gpt-5.5：$5/百万输入 token，$30/百万输出 token，1M context window
• gpt-5.5-pro：$30/百万输入 token，$180/百万输出 token
• Batch/Flex 定价：标准价格 50%；Priority 处理：标准价格 2.5x

虽然 GPT-5.5 比 GPT-5.4 价格更高，但它更智能，同时 token 效率显著更高。在 Codex 中，GPT-5.5 对大多数用户完成同样任务所用的 token 少于 GPT-5.4。

七、关键 Benchmarks 汇总

类别	Eval	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
抽象推理	ARC-AGI-2 (Verified)	85.0%	73.3%	75.8%	77.1%
抽象推理	ARC-AGI-1 (Verified)	95.0%	93.7%	93.5%	98.0%
长上下文	Graphwalks BFS 1mil	45.4%	9.4%	41.2%	–
网络安全	CyberGym	81.8%	79.0%	73.1%	–
学术	GPQA Diamond	93.6%	92.8%	94.2%	94.3%
网络搜索	BrowseComp	84.4%	82.7%	79.3%	85.9%

GPT-5.5 代表的不仅是模型能力的跃升，更是 AI 工作方式的根本转变——从”帮你干活”到”替你干活”，从”回答问题”到”完成任务”。

我们正站在一个新时代的入口。AI 不再只是工具，它正在成为你的同事、你的研究伙伴、甚至你的工程师。

感谢阅读。我是杰克王，欢迎加微交流 🚀