乐于分享
好东西不私藏

炸场!OpenAI 凌晨发布 GPT-5.5:AGI 近在眼前,几个世纪的劳动理论正在被改写

炸场!OpenAI 凌晨发布 GPT-5.5:AGI 近在眼前,几个世纪的劳动理论正在被改写

OpenAI CEO Sam Altman 连发数条推文,正式官宣新一代大模型GPT-5.5全面上线。没有预热,没有铺垫,这个被业内期待已久的重磅更新,直接以碾压级的能力表现,刷新了所有人对通用人工智能的认知。

Sam Altman 只用了一句话概括它的核心实力:它足够聪明,也足够快;单 #token 速度与 #GPT-5.4 持平,完成同一项任务消耗的 token 却大幅减少,它真正懂 “该做什么”

而 #HackerNews 上的开发者评论更为直接:这一次,#LLMs 正在颠覆几个世纪以来的劳动理论

一、先划重点:GPT-5.5 核心信息速览

这次发布并非小修小补的迭代,而是全维度的能力跃升,核心信息先给大家讲透:

上线范围:已在 #ChatGPT(Plus、Pro、Business、Enterprise 用户)和 Codex 平台逐步推送,API 版本即将上线

定价标准:标准版 API 输入$5.00/1M tokens,输出$30.00/1M tokens;强化推理版 GPT-5.5 Pro 输入$30.00/1M tokens,输出$180.00/1M tokens

上下文窗口:API 端支持最高 100 万 tokens 极宽窗口,Codex 订阅计划开放 400K 窗口

核心优势:全维度基准测试超越前代 GPT-5.4,多数指标领先 Claude Opus 4.7,同等智力水平下 token 消耗仅为竞品约一半

专属功能:Codex 平台新增 Fast mode 竞速模式,2.5 倍成本可换取 1.5 倍 token 生成速度

二、代码能力封神:Codex 不再是工具,而是你的专属工程合伙人

如果说前代 GPT 模型只是 “代码补全工具”,那搭载 GPT-5.5 的 Codex,已经成为了能接手完整工程任务链的自主工作台

这次升级,代码能力的提升堪称断崖式领先:

终端操作基准测试 #Terminal-Bench 2.0 得分 82.7%,远超 GPT-5.4 的 75.1% 与 Claude Opus 4.7 的 69.4%

长周期真实工程任务内部评测 Expert-SWE 得分 73.1%,较前代提升 4.6 个百分点

真实 GitHub 问题解决能力测试 SWE-Bench Pro 达到 58.6%,稳居行业第一梯队

更关键的是,得分提升的同时,它的 token 消耗反而远低于前代

这意味着它能用更短的上下文、更简洁的逻辑,完成更复杂的代码任务,彻底告别了过去 “长篇大论却不解决问题” 的痛点。

来自行业的真实反馈,比冰冷的跑分更有说服力:

OpenAI 研究员、全球顶尖 AI 学者 Noam Brown 直言,有了 GPT-5.5,他能像专业人士一样编写 CUDA 内核,还能依靠它独立运行研究实验

#英伟达 工程师体验后表示:“失去对 GPT-5.5 的访问权限,感觉就像我的肢体被截肢了一样”

AI 写作平台 Every 创始人 Dan Shipper,用 GPT-5.5 解决了自己和团队调试了数天的顽固 bug,模型给出的重构方案与专业工程师高度一致,他将其称为 “第一个真正具备概念清晰度的编程模型”

MagicPath CEO Pietro Schirano 实测,GPT-5.5 仅用 20 分钟,就完成了包含数百个前端改动和重构变更的分支与主分支合并,一次性解决几乎无返工

目前,OpenAI 内部超过 85% 的员工每周都会使用 Codex,覆盖软件工程、财务、市场、数据科学等全部门,原本需要数小时的数据分析、周报生成,现在可以在极短时间内完成。

三、全场景知识工作接管:它终于学会了像人一样 “用电脑”

GPT-5.5 的颠覆,从来不止于代码领域。在非编程的全场景知识工作中,它完成了从 “文本生成器” 到 “电脑操作者” 的关键跨越。

它能像人类一样 “看” 屏幕、点击、打字、在不同软件间无缝穿梭,真正实现了 GUI 图形界面的全接管。这意味着,不管是 Excel 表格处理、PPT 制作、客服流程应答,还是复杂的跨软件工作流,它都能独立完成。

核心测试数据印证了它的实力:

涵盖 44 种职业的专业知识工作测试 GDPval,胜率 + 平局率达到 84.9%,领先 Claude Opus 4.7 的 80.3%

复杂客服流程测试 Tau2-bench Telecom,无提示词调优的情况下准确率达到 98.0%

模型独立操作真实计算机环境测试 OSWorld-Verified 得分 78.7%,超越前代与竞品

带工具调用的多模态视觉理解 MMMU Pro 达 83.2%,工具调用能力 MCP Atlas 达 75.3%

ChatGPT 中的 GPT-5.5 Thinking 版本,主打复杂问题的更快、更简洁回答;而 GPT-5.5 Pro 版本,更是在商业、法律、教育、数据科学等高精度要求的专业领域,展现出了碾压级的表现。

过去,我们需要把需求拆解成文字喂给 AI;现在,我们只需要告诉它最终目标,它就能自己操作电脑,一步步完成全部工作。

四、科研圈的重磅炸弹:从 “查资料的助手” 到 “做研究的搭档”

这次 GPT-5.5 的发布,最让人意外的惊喜,是它在科研领域的破壁级表现。OpenAI 对它的定位,早已不是 “信息检索工具”,而是能参与科研全流程的核心协作者

在硬核科研基准测试中,它的提升幅度堪称惊人:

最高难度数学题测试 FrontierMath Tier 4,得分从 27.1% 跃升至 35.4%,提升超 8 个百分点

生物信息学数据分析测试 BixBench,得分从 74.0% 升至 80.5%

抽象推理测试 ARC-AGI-2,得分从 73.3% 升至 85.0%

更重磅的突破在于实际科研落地:

搭配定制工具的 GPT-5.5 内部版本,协助发现了组合数学核心对象拉姆齐数的新数学证明,且已在形式化证明工具 Lean 中完成验证 —— 这类成果在组合数学领域极为罕见

杰克逊基因组医学实验室免疫学教授 Derya Unutmaz,用 GPT-5.5 Pro 分析了 62 个样本、近 28000 个基因的表达数据集,快速生成了包含关键问题和核心洞见的研究报告,而同样的工作,他的团队原本需要数月才能完成

波兰亚当・密茨凯维奇大学数学助理教授 Bartosz Naskręcki,仅用一条提示词、11 分钟,就通过 Codex 构建了代数几何应用程序,实现了二次曲面交线的可视化并转换为 Weierstrass 模型,完成了过去需要专用工具才能实现的专业工作流

从数学到生物,从理论物理到数据科学,GPT-5.5 正在把顶尖科研能力,带到每一个研究者面前。

五、底层能力史诗级升级:百万上下文 + 自研基建,自己优化自己的模型

除了前端的能力表现,GPT-5.5 在底层技术上的突破,才是 OpenAI 最核心的底气。

首先是被业内反复关注的百万级上下文窗口。官方标注的 100 万 token 上下文,并非 “纸面参数”,而是实打实的精度保障。根据 OpenAI 公布的 MRCR v2 8-needle 测试数据:

4K-8K 区间,GPT-5.5 准确率 98.1%

128K-256K 区间,准确率仍维持在 87.5%,而同区间 Claude Opus 4.7 仅为 59.2%

上下文拉满到 512K-1M 时,准确率依然保持 74.0%,而上代 GPT-5.4 在该区间仅为 36.6%

超长上下文的精度衰减,是所有大模型都面临的行业难题,而 GPT-5.5 与上代近 40 个百分点的差距,意味着它实现了实质性的技术突破。

几十万字的文档、超大型代码库,它都能一次性读取、精准理解、完整处理。

更具科幻感的,是它的基础设施自优化能力

GPT-5.5 被部署在英伟达 GB200 和 GB300 NVL72 服务器上,与硬件完成了协同设计与训练。

为了保持与 GPT-5.4 相当的响应速度,OpenAI 对整个推理系统进行了重新设计 —— 而这个过程中,Codex 被用于分析数周的生产流量数据,编写了自定义负载均衡启发式算法,优化了 GPU 的请求分区和工作分配,直接将 token 生成速度提升了 20% 以上。

换句话说,这个模型,亲手优化了运行它自己的基础设施

安全层面,OpenAI 将 GPT-5.5 的生物 / 化学和网络安全能力,评定为 “准备框架” 中的 “高” 级,是仅次于 “关键” 的第二高风险等级。

为此,OpenAI 部署了更严格的安全分类器,同时推出 “Trusted Access for Cyber” 机制,为合规的安全研究人员、关键基础设施防护组织,开放专属的访问权限。

六、逆势涨价的底气,和被颠覆的劳动理论

这次发布,最受争议的点,莫过于 GPT-5.5 的逆势涨价。

对比前代,GPT-5.5 Pro 版本的定价直接翻了一倍,看似使用成本大幅上涨。但 OpenAI 官方反复强调:完成同一项任务,它需要的 token 数量,比 GPT-5.4 少得多

单价上涨,但单任务消耗大幅降低,最终的实际使用成本,未必会上涨,甚至可能更低。而敢在行业内卷降价的大环境下逆势涨价,本身就证明了 OpenAI 对这款模型的绝对底气。

但比价格更值得我们思考的,是它对整个劳动体系的冲击。

HackerNews 上的高赞评论写道:“当前的市场,建立在‘劳动是不可替代的原子单位’这个假设之上。可当劳动现在变成了另一种形式的资本,当 AI 可以无限度地完成劳动,那些依靠榨取劳动剩余价值的企业,会发生什么?”

也有开发者留言:“这是我们通往传说中后稀缺社会的唯一机会。”

从代码开发到办公行政,从商业分析到学术科研,GPT-5.5 正在把过去需要专业人士数年学习、数十年经验才能完成的工作,变成一句提示词就能解决的事情。

它不再是被动响应需求的工具,而是能主动理解意图、推进任务、解决问题的智能体,是真正意义上的 “数字合伙人”。

AGI 的脚步,从来没有像今天这样,离我们如此之近。

有人焦虑,有人兴奋,有人担心自己的工作被替代,也有人已经拿起新的工具,创造出了前所未有的价值。

技术的浪潮从来不会停下脚步,唯一能确定的是,拥抱变化的人,永远会先一步看到新的风景。

关注我们,第一时间获取 AI 行业前沿动态、硬核技术解读与落地玩法,和千万从业者一起,见证通用人工智能时代的到来。

扫码加入大模型交流群:

想立刻上手体验 #大模型 各版本的功能魅力,解锁更多 AI 创作玩法?

可以戳👉【https://www.metachatcn.com#/chat/?ref=TXEBPU】

一站式玩转全球 AI 工具,让你的创意落地更高效~赶紧根据自己的需求冲吧,解锁高效出图的快乐!