NVIDIA 联手 OpenAI 放话:GB200 把 token 成本打到原来的 1/35!万人内部实测, 员工真要批量上岗了?-夜雨聆风

NVIDIA 联手 OpenAI 放话:GB200 把 token 成本打到原来的 1/35!万人内部实测, 员工真要批量上岗了?

导读
NVIDIA 官方今天高调宣布：依托 GB200 NVL72 机架级系统，GPT-5.5 驱动的 Codex 已在 NVIDIA 内部万人规模落地，每百万 token 成本压低 35 倍，每兆瓦每秒 token 输出飙升 50 倍。但社区立刻追问——这 35 倍，降的到底是谁的成本？

一句话炸场：「智能的成本正在被大幅压低」

今天上午，NVIDIA 亚太官方账号在 X 上发了一条帖子，语气不大，信息量极大。

“Efficiency isn’t just about speed anymore — it’s about the massive reduction in the cost of intelligence.”

「效率这件事，已经不只关乎速度——关键在于，智能本身的成本正在被大幅压低。」

▲ NVIDIA Asia Pacific 官方帖文，612 赞，3.5 万次浏览

帖子里直接点名了四样东西：GB200 NVL72、GPT-5.5、35 倍 token 成本压缩、Codex Agents。

这不是一句泛泛的「GPU 更强了」。NVIDIA 想说的话很明确：硬件、模型、成本、企业 agent 场景，已经可以捆成一整套方案往外卖了。

官方博客补刀：数字拆得更细，故事讲得更大

如果说 X 上的帖子是传播弹药，NVIDIA 官方博客才是真正的弹药库。

博客标题就够直白——《OpenAI’s New GPT-5.5 Powers Codex on NVIDIA Infrastructure》。

里面的核心数据：

“Served on GB200 NVL72, which is capable of delivering35x lower cost per million tokensand50x higher token output per second per megawattcompared with prior-generation systems.”

「在 GB200 NVL72 上部署，相较上一代系统，每百万 token 成本降低 35 倍，每兆瓦每秒 token 输出提升 50 倍。」

注意两个关键点：

第一，35 倍降本绑定的是 50 倍能效提升，两个数字一起看才完整；第二，对比基准写的是「prior-generation systems」——上一代系统，没有指名道姓说是 GPT-4o。

但博客里更炸的信息还不是数字本身。

▲ NVIDIA 官方博客：GPT-5.5 + Codex 已在 NVIDIA 内部万人规模部署

超过 10,000 名 NVIDIA 员工，已经在用 GPT-5.5 驱动的 Codex。

而且覆盖部门远不止工程团队——法务、市场、财务、销售、HR、运营，全部在列。

换句话说，NVIDIA 内部已经把 Codex 当成了全公司级别的 agent 工作台，程序员用它写代码只是其中一个切面。

媒体放大：TechRadar 把「35 倍」直接对标 GPT-4o

外媒 TechRadar 迅速跟进，标题一出来就更抓眼球：

“OpenAI deploys GPT-5.5 Codex across Nvidia Blackwell systems – 50x efficiency boost and 35x cost reduction makes AI viable at enterprise scale”

文中写道：

“The model is now available to over 10,000 Nvidia employees, and has reportedly resulted in a 35x reduction in cost and 50x increase in token output per megawattcompared to GPT-4o.”

「已有超过 10,000 名 NVIDIA 员工在用，据报道，相较 GPT-4o，成本降低 35 倍，每兆瓦 token 输出提升 50 倍。」

看到区别了吗？

NVIDIA 博客的对比基准：prior-generation systems（上一代系统）。TechRadar 的对比基准：GPT-4o。

这两个说法不完全等价。一个更偏硬件代际迭代，一个更像「新模型直接把旧模型价格体系打穿」。写稿子的时候混在一起写，很容易给读者一个过强的预期。

所以这里必须拆清楚：35 倍降本是 NVIDIA 官方说的，但对标 GPT-4o 是媒体自己的解释。

社区炸锅：「便宜了 35 倍？那我怎么没感觉到？」

NVIDIA 这条帖子发出去后，评论区的反应非常两极。

一边是乐观派。X 用户 Vanar 一句话总结到位：

“That shift from faster AI to cheaper intelligence feels like the real inflection point for enterprise adoption.”

「从’更快的 AI’到’更便宜的智能’，这才像企业采用真正的拐点。」

▲ Vanar：成本叙事正在替代速度叙事，10 赞

这条评论虽然短，但精准命中了这次 NVIDIA 叙事的核心——AI 产业的 KPI，正在从「能不能做」转成「划不划算」。

但另一边，用户的体感完全不一样。

GalacticGazer_ 直接开怼：

“And where is the reduction in cost for users? cos last time I checked 5.5 takes up more quota than 5.4 and cost on API is also higher…”

「那用户侧的降本到底在哪？我上次看的时候，5.5 占的额度比 5.4 还多，API 费用也更高……」

▲ GalacticGazer_：你说降了 35 倍，我的账单怎么没跟着降？

这条质疑戳中了整个事件最尖锐的缝隙：NVIDIA 和 OpenAI 说的 35 倍降本，更可能指的是内部基础设施层面的推理经济性——跟外部 API 用户明天能看到的价格变化，压根不是一回事。

两个「成本」压根就不是同一回事：

一个是系统级推理经济性——同样的硬件投入，能吐出更多 token、更省电；
一个是产品定价——开发者调 API 的时候，实际付多少钱。

前者降了，后者未必立刻同步。中间还隔着平台的定价策略、商业模型、竞争博弈。

成本门槛降了，治理门槛才刚抬头

评论区里最值得细看的，是 AXLOGIQ 这条长回复：

“35x cheaper tokens changes the economics. As agents move from assistance to execution, governance becomes the bottleneck. The question is no longer only what the model can do. The question becomes: What is it allowed to do? Production agents need policy, approval, auditability, and reversibility.”

「token 降价 35 倍改变了经济模型。当 agent 从辅助转向执行，治理成为瓶颈。问题已经不只是模型能做什么，而是——它被允许做什么？生产环境里的 agent 需要制度、审批、可审计和可回滚能力。」

▲ AXLOGIQ：成本降下来之后，真正的瓶颈是权限和治理

这段话把讨论推到了下一层。

如果 agent 只是帮你改改文案、做个摘要，那便宜不便宜影响有限。但 NVIDIA 博客里写的场景，已经远超聊天范畴——Codex agent 要进云端 VM、走 SSH、跑多步骤执行链路，覆盖法务合同、财务流程、HR 操作。

所以 NVIDIA 博客里才反复强调那串安全关键词：approved cloud VMs、remote SSH、zero-data retention、read-only permissions、full auditability。

因为他们很清楚：一旦企业真的准备让 agent 从「建议」变成「执行」，成本只是入场券，治理才是真考试。

十年铺路，一朝摊牌

NVIDIA 博客里还埋了一个细节：这次合作的历史线被拉回到了2016 年——黄仁勋亲手把第一台 DGX-1 超级计算机送到 OpenAI 旧金山总部。

十年前送硬件，十年后卖方案。

NVIDIA 想通过这个时间锚点传达的信号很明确：重点不在这次商业合作本身，在于长线押注终于进入收割期。

从 DGX-1 到 GB200 NVL72，从 GPT-1 到 GPT-5.5，从程序员专属到万人全公司部署——这条线串起来看，才是 NVIDIA 真正想讲的故事。

冷静一秒：35 倍这个数字，到底该怎么读？

回到最核心的问题。

35 倍降本，是真实的产业信号，但它有边界：

它是什么：在 GB200 NVL72 这套特定硬件上、跑 GPT-5.5 这个特定模型、面向企业内部部署场景，相较上一代系统的推理经济性提升。

它目前不等于什么：OpenAI 面向所有外部开发者的 API 标价立刻腰斩 35 倍。

公开材料里缺什么：具体的 workload 定义、batch size、prompt/completion 结构、延迟目标、是否包含 KV cache 和网络开销——benchmark 的细节全没给。

所以这条消息最准确的读法，大概是这样的：NVIDIA 和 OpenAI 在向市场证明，frontier model + enterprise agent 终于开始具备大规模落地的经济条件。

35 倍是传播钩子。

但钩子背后那套完整的东西——GB200 NVL72、GPT-5.5、Codex、万人部署、安全 VM、全链路审计——才是真正值得关注的产业变量。

至于普通用户最关心的那个问题：「便宜了 35 倍，什么时候轮到我？」

答案可能没那么快。但方向已经很清楚了。

— END —