AI基础设施学习(番外):780万美元一个机架!大摩对 NVIDIA Rubin 成本拆解

大摩的亚洲/科技产业研究团队在 2026年5月中下旬发布了一份关于NVIDIA 下一代 Vera Rubin 平台（VR200 NVL72 机架）物料清单拆解视角的研究报告。这个报告自下而上拆解了 NVIDIA Rubin算力集群的造价，是非常好的学习 AI infra 的内容。

这份报告的细节很多，先说研究报告大概结论：一台完整的 Rubin 机架，出厂价将高达 780 万美元（近 5600 万人民币），相比上一代 Blackwell 几乎翻倍！更重要的是，这份拆解揭示了一个行业新逻辑：除GPU外，AI 供应链的价值在向存储、PCB/CCL、被动元件MLCC、基础组件 ABF载板、液冷与电源、甚至是一些 ODM 厂商（这个最反直觉）外溢。

一、NVIDIA的算力架构的变迁史

简单总结NVIDIA 算力集群演进的核心规律：从 P100 到 Rubin，NVIDIA 算力集群的演进可以用一句话概括：“用速度更快的物理连接（从 PCIe -> 内部 NVLink -> 外部网线 -> 机架内铜缆 -> HBM4），不断消灭数据传输的延迟。” 黄仁勋不仅是在做芯片，他是在用网络、散热、材料和电源，把整个数据中心重写成一台巨大的、不可分割的超级计算机。

二、NVIDIA Rubin 平台 BOM 物料清单定量拆解

2.1 核心研究逻辑：算力瓶颈由计算节点转向系统级互联

长期以来，AI 算力集群投资逻辑高度聚焦 GPU 芯片半导体微架构迭代。摩根士丹利针对 Vera Rubin 平台（VR200 NVL72 机架）自下而上 BOM 定量模型显示，AI 算力短板已从计算节点，转变为涵盖数据传输、能量传输的系统级互联物理极限。Rubin 时代，非 GPU 组件资本支出增速首度超越主芯片，系统总拥有成本优化，愈发依托底层物理材料与配电架构重构。

2.2 供应链核心子系统：BOM 增量与技术规格定量分析

Blackwell（GB200）阶段，NVIDIA 自研 CPU、GPU 芯片整机成本占比约65%，牢牢掌握供应链议价主导权。发展至 Rubin（VR200 NVL72）机架体系，芯片成本占比将回落至 51% 左右。占比下滑并非芯片降价所致，Rubin 单颗硬件定价创下历史新高：单颗 Rubin GPU 预估售价 5.5 万美元，单颗 Vera CPU 预估售价 5000 美元。核心原因在于机架内高带宽存储、超高层 PCB、高压直流配电等非芯片部件规格全面升级，成本上涨幅度远超核心芯片。

供应链核心子系统：BOM 增量与技术规格定量分析:

对比 GB300 与 Rubin 机架物料差异，可见各子系统技术迭代与价值增幅变化：

存储系统：为适配 AI 智能体、多模态大模型高并发、长上下文推理需求，Rubin 重构缓存与闪存架构。搭载3nm 工艺 HBM4 第六代高带宽内存，整机配备54TB LPDDR5X 内存，搭配价值百万美元级 3D NAND 闪存。整机存储成本暴涨 435%，成本占比从不足 10% 攀升至 25%-30%，形成显著"存储税"效应，成为仅次于主芯片的第二大成本模块。

高速互联系统：高速信号衰减、高密度互联成为架构核心物理难题，倒逼物理介质规格升级。机架内部全面引入高密度、超高层数（高达 44 层）的 Compute Midplane（计算中置板），以及 72 个 ConnectX 模块 PCB；覆铜板（CCL）全面进入超低损耗（Ultra Low Loss）的 M8 级别。单机架 PCB 物料成本从 3.5 万美元增至 11.7 万美元，涨幅达 233%。

电源系统：单机架功耗从120kW-140kW 飙升至 250kW，传统交流电配电模式触碰效率与空间上限。摒弃多级电能转换损耗，采用±400V 至 800V 高压直流直供架构（HVDC），能源转换效率提升 4-5 个百分点，可达 92%-95%。高压电路对稳压滤波要求提升，高阶耐压贴片电容用量大增，MLCC 元件成本上涨 182%，整套电源系统成本增幅 32%，总成本突破 15 万美元。

散热与封装系统：

液冷（Thermal）：针对 250kW 的极端热设计功耗（TDP），Rubin 系统全面拥抱去风扇化的全液冷设计。整机架液冷系统价值量录得 7.21 万美元（+12%），且其部署与 HVDC 电源系统呈现高度的技术协同。
ABF 载板：受 HBM4 堆叠工艺及先进封装（CoWoS）复杂度提升影响，单颗 Rubin GPU 对应的 ABF 载板成本上扬至约 200 美元，整体成本增长 +82%。

ODM 代工产业财务模型重估:市场曾预判 NVIDIA 统一机架互联架构后，代工厂技术壁垒与盈利空间会持续压缩，量化数据推翻该结论。Rubin VR200 NVL72 机架出厂均价，从上代400 万美元提升至 780 万美元。代工毛利率保持平稳前提下，单台机架利润额度提升 35%-40%，大幅提振头部代工企业营收利润。

三、硬件造价攀升，单位 Token 成本却逆势走低

算力集群演进呈现特殊科技特征：整机硬件采购成本不断抬高，但单位 Token 生产成本实现指数级下降。

单位 Token 成本 =（系统折旧 + 运营能耗）÷ 实际 Token 吞吐量

注：该成本对比，以各代旗舰硬件全生命周期总拥有成本为基准，衡量模型实际生产效率，并非同款模型跨硬件运行成本。算力成本从 V100 时代10 美元 / 百万 Token，降至 Rubin 架构预估0.01 美元 / 百万 Token 以下，跨度达数个数量级，底层逻辑可分为三大驱动维度。下表以生成 100万个 Token（1M Tokens）为基准，对比了各代核心集群的成本结构（包含电费、折旧及网络平摊）：

计算受限转向带宽受限的成本对冲

早期大模型成本偏高，根源为算力密度不足，属于计算受限场景。3nm 工艺落地后，芯片峰值算力大幅提升，计算成本占比持续下降。

当前效率瓶颈转为数据吞吐速率不足的“带宽受限”问题。Rubin 重金投入高端 PCB、M8 覆铜板与 HBM4 内存，核心目的在于提升算力的实际利用率（MFU）。存储与互联硬件高额投入，规避数据卡顿造成的算力闲置，大幅提升 Token 产出总量，最终摊薄单枚生成成本。

KV Cache下存储成本价值兑现

在AI Agent、长文本多模态场景下，系统需要高频调取留存历史数据，催生了海量键值缓存（KV Cache）的吞吐需求。老旧架构由于显存容量有限，处理长文本时必须频繁切换读写内存与硬盘数据，严重拉低了并发处理效率。而 Rubin 依靠大容量 LPDDR5X 与高速闪存搭建了就近缓存体系，在承担高额“存储税”的同时，保障了缓存的高速读写，最大化了智能任务与多模态推理的 Token 生成速度。

全周期架构优化实现节能增效

电力能耗是算力长期运营的核心隐性成本。全液冷散热、高密度铜缆互联虽然在前期抬高了硬件采购费用（CapEx），但大幅减少了电能损耗、降低了机房能效指标（PUE）。这种长期运营成本（OpEx）的缩减，有效提升了单位功耗的算力产出，最终缩减了长期摊销后的 Token 生产成本。

进一步分启发：Rubin 全面平台落地后，大模型推理算力逐步迈入普惠标准化阶段，边际生产成本无限趋近于零。低廉算力打破 API 高价约束，重构 AI 商业应用模式，再下一步就看AI应用的商业化何时爆发了。本报告/文章仅供个人产业研究之用，不构成任何形式的投资建议或投资依据。

一、NVIDIA的算力架构的变迁史

二、NVIDIA Rubin 平台 BOM 物料清单定量拆解

2.1 核心研究逻辑：算力瓶颈由计算节点转向系统级互联

2.2 供应链核心子系统：BOM 增量与技术规格定量分析

三、硬件造价攀升，单位 Token 成本却逆势走低

计算受限转向带宽受限的成本对冲

KV Cache下存储成本价值兑现

全周期架构优化实现节能增效