乐于分享
好东西不私藏

AI算力贵得不敢用,帮你重新算一笔GPU服务器的真实成本账

AI算力贵得不敢用,帮你重新算一笔GPU服务器的真实成本账

核心摘要 AI服务器采购远不是GPU报价那么简单。存储芯片(HBM/DDR5)价格进入上行周期,能耗成本、集群互联、机房改造等隐性投入占总成本的40%以上。本文用一套完整的TCO测算框架,从硬件采购推到三年运营全周期,帮企业在GPU选型时做出最优决策。

一家AI创业公司的CTO花了两百万,买了八张GPU。

三个月后账单出来,他发现GPU只是账单里最小的那一块。电费每月三万,内存升级又花了四十万,集群网络改造投入十五万。GPU占总投入的比例只有百分之六十。

这不是个案。大多数企业在做AI算力预算的时候,只看了GPU的报价单,然后就被后面的隐性成本打了脸。

AI算力的真实成本,60%在GPU,40%在你看不见的地方。

2025年的存储芯片市场,正在给所有算力采购方上一课。HBM(高带宽内存)的合约价从去年三季度开始环比上涨20%到25%,同比涨幅30%到50%。TrendForce和DRAMeXchange的报告给出了同一个结论:SK海力士、三星、美光的HBM产能已经被NVIDIA、AMD和各大云厂商锁单到2025年中。

HBM3e 12H的单价从2023年底的12美元每GB涨到了15到18美元每GB。DDR5服务器内存也没有幸免,32GB和64GB的RDIMM合约价上涨了25%到30%。消费端需求疲软没能抵消服务器端的结构性缺货。

算力采购的成本结构正在被重塑。以标准八卡AI服务器(HGX/DGX架构)为基准,三年期总拥有成本(TCO)的构成如下:

GPU和计算芯片占60%到65%。内存(HBM加DDR5)占10%到12%。集群网络(InfiniBand或RoCE的网卡、交换机、光模块和线缆)占6%到9%。能耗与散热(含PUE放大效应)占8%到10%。机房和基础设施(配电、液冷改造、机柜租赁)占5%到7%。运维、软件许可和折旧占5%到8%。

在万卡集群级别,网络和能耗的占比会上升到12%到15%,GPU的占比相应降到50%到55%。规模越大,GPU在总成本中的权重反而越小。

单张GPU的功耗数据需要被认真对待。

A100 80GB的热设计功耗是400W,训练负载实测均值在250W到320W之间,推理均值在180W到240W之间。H100 80GB的热设计功耗是700W,训练负载实测均值380W到480W,推理均值250W到350W。昇腾910B的热设计功耗310W到350W,负载均值220W到280W。

以中国工业电价0.6元每度、PUE(数据中心能效比)1.3来计算,一张H100的年耗电量大约是5125度电,年电费约3075元,三年电费接近一万。这还只是直连电费,不含机房基础电费和制冷维护的分摊。

集群网络的成本同样容易被低估。

InfiniBand的NDR 400G或800G方案,一台32口或64口交换机的价格在1.5万到2.5万美元之间,每张网卡1500到2200美元,光模块和线缆每端口150到300美元。折算下来,单张GPU对应的网络成本约2000到3500美元。

RoCEv2(以太网无损网络)方案便宜一些,交换机0.8万到1.5万美元,网卡800到1400美元,单GPU对应网络成本约1000到2000美元。但RoCE需要额外部署DCB、PFC、ECN等拥塞控制策略,运维人力成本比InfiniBand高出15%到20%。

GPU利用率是另一个常被忽视的指标。

训练集群的实测平均利用率在45%到60%之间,峰值可以到70%到80%。Meta和Google内部优化过的集群能维持65%以上,但第三方云普遍在50%左右。推理集群的平均利用率更低,30%到50%之间。

利用率低于50%意味着你买了一半的算力在空转。影响利用率的因素很多:调度系统的效率(Kubernetes/Slurm/Volcano)、数据IO瓶颈、通信开销、Checkpoint频率、模型并行策略带来的空闲等待。这些都不是GPU供应商会告诉你的事。

基于以上数据,我来建立一个三年TCO的对比框架。

算力三本账

第一本账是采购成本。H100 80GB的采购成本约3万到4万美元(含主板、散热、电源分摊),A100 80GB约1.5万到2万美元,昇腾910B约0.8万到1.2万美元。

第二本账是运营成本。三年的电费、网络维护、机房租赁、运维人力。H100的三年TCO约6.5万到8万美元,A100约4万到5万美元,昇腾910B约2.5万到3.5万美元。

第三本账是有效产出成本。昇腾910B的实际有效利用率通常比H100低10%到15%,软件栈适配和算子优化也需要额外投入。折算成”每美元有效算力产出”,H100在三年周期内仍然具有性价比优势。

指标
H100 80GB
A100 80GB
昇腾910B
采购成本
3-4万美元
1.5-2万美元
0.8-1.2万美元
三年TCO
6.5-8万美元
4-5万美元
2.5-3.5万美元
训练利用率
55-70%
50-65%
40-55%
单位推理成本
0.25-0.45美元/千token
0.40-0.70美元/千token
0.30-0.55美元/千token
软件生态
CUDA成熟
CUDA成熟
CANN适配中

单位推理成本是最能反映实际使用效率的指标。以Llama-3-70B级别模型、FP16精度、vLLM优化、batch size等于32为基准,H100的每千token推理成本在0.25到0.45美元之间,INT8或INT4量化后可以压到0.12到0.20美元。云厂商对外报价通常包含路由、SLA和毛利,在0.60到2.50美元之间,自建集群成本约为云报价的三分之一到二分之一。

选型建议需要根据场景来分。训练场景看重的是总算力和集群互联效率,H100的能效比领先,但价格门槛高。推理场景看重的是单位推理成本和显存带宽,L40S或L4可能是更经济的选择,单张推理成本在0.18到0.35美元之间,显存受限但适合中等规模模型。

对于预算有限的中小企业,混合架构是最务实的选择。训练用云端GPU租赁(按小时计费,避免闲置成本),推理用本地部署中等规格GPU或国产替代方案。

决策维度
自建集群
云端租赁
混合架构
启动门槛
200万+
零硬件投入
50万+
三年TCO
最低(满利用率时)
最高
中等
利用率风险
高(闲置即浪费)
零(按需使用)
数据安全性
最高
取决于云厂商
适合场景
持续高负载训练
间歇性训练/推理
训练上云+推理本地

盈亏平衡点的计算方法是:将三年自建TCO除以云端同等算力的三年总租赁费用。如果自建成本低于租赁成本的70%,且你的GPU利用率能稳定在60%以上,自建是划算的。否则,继续用云。

算力采购的核心判断标准不是GPU的TFLOPs数字,是每元投入能产出多少有效算力。把TCO算清楚再出手,比任何供应商的方案演示都管用。

常见问答 (FAQ)

Q:买GPU还是租GPU更划算? A:取决于你的利用率。如果GPU利用率能稳定在60%以上且使用周期超过两年,自建集群的三年TCO通常低于云端租赁。如果利用率低于40%或需求波动大,云端租赁更经济。建议先做三个月的云端实测,记录实际利用率数据,再决定投资方向。

Q:HBM和DDR5的区别是什么? A:HBM(高带宽内存)通过3D堆叠和硅通孔技术实现超高带宽,是AI训练芯片的标配,但成本高昂且供应紧张。DDR5是传统服务器内存,带宽远低于HBM但成本低得多。推理场景可以考虑用DDR5+大显存的方案降低成本,训练场景HBM几乎不可替代。

Q:中小企业要不要自建GPU集群? A:不建议在起步阶段自建。先用云端GPU跑通业务模型,积累实际的算力需求数据(训练时长、推理并发、显存占用),再评估自建的必要性。大多数中小企业的算力需求通过云端租赁+推理端轻量部署就能满足。

给操盘手的行动清单

第一,用TCO模板重新测算手头项目的三年全周期成本。不仅算GPU采购价,把内存、网络、能耗、运维全部纳入。

第二,评估当前GPU利用率是否超过60%。如果低于50%,优先考虑优化调度系统或转向云端租赁。

第三,对比云GPU租赁与本地部署的盈亏平衡点。用实际业务数据算,不要用供应商的演示数据算。

关注公众号,回复【进化】加入 AI 商业前沿交流群。关注变量引力,一起进化。