为什么用“1GW”而不是“多少块GPU”?
在AI竞赛中,算力已从“有多少算力”的技术问题,转变为“能用多少电”的资源问题。
数量易得,容量难求:为了打造全球最快超算,巨头们投入上百亿资金扩建数据中心,一个核心制约就是电力供应。整个运营的中心思想是“搞到足够的电”。因此,用“容量/电力”来估算集群规模就成了一种行业通行惯例,它像一个“电力容量标签”,反映着真正的运营天花板。
效率分化,统一量尺:不同代的GPU好比“油老虎”和“节能先锋”。作为功耗单位,GW提供了一个统一标尺,能让你直观地衡量不同代际、不同架构的“超级工厂”的电力消耗水平。
| H100 | |||
| GB200 (NVL72) | |||
| RV300 (未来) |
请注意以上“1GW对应块数”是基于纯理论功耗的估算,实际建设中需考虑服务器冗余、网络设备耗电等因素。
作为计算基准,你在对话中提到的情况是:1GW约等于22万块GPU。这其实是基于一个真实的“混装”集群——Colossus 1(由15万块H100、5万块H200和2万块GB200组成)的平均功耗计算得出的密度。
成本分析:一座千亿级的“AI工业心脏”
1GW的算力集群是AI时代最为昂贵的“硬件赌注”之一。它的成本远超芯片本身,更像是对整个生态系统各个维度的投资。
1. 建设成本 (CapEx):一座550亿美元的“电力巨兽”
根据伯恩斯坦(Bernstein)的测算,建设一座1GW智算中心是一次性投入约350亿美元,而总拥有成本(TCO)则在4年周期内高达约550亿美元。具体构成可拆解如下:
| GPU芯片 | ||
| 供电与散热 | ||
| 网络 | ||
| 存储 | ||
| 电费 (运营) |
此外,行业对1GW总投资也有400亿至500亿美元等不同口径的讨论,反映出不同技术方案下的巨大弹性空间。
2. 运营/租赁成本 (OpEx):月入百万的“印钞机”
集群的建设费用已算清,那么它能产生多少收入?它的租金水平,又是如何?我们可以分别从租户(如Anthropic)和提供商(如xAI)的视角来审视。
| 租户 | 年租金 | ||
| 提供商 | 年化收入 |
这相当于一个年租金50亿美元起步,年收入可达百亿美元级别的基础设施项目。对于AI研究机构和大型企业而言,这不仅是技术实力的体现,更是一笔深刻的商业账:要么付出巨大代价掌控全套硬件,要么以高额租金换取灵活性,各有利弊。
3. Token成本:微观视角的竞争力
从单次推理角度看,NVIDIA最新Blackwell架构的B200 GPU,每生成百万Token的成本约为 0.25美元,远低于采用旧架构的产品。。推动单位Token成本下降的关键,是GPU能效比的大幅跃升。高性能硬件的更迭,带来了性能提升和Token成本优化的正循环。这一微观指标的差异,直接决定了一个AI商业帝国基础服务的定价能力。
总结:算力军备竞赛背后,拼的是什么?
AI算力的这场“军备竞赛”,表面是寸土寸金的“拼电力”,实则是一场拼资本、拼技术、谋效益的全方位经营战。
资本为王:建设成本主要由高昂的GPU芯片和相关基础设施决定。能负担起这类“电力巨兽”的,必然是拥有雄厚资本实力的科技巨头或顶级投资方。
效率即金钱:用旧款GPU堆砌算力,运营成本会高得惊人。因此,投资最新、最高效的硬件是降低长期成本的关键。竞速中,要么换好引擎,要么付出代价。
生态与效益:拥有尖端算力仅是入场券。如何通过提供AI服务、出租算力等方式获得高额收益,才是确保整个项目可持续性的核心。
在AI时代,谁掌握了GW级的算力基础设施,谁就掌握了数字世界最核心的生产要素。
夜雨聆风