黄仁勋讲了90分钟AI工厂,唯独没提这件事

6月1日，GTC 台北。

黄仁勋站在台上，用 90 分钟描绘了一幅宏大的 AI 工厂蓝图：Vera Rubin 全面量产、Token 就是资产、1GW 算力集群值 1000 亿美元。

台下掌声雷动，英伟达股价应声上涨2.7%。

但有一个问题，他整场演讲只字未提——

那些 7×24 小时烧到 80℃ 的 GPU ，坏了怎么办？

在国外，大客户走官方 RMA，坏了换新，售后体系完善。

但在国内，大量企业手里的卡来自并行渠道、分区域版本——官方保修不覆盖，返厂无门。

Vera Rubin 再强，Blackwell 再快，它们本质都是物理器件。会老化、会虚焊、会掉核心、会在你最需要算力的时候突然"躺平"。

AI 工厂的本质不是算力，是算力的可用率。

而国内算力运营者面临的现实是：

一块企业级 GPU 躺平，训练延迟数天，几十万算力成本蒸发——然后发现，没人给你保修。

而可用率的命门，恰恰藏在黄仁勋演讲里唯一没放的那页 PPT 上——GPU 维修。

存量GPU不会消失，只会越积越多

黄仁勋明确表示，Vera Rubin 已经全面量产，OpenAI、Anthropic、SpaceX 成为首批客户。

这当然是大新闻。但更值得注意的，是演讲中没有明说的一句话：

Blackwell不会退役，它只会被更大规模的集群继续使用。

AI 算力的军备竞赛，不是"换掉旧卡"，而是"不断叠加新卡"。

全球数据中心里，H100、H200、B200 等上一代 GPU仍在 7×24 小时满负荷运转。

它们的故障率不会因为新架构发布而降低，反而会在持续高压下逐渐升高。

这，正是 GPU 维修需求持续走强的底层逻辑。

大量通过非官方渠道流入的 GPU ——没有发票、没有区域保修、序列号不在本地售后数据库——坏了就是一块“电子砖头”。

据行业观察，国内专注 GPU 芯片级维修的服务商如维云信息科技，其业务逻辑正是基于这一趋势——修的从来不是“过时卡”，而是仍在生产第一线创造价值、但官方售后覆盖不到的算力资产。

AI工厂时代，算力是资产，资产就需要维护

黄仁勋用了一整个段落来讲 AI 工厂的经济账：

1GW 等级的 AI 工厂，起步成本 200 亿至 300 亿美元，未来甚至可能达到 800 亿至 1000 亿美元。

他还抛出一个核心观点：Token 就是资产。

按照这个逻辑推导，结论非常直接：

生产Token的设备——GPU——就是AI工厂里最核心的生产资料。

任何一家企业，花几十亿、几百亿美元建成 AI 工厂后，最不愿意看到的，就是某一块 GPU 因为局部故障导致整机下线、算力闲置、训练中断。

而 GPU 的高密度、高功耗、高发热特性，决定了它本身就是系统中故障率最高的组件之一。

国外客户可以依赖官方质保，但国内大量非官方渠道的卡，坏了就是纯损失。

业内已有服务商提出“算力资产维护”概念，将 GPU 维修从“修不修得起”的问题，重新定义为“在国内硬件流通环境下，不修就等于报废”的问题。

黄仁勋没明说，但现实存在的

"GPU维修三角"

综合整场演讲，可以提炼出一个非常现实的矛盾三角：

三个趋势叠加的结果：

算力越贵，旧卡越要修；官方保修覆盖不到，专业维修就是刚需；芯片越集成，能接得住的企业越少。

这恰恰是国内专业 GPU 维修服务最真实的存在价值。

写在最后

黄仁勋在这场演讲中，几乎没提"维修"两个字。

但任何有经验的技术人都知道：越是先进的系统，越离不开可靠的后端维护。

如果你也在运营算力集群，心里一定清楚：

哪批卡跑得最烫，哪款型号返修率最高，哪次故障让你最头疼——尤其是那些明明没坏透、但官方售后根本不管的卡。

这些东西黄仁勋不会讲，但我们这帮干维修的天天见。

有类似经历或难题，欢迎来交流。