不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律-夜雨聆风

不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

来源：新智元

编辑：量子卷动

“慧眼观世界，关注就要发声。大家好，这里是量子卷动。”

2026年1月8日，NVIDIA再次用硬核数据刷新AI推理的性能上限。

英伟达官网披露：基于Blackwell架构的推理软件栈升级，让混合专家模型（MoE）的推理效率迎来「阶跃式」突破——

单GPU吞吐飙升2.8倍，显著降低了推理成本。

GB200 NVL72：为MoE而生

英伟达为何这次能只使用软件升级就实现如此显著的性能提升，这归因于MoE模型的特殊性。

以DeepSeek-R1为例，这个6710亿参数的稀疏MoE模型，每次推理仅激活370亿参数（「稀疏激活」），看似「轻量」，实则暗藏算力挑战：专家模块间的动态路由需要高频数据交换，预填充（prefill）与解码（decode）阶段的计算负载差异大，传统架构极易因通信瓶颈或精度损失陷入「性能墙」。同时MoE架构中的多个模型需要频繁通信。

英伟达给出的应对之法，是在本身的硬件基础上，通过软件针对性升级，从而发挥出硬件的潜力。

GB200 NVL72机架级平台是本次突破的「物理基石」。

它通过第五代NVLink互连72块Blackwell GPU，GPU之间具有1800GB/s双向带宽高速连接——这一设计是基于稀疏 MoE 架构模型专门进行的优化，相当于给72个「专家大脑」装上了「超高速神经突触」，让专家间的数据交换告别「拥堵」。

软件层面的更新，首先是NVFP4四比特浮点格式。

相比传统FP4，NVFP4通过NVIDIA自研的数值分布优化，在压缩数据量的同时，最大限度保留了模型精度（这对MoE的稀疏激活至关重要，避免因精度损失导致路由错误）。

配合硬件级NVFP4加速单元，Blackwell让模型使用低精度计算，但却能够相比其他 FP4 格式，具有更高的准确性。

此外，「分解服务」（disaggregated serving）策略进一步释放了GB200的潜力：将预填充（计算密集型）与解码（内存密集型）分配到不同GPU组，利用NVLink Switch的灵活拓扑实现「计算-内存」解耦，避免单一资源成为瓶颈。

软件引擎

TensorRT-LLM三个月狂飙2.8倍吞吐

如果说硬件是「基础」，软件则是「引擎调校」。NVIDIA TensorRT-LLM开源库的近期优化，让GB200 NVL72在DeepSeek-R1上的单GPU吞吐，过去三个月直接飙升2.8倍。

具体来看，三大优化堪称「性能催化剂」：

1、程序化依赖启动（PDL）

通过减少内核启动延迟，让GPU「时刻待命」，尤其在低交互性（高吞吐）场景下，显著降低「空转」损耗；

2、底层内核优化

针对Blackwell Tensor Core的微架构特性，重构计算流水线，让每一份算力都用在「刀刃」上；

3、全对全通信原语革新

消除接收端中间缓冲区，直接减少数据传输的「绕路成本」——这对MoE的专家间高频通信而言，相当于减少了延迟。

上述三项创新，使得GB200在运行DeepSeek R1时，相比2025年10月的软件版本，获得更高的吞吐量。

量子卷动，一个关注硕博情报，AI前沿知识分享，让你快速成长的公众号。

以下是资料分享

【常见AI算法比赛TOP方案，数据集汇总】

后台回复“算法”无转发套路免费领

本文来源：除特别注明原创授权转载文章外，其他文章均为转载，版权归原作者或平台所有，仅用于学术分享。如有侵权请联系小编删除。编辑：公众号量子卷动