AI训练不靠堆硬件也能快3倍?英伟达开源工具让成本直降三成!

无需怀疑，AI训练效率已经成为当下诸多行业发展的基础，甚至是大模型落地的有利保证。在芯片产业发展的半个多世纪以来，虽然时间跨度不小，可我们也能看出一个有趣的规律，那就是最初的约30年，主要是芯片设计的时代，芯片的发展重点是建立芯片的原始架构，我们现在使用的很多芯片，其实都是当时所打造的基础，例如CMOS工艺就是如此。

而在第二个约30年中，芯片产业的发展开始走向芯片制造，准确地说，是芯片制造的前道环节，因为有了第三方的芯片代工厂出现，使得芯片产业开始出现繁荣景象，无晶圆芯片IC企业如雨后春笋般在全球出现，第一个30年造就了英特尔，第二个30年造就了台积电和ASML，而现在，则开始进入第三个30年，我们已经身处变革之中。

实际上，每一个芯片变革时代的出现，都是为了解决芯片产业继续向前繁荣发展的问题，目前AI大模型的训练，同样也是如此。简单来说，就是模型性能的提升与付出的工程成本相比，已经出现严重的不成正比例的情况。

以Qwen3-30B-A3B模型为例，这并不一个跨代际的架构，只是传统密集模型的一种改进。可尽管如此，通过英伟达开源的NeMo AutoModel框架，仅增加一行import就能启用MoE微调。在8×H100 80GB GPU单节点测试中，TPS/GPU从3075提升至11340，吞吐提升3.4到3.7倍。如果剔除这些优化因素，那么传统微调方式对MoE模型性能的提升，很可能连工程可行性都没有，但显存占用却从68.2GiB降到48.1GiB，降幅达到29%到32%。

还有英伟达近期开源的NeMo AutoModel框架，这款工具基于Hugging Face Transformers v5生态，通过专家并行技术，将MoE的专家权重分散到多个GPU上。其实,单卡只保存部分专家参数，就能显著降低显存压力，同时DeepEP将token分发、通信与专家计算融合到GPU内核中，减少通信瓶颈。

通过这两个案例就能看出，仅仅通过工程优化，就已经出现了这么大的效率差异，然而算法上反而没有明显的改动，而且英伟达方面还表示，借助TransformerEngine的优化内核，加速了注意力、线性层和RMSNorm等核心计算，也就是说，以后MoE模型训练的效率瓶颈已经找到了突破口，用行业专家的观点来说，就是AI训练正在进入“基础设施红利时代”。

所以总结起来就是，模型性能还能提升，可速度要依赖系统工程优化，可如果单靠堆硬件，成本却成倍的提升，这在商业上是行不通的。那么怎么办呢？上面我们提到了，AI训练的发展，经历了模型算法设计和数据规模两个主要历史阶段，现在就是进入第三个历史阶段，系统工程优化，准确的说叫作算力调度与通信优化，是AI基础设施的升级。

上面我们提到的英伟达开源的NeMo AutoModel框架，其实就是通过DeepEP和专家并行技术，将复杂工程优化隐藏在兼容接口之下的结果。我们看到，成本大幅下降，但训练吞吐却依然不俗，而这就要提到我们今天的主角，MoE模型，目前是大型模型降本路线的关键。

英伟达是开源工具的主要推动者，但本质上是在Hugging Face生态上做了一层“高性能基础设施升级”。MoE模型的优势是“参数很多但每次只激活一部分专家”，理论上算力成本更低。但现实中通信开销一直限制了它的优势。现在DeepEP这样的优化逐渐成熟，MoE可能会成为超大模型的主流结构。

英伟达方面表示，通过开源NeMo AutoModel，让开发者在Hugging Face生态中也能顺滑使用NVIDIA的优化组件。其实,这其实就是一种典型策略：表面上是开源，实际上是硬件生态和软件工具链的绑定之争。AI的竞争不仅是模型之争，是算力调度、通信优化和系统工程能力之争。