无需怀疑,AI训练效率已经成为当下诸多行业发展的基础,甚至是大模型落地的有利保证。在芯片产业发展的半个多世纪以来,虽然时间跨度不小,可我们也能看出一个有趣的规律,那就是最初的约30年,主要是芯片设计的时代,芯片的发展重点是建立芯片的原始架构,我们现在使用的很多芯片,其实都是当时所打造的基础,例如CMOS工艺就是如此。
而在第二个约30年中,芯片产业的发展开始走向芯片制造,准确地说,是芯片制造的前道环节,因为有了第三方的芯片代工厂出现,使得芯片产业开始出现繁荣景象,无晶圆芯片IC企业如雨后春笋般在全球出现,第一个30年造就了英特尔,第二个30年造就了台积电和ASML,而现在,则开始进入第三个30年,我们已经身处变革之中。

实际上,每一个芯片变革时代的出现,都是为了解决芯片产业继续向前繁荣发展的问题,目前AI大模型的训练,同样也是如此。简单来说,就是模型性能的提升与付出的工程成本相比,已经出现严重的不成正比例的情况。
以Qwen3-30B-A3B模型为例,这并不一个跨代际的架构,只是传统密集模型的一种改进。可尽管如此,通过英伟达开源的NeMo AutoModel框架,仅增加一行import就能启用MoE微调。在8×H100 80GB GPU单节点测试中,TPS/GPU从3075提升至11340,吞吐提升3.4到3.7倍。如果剔除这些优化因素,那么传统微调方式对MoE模型性能的提升,很可能连工程可行性都没有,但显存占用却从68.2GiB降到48.1GiB,降幅达到29%到32%。

还有英伟达近期开源的NeMo AutoModel框架,这款工具基于Hugging Face Transformers v5生态,通过专家并行技术,将MoE的专家权重分散到多个GPU上。其实,单卡只保存部分专家参数,就能显著降低显存压力,同时DeepEP将token分发、通信与专家计算融合到GPU内核中,减少通信瓶颈。

通过这两个案例就能看出,仅仅通过工程优化,就已经出现了这么大的效率差异,然而算法上反而没有明显的改动,而且英伟达方面还表示,借助TransformerEngine的优化内核,加速了注意力、线性层和RMSNorm等核心计算,也就是说,以后MoE模型训练的效率瓶颈已经找到了突破口,用行业专家的观点来说,就是AI训练正在进入“基础设施红利时代”。
所以总结起来就是,模型性能还能提升,可速度要依赖系统工程优化,可如果单靠堆硬件,成本却成倍的提升,这在商业上是行不通的。那么怎么办呢?上面我们提到了,AI训练的发展,经历了模型算法设计和数据规模两个主要历史阶段,现在就是进入第三个历史阶段,系统工程优化,准确的说叫作算力调度与通信优化,是AI基础设施的升级。

上面我们提到的英伟达开源的NeMo AutoModel框架,其实就是通过DeepEP和专家并行技术,将复杂工程优化隐藏在兼容接口之下的结果。我们看到,成本大幅下降,但训练吞吐却依然不俗,而这就要提到我们今天的主角,MoE模型,目前是大型模型降本路线的关键。
英伟达是开源工具的主要推动者,但本质上是在Hugging Face生态上做了一层“高性能基础设施升级”。MoE模型的优势是“参数很多但每次只激活一部分专家”,理论上算力成本更低。但现实中通信开销一直限制了它的优势。现在DeepEP这样的优化逐渐成熟,MoE可能会成为超大模型的主流结构。
英伟达方面表示,通过开源NeMo AutoModel,让开发者在Hugging Face生态中也能顺滑使用NVIDIA的优化组件。其实,这其实就是一种典型策略:表面上是开源,实际上是硬件生态和软件工具链的绑定之争。AI的竞争不仅是模型之争,是算力调度、通信优化和系统工程能力之争。
夜雨聆风