2026年5月底,中国AI公司面壁智能发布了一个叫ForgeTrain的预训练框架。如果只是又一个训练框架,这不会引起太多注意。但ForgeTrain的特别之处在于:它是完全由AI自己编写的生产级框架。
AI写代码不是什么新鲜事。但AI写一个用来训练AI的预训练框架,而且这个框架在生产环境中性能超越了英伟达的Megatron——这就是另一回事了。
ForgeTrain的流程是这样的:面壁智能团队在GitHub上维护了一个实时更新的Specification-as-Code仓库,里面用YAML和Python定义了训练框架的完整规范。然后AI系统读取这些规范,自动生成对应的训练代码。人类团队的工作不是手写框架代码,而是定义规范、调试边界条件、验证输出质量。
结果是用ForgeTrain训练的MiniCPM5-1B模型 仅10亿参数 在某些任务上的表现超越了参数量数倍于它的模型。更高效的训练意味着更低的成本、更快的迭代、更大的可及性。
AI造AI的三级递进
ForgeTrain代表了"AI制造AI"的第三级:
第一级:AI辅助写代码。GitHub Copilot时代,AI帮人类写代码。人类仍然是主导者。
第二级:AI自动写代码。Devin、Cursor Agent等可以独立完成中等复杂度的编码任务。人类退到需求定义和审核的角色。
第三级:AI为AI写代码。这正是ForgeTrain做的事情。AI写的不只是普通的应用程序代码,而是用来训练下一代AI的底层框架代码。这意味着AI可以递归地改进自己——今天的AI写更好的训练框架,更好的训练框架产出明天的更强AI。
一个判断:递归自我改进的引擎正在启动。深度学习领域一直存在一个理论上的"加速回路"——AI越强,它帮助人类改进AI的速度就越快。ForgeTrain是这个理论回路进入工程实践的第一个明确信号。
国产芯片生态的意外受益者
ForgeTrain另一个值得关注的维度是它对国产AI芯片生态的影响。
英伟达的CUDA生态是过去十年AI发展的最大护城河之一。几乎所有主流训练框架 包括Megatron 都深度依赖CUDA优化。ForgeTrain作为一个从零开始由AI生成的框架,没有历史包袱——它可以针对任何硬件架构自动生成优化代码。
这意味着:华为昇腾、寒武纪、海光等国产芯片厂商第一次有可能获得一个"原生支持"的生产级训练框架。不需要等英伟达的框架适配国产硬件,而是AI生成的框架天然可以跟任何硬件对话。
面壁智能没有直接宣称ForgeTrain会支持国产芯片——但他们也没有说它不会。对于一个完全由AI自动生成、代码不是人类手写的框架来说,"适配新硬件"的成本可能远低于传统框架。
更大的图景
ForgeTrain的意义不限于中国,不限于面壁智能这一家公司。它是一个信号:AI制造AI正在从一个有趣的概念演变为工程现实。
当技术发展到这个阶段,一些传统的竞争壁垒开始松动:
人才壁垒。顶级训练框架需要多年的经验才能写出来。但如果AI可以自动写,这个时间窗口会急剧缩短。
生态壁垒。CUDA生态之所以不可撼动,是因为所有上层框架都依赖它。但AI生成的框架不需要"依赖"——它可以针对任何底层生成适配代码。
规模壁垒。更大的算力集群曾经是唯一的前进方向。但更高效的训练框架意味着你可以用更少的算力达到同样的效果。
ForgeTrain不是AGI,也不是什么超级智能。它是一个务实的工程产品——用AI来写训练AI的代码。但正是这种务实值得你关注:AI制造AI这件事,已经不再是论文里的理论推演,而是真实跑在生产集群里的代码。而最有趣的部分——递归加速——可能才刚刚开始。
夜雨聆风