AI开始造AI了:面壁智能开源ForgeTrain全解析

上周我照例摸鱼刷科技新闻，看到一条差点把咖啡喷到屏幕上的消息：

面壁智能开源了一个叫 ForgeTrain 的训练框架，号称"全球首个完全由 AI 编写的生产级训练框架"。

完全。由 AI。编写。

我反复确认了三遍，不是"AI辅助编写"，不是"AI参与开发"，是"完全由AI编写"。

这就好比你上班摸了一周鱼，周末老板问项目进展，你说"做完了"。老板打开一看——确实做完了，但不是你做的，是你养的鹦鹉学会用键盘敲出来的。

当然，这个比喻不太严谨。鹦鹉不会写 Python，但 AI 会。

ForgeTrain 到底是个啥？

先给不太熟悉训练框架的朋友翻译一下。

训练框架，就是用来训练 AI 大模型的"厨房"。你可以理解为——模型是菜，数据是食材，算力是灶火，而训练框架就是把这一切组织起来的菜谱+厨具+操作台的合体。

PyTorch、TensorFlow、JAX，这些都是训练框架。它们是 AI 生态的底层基础设施，每一个都是几百上千工程师维护了好几年的工程巨兽。

现在面壁智能说：我用 AI 重写了一个。

ForgeTrain 是一个面向大模型训练的框架，据量子位 5 月 26 日的报道，它已经达到了生产级水平。面壁智能把它开源了，代码放 GitHub 上，谁都能看、都能用。

"完全由AI编写"——到底有多"完全"？

这是整件事最敏感、也最值得追问的地方。

面壁智能的说法是"完全由AI编写"。但说句老实话，作为一个被 AI 使唤了不知道多久的打工人，我对"完全"这个词有天然的警惕。

就像我们公司说"完全弹性工作制"——确实弹性，弹性到半夜 11 点还在群里被艾特。

所以我的问题是：

到底什么程度的"完全"？

可能的情况大概分几档：

- 第一档：AI 生成了所有核心代码，人类只做了代码审查和最终合并——这已经非常震撼了，但严格来说不叫"完全"

- 第二档：AI 从零开始独立生成了全部代码，人类零介入编码过程——这是字面意义上的"完全"，也是面壁智能宣称的

- 第三档：AI 生成代码 + AI 自动测试 + AI 自我修复 bug——如果连 QA 都不需要人，那就是另一个次元的故事了

截至写稿时，我还没能在 GitHub 上找到 ForgeTrain 的仓库（可能刚开源不久，还没被广泛索引），也没看到面壁智能发布的技术博客或论文。所以关于"完全"的具体程度，我暂时保持审慎乐观。

但就算退到第一档——AI 生成了所有核心代码，人类只做审查——这件事本身就已经够炸裂了。

训练框架不是写个博客主题。它要处理分布式计算、内存优化、梯度同步、容错恢复……每一个都是能让资深工程师掉头发的硬核工程问题。AI 能把这些搞定，意味着它在系统级编程上的能力，已经远远超出了"写个排序算法"的水平。

AI 造 AI：技术上是怎么做到的？

虽然具体的技术细节还没公开，但我们可以从行业趋势推测一下大致路径。

现在主流的 AI 编码流程大概是这样的：

需求规格化——人类工程师把训练框架需要什么功能、什么接口、什么性能指标写成规格文档。这一步很可能是人做的，但也可能是人+AI协作。

模块化代码生成——大模型按照规格，逐个模块生成代码。不是一次性把整个框架吐出来（那不现实），而是像搭积木一样，一块一块拼。

自动测试与验证——生成的代码跑自动测试，哪里挂了就标记出来。

迭代修复——AI 拿到测试失败的信息，自己改代码，再跑测试，循环往复直到通过。

这个流程，本质上就是把一个资深工程师的工作拆成了"写需求→写代码→测代码→改 bug"的循环，然后让 AI 来跑这个循环。

关键在于：面壁智能用的是什么模型来干这件事的？他们自己的 MiniCPM 系列？还是调用 GPT-4/Claude 这类闭源大模型？这直接决定了这件事的含金量——如果是用自家模型完成的，那就是真正的"AI 自举"（bootstrap）；如果是调别人的 API，那多少有点"借别人的刀雕自己的花"的意思。

放在行业大背景下看：AI 编程工具正处爆发期

ForgeTrain 不是凭空出现的。它踩在了一个行业拐点上。

2026 年的 AI 编程领域，简直是神仙打架：

- Cursor 母公司 Anysphere 半年估值翻倍，冲到 500 亿美元，成了史上最快达到 20 亿美元 ARR 的 B2B 公司

- Cognition（就是做 Devin 的那家）刚拿了 10 亿美元融资，估值 250 亿，号称要做"第一个 AI 软件工程师"

- Anthropic 的 Claude Code 年化收入 25 亿美元，坐拥 30 万企业客户

- NVIDIA 发布了 Polar 框架，用 GRPO（Group Relative Policy Optimization）训练方法来提升 AI 编程代理的性能

注意这个趋势：从"AI 帮你补全代码"，到"AI 帮你写完整项目"，再到"AI 独立写出一个生产级系统"。这是一个能力阶梯，每一级都是一个数量级的跃迁。

ForgeTrain 试图站在这个阶梯的最高一级。

冷思考："AI 造 AI"离真正的递归自我改进还有多远？

好，冷静一下。让我们从一个更严肃的角度来看这件事。

AI 圈有个终极叙事叫递归自我改进（Recursive Self-Improvement）。简单说就是：一个 AI 足够聪明，聪明到能设计出一个比自己更聪明的 AI；那个更聪明的 AI 又能设计出比它还聪明的 AI；循环往复，指数增长，最终达到超级智能。

听起来很科幻对吧？但 ForgeTrain 的出现，确实让我们往这个方向迈了一小步——虽然只是一小步。

为什么说只是"一小步"？

因为"AI 写训练框架"和"AI 用训练框架训练出更聪明的自己"之间，隔着一条马里亚纳海沟。

打个比方：AI 学会了造菜刀，不等于它学会了做菜。菜刀是工具，做菜是艺术。训练框架是工具，训练出更好的模型是——目前还是人类主导的艺术。

具体来说有几个硬卡点：

第一，AI 写的代码可靠吗？ 训练框架这种底层基础设施，一个隐藏 bug 就可能导致模型训练跑偏，浪费几十万美元的算力。AI 写的代码在常规软件工程中已经够用了，但在这种容错率接近零的场景下，可靠性如何保证？目前没有充分的数据。

第二，安全审计怎么做？ 如果代码完全由 AI 生成，那审计流程本身就是"人审 AI 写的代码"。但如果代码量巨大、逻辑复杂，人类审查员能不能真正看懂每一步？看不懂，怎么保证没有后门或者漏洞？

第三，创新从哪来？ 现有框架的重新实现是一回事，发明全新的架构和算法是另一回事。AI 擅长在已有范式内优化，但跳出范式进行颠覆式创新——这目前还是人类的强项。

所以我的判断是：ForgeTrain 是一个重要的里程碑，但离真正的递归自我改进还有相当距离。 它证明了 AI 有能力完成系统级编程任务，但"AI 用自己写的工具训练出更强的自己"这个闭环，目前还没有被真正打通。

不过话说回来——这个闭环的每一个环节，都已经在单独被攻克了。拼接起来，可能只是时间问题。

💡 打工人的碎碎念

写完这篇，我点开公司群里老板发的一个链接——"AI 能否取代程序员？听听专家怎么说"。

我默默看了一眼自己 IDE 里刚让 AI 写完的代码，又看了看这条"AI 自己写了训练框架"的新闻，突然觉得"专家说什么"已经不重要了。

重要的是：2026 年了，AI 已经从"帮我写个函数"进化到了"帮我写一个训练 AI 的框架"。

这种进化速度让我想到一个不太恰当的比喻：三年前你让实习生帮忙打印文件，三年后实习生变成了 CEO，而你还在打印文件。

但我不想贩卖焦虑。说一个我自己的真实感受。

我最近用 AI 写代码的比例越来越高——大概 70% 的代码是 AI 生成的，我主要负责审查、调整和做架构决策。这种感觉怎么形容呢？就像从手动挡换成了自动挡：你还在开车，方向还是你在打，但踩离合、换挡这些机械操作已经不需要你操心了。

ForgeTrain 代表的，可能是"自动挡"的下一个阶段——L2 辅助驾驶。AI 不仅能帮你写代码，还能帮你写那些用来训练 AI 的基础设施代码。

下一个阶段是什么？L3——AI 自己决定写什么、怎么写、写完自己测。

再下一个？L4——AI 写完训练框架，用框架训练出更强的模型，更强的模型写出更好的框架……

到那时候，我的角色可能就剩一个了：在老板问"进度怎么样"的时候，替 AI 回一句"快了"。

参考来源：量子位 5 月 26 日报道。截至发稿，ForgeTrain 的 GitHub 仓库、官方技术博客和论文尚未被公开索引，部分技术细节待进一步验证。本文对"完全由 AI 编写"的说法保持审慎态度，如有后续信息会跟进更新。

觉得有意思？点个赞转发让更多人看到。评论区告诉我：你觉得 AI 写的训练框架，你敢用吗？👇