乐于分享
好东西不私藏

全球首个完全 AI 编写的训练框架来了,速度反超英伟达:面壁要用 把国产算力重写一遍

全球首个完全 AI 编写的训练框架来了,速度反超英伟达:面壁要用 把国产算力重写一遍

AI 开始自己造 AI 了:全球首个“纯 AI 编写”训练框架诞生,国产算力要变天?

英伟达真正可怕的,从来不是 GPU。

而是 CUDA 背后那套积累了十几年的软件帝国。

现在,有中国团队想用 AI,直接把这十几年“压缩重练”一遍。

最近,面壁智能正式发布:

ForgeTrain

一个号称:

  • 完全由 AI 自动生成
  • 全程零人工写代码
  • 面向大模型训练
  • 已达到生产级能力

的训练框架。

更夸张的是:

它已经在华为昇腾平台完成训练验证。

而且:

训练速度甚至比英伟达 Megatron 还快 10%。


🚨 AI 已经不只是“辅助写代码”

而是在:

自己开发 AI 基础设施。

这是整个行业最危险、也最震撼的一步。

因为:

过去 AI 只是帮程序员写代码。

现在:

AI 开始写“训练 AI 的系统”

这已经完全不是一个等级。


面壁到底做了什么?

简单说:

他们让 AI 自己:

  • 写训练框架
  • 写算子
  • 跑测试
  • 修 Bug
  • 调性能
  • 优化显存
  • 完成训练闭环

而人类:

只负责最后验收。


ForgeTrain 是怎么诞生的?

面壁用了一个关键技术:

Harness

你可以把它理解成:

“AI 自动研发流水线”

它本质上是一套:

  • 工具链
  • 评测系统
  • 反馈机制
  • 自动测试环境
  • 强化学习闭环

组成的 AI 工程系统。


AI 在这个系统里会不断循环:

写代码 → 跑测试 → 发现问题 → 自动修复 → 再优化

直到:

性能超过人类写的框架。


更恐怖的是:

这套系统已经真正训出了模型。

不是 Demo。

不是实验室玩具。

而是真实完成了:

MiniCPM 模型训练。

而且:

  • 人评一致
  • 机评一致
  • 训练稳定
  • 可以连续跑很多天

这意味着:

AI 写出的训练框架,已经能真正投入生产。


🚀 为什么这件事这么重要?

因为它可能改变整个 AI 行业的软件开发逻辑。

过去:

软件工程为什么越来越臃肿?

因为:

人写代码太贵
维护代码太贵
适配芯片太贵

所以大家只能:

  • 做超大型通用框架
  • 做统一抽象层
  • 做兼容所有场景的系统

于是:

PyTorch、CUDA、Megatron 越来越庞大。


但现在 AI 出现后:

代码成本正在无限接近于:

0

这意味着:

未来的软件可能不再需要:

“一套框架兼容所有东西”

而会变成:

“每个模型,都现场生成一套专属框架”


面壁把这种思路叫:

Forge Engineering(锻造工程)

核心思想非常激进:

不再维护一个巨型通用系统。

而是:

像铁匠一样,

为每个模型、每种芯片、每个任务,

现场“锻造”最适合的软件。


这意味着什么?

未来可能会出现:

用户输入:

我要训练一个 MoE 模型
目标芯片:昇腾
目标:低显存推理

系统自动生成:

  • 专属训练框架
  • 专属并行策略
  • 专属通信优化
  • 专属算子
  • 专属硬件适配

甚至:

自动生成 CUDA / CANN 优化代码。


面壁真正瞄准的是 CUDA 生态

很多人以为:

英伟达强,是因为 GPU 强。

其实真正难复制的是:

CUDA 十几年堆出来的软件生态。

包括:

  • 编译器
  • 算子库
  • ToolChain
  • 并行框架
  • 推理引擎
  • 调度系统

这些东西:

才是国产算力最难追赶的部分。


但 AI 可能会改变这一切

因为:

AI 最大的优势是:

它不会累。

它可以:

  • 24 小时优化算子
  • 自动修复兼容问题
  • 自动适配芯片
  • 自动重构框架
  • 自动压榨硬件性能

本质上:

AI 可以无限复制“顶级工程师”。


面壁已经放出狠话

他们的目标是:

“年底前,把国产算力软件全部重写一遍。”

包括:

  • 训练框架
  • 推理框架
  • 强化学习框架
  • 数据管线
  • ToolChain
  • 算子层

全部用 AI 重做。


Human in the Loop 正在结束

过去:

AI 是辅助工具。

现在:

AI 开始接管研发本身。

行业正在从:

Human in the Loop

变成:

Human on the Loop

区别很大:


以前:

AI 干活
人全程盯着

现在:

AI 自己运转
人只在旁边监督

这才是最恐怖的地方

因为:

AI 已经开始“研发 AI”。

这意味着:

未来 AI 进化速度可能会越来越快。

甚至出现:

AI 优化 AI
AI 训练 AI
AI 重写 AI 软件栈

的循环。


国产算力可能迎来真正的转折点

过去:

国产 GPU 最大问题:

不是芯片。

而是:

软件太难用。

CUDA 生态壁垒太高。

但如果:

AI 可以自动:

  • 适配芯片
  • 重写框架
  • 自动优化生态

那么:

国产算力追赶速度可能会突然加快。


ForgeTrain 最大的意义

并不是:

又一个训练框架

而是:

AI 已经开始自动构建 AI 基础设施。

这可能意味着:

AI 软件工程时代,

真正开始了。


最后一句

如果说:

ChatGPT 改变了内容生产。

那么 ForgeTrain 可能正在改变:

“AI 软件基础设施”本身。

而它挑战的,

正是英伟达最深、最厚、最难攻破的那道护城河:

CUDA 软件帝国。