一个AI写的训练框架,训出了全球最强的1B模型

让我们进入面壁智能和 OpenBMB 的「端侧大模型开源周」的第二天。

昨天聊完 BitCPM-CANN，那个在华为昇腾上端到端训出来的三值模型，很多朋友私信我说被震到了。说实话，我当时也觉得这帮人挖到了一些还没人碰过的东西。

然后今天，第二弹来了。

MiniCPM5-1B

光看名字你可能觉得，哦，又一个 1B 模型，端侧小钢炮系列的常规升级对吧。

但如果我告诉你，训出这个模型的训练框架，代码全是 AI 写的，没有一行是人写的呢。

如果我再告诉你，这个 AI 自己写的框架，在英伟达 H100 上跑得比英伟达自己家的 Megatron 还快 10% 呢。

这事就有点东西了。

先说模型本身。

MiniCPM5-1B，参数规模 1B，也就是 10 亿参数。放在今天动辄几百 B 的大模型竞赛里，这个数字实在算不上什么。

但它干了一件很离谱的事。

在国际权威榜单 Artificial Analysis 的 AA-Index 评分上，MiniCPM5-1B 拿了 17.9 分，全球 2B 参数以下的基座模型里面排第一。排第二的 Qwen3.5-2B，16.3 分。

注意，Qwen3.5-2B 的参数规模是它的两倍。

一半的参数，更好的效果。

你在任何行业里跟我说「一半的成本，更好的产品」，我都会觉得这事值得认真看一眼。在 AI 圈，这几乎是一个不可能三角的突破。参数量、效果、成本，过去你只能选两个，面壁智能告诉你，不好意思，我全都要。

如果再往前翻三个月呢。

三个月前，Qwen3.5-2B 发布的时候，2B 参数规模的头部位置基本上没什么争议。大家默认的逻辑是，想要好效果，参数量不能太小。2B 是底线。

三个月后，这个底线被 1B 的模型击穿了。

面壁智能管这叫密度定律

大模型的智能密度，正在以每 3.5 个月翻一番的速度持续提升。同样一颗芯片，同样一块内存，半年后能跑出来的智能水平，跟半年前完全不在一个量级上。

这件事我以前是不太信的。

因为过去两年我们看的都是另一条路，Scaling Law。参数越大，数据越多，算力越堆，效果越好。所有人的注意力都在「往大了做」上面。

但面壁智能这三年，一直在「往小了做」。

不是等硬件变得足够强来适应模型，而是让模型变得足够聪明来适应硬件。

你品品这句话，它跟这帮人上一个作品 BitCPM-CANN 的底层逻辑是一模一样的。

说回 MiniCPM5-1B。

它在知识、数学推理、代码推理、工具调用四个维度上，全面碾压了同一个量级的对手。Qwen3.5-0.8B、LFM2.5-1.2B-Thinking，都是同尺寸的扛把子，但这次全被 MiniCPM5-1B 按住了。

这不是那种「某一项测评分略高零点几分」的险胜。

是全面、系统性的超越。

AA 榜单的成绩更直观，MiniCPM5-1B 所在的「小尺寸模型」榜单上，它站在最上面。踩着一些参数比它大的模型。

但说实话，跑分这种事儿，在 AI 圈已经有点审美疲劳了。

今天一个新模型屠榜，明天又一个模型刷新 SOTA，后天又双叒叕。你翻开任何一个模型的发布公告，都是「全面超越」「大幅领先」「重新定义」。看多了，阈值就高了。

MiniCPM5-1B 真正让我愣了一下的，不是跑分。

是它 INT4 量化之后，权重只有 0.5GB

0.5GB。

你在手机上下载一个高清短视频，可能都比它大。

所以你知道这是什么概念吗。这个在 AA 榜单上干翻了所有 2B 以下模型的家伙，可以跑在你手边的几乎任何设备上。手机、电脑、浏览器，甚至是那种连独立显卡都没有的老旧笔记本。

面壁智能还开源了一个自研的 CPU 推理框架叫 ArcLight，专门为纯 CPU 环境做的深度优化。你没有 GPU，没关系。你连本地环境都不想配，也可以直接在浏览器里打开，零安装，零配置。

这是一种很奇怪的体感。

一个全球最强的 1B 模型，就这么安安静静地躺在你的设备里。不需要机房，不需要 GPU 集群，不需要每个月几百块的 API 费用。你打开浏览器，它就在那里。

说到这儿，有一个特别有意思的东西。

面壁智能拿 MiniCPM5-1B 做了一个「桌宠」。

你养过桌面宠物吗？那种在电脑屏幕上走来走去的小东西，点一点它会跟你互动。但这次的桌宠不一样，它后面站着一个真实的、能力很强的 1B 大模型。

它会跟你聊天，会记住你说过的话，会在你不知道干什么的时候冒出来给你一点陪伴感。

没有网也能跑

你想想这个场景。你在深夜加班，四周安静得让人发慌，打开电脑，桌面上那个小东西醒了。它不是云端某个机房里的 AI 给你回复，它就在你眼前的这台机器里，跟你共享同一块 CPU。

这种「AI 在身边」的体验，跟「AI 在云端」是两种完全不同的东西。

好，模型的部分聊完了。

现在聊那件真正让我起鸡皮疙瘩的事。

MiniCPM5-1B 的 Base Model 版本，也就是它的基座模型，是由面壁智能的 AI 训练框架 ForgeTrain 预训练完成的。

ForgeTrain 是什么。

它是全球第一个完全由 AI 编写的生产级大模型预训练框架

全部代码由 AI 生成，人类工程师零代码介入

一。行。都。没。写。

我寻思了一下我没寻思明白。

一个训练框架，几千几万行代码，涉及分布式计算、内存管理、通信优化、算子融合、并行策略，这些随便拉一块出来都够一个 PhD 干半年的东西，全由 AI 写了。

而且不是写着玩的。

这套框架在英伟达 H100 上跑出来的训练速度，比英伟达自家的 Megatron 快了 10%。

Megatron 是什么，它是英伟达官方维护的大规模并行训练框架，全球无数实验室和公司在用它训大模型。这是这个领域的基础设施级别的存在。

一个 AI 写的框架，比基础设施跑得还快。

你知道这种感觉像什么吗。

像一个学徒，造了一台机床，然后用这台机床加工出了一个比师父还厉害的零件。

ForgeTrain 这台「机床」是 AI 自己造的，MiniCPM5-1B 这个「零件」也是 AI 训出来的。人类在这条链路上做的事情，是提供方向、设定目标、做质量判断，而不是写代码。

AI 制造 AI。

你以前听到这四个字，大概率会觉得这是科幻，是 Anthropic 创始人 Dario Amodei 在采访里说的那种「2028 年可能发生」的遥远预言。他去年说过，AI 在 2028 年左右可能具备独立完成 AI 研究的能力。

结果 2026 年中，一个完全由 AI 编写的训练框架，已经训出了全球同尺寸最强的基座模型。

Dario 的时间线，可能还得往前拨。

那数据这块呢。

MiniCPM5-1B 能在一半参数量下压过 Qwen3.5-2B，除了框架厉害，还有一个关键原因，训练数据的质量。

面壁智能在这件事上有一个很明确的理念，与其用海量低质数据灌出一个模型，不如用精选高密度数据养出一个模型。

他们搞了一套分级数据治理体系，把预训练数据从 L0 到 L4 分了五个等级，每个等级有不同标准。然后用这套标准，在三个方向做了大规模高质量数据合成，高知识密度中文网页、高知识密度英文网页、高质量数学合成语料。

这里面的逻辑其实很好理解。

1B 参数就这么大个池子，容量有限。你往里倒浑水还是倒蒸馏水，直接决定了最后养出来的是清泉还是泥塘。大参数量模型可以被数据量撑着，质量差一点数据量大也能跑出还不错的结果。但 1B 模型，没有这个容错空间。每一条训练数据都在直接影响最终性能。

这套分级数据里最关键的一部分，一个叫 Ultra-FineWeb-L3 的高质量合成数据集，这次也会跟着模型一起开源。

好，写到这儿，我试着把我现在脑子里想的事理一下。

昨天写 BitCPM-CANN 的时候，我说面壁智能这帮人在做一件「以前没人信」的事。他们在华为昇腾上端到端训出了一个世界级的三值大模型，捅破了「国产芯片只能跑推理」那层窗户纸。

今天写 MiniCPM5-1B，他们又捅破了一层窗户纸。

「AI 代码不可靠，写写 demo 还行，搞生产级框架是做梦。」

一层层在捅。

用 AI 写的框架，训出全球最强的 1B 模型，放在华为昇腾上跑，最后压缩到 0.5GB 塞进你的手机里。

你仔细想想这条链路，每一个环节都在挑战一个曾经被认为是常识的假设。

AI 写的代码不行。

小模型能力有天花板。

国产算力只能跑推理。

三个假设，全被摁在地上摩擦了一遍。

回到密度定律这件事上。

面壁智能说的「智能密度每 3.5 个月翻一番」，听起来像是一个自信的技术预测。但我越看越觉得，它更像是一个正在发生的产业事实。

AI 写的框架比人写的快，训出来的模型比参数翻倍的老模型强，压缩到巴掌大还能跑在手机上。

这不只是节省成本的问题。

所以，端侧 AI 的入场门槛，正在以肉眼可见的速度往下掉。

以前你想在自己的产品里跑一个像样的大模型，要么买 GPU，要么接 API，要么招一堆人搞模型压缩和部署优化。现在呢，0.5GB，一行代码就能唤醒，浏览器里就能跑，断网也能用。

对创业者，对独立开发者，对每一个想做点东西出来的普通人来说，这是一道正在被抹平的鸿沟。

最后说一件让我觉得很有趣的事。

MiniCPM5-1B 的完整开源包里，除了模型权重和训练数据集，还带了一份「安装 skills」。

翻译一下就是，如果你正在用 Claude Code 或者类似的 AI 编程工具，你可以直接让它帮你完成 MiniCPM5-1B 的环境配置和部署。

用 AI 装 AI。

跟前面那个「AI 制造 AI」的逻辑一脉相承。

我不知道你怎么看这事，反正我每次想到这个闭环，都会有一种很微妙的感觉。我们正在进入一个阶段，在这个阶段里，你甚至不需要知道怎么部署一个模型，你只需要告诉 AI 你想跑一个模型，它帮你搞定一切。

门槛，在以比你预想快得多的速度，消失。

你的下一只桌宠，只有 0.5GB。你的下一个 AI 模型，可能也不需要你操心怎么装。

一个 AI 写的训练框架，一个 AI 训出来的模型，一个 AI 帮你部署好的环境。

递回归智能，RSI

这不是科幻，这是正在一行一行跑出来的代码。

大时代啊，朋友们。

以上，既然看到这里了，如果觉得不错，随手点个赞、关注、转发三连吧

谢谢你看我的文章，我们，下次再见。