导读
5月25日,面壁智能联合清华大学开源 BitCPM-CANN——中国首个完全基于华为昇腾训练的 1.58-bit 端侧大模型。8B 参数,性能保留 97%,一个旗舰手机就能跑。它不是"降精度凑合用",而是把参数的"文字系统"彻底换了一套。
6倍的显存红利,意味着什么?
一个 8B 参数的大模型,用传统 FP16 精度存下来需要约 14GB 内存。加上操作系统和其他应用,16GB 的旗舰手机,装不下。
BitCPM-CANN 把这个数字砍到了原来的六分之一。14GB 变 2.4GB。
同样的内存容量,能承载 6 倍的模型量。8B 模型的推理,可以轻松跑在当前主流旗舰手机上。
每个参数从 16 位浮点压缩到只有三个取值:-1、0、+1。传统模型用 65536 种可能的数值表达信息,它只用 3 种。
面壁把这套方案命名为 BitCPM(Bit Compressed Pretrained Models),基于 MiniCPM 家族的模型底座。它不是训练完再压缩,而是在训练阶段就按"三种笔画"来书写——就像一个人从一开始就被训练只用点横竖写字,而不是写完后把多余的笔画擦掉。
带来的两个直接结果:训练时的内存占用大幅降低,单卡能训更大的模型;推理时的内存需求同步下降,手机上跑 8B 模型变成现实。
核心数据
参数精度:16-bit → 1.58-bit(仅3种取值)
模型大小:14GB → 2.4GB(砍到 1/6)
能力保留率:95.7% ~ 97.2%
1B、3B、8B 这三档主力模型,能力保留率 95.7% 到 97.2%。8B 模型在 ARC、cmmlu、gsm8k 等关键任务上,保留全精度的 93%~99%。
内存墙,和不可能三角
为什么端侧 AI 一直跑不快?
2026 年的半导体市场,呈现出一场极致的撕裂。HBM 供不应求,DDR5 价格涨幅预期被调至 280%。高盛预测存储芯片市场正在经历一轮超级周期。
对端侧设备厂商来说,这是一道选择题。要么接受暴涨的 BOM 成本,压缩本就微薄的利润;要么削减内存配置,让 AI 功能沦为营销噱头。
更要命的是冯·诺依曼架构下的"内存墙"。计算单元和存储单元物理分离,数据需要频繁搬运。芯片 TOPS 数值再高,内存带宽喂不饱,大部分算力空转。很多端侧芯片标称几十 TOPS,实际推理时利用率只有 40%~60%,因为数据搬运成了瓶颈。
有趣的是,高通的新一代芯片平台已经支持 2-bit 原生推理。硬件赛道已经铺好了,但市场上一直缺乏真正可落地的低比特权重模型。不是不想用,是没有好用的。
这就是端侧 AI 的不可能三角:更强的模型能力、更低的硬件成本、更小的功耗体积,三者几乎无法兼顾。
面壁把这把锁撬开了——不是加内存,是改参数。
从摩尔斯电码到三值模型
1844 年,塞缪尔·摩尔斯从华盛顿向巴尔的摩发出了人类历史上第一封电报:WHAT HATH GOD WROUGHT。
这条信息只用了一种符号系统——点(·)和划(—)。没有字母表,没有数字系统,没有语法规则,只有两种基础符号。但就是这两个简单的符号,让信息跨越了数百公里,从有线电报一直用到无线电通信时代。
BitCPM-CANN 的 1.58-bit 三值模型,走的正是同一条路。
传统 FP16 大模型像一套完备的语言系统,字母、单词、语法、标点一切齐全。表达力强,但内存占用大。而三值模型把参数压缩到只有三种取值,就像摩尔斯电码只用点和划传递一切信息。
你可能会想:三种取值能表达什么?
摩尔斯电码用两种符号就能写出一部长篇小说。三值模型用三种权重值,就能记住 97% 的知识。
关键区别在于:传统 FP16 的"表达冗余"是为通用性服务的——它要能处理所有可能的数值组合,而三值模型只学习那些真正重要的模式。就像你不需要每天用到 26 个字母的所有组合,而是在有限的词汇库中高效交流。
这个思路的颠覆性在于:解决端侧 AI 的问题,不一定非要靠台积电的 3nm 工艺、海力士的 HBM4、或者更贵的 LPDDR6。有时候换个"文字系统",比升级硬件更有效。
从 CUDA 到昇腾:不再绕道走
BitCPM-CANN 的第二个价值,是证明了国产算力平台不仅能训大模型,还能训极低比特大模型。
国产 AI 芯片长期面临一个尴尬:硬件参数可圈可点,但支撑芯片运转的"文字体系"始终在别人手里。CUDA 就像一套成熟的拉丁字母系统,好用,但受制于人。
很多国产大模型的训练流程是这样的:在 NVIDIA 集群上完成核心验证,再费时费力地迁移到昇腾平台。一次迁移可能需要 3 到 6 个月,还要适配算子差异、精度对齐、性能调优。
BitCPM-CANN 不一样。从底层算子到训练框架,再到模型输出,整条链路都在华为昇腾上原生完成。基于 MindSpeed × Megatron-LM 框架,嵌入可插拔的 QAT 并行线性层,统一模型存储格式,还支持 32K 长序列训练。训练吞吐仅下降 5%,几乎不增加额外成本。
国产 NPU 第一次拥有了属于自己的 1.58-bit 低比特训练栈。后续所有想在昇腾上做低比特训练的团队,都可以站在这个底座上直接起步。OpenBMB 将整套方案集成到自家框架中,全链路开源。
全链路原生国产
训练框架:MindSpeed × Megatron-LM
模型底座:MiniCPM 家族
训练吞吐:仅下降 5%
DeepSeek 榨干万卡,面壁榨干单卡
行业内有一个有意思的对比。
DeepSeek 和面壁智能被业内称为两家"国内最会做架构改进的公司",但战场截然不同。
DeepSeek 紧抓云侧大算力场景,在数千张 H800 集群上榨干万卡价值;面壁聚焦单张端侧芯片,在功耗、散热、访存带宽的严苛约束下追求极致效率。
这不是规模上的竞争,是密度上的竞争。
在行业对极低位宽量化训练持观望态度时,面壁就选定了 ≤2-bit 的路线。2024 年发表 1-bit 大模型论文,很多人觉得这是学术探索,离落地很远。但面壁从那时起就搭建了自己的端侧实验平台,每提升 1% 的推理效率,都要在真实手机上反复验证。
为了在有限资源下训练大模型,面壁自研了分布式训练框架 BMTrain。32 张卡甚至更少就能启动百亿级模型训练。这是 MiniCPM 系列能用小参数打出大能力的底层保障。
BitCPM-CANN 的开源,把这种密度变成了产业可用的基础设施。0.5B、1B、3B、8B 四档完整模型,和同尺寸全精度模型做 1:1 对齐评测,一次性推出来。不再是孤立的 demo,而是一套完整的产品矩阵——手机厂商、汽车厂商、终端设备商可以直接按需求选用。
笔交到每个人手里
BitCPM-CANN 的全系列模型权重现已开源,HuggingFace 和 ModelScope 都可以下载。
当内存价格还在涨,当"内存墙"还没被打破,当端侧厂商还在纠结成本和性能的平衡——这套方案给了一个不妥协的答案:
不用增加物理内存,不用接受暴涨的成本,不用降低模型能力。
换个"文字系统",问题就解了。
你觉得端侧 AI 的下一步,会是手机上跑大模型,还是大模型倒逼手机硬件升级?欢迎留言聊聊。
写在最后
当所有人都在云端拼算力时,有人选择了一条更难的路——在单张芯片上把效率榨到极致。BitCPM-CANN 的意义,不仅在于 6 倍的显存红利,更在于它证明了:在国产算力底座上,也能诞生引领世界的范式。换一套"文字系统",问题就解了。
关注「六一的AI人生记录仪」
记录 AI 时代的每天。从业者的眼睛,普通人的话。
夜雨聆风