小心!你手机里的AI模型,正在被这个开源工具拆解

导读

5月25日，面壁智能联合清华大学开源 BitCPM-CANN——中国首个完全基于华为昇腾训练的 1.58-bit 端侧大模型。8B 参数，性能保留 97%，一个旗舰手机就能跑。它不是"降精度凑合用"，而是把参数的"文字系统"彻底换了一套。

6倍的显存红利，意味着什么？

一个 8B 参数的大模型，用传统 FP16 精度存下来需要约 14GB 内存。加上操作系统和其他应用，16GB 的旗舰手机，装不下。

BitCPM-CANN 把这个数字砍到了原来的六分之一。14GB 变 2.4GB。

同样的内存容量，能承载 6 倍的模型量。8B 模型的推理，可以轻松跑在当前主流旗舰手机上。

每个参数从 16 位浮点压缩到只有三个取值：-1、0、+1。传统模型用 65536 种可能的数值表达信息，它只用 3 种。

面壁把这套方案命名为 BitCPM（Bit Compressed Pretrained Models），基于 MiniCPM 家族的模型底座。它不是训练完再压缩，而是在训练阶段就按"三种笔画"来书写——就像一个人从一开始就被训练只用点横竖写字，而不是写完后把多余的笔画擦掉。

带来的两个直接结果：训练时的内存占用大幅降低，单卡能训更大的模型；推理时的内存需求同步下降，手机上跑 8B 模型变成现实。

核心数据

参数精度：16-bit → 1.58-bit（仅3种取值）

模型大小：14GB → 2.4GB（砍到 1/6）

能力保留率：95.7% ~ 97.2%

1B、3B、8B 这三档主力模型，能力保留率 95.7% 到 97.2%。8B 模型在 ARC、cmmlu、gsm8k 等关键任务上，保留全精度的 93%~99%。

内存墙，和不可能三角

为什么端侧 AI 一直跑不快？

2026 年的半导体市场，呈现出一场极致的撕裂。HBM 供不应求，DDR5 价格涨幅预期被调至 280%。高盛预测存储芯片市场正在经历一轮超级周期。

对端侧设备厂商来说，这是一道选择题。要么接受暴涨的 BOM 成本，压缩本就微薄的利润；要么削减内存配置，让 AI 功能沦为营销噱头。

更要命的是冯·诺依曼架构下的"内存墙"。计算单元和存储单元物理分离，数据需要频繁搬运。芯片 TOPS 数值再高，内存带宽喂不饱，大部分算力空转。很多端侧芯片标称几十 TOPS，实际推理时利用率只有 40%~60%，因为数据搬运成了瓶颈。

有趣的是，高通的新一代芯片平台已经支持 2-bit 原生推理。硬件赛道已经铺好了，但市场上一直缺乏真正可落地的低比特权重模型。不是不想用，是没有好用的。

这就是端侧 AI 的不可能三角：更强的模型能力、更低的硬件成本、更小的功耗体积，三者几乎无法兼顾。

面壁把这把锁撬开了——不是加内存，是改参数。

从摩尔斯电码到三值模型

1844 年，塞缪尔·摩尔斯从华盛顿向巴尔的摩发出了人类历史上第一封电报：WHAT HATH GOD WROUGHT。

这条信息只用了一种符号系统——点（·）和划（—）。没有字母表，没有数字系统，没有语法规则，只有两种基础符号。但就是这两个简单的符号，让信息跨越了数百公里，从有线电报一直用到无线电通信时代。

BitCPM-CANN 的 1.58-bit 三值模型，走的正是同一条路。

传统 FP16 大模型像一套完备的语言系统，字母、单词、语法、标点一切齐全。表达力强，但内存占用大。而三值模型把参数压缩到只有三种取值，就像摩尔斯电码只用点和划传递一切信息。

你可能会想：三种取值能表达什么？

摩尔斯电码用两种符号就能写出一部长篇小说。三值模型用三种权重值，就能记住 97% 的知识。

关键区别在于：传统 FP16 的"表达冗余"是为通用性服务的——它要能处理所有可能的数值组合，而三值模型只学习那些真正重要的模式。就像你不需要每天用到 26 个字母的所有组合，而是在有限的词汇库中高效交流。

这个思路的颠覆性在于：解决端侧 AI 的问题，不一定非要靠台积电的 3nm 工艺、海力士的 HBM4、或者更贵的 LPDDR6。有时候换个"文字系统"，比升级硬件更有效。

从 CUDA 到昇腾：不再绕道走

BitCPM-CANN 的第二个价值，是证明了国产算力平台不仅能训大模型，还能训极低比特大模型。

国产 AI 芯片长期面临一个尴尬：硬件参数可圈可点，但支撑芯片运转的"文字体系"始终在别人手里。CUDA 就像一套成熟的拉丁字母系统，好用，但受制于人。

很多国产大模型的训练流程是这样的：在 NVIDIA 集群上完成核心验证，再费时费力地迁移到昇腾平台。一次迁移可能需要 3 到 6 个月，还要适配算子差异、精度对齐、性能调优。

BitCPM-CANN 不一样。从底层算子到训练框架，再到模型输出，整条链路都在华为昇腾上原生完成。基于 MindSpeed × Megatron-LM 框架，嵌入可插拔的 QAT 并行线性层，统一模型存储格式，还支持 32K 长序列训练。训练吞吐仅下降 5%，几乎不增加额外成本。

国产 NPU 第一次拥有了属于自己的 1.58-bit 低比特训练栈。后续所有想在昇腾上做低比特训练的团队，都可以站在这个底座上直接起步。OpenBMB 将整套方案集成到自家框架中，全链路开源。

全链路原生国产

训练框架：MindSpeed × Megatron-LM

模型底座：MiniCPM 家族

训练吞吐：仅下降 5%

DeepSeek 榨干万卡，面壁榨干单卡

行业内有一个有意思的对比。

DeepSeek 和面壁智能被业内称为两家"国内最会做架构改进的公司"，但战场截然不同。

DeepSeek 紧抓云侧大算力场景，在数千张 H800 集群上榨干万卡价值；面壁聚焦单张端侧芯片，在功耗、散热、访存带宽的严苛约束下追求极致效率。

这不是规模上的竞争，是密度上的竞争。

在行业对极低位宽量化训练持观望态度时，面壁就选定了 ≤2-bit 的路线。2024 年发表 1-bit 大模型论文，很多人觉得这是学术探索，离落地很远。但面壁从那时起就搭建了自己的端侧实验平台，每提升 1% 的推理效率，都要在真实手机上反复验证。

为了在有限资源下训练大模型，面壁自研了分布式训练框架 BMTrain。32 张卡甚至更少就能启动百亿级模型训练。这是 MiniCPM 系列能用小参数打出大能力的底层保障。

BitCPM-CANN 的开源，把这种密度变成了产业可用的基础设施。0.5B、1B、3B、8B 四档完整模型，和同尺寸全精度模型做 1:1 对齐评测，一次性推出来。不再是孤立的 demo，而是一套完整的产品矩阵——手机厂商、汽车厂商、终端设备商可以直接按需求选用。

笔交到每个人手里

BitCPM-CANN 的全系列模型权重现已开源，HuggingFace 和 ModelScope 都可以下载。

当内存价格还在涨，当"内存墙"还没被打破，当端侧厂商还在纠结成本和性能的平衡——这套方案给了一个不妥协的答案：

不用增加物理内存，不用接受暴涨的成本，不用降低模型能力。

换个"文字系统"，问题就解了。

你觉得端侧 AI 的下一步，会是手机上跑大模型，还是大模型倒逼手机硬件升级？欢迎留言聊聊。

写在最后

当所有人都在云端拼算力时，有人选择了一条更难的路——在单张芯片上把效率榨到极致。BitCPM-CANN 的意义，不仅在于 6 倍的显存红利，更在于它证明了：在国产算力底座上，也能诞生引领世界的范式。换一套"文字系统"，问题就解了。

关注「六一的AI人生记录仪」

记录 AI 时代的每天。从业者的眼睛，普通人的话。