谷歌油门踩到底,笔记本电脑本地部署大模型, MTP 加速版来了

大家好，我是 Ai 学习的老章

谷歌这次又把油门踩到底，Gemma 4 QAT 检查点直接发了——E2B 内存压到 1GB 以内，26B MoE 用 16GB 就能在自己电脑上跑起来，本地部署党直接起立鼓掌

先说背景，Gemma 4 系列（之前老章也水过几篇）发布两个月，谷歌持续在加料：先有 MTP（多 token 预测）做推理加速，几天前刚补了 12B 这个尺寸，把 E4B 和 26B MoE 之间的窟窿堵上

这次发的 QAT（Quantization-Aware Training，量化感知训练）才是真正给「跑在自己电脑上」这件事打开了大门

QAT 的玩法和大家熟悉的 PTQ（训练后量化）不一样，它是把量化过程直接揉进训练里，让模型从一开始就为压缩而生，最后压完精度损失比 PTQ 小一大截

谷歌这次放出了两套权重：

核心亮点：

这部分是这次发布最有意思的地方，谷歌为移动端单独定制了一套量化 schema，不是简单把 Q4_0 套上，而是从 4 个维度重新设计：

下面这张图把 4 个维度的协同关系画清楚了：

静态激活（Static activations）：常规模型推理时还要现场算 scale 参数，浪费算力，谷歌干脆在训练阶段就把这些值预先算好，跑在手机芯片上直接省一道工序
通道级量化（Channel-wise quantization）：把压缩数据结构跟移动加速器的硬件设计对齐，手机原生算法直接吃，不用走慢的兼容路径
目标 2-bit 量化（Targeted 2-bit）：把生成 token 的那部分层激进压到 2-bit，但核心推理层保留更高精度——舍存储不舍智商
Embedding 和 KV cache 优化：词表和短期记忆这俩内存大头单独压，让长对话不至于撑爆内存

简单说就是：该省的死命省，该留的不动，手机芯片跑得动还跑得快

如果你只用文本，把视觉/音频编码器关掉，E2B 直接 1GB 以内启动，这事在两个月前还属于「想都别想」级别

最快的玩法依然是 Ollama，命令照着抄就行：

# 边缘小模型（笔记本/手机）ollama run gemma4:e2bollama run gemma4:e4b# 工作站本地推理ollama run gemma4:12bollama run gemma4:26bollama run gemma4:31b

LM Studio 也已经第一时间支持，点几下就能下载

GGUF 拿来给 llama.cpp 直接吃，compressed tensors 给 vLLM 直接吃，剩下的不带量化的 checkpoint 自己转想要的格式

参数三件套（官方推荐）：

temperature = 1.0top_p = 0.95top_k = 64

上下文长度看模型规格：

硬件门槛 Unsloth 那边给了张更接地气的表（RAM + VRAM 总和或统一内存）：

也就是说：

谷歌这次直接把生态打包给齐了，等于发布即生产可用：

场景	推荐工具
llama.cpp / GGUF 玩家	直接拉 Q4_0 GGUF
桌面端图形界面	LM Studio、Ollama
边缘端部署	LiteRT-LM（谷歌自家轻量运行时）
浏览器内推理	Transformers.js + ONNX
服务化部署	vLLM、SGLang
Apple Silicon	MLX 社区版本
微调党	Hugging Face Transformers + Unsloth

Unsloth 这帮哥们儿不让谷歌一个人嗨，他们发现一个很反直觉的事：

❝
把官方 QAT BF16 直接转成 llama.cpp 的 Q4_0 格式，精度反而会掉一截——因为 llama.cpp 用 F16 scale，而 QAT 训练时用的是 BF16 scale，两边对齐不上

举个具体的例子，26B-A4B 直接转 Q4_0 拿到的 top-1 准确率只有 70.2%，Unsloth 用动态量化方法手动对齐后做到了 85.6%（提升 15.6 个点），而且文件还小了 200MB

下面这张图是 Unsloth 的可视化，我看了之后只能说他们是真在抠细节：

体积对比也很猛，拿原始 BF16 当基线看：

模型	QAT GGUF	原始 BF16	节省比例
E2B	2.62 GB	9.31 GB	71.86%
E4B	4.22 GB	15.1 GB	72.05%
12B	6.72 GB	23.8 GB	71.76%
26B-A4B	14.2 GB	50.5 GB	71.88%
31B	17.3 GB	61.4 GB	71.82%

整整砍了 72%，还想要更稳，Unsloth 的命名是 UD-Q4_K_XL，比单纯 q4_0 更值得收

实测心得：

本地大模型部署党：这次必须升级，特别是 16GB 内存机器上以前根本碰不动 26B 级别，现在 MoE 帮你把活的参数控制在 4B，体感速度也跟上来了
手机端开发者：移动 QAT 把内存压到 1GB，配 LiteRT-LM，能跑出真正端侧能用的体验
二次量化别裸转：直接把 QAT 权重转成 llama.cpp Q4_0 会丢精度，要么用谷歌官方放的 GGUF，要么直接拉 Unsloth 的 UD 系列

不太满意的地方也得说：

总的来说，这是 Gemma 4 这波最有诚意的一次更新，把「小模型能跑」变成了「大模型也能在你电脑上跑」，配合 MTP 和 12B 那两次更新看，谷歌在「Gemma 落地到每个开发者电脑上」这件事上是真上心了

老章给这次发布打 95 分，扣的 5 分留给以后看 mobile 格式生态铺得快不快