Google 把 AI 的「眼睛」和「耳朵」拆了,然后发现它看得更清楚了

Google 把 AI 的「眼睛」和「耳朵」拆了，然后发现它看得更清楚了

6 月 3 号，Google 发了个新模型。不是那种需要 8 张 H100 才能跑的巨无霸，是一个 12B 参数、能在你笔记本上跑的多模态模型——Gemma 4 12B。

听起来好像没什么了不起的？12B 的模型满地都是，Qwen 有，Llama 有，Mistral 也有。但这次 Google 干了一件反直觉的事：它把模型的「眼睛」和「耳朵」给拆了。

不是阉割功能。是换了一种更聪明的方式让模型去看和听。

你笔记本上终于有个「刚好够用」的 AI 了

先说一个背景。Gemma 4 系列今年 4 月发布的时候，阵容是这样的：两个移动端小模型（E2B 和 E4B，2B 和 4B 参数），两个大家伙（26B MoE 和 31B Dense）。中间缺了一大块——一个不大不小、刚好能在普通电脑上跑、又不牺牲太多能力的模型。

12B 就是这个填空答案。

16GB 内存就能跑。不是 VRAM，是系统内存。这意味着你手上那台 MacBook Air 或者 ThinkPad，不用外接显卡，就能本地跑一个能看图片、能听音频、能做多步推理的 AI。

Google 说它的 benchmark 表现「接近 26B MoE 模型」。具体数字：GPQA Diamond 78.8，MMLU Pro 77.2，LiveCode Bench 72，DocVQA 94.9。跟上一代 Gemma 3 27B 比——一个比它大一倍多的模型——12B 全面碾压。

Reddit r/LocalLLaMA 上有个人说：「This might actually be one of the most exciting models I've heard about in a long time.」底下 12 个 upvote，没人反驳。

这种反应我能理解。本地 AI 社区等一个「刚好够用」的模型等了太久了。

把编码器拆了，让 LLM 自己学会「看」

这才是这篇文章真正想聊的东西。

传统的多模态模型怎么工作的？文本输入直接给 LLM 处理，但图片和音频不行——LLM 本质上是个语言模型，它不认像素也不认声波。所以你得在前面加「编码器」：一个单独的视觉 Transformer 把图片切成 patch、提取特征、压缩成 LLM 能理解的向量格式；一个音频编码器把声波转成频谱图再编码。

Gemma 4 原来的视觉编码器有 5.5 亿参数，15 到 27 层 Transformer。音频编码器 3.05 亿参数。这些编码器是独立训练的，跑推理的时候得先把图片/音频喂给编码器，编码器处理完了，LLM 才能开始干活。

这就带来几个问题。第一，延迟——编码器不跑完，LLM 干等着。第二，参数冗余——编码器本身占了不少参数但只做一件事。第三，微调麻烦——你要微调多模态能力，通常只能动 LLM 部分，编码器是锁死的。

Gemma 4 12B 的做法：全拆了。

视觉编码器被替换成一个轻量级嵌入模块——单层矩阵乘法 + 位置嵌入 + LayerNorm。参数量从 5.5 亿直接砍到 3500 万。原来需要 15-27 层 Transformer 干的活，现在变成了一步矩阵乘法。

具体怎么做的？图片被切成 48×48 像素的 patch，每个 patch 有 48×48×3=6912 个像素值，通过一个 6912×3840 的矩阵投影到 Gemma 的嵌入维度。光这个投影就占了约 2600 万参数——几乎就是整个新「编码器」的全部家当。

位置信息呢？不用 2D-RoPE（因为没有 attention 层给你注入位置编码），而是用了两个坐标矩阵——一个存 X 坐标，一个存 Y 坐标——根据每个 patch 的位置去查表，把对应的位置嵌入加到视觉 token 上。

音频更狠。音频编码器直接没了。40 毫秒的音频窗口，16kHz 采样率，640 个原始振幅值，一个线性投影直接映射到 token 空间。就这。

Maarten Grootendorst 在他那篇非常漂亮的图解文章里写了一句我很喜欢的话：「The removal of the encoders places the burden of making sense of all outputs on the LLM.」

翻译成人话：以前是编码器帮 LLM 把图片和音频「翻译」好再递过去，现在是直接把原材料扔给 LLM——你自己看着办。

这不是偷懒，是让 LLM 更早开始思考

有一个容易被忽略的细节。

编码器不只是占参数，它还会卡流水线。传统的多模态推理流程是这样的：图片进来 → 视觉编码器处理（LLM 空转等待）→ 编码器输出 → 传给 LLM → LLM 开始生成。

编码器处理一张图可能需要几百毫秒。这几百毫秒里 LLM 完全闲着。

拆掉编码器之后，图片 patch 经过单步矩阵乘法就能直接进入 LLM 的注意力层。LLM 几乎可以立刻开始处理视觉信息。Google 官方说法是「the LLM backbone to take over visual processing」——视觉理解不再是前置步骤，而是和文本理解交织在一起进行的。

这跟人看东西有点像。你看到一幅画，不是先用一个专门的「图像分析模块」处理完了再把结果交给「语言模块」去描述。你的大脑是同时进行的——视觉皮层和语言区域在并行工作。

当然，这不是免费的午餐。编码器虽然笨重，但它经过了专门的视觉预训练，对图像语义的理解是结构化的。拆掉之后，LLM 得从头学起——在训练阶段学会怎么从原始像素中提取语义。Google 显然觉得这个 tradeoff 值。

MTP 加持：不只聪明，还快

Gemma 4 12B 是第一个出厂自带 MTP（Multi-Token Prediction）的 Gemma 模型。

MTP 是什么？简单说就是让模型一次预测多个 token，而不是传统的一个一个往外蹦。具体实现是 speculative decoding 的变体——一个小型「草稿模型」快速预测几个候选 token，然后主模型一次性验证。如果草稿对了，省了好几轮推理；如果错了，也没浪费，主模型可以从纠正点继续。

Google 5 月份给 Gemma 4 其他型号也发了 MTP 支持，但那是可选插件。12B 是第一个把 MTP 作为默认配置的。效果？推理速度最高 3 倍提升。

一个 12B 模型，在笔记本上跑，有接近 26B 模型的 benchmark 分数，推理速度还快 2-3 倍。这个组合在 2025 年是不存在的。

Google 在下什么棋？

别天真了。Google 开源 Gemma 不是因为突然变成了开源慈善家。

Apache 2.0 许可证、Hugging Face 直接下载、Ollama 一键部署、LM Studio 图形界面——这套组合拳打得太舒服了。开发者用 Gemma 4 12B 在本地跑实验、搭原型，零成本零门槛。等哪天业务量上来了，本地跑不动了，很自然地就会想：去 Google Cloud 上开个 Vertex AI 实例呗，反正模型架构一样，迁移成本几乎为零。

这是 Google 在跟 Meta（Llama）和阿里（Qwen）抢开发者心智。三家都在做同一件事：用开源模型当获客漏斗，云服务才是真正的付费产品。

但话说回来，作为用户，我其实不太在乎他们的商业动机。Apache 2.0 就是 Apache 2.0，你拿去商用、微调、分发，不用问 Google 同不同意。Gemma 4 全系列下载量已经超过 1.5 亿次，这个数字比任何 PR 稿都有说服力。

本地 AI 的「甜点时刻」

写到这里我想起一件事。

去年这个时候，如果你想在本地跑一个像样的多模态模型，基本上得有一张 24GB 显存的显卡。RTX 4090 是标配，没有的话就只能跑纯文本小模型，看图识物想都别想。

一年后的今天，12B 参数、原生多模态、Apache 2.0、16GB 内存就能跑。性能比去年 27B 的模型还强。

这个进步速度，说实话，比我想象的快。

当然，Gemma 4 12B 不是完美的。Reddit 上有人拿它跟 Qwen 3.5 9B 比，8 个 benchmark 里 Qwen 赢了 5 个。Qwen 的参数还更少。但 Qwen 没有原生音频输入，视觉能力依赖传统编码器架构。选哪个取决于你要什么——纯文本推理选 Qwen，多模态选 Gemma。

另外，encoder-free 架构虽然优雅，但 LLM 承担了更多视觉理解的工作，在某些需要精细图像分析的场景（比如医学影像、卫星图），专门的视觉编码器可能还是更可靠。这个方向还需要更多验证。

但大方向是对的。AI 正在从云端走下来，走到你的硬盘里。不是作为一种妥协——「本地版嘛，凑合用」——而是作为一种真正的选择。

Google 的 Olivier Lacombe 在博客里写：「Gemma 4 12B is designed to bring high-performance multimodal intelligence directly to your laptop.」

这句话放在两年前是笑话。放在今天，你打开 LM Studio，下载一个 18GB 的模型文件，等五分钟，然后它真的在你电脑上跑起来了——能聊天、能看图、能听音频、能做推理。

而且不用联网。

写于 2026 年 6 月 5 日

作者：云上小码