Google 把 AI 的「眼睛」和「耳朵」拆了,然后发现它看得更清楚了
6 月 3 号,Google 发了个新模型。不是那种需要 8 张 H100 才能跑的巨无霸,是一个 12B 参数、能在你笔记本上跑的多模态模型——Gemma 4 12B。
听起来好像没什么了不起的?12B 的模型满地都是,Qwen 有,Llama 有,Mistral 也有。但这次 Google 干了一件反直觉的事:它把模型的「眼睛」和「耳朵」给拆了。
不是阉割功能。是换了一种更聪明的方式让模型去看和听。
你笔记本上终于有个「刚好够用」的 AI 了
先说一个背景。Gemma 4 系列今年 4 月发布的时候,阵容是这样的:两个移动端小模型(E2B 和 E4B,2B 和 4B 参数),两个大家伙(26B MoE 和 31B Dense)。中间缺了一大块——一个不大不小、刚好能在普通电脑上跑、又不牺牲太多能力的模型。
12B 就是这个填空答案。
16GB 内存就能跑。不是 VRAM,是系统内存。这意味着你手上那台 MacBook Air 或者 ThinkPad,不用外接显卡,就能本地跑一个能看图片、能听音频、能做多步推理的 AI。
Google 说它的 benchmark 表现「接近 26B MoE 模型」。具体数字:GPQA Diamond 78.8,MMLU Pro 77.2,LiveCode Bench 72,DocVQA 94.9。跟上一代 Gemma 3 27B 比——一个比它大一倍多的模型——12B 全面碾压。
Reddit r/LocalLLaMA 上有个人说:「This might actually be one of the most exciting models I've heard about in a long time.」底下 12 个 upvote,没人反驳。
这种反应我能理解。本地 AI 社区等一个「刚好够用」的模型等了太久了。
把编码器拆了,让 LLM 自己学会「看」
这才是这篇文章真正想聊的东西。
传统的多模态模型怎么工作的?文本输入直接给 LLM 处理,但图片和音频不行——LLM 本质上是个语言模型,它不认像素也不认声波。所以你得在前面加「编码器」:一个单独的视觉 Transformer 把图片切成 patch、提取特征、压缩成 LLM 能理解的向量格式;一个音频编码器把声波转成频谱图再编码。
Gemma 4 原来的视觉编码器有 5.5 亿参数,15 到 27 层 Transformer。音频编码器 3.05 亿参数。这些编码器是独立训练的,跑推理的时候得先把图片/音频喂给编码器,编码器处理完了,LLM 才能开始干活。
这就带来几个问题。第一,延迟——编码器不跑完,LLM 干等着。第二,参数冗余——编码器本身占了不少参数但只做一件事。第三,微调麻烦——你要微调多模态能力,通常只能动 LLM 部分,编码器是锁死的。
Gemma 4 12B 的做法:全拆了。
视觉编码器被替换成一个轻量级嵌入模块——单层矩阵乘法 + 位置嵌入 + LayerNorm。参数量从 5.5 亿直接砍到 3500 万。原来需要 15-27 层 Transformer 干的活,现在变成了一步矩阵乘法。
具体怎么做的?图片被切成 48×48 像素的 patch,每个 patch 有 48×48×3=6912 个像素值,通过一个 6912×3840 的矩阵投影到 Gemma 的嵌入维度。光这个投影就占了约 2600 万参数——几乎就是整个新「编码器」的全部家当。
位置信息呢?不用 2D-RoPE(因为没有 attention 层给你注入位置编码),而是用了两个坐标矩阵——一个存 X 坐标,一个存 Y 坐标——根据每个 patch 的位置去查表,把对应的位置嵌入加到视觉 token 上。
音频更狠。音频编码器直接没了。40 毫秒的音频窗口,16kHz 采样率,640 个原始振幅值,一个线性投影直接映射到 token 空间。就这。
Maarten Grootendorst 在他那篇非常漂亮的图解文章里写了一句我很喜欢的话:「The removal of the encoders places the burden of making sense of all outputs on the LLM.」
翻译成人话:以前是编码器帮 LLM 把图片和音频「翻译」好再递过去,现在是直接把原材料扔给 LLM——你自己看着办。
这不是偷懒,是让 LLM 更早开始思考
有一个容易被忽略的细节。
编码器不只是占参数,它还会卡流水线。传统的多模态推理流程是这样的:图片进来 → 视觉编码器处理(LLM 空转等待)→ 编码器输出 → 传给 LLM → LLM 开始生成。
编码器处理一张图可能需要几百毫秒。这几百毫秒里 LLM 完全闲着。
拆掉编码器之后,图片 patch 经过单步矩阵乘法就能直接进入 LLM 的注意力层。LLM 几乎可以立刻开始处理视觉信息。Google 官方说法是「the LLM backbone to take over visual processing」——视觉理解不再是前置步骤,而是和文本理解交织在一起进行的。
这跟人看东西有点像。你看到一幅画,不是先用一个专门的「图像分析模块」处理完了再把结果交给「语言模块」去描述。你的大脑是同时进行的——视觉皮层和语言区域在并行工作。
当然,这不是免费的午餐。编码器虽然笨重,但它经过了专门的视觉预训练,对图像语义的理解是结构化的。拆掉之后,LLM 得从头学起——在训练阶段学会怎么从原始像素中提取语义。Google 显然觉得这个 tradeoff 值。
MTP 加持:不只聪明,还快
Gemma 4 12B 是第一个出厂自带 MTP(Multi-Token Prediction)的 Gemma 模型。
MTP 是什么?简单说就是让模型一次预测多个 token,而不是传统的一个一个往外蹦。具体实现是 speculative decoding 的变体——一个小型「草稿模型」快速预测几个候选 token,然后主模型一次性验证。如果草稿对了,省了好几轮推理;如果错了,也没浪费,主模型可以从纠正点继续。
Google 5 月份给 Gemma 4 其他型号也发了 MTP 支持,但那是可选插件。12B 是第一个把 MTP 作为默认配置的。效果?推理速度最高 3 倍提升。
一个 12B 模型,在笔记本上跑,有接近 26B 模型的 benchmark 分数,推理速度还快 2-3 倍。这个组合在 2025 年是不存在的。
Google 在下什么棋?
别天真了。Google 开源 Gemma 不是因为突然变成了开源慈善家。
Apache 2.0 许可证、Hugging Face 直接下载、Ollama 一键部署、LM Studio 图形界面——这套组合拳打得太舒服了。开发者用 Gemma 4 12B 在本地跑实验、搭原型,零成本零门槛。等哪天业务量上来了,本地跑不动了,很自然地就会想:去 Google Cloud 上开个 Vertex AI 实例呗,反正模型架构一样,迁移成本几乎为零。
这是 Google 在跟 Meta(Llama)和阿里(Qwen)抢开发者心智。三家都在做同一件事:用开源模型当获客漏斗,云服务才是真正的付费产品。
但话说回来,作为用户,我其实不太在乎他们的商业动机。Apache 2.0 就是 Apache 2.0,你拿去商用、微调、分发,不用问 Google 同不同意。Gemma 4 全系列下载量已经超过 1.5 亿次,这个数字比任何 PR 稿都有说服力。
本地 AI 的「甜点时刻」
写到这里我想起一件事。
去年这个时候,如果你想在本地跑一个像样的多模态模型,基本上得有一张 24GB 显存的显卡。RTX 4090 是标配,没有的话就只能跑纯文本小模型,看图识物想都别想。
一年后的今天,12B 参数、原生多模态、Apache 2.0、16GB 内存就能跑。性能比去年 27B 的模型还强。
这个进步速度,说实话,比我想象的快。
当然,Gemma 4 12B 不是完美的。Reddit 上有人拿它跟 Qwen 3.5 9B 比,8 个 benchmark 里 Qwen 赢了 5 个。Qwen 的参数还更少。但 Qwen 没有原生音频输入,视觉能力依赖传统编码器架构。选哪个取决于你要什么——纯文本推理选 Qwen,多模态选 Gemma。
另外,encoder-free 架构虽然优雅,但 LLM 承担了更多视觉理解的工作,在某些需要精细图像分析的场景(比如医学影像、卫星图),专门的视觉编码器可能还是更可靠。这个方向还需要更多验证。
但大方向是对的。AI 正在从云端走下来,走到你的硬盘里。不是作为一种妥协——「本地版嘛,凑合用」——而是作为一种真正的选择。
Google 的 Olivier Lacombe 在博客里写:「Gemma 4 12B is designed to bring high-performance multimodal intelligence directly to your laptop.」
这句话放在两年前是笑话。放在今天,你打开 LM Studio,下载一个 18GB 的模型文件,等五分钟,然后它真的在你电脑上跑起来了——能聊天、能看图、能听音频、能做推理。
而且不用联网。
写于 2026 年 6 月 5 日
作者:云上小码
夜雨聆风