乐于分享
好东西不私藏

你的下一个 AI 助手,可能藏在手机里离线跑 Gemma 4

你的下一个 AI 助手,可能藏在手机里离线跑 Gemma 4

谷歌发布 Gemma 4 那天,官方博客里有一句话值得被放大打印出来贴在墙上:

“The 2B model offers best-in-class performance for its size and is optimized for on-device use.”

On-device use。设备端运行。翻译得直白一点:在你的手机上跑,不需要联网的那种

这句话放在一篇充斥着技术参数的公告里并不显眼,但它才是 Gemma 4 身上最有想象空间的那条线索。过去半个月,开发者们已经把 E2B 和 E4B 这两个移动端量化版本塞进了手机,各种实测数据陆续浮出水面。今天我们不聊参数内卷,就聊聊这些实测结果到底说了什么,以及它离你手里的那台手机还有多远。

一、Gemma 4 带来了什么,官方是这么说的

先花一点篇幅,把谷歌官方博客里的核心信息梳理清楚。Gemma 4 这次发布了多个版本,包括面向移动端优化的 E2B 和 E4B 量化版,以及更大规模的 26B 和 31B 版本。

官方给出的关键能力升级有三项:

多模态。Gemma 系列第一次支持视觉输入。以前你拍张照片问 AI 上面写了什么,照片得先上传到服务器。现在不用了,模型就在手机里,图片从摄像头到芯片再到输出答案,全程不需要离开你的设备。

128K 上下文窗口。博客的措辞是”process and reason over extensive information”。大约 200 页 PDF 的量,一次扔进去,它能从头读到尾。

工具调用。“Function calling enables Gemma 4 to interact with external tools and APIs.”AI 不只是聊天,还能伸手操作你手机里的其他工具——设闹钟、写备忘录、查地图,理论上都可以通过一句离线指令完成。

博客还提到,谷歌与MediaPipe合作优化了移动端和 IoT 设备的运行效率,模型在TPU上训练,同时支持NVIDIA H100。开源的权重第一时间登上了 Hugging Face、Ollama、Keras 和 PyTorch。

谷歌官方也公布了一组基准测试数据,把几个版本的底牌亮了出来:

▲ Gemma 4 各版本基准测试对比。E2B/E4B 为移动端量化版本,在多语言问答上表现接近上一代 27B 模型,但在数学和科学推理上与旗舰版本差距明显。(数据来源:Google Official Blog)

从这张表里能读出几件事:E2B 和 E4B 这两个为移动端准备的量化版本,在多语言问答(MMMLU)上分别拿到 60% 和 69.4% 的分数,与上一代 Gemma 3 的 27B 版本(67.6%)互有高低。但在数学推理(AIME 2026)和科学知识(GPQA Diamond)这类硬核任务上,小尺寸模型和 31B 大哥之间的差距肉眼可见。

这其实很诚实。谷歌没打算让你在手机里跑一个爱因斯坦,它想给你的是一把随身携带的瑞士军刀——不重,但关键时刻能顶上用场。

以上是官方给出的承诺。下面我们看看这些承诺落到手机上,到底兑现了几分。

二、实测来了:Gemma 4 在手机上的真实样子

承载这次实测体验的,是谷歌自己推出的一个 App——AI Edge Gallery。它在 iOS 和 Android 应用商店都能下载,下载之后在 App 内选择 Gemma 4 的 E2B 或 E4B 模型,等模型文件下载完成,就可以关掉 Wi-Fi 和蜂窝数据,开始真正的离线对话了。

先说最直观的体感。

速度:不快,但够用

在搭载骁龙 8 Gen 3 的安卓旗舰机上,E4B 模型的推理速度大约在每秒10 个 token左右。什么概念?一句话三五秒能出完,聊天节奏跟正常打字差不多,不会让你产生“它是不是卡死了”的焦虑。iPhone 15 Pro 上的速度略快一些,社区反馈在18-22 token/秒之间。如果你用的是中端机型,速度会明显下降,但依然能跑。

多模态:能用,而且真的离线

这是 Gemma 4 最让人惊喜的部分。打开 AI Edge Gallery 里的Ask Image功能,对着杂志封面拍一张,它能准确读出标题和主要文字;对着地铁站出口指示图拍一张,它能告诉你应该往哪个方向走。整个过程在飞行模式下完成,照片没有上传到任何地方。

当然,它的图像理解能力还没到云端大模型那种“看懂梗图笑点”的水平。复杂 OCR 会有遗漏,画面细节丰富时偶尔会抓不住重点。但作为一个完全离线运行的小模型,这个表现已经足够让人们对它的实用性产生期待。

短板:轻量不意味着“不占地方”

实测中暴露的第一个问题是内存占用。官方说移动端模型轻量,但 E4B 在 4-bit 量化后依然需要大约5-6GB 的运行内存。这意味着如果你的手机是 8GB RAM 以下的中低端机型,后台多开几个 App 再切回来,模型可能已经被系统杀掉了。根据 AI Edge Gallery 应用在商店页面的说明,安卓设备需运行 Android 12 及以上系统,并建议至少 6GB RAM;iPhone 端则需要 15 Pro 或更新机型。

第二个问题是推理能力。从官方公布的基准测试就能看出,E2B 和 E4B 在数学、编程、科学知识等需要深度推理的任务上,与旗舰版本差距明显。它擅长的是信息提取、格式转换、简单问答,而不是多步推理和复杂计算。你用它是为了离线总结文档、识别图片文字、记录语音转文字,这些它能干。但如果你指望它帮你解一道奥数题,那还是联网用 Gemini 吧。

第三个问题是使用连续性。在 AI Edge Gallery 里,语音转录功能目前只支持 30 秒以内的音频;每次返回主界面或切换应用,模型有概率需要重新加载,那十几秒的等待时间相当消磨耐心。

三、Gemma 4 想做的,不是手机里的“最强模型”

把这些优缺点拼在一起,Gemma 4 的轮廓就清晰了。

它不是来挑战云端大模型的。它不拼写诗,不拼奥数,不拼长程逻辑推理。它拼的是“没网也能用”“数据不出手机”

这两件事听起来朴实,但落地到具体场景里,价值是实在的。飞机起飞前最后五分钟,你想查一下落地城市的天气和接机口信息,Gemma 4 能在离线状态下帮你从之前保存的行程单 PDF 里把信息抓出来。深夜写日记,不想把私人情绪喂给云端服务器,开飞行模式对着 Gemma 4 说一段话,它能帮你转成文字并提炼要点。出国旅游没买流量包,对着餐厅菜单拍一张,它能告诉你哪几道菜不含过敏原。

这些场景都不是科幻,是 AI Edge Gallery 里已经能跑通的体验。Gemma 4 的使命不是成为最聪明的那个,而是成为最常在线的那个——在没有信号的地下室、在流量告急的旅途、在一切你不想把数据交出去的时刻,它是那个依然醒着的助手。

四、现在,你可以这样摸到它

如果你读到这里,对“手机里跑一个离线 AI”这件事产生了兴趣,下面三条路径供你选。

零门槛体验:AI Edge Gallery

在 iOS App Store 或 Google Play 搜索“AI Edge Gallery”,下载后进入 Settings 下载 Gemma 4 E2B 或 E4B 模型。下载完成后关闭网络,在 Ask Image 里拍张照片,或者在 AI Chat 里聊几句,感受一下离线 AI 的真实响应速度。

电脑端本地运行:Ollama

终端输入ollama run gemma4:2b,模型会自动下载。关掉 Wi-Fi,和它对话,体验和手机端类似的离线交互。

手机端集成:MediaPipe 示例

关注 Google AI Edge 的官方 GitHub,后续会有更完善的移动端集成示例放出。开发者可以把它嵌入自己的应用,普通用户则需要再等一等,等第一批内嵌 Gemma 4 的 App 上架。

写在最后

Gemma 4 的移动端首秀,算不上完美。它有内存焦虑,有推理短板,有交互上的毛刺。但它在做一件正确的事:把 AI 从云端的笼子里放出来,让它住进你的手机里

这件事的意义,或许要等到某一天,你在地下三层的停车场里,对着手机问了一句“刚才那个车位号是多少”,而它在断网状态下准确回答了你——那一刻你会突然意识到,AI 已经不是某个需要付费订阅的云端服务了,它变成了手机里一个安静的、随时可用的本地功能。

Gemma 4 在努力让 AI 变成手机的下一代“基础能力”。

参考资料

Google Official Blog:Gemma 4: Bringing developer-first, lightweight models to the community

Google AI Edge Gallery 官方应用实测

Hugging Face 社区gemma-4-2b模型页开发者评测

Arm 官方博客:Accelerating Gemma 4 on Arm CPUs