AI Agent 周刊:Gemma 4 把 Agent 搬到端侧,Google 这步棋值得细看

过去两周，AI Agent 领域最值得关注的动作来自 Google。不是又发了个大模型跑分，而是把完整的 Agent 能力塞进了端侧设备。同时 OpenAI 在安全合规方向继续布局，Veo 3.1 Lite 则让视频生成的成本门槛再降一半。逐个拆解。

Gemma 4：端侧 Agent 这件事，终于有人认真做了

Google DeepMind 4 月 2 日发布的 Gemma 4，表面上是又一个开源模型家族更新，但如果你只关注参数量和 benchmark，就错过了这次发布真正的信号：Google 正在用 Gemma 4 定义「端侧 Agent」的工程范式。

几个关键点：

多步规划和自主行动，不需要微调就能跑。 这不是"端侧能跑个聊天机器人"的程度。Gemma 4 直接支持 multi-step planning 和 autonomous action，也就是说你可以在手机上跑一个能分解任务、调用工具、自主决策的 Agent，而不只是一个问答框。Apache 2.0 协议，商用无压力。

Agent Skills 这个概念值得重点关注。 Google AI Edge Gallery 里新上线的 Agent Skills，是我见过的第一个把「端侧 Agent 工作流」做成可体验产品的尝试。它能做什么？举个例子：你可以给 Agent 挂一个 Wikipedia 查询的 skill，让它在完全离线的情况下，先规划查询策略，再调用技能获取信息，最后组织回答。整个过程全部在设备上完成，不经过云端。

这对实际开发意味着什么？

第一，隐私敏感场景终于有了靠谱的 Agent 方案。 医疗、金融、企业内网——这些场景对数据出端有严格限制，之前要做 Agent 基本只能自己量化部署，踩坑无数。Gemma 4 配合 LiteRT-LM 这个推理库，把这条路铺平了不少。LiteRT-LM 号称提供"简化 API"实现低延迟推理，实测下来确实比之前自己搞 GGML 转换要省心。

第二，离线 Agent 的可用性大幅提升。 代码生成、文档处理、多语言翻译（支持 140+ 语言）——这些能力在断网环境下也能工作。对于做工业巡检、户外作业、边缘计算场景的团队来说，这是实打实的能力补全。

第三，Android AICore 的开发者预览版同步开放了内置 Gemma 4 模型的访问。 这意味着如果你做 Android 应用，可以直接调用系统级的 Agent 能力，不用自己打包模型。对 APK 体积和用户体验都是好事。

我的判断：端侧 Agent 在 2026 年会成为一个独立赛道。 不是说它会替代云端 Agent，而是两者会分化出完全不同的应用场景和技术栈。如果你现在的项目涉及设备端智能，建议尽早拿 Gemma 4 跑几个 POC，熟悉 LiteRT-LM 的开发流程。先发优势在这个领域很值钱，因为端侧部署的工程经验很难靠读文档补齐。

Gemini + MediaPipe：Vibe Coding 进入体感交互时代

这条消息在 AI Agent 圈子里讨论度不高，但我觉得它代表了一个有意思的方向：用大模型生成交互式应用的完整代码，而且是带物理世界感知能力的那种。

Google 在 AI Studio 里新增了一个 showcase gallery，展示用 Gemini + MediaPipe 做体感交互游戏和应用的工作流。具体怎么玩？

你在 AI Studio 里用自然语言描述你想要的应用，比如"做一个体感控制的 Chrome 恐龙跑酷游戏，用 MediaPipe Pose Landmarker 检测玩家跳跃动作"，Gemini 3.1 Pro 几分钟内就能生成一个完整可运行的 Web 应用。包括游戏逻辑、姿态检测、调试面板，全部一步到位。

这里面有几个对 Agent 开发者有启发的点：

MediaPipe 提供的是标准化的感知能力接口。 人脸追踪、手势识别、姿态检测、图像分割——这些能力都是跨平台的，而且针对实时性做过优化。如果你在做需要感知物理世界的 Agent，MediaPipe 是目前最成熟的中间层。 不需要自己训练视觉模型，直接调用就行。

Gemini Canvas 作为原型工具的效率非常高。 传统做法是先写需求文档，再找人开发，再调试。现在的流程是：描述想法 → 生成原型 → 在 AI Studio 里迭代优化 → 导出。对于需要快速验证 Agent 交互方式的场景，这个工作流能省掉大量前期开发时间。

建议关注的场景： 零售门店的客流分析 Agent、工厂产线的质检 Agent、康复训练的动作评估 Agent——这些都是 MediaPipe 感知能力 + Agent 决策能力的天然结合点。之前这类项目的门槛在视觉模型的部署和调优上，现在这个门槛几乎被抹平了。

OpenAI 发布面向青少年的安全策略框架

OpenAI 3 月 24 日发布了 `gpt-oss-safeguard`，一套基于 prompt 的青少年安全策略，供开发者在自己的应用中集成。

这件事的意义不在技术本身，而在于它释放的信号：平台方正在把安全责任向开发者端下沉。

之前的模式是：OpenAI 在模型层面做内容过滤，开发者只管调 API。现在 OpenAI 明确告诉你，针对特定人群（比如未成年人）的安全保护，需要开发者在应用层自己实现。`gpt-oss-safeguard` 提供的是策略模板和最佳实践，但最终的落地执行在你这边。

对 Agent 开发者的实际影响：

如果你的 Agent 产品面向 C 端用户，青少年安全合规现在是必选项，不是加分项。 尤其是教育类、社交类、创意内容类 Agent，不做年龄分级和内容审核，迟早会出问题。
Prompt-based safety 的思路值得借鉴。 与其在 Agent 外面套一层过滤器，不如在 system prompt 层面就把安全策略写进去。这样做的好处是安全逻辑和业务逻辑耦合度低，维护成本也低。
建议把 `gpt-oss-safeguard` 的策略文档通读一遍，不管你用不用 OpenAI 的模型。 里面关于年龄特定风险的分类方式和缓解策略，对接入任何大模型的 Agent 应用都有参考价值。

Veo 3.1 Lite：视频生成成本再降 50%

Google 3 月底发布了 Veo 3.1 Lite，定位是"最具性价比的视频生成模型"。核心数据：成本不到 Veo 3.1 Fast 的一半，速度相同。 支持文生视频和图生视频，支持横屏竖屏，720p/1080p 分辨率，4/6/8 秒时长可选。

同时 Google 宣布 4 月 7 日会进一步降低 Veo 3.1 Fast 的价格。

这对 Agent 开发者意味着什么？视频生成终于可以作为 Agent 的常规工具调用了。

之前视频生成的成本太高，只能用在少数高价值场景。现在成本降到这个水平，很多之前想都不敢想的 Agent 应用可以跑起来了：

营销 Agent 自动生成短视频素材，按不同平台比例批量产出，成本可控
客服 Agent 生成操作演示视频，替代纯文字说明
教育 Agent 根据学习内容动态生成解释视频

可执行建议：如果你的 Agent 产品中有视频生成需求，现在是接入 Veo 3.1 Lite 做技术验证的好时机。 通过 Gemini API 就能调用，在 Google AI Studio 里可以直接测试效果。先用 Lite 版本跑通 pipeline，对质量要求高的场景再切 Fast 版本——这种分级策略能在保证体验的同时控制成本。

本周值得注意的趋势

回看这几条消息，有一个共同的方向越来越清晰：Agent 的基础设施层正在快速成熟。

端侧推理有了 Gemma 4 + LiteRT-LM，感知能力有了 MediaPipe，视频生成有了 Veo 3.1 Lite，安全合规有了 gpt-oss-safeguard。这些都是 Agent 开发中的关键拼图，而且都在朝着"降低门槛、标准化接口"的方向演进。

对个人开发者和小团队来说，现在做 Agent 产品的技术门槛已经降到历史最低点。 瓶颈不再是"能不能做"，而是"做什么场景"和"怎么做到好用"。

下周继续跟进 Veo 3.1 Fast 降价后的实际成本对比，以及 Gemma 4 在端侧部署的实测体验。如果你已经在用这些工具，欢迎留言交流踩坑经验。