
一、引言
2026年5月20日凌晨,Google I/O开发者大会开幕。发布内容很密集:Omni的世界模型视频生成、Gemini 3.5 Flash的性能跃迁、Android Halo的人机交互新范式。
但如果只选一个最值得长期关注的产品,我的答案不用犹豫:Gemini Spark。
不是因为它最炫。是因为它代表了一种结构性的变化:AI助手从被动的「请求-响应」工具,变成了7×24小时持续运行的自主Agent。
不是PPT概念,是有VM、有状态持久化、有安全策略、有Cron调度的工程现实。
下面从产品定义、技术架构、核心特性、竞品对比和未来趋势五个维度来拆开看。
二、Gemini Spark是什么
2.1 产品定位
Gemini Spark是Google DeepMind推出的云端常驻个人AI智能体,目前在同类产品中还没有直接对标。
和此前所有AI助手的根本区别是:Spark不需要你主动发起对话。它跑在Google Cloud专属虚拟机上,你合上笔记本、关掉手机屏幕,它照常工作。
Google I/O上给Spark的定位是「全天候个人AI助理」。实际价值直白得多:替你读邮件、查日程、写汇报、追进度、发提醒。你不用盯着它,它做完会通知你。
一句话概括:给AI配了一台永不关机的云服务器。
2.2 底层驱动模型
Spark运行在Gemini 3.5 Flash上,Google在本次I/O同步发布的新模型。选Flash而不是Pro,不是预算问题,是场景问题:
| 4倍 | ||
| 多轮快速决策 |
一个永续Agent每完成一个任务,模型需要推理5到20次(工具调用前后各一次决策)。每次推理3秒,串行总延迟30到60秒。推理速度翻4倍,每次0.75秒,总延迟压到7到15秒。对「帮我查收件箱有没有紧急邮件」这种日常任务,15秒和60秒的体验差距是决定性的。
还有成本。一个7×24在线的Agent一天跑几百上千次推理,单次推理贵一毛钱,月成本就差出几千块。Flash在能力和成本之间找到了Agent场景的那个甜点。
2.3 调度框架:Antigravity 2.0

Spark的运行时底座是Antigravity 2.0,Google同期发布的Agent调度平台。核心能力四项:
Goal Persistence
:你下达的任务不会因为关掉对话窗口就丢了,Agent记着所有未完成目标,持续追踪进度
多Agent动态编排
:能协调数十甚至上百个子Agent并行干活。发布会的Demo里,Antigravity 2.0调度93个子Agent,12小时从零构建了一个可运行的操作系统内核,总消耗26亿Token,API成本不到1000美元
Cron定时触发
:不只是等着你发指令,到时间了自己启动任务
声明式安全策略
:权限边界写在Manifest配置文件里,不是藏在代码的if-else深处
三、技术架构深度拆解

3.1 三层架构设计
从I/O披露的信息和Antigravity 2.0 SDK文档来看,Spark的架构分三层:
Layer 1:Agent Harness(代理容器)
这是Spark的运行时「操作系统」,本质上是个有状态长时任务调度器。核心循环长这样:
循环执行: 从目标存储中取下一个未完成目标 目标为空 → 切到监控模式(监听收件箱、日历、触发器) 目标存在 → 拆成子任务序列 对每个子任务: 需确认 → 请求用户确认,等待回复 否则 → 执行 更新进度 checkpoint() → 持久化当前状态
checkpoint()这步是整个系统最关键的设计。没它,VM重启后Agent彻底失忆。有它,宿主机宕了,新VM拉起来从上次断点继续跑。
Layer 2:Orchestration Layer(编排层)
Antigravity 2.0支持多Agent并行协同。拿「策划社区派对」举例:
在Antigravity Runtime内部,每个Agent跑在独立goroutine上(底层基础设施用Go写的),Agent间通信走内部消息传递而不是HTTP,延迟很低。
Layer 3:MCP Gateway(工具连接层)
Spark原生打通了Google Workspace(Gmail / Calendar / Drive / Docs / Sheets / Slides),同时通过MCP(Model Context Protocol)连接第三方服务。Canva做设计、OpenTable订位、Instacart买菜,在Agent眼里都是一个MCP Endpoint。
MCP是Anthropic 2025年底开源的协议。Google正式拥抱它,基本意味着MCP正在成为Agent工具连接的事实标准。
3.2 从Stateless到Stateful
Spark和现有AI助手在设计哲学上的差异,这张表说得最清楚:
| 有状态(Stateful) | ||
| 天级(持续运行) | ||
| 异步(它做完通知你) | ||
| 跨会话持久化 | ||
| 主动监控、定时执行 |
一个比喻:过去的AI助手是出租车,你上车说目的地,到了下车,司机开走。Spark是全职司机,24小时在车库待命,你没上车的时候他也在洗车加油检查胎压。
3.3 声明式安全架构
一个能读邮件、改日历、花你钱的Agent,安全做不好就是灾难。Spark的设计很清醒:
三级权限梯度
硬性调用上限
每个Goal最多50次工具调用,超了强制终止并报告。防止死循环和被恶意注入后无限请求API。
通配符模式匹配
require_user_confirm: ["payment_*"]:任何以payment_打头的工具调用都要确认。不需要枚举每个支付接口,一个pattern覆盖整类高危操作。
把安全策略从代码逻辑解耦到配置层,非技术用户也能理解和定制Agent的权限边界。这是Spark在工程上最值得借鉴的设计。
四、核心能力与特性

4.1 跨应用自动化
Spark不需要像以前的产品那样用浏览器模拟点击来获取信息,它直接调API:
Gmail里找到关键信息,自动填入Sheets表格
Calendar发现明天有会,从Drive找出相关文档,生成会议简报
检测到订阅账单异常,主动提醒
这种原生API级别的整合深度,第三方Agent框架很难复制。Google手握Gmail、Calendar、Drive这些高频数据入口,是Spark真正的护城河。
4.2 多模态交互
支持语音多指令下发,你可以像聊天一样用自然语言同时派几个任务。文本、图片、文档都能吃进去。
4.3 跨平台覆盖
Android Halo是Google为Spark专门做的手机顶部通知栏,后台Agent跑着什么、进度到哪了,不用打开App就能看到。
4.4 自定义技能
通过Antigravity的斜杠命令来创建自定义Agent行为。已知命令有/goal(连续执行目标)、/schedule(定时任务)、/grill-me(交互式澄清需求),对高级用户开放了不少定制空间。
五、应用场景
5.1 个人生产力
5.2 团队协作
多人场景下可以追踪项目里程碑进度(从邮件和文档里自动提取状态)、自动生成周报分发给团队、协调跨时区会议(综合各方Calendar空闲时段)。
5.3 创意与内容
结合Gemini Omni的多模态生成能力,从一段口述到结构化文档再到配图发布,一条线串下来。市场数据分析报告、行业新闻定时简报,也可以交给它。
六、竞品深度对比
6.1 Agent产品形态
| Cloud VM永续Daemon | |||
| 天级(7×24) | |||
| 异步(做完通知) | |||
| Google生态API级整合 | |||
| 你睡觉时也在工作 |
排个序就是:
Operator < Claude Cowork < Gemini Spark
6.2 各自适用场景
Gemini Spark的舒适区:
绑在Google生态上的重度用户(Gmail + Calendar + Drive深度使用)
需要24小时后台跑任务(邮件监控、信息追踪、定时报告)
「设完就忘」的异步工作流
Claude Cowork的舒适区:
需要直接操控本地桌面软件的开发和设计工作
Pair Programming和代码审查
实时协同创作
ChatGPT Operator的舒适区:
需要操作任意Web界面的通用自动化
非Google生态的Web应用
浏览器表单填写和信息抓取
6.3 工程复杂度
永续Agent要解决的问题:
状态持久化:跨小时的上下文压缩,跨天的记忆管理
故障恢复:VM挂了之后的状态重建,任务进度不丢
资源调度:一台VM跑多个Agent,隔离和调度都要做好
安全隔离:Agent A的数据不能漏给Agent B
长上下文管理:跨天的对话记忆怎么高效压缩和检索
Google选最难的路,因为它手里有别人没有的牌:用户的Gmail、Calendar、Drive。Spark不用像Operator那样靠DOM操作去扒网页信息,它直接调API。这是基础设施层级的竞争差距。
七、未来趋势

7.1 技术演进
短中期(2026-2027):
模型能力继续升级。Gemini 3.5 Pro级别的推理成本降下来后,Agent做复杂决策的准确率会跳一档。结合Gemini Omni的世界模型,视频和语音的综合性任务也能交给Agent。跨设备(手机、电脑、眼镜)协同会更顺滑。MCP生态大概率爆发,大量SaaS服务商会暴露MCP Endpoint。
中长期(2027-2029):
不同用户的Spark之间会直接通信。你的Spark可以直接找同事的Spark协调会议时间、交换信息。Agent会从「被动执行」进化到「主动预判」:在你开口说「我需要」之前,它已经把准备工作做完了。模型还会被个人使用习惯反向训练,形成高度个性化的行为模式。
7.2 商业化路径
$100/月的AI Ultra订阅是基本盘。Workspace企业客户有专属部署选项,B2B利润更高。Antigravity 2.0 SDK开放后,第三方开发者可以构建技能插件,像App Store一样分账。
核心逻辑是习惯锁定:你一旦习惯了24小时在线的AI管家,想切到别的平台,迁移成本非常高。续费率有结构性的保障。
7.3 风险和问题
成本:$100/月跑一台Cloud VM加每天几百上千次推理,Google现在大概率在贴钱。用户规模起来后,单位经济性能不能跑通是个严肃问题。
隐私和安全:Agent要持续读你的邮件、位置、浏览记录、购物习惯。账号被攻破的后果比传统产品严重得多:攻击者不仅能看数据,还能花你的钱。攻击面大了一个数量级。
低打扰悖论:Agent越聪明、越自主,你越不会盯着它。但它一旦犯错,比如把促销邮件误判为账单自动付了款,你可能很久都不会发现。低打扰和有效监督之间怎么平衡,是Spark最底层的设计难题。
生态冷启动:Antigravity SDK刚出,第三方MCP服务目前基本是空白。Google能不能像当年推Android那样发动开发者,还是会重蹈Google+的覆辙,看SDK的开发体验和MCP协议的网络效应扩散有多快。
7.4 行业影响
几个结构性的变化已经在发生:
MCP正在变成Agent时代的HTTP。任何2B SaaS产品如果想让用户的AI代理能找到自己,就该认真考虑暴露一个MCP Endpoint
应用分发的逻辑在变。以前的链条是「用户安装App → 打开App → 操作App」,Agent时代变成「Agent发现服务 → Agent代用户操作 → 用户看结果」。「获客」的含义从抢注意力变成了抢Agent的信任度
Antigravity 2.0把进程管理、状态存储、故障恢复、安全隔离全部打包,跟Docker简化了部署一样,它可能催生一批Agent-First应用
八、结语
Gemini Spark让我想起2007年的iPhone。当年所有厂商都在做「更好的功能手机」,苹果把电脑塞进了口袋。现在所有AI公司都在做「更好的聊天机器人」,Google直接给AI配了一台云服务器,让它自己转。
工程上,Spark给了「永续Agent长什么样」一个高质量的参考答案:三层架构、状态持久化、声明式安全、MCP标准协议。产品上,它把「AI助手」的能力边界重新划了一道:不是等你开口,是替你完成。
当然,发布会Demo永远是完美的。Beta测试的表现、生态建设的速度、成本模型的可持续性,都是真刀真枪的考验。但有一件事不需要等验证:AI产品从「工具」到「代理」的那扇门,Gemini Spark已经推开了。
夜雨聆风