Gemini Spark:当AI助手拥有了一台永不关机的云服务器

一、引言

2026年5月20日凌晨，Google I/O开发者大会开幕。发布内容很密集：Omni的世界模型视频生成、Gemini 3.5 Flash的性能跃迁、Android Halo的人机交互新范式。

但如果只选一个最值得长期关注的产品，我的答案不用犹豫：Gemini Spark。

不是因为它最炫。是因为它代表了一种结构性的变化：AI助手从被动的「请求-响应」工具，变成了7×24小时持续运行的自主Agent。

不是PPT概念，是有VM、有状态持久化、有安全策略、有Cron调度的工程现实。

下面从产品定义、技术架构、核心特性、竞品对比和未来趋势五个维度来拆开看。

二、Gemini Spark是什么

2.1 产品定位

Gemini Spark是Google DeepMind推出的云端常驻个人AI智能体，目前在同类产品中还没有直接对标。

和此前所有AI助手的根本区别是：Spark不需要你主动发起对话。它跑在Google Cloud专属虚拟机上，你合上笔记本、关掉手机屏幕，它照常工作。

Google I/O上给Spark的定位是「全天候个人AI助理」。实际价值直白得多：替你读邮件、查日程、写汇报、追进度、发提醒。你不用盯着它，它做完会通知你。

一句话概括：给AI配了一台永不关机的云服务器。

2.2 底层驱动模型

Spark运行在Gemini 3.5 Flash上，Google在本次I/O同步发布的新模型。选Flash而不是Pro，不是预算问题，是场景问题：

维度	Gemini 3.5 Pro	Gemini 3.5 Flash

单次推理深度	更强	稍弱
输出Token速度	基准线	4倍
推理成本	较高	显著更低
Agent场景适配	单轮复杂推理	多轮快速决策

一个永续Agent每完成一个任务，模型需要推理5到20次（工具调用前后各一次决策）。每次推理3秒，串行总延迟30到60秒。推理速度翻4倍，每次0.75秒，总延迟压到7到15秒。对「帮我查收件箱有没有紧急邮件」这种日常任务，15秒和60秒的体验差距是决定性的。

还有成本。一个7×24在线的Agent一天跑几百上千次推理，单次推理贵一毛钱，月成本就差出几千块。Flash在能力和成本之间找到了Agent场景的那个甜点。

2.3 调度框架：Antigravity 2.0

Spark的运行时底座是Antigravity 2.0，Google同期发布的Agent调度平台。核心能力四项：

Goal Persistence

：你下达的任务不会因为关掉对话窗口就丢了，Agent记着所有未完成目标，持续追踪进度

多Agent动态编排

：能协调数十甚至上百个子Agent并行干活。发布会的Demo里，Antigravity 2.0调度93个子Agent，12小时从零构建了一个可运行的操作系统内核，总消耗26亿Token，API成本不到1000美元

Cron定时触发

：不只是等着你发指令，到时间了自己启动任务

声明式安全策略

：权限边界写在Manifest配置文件里，不是藏在代码的if-else深处

三、技术架构深度拆解

3.1 三层架构设计

从I/O披露的信息和Antigravity 2.0 SDK文档来看，Spark的架构分三层：

Layer 1：Agent Harness（代理容器）

这是Spark的运行时「操作系统」，本质上是个有状态长时任务调度器。核心循环长这样：

循环执行：从目标存储中取下一个未完成目标目标为空 → 切到监控模式（监听收件箱、日历、触发器）目标存在 → 拆成子任务序列对每个子任务：需确认 → 请求用户确认，等待回复否则 → 执行更新进度 checkpoint() → 持久化当前状态

checkpoint()这步是整个系统最关键的设计。没它，VM重启后Agent彻底失忆。有它，宿主机宕了，新VM拉起来从上次断点继续跑。

Layer 2：Orchestration Layer（编排层）

Antigravity 2.0支持多Agent并行协同。拿「策划社区派对」举例：

Agent	职责	操作对象

Agent A	追踪邀请回复	Gmail
Agent B	生成宣传物料	Slides
Agent C	维护物品清单	Sheets
主Agent	协调进度，汇总报告	—

在Antigravity Runtime内部，每个Agent跑在独立goroutine上（底层基础设施用Go写的），Agent间通信走内部消息传递而不是HTTP，延迟很低。

Layer 3：MCP Gateway（工具连接层）

Spark原生打通了Google Workspace（Gmail / Calendar / Drive / Docs / Sheets / Slides），同时通过MCP（Model Context Protocol）连接第三方服务。Canva做设计、OpenTable订位、Instacart买菜，在Agent眼里都是一个MCP Endpoint。

MCP是Anthropic 2025年底开源的协议。Google正式拥抱它，基本意味着MCP正在成为Agent工具连接的事实标准。

3.2 从Stateless到Stateful

Spark和现有AI助手在设计哲学上的差异，这张表说得最清楚：

维度	传统AI助手（ChatGPT、Claude、原Gemini）	Gemini Spark

状态模型	无状态（Stateless）	有状态（Stateful）
生命周期	秒级（一次请求-响应）	天级（持续运行）
交互模式	同步（你发消息，它回消息）	异步（它做完通知你）
任务记忆	关会话就没了	跨会话持久化
主动能力	零（完全被动）	主动监控、定时执行

一个比喻：过去的AI助手是出租车，你上车说目的地，到了下车，司机开走。Spark是全职司机，24小时在车库待命，你没上车的时候他也在洗车加油检查胎压。

3.3 声明式安全架构

一个能读邮件、改日历、花你钱的Agent，安全做不好就是灾难。Spark的设计很清醒：

三级权限梯度

级别	操作类型	示例	用户参与

自主执行	只读	查看邮件、搜索Drive	无需确认
通知后执行	低风险写入	草拟邮件、创建文档	执行后告知
必须确认	高风险	发送邮件、金额交易、删除数据	等用户确认

硬性调用上限

每个Goal最多50次工具调用，超了强制终止并报告。防止死循环和被恶意注入后无限请求API。

通配符模式匹配

require_user_confirm: ["payment_*"]：任何以payment_打头的工具调用都要确认。不需要枚举每个支付接口，一个pattern覆盖整类高危操作。

把安全策略从代码逻辑解耦到配置层，非技术用户也能理解和定制Agent的权限边界。这是Spark在工程上最值得借鉴的设计。

四、核心能力与特性

4.1 跨应用自动化

Spark不需要像以前的产品那样用浏览器模拟点击来获取信息，它直接调API：

Gmail里找到关键信息，自动填入Sheets表格

Calendar发现明天有会，从Drive找出相关文档，生成会议简报

检测到订阅账单异常，主动提醒

这种原生API级别的整合深度，第三方Agent框架很难复制。Google手握Gmail、Calendar、Drive这些高频数据入口，是Spark真正的护城河。

4.2 多模态交互

支持语音多指令下发，你可以像聊天一样用自然语言同时派几个任务。文本、图片、文档都能吃进去。

4.3 跨平台覆盖

平台	接入方式	时间线

Gemini App（移动端）	原生应用	首发
Chrome浏览器	应用内集成	2026年夏季
macOS	本地文件交互权限	2026年夏季
Android	Android Halo状态通知层	规划中

Android Halo是Google为Spark专门做的手机顶部通知栏，后台Agent跑着什么、进度到哪了，不用打开App就能看到。

4.4 自定义技能

通过Antigravity的斜杠命令来创建自定义Agent行为。已知命令有/goal（连续执行目标）、/schedule（定时任务）、/grill-me（交互式澄清需求），对高级用户开放了不少定制空间。

五、应用场景

5.1 个人生产力

场景	Spark怎么处理

工作日报	Gmail和Calendar里抽出当日关键事件，自动生成日报
会议准备	检测日历会议，从Drive搜相关文档，提炼核心要点
邮件管理	分类优先级，草拟回复，你确认后发送
学习辅助	按学习计划从Web和Drive收集资料，生成学习指南
订阅管理	监控账单邮件，发现异常扣费主动提醒

5.2 团队协作

多人场景下可以追踪项目里程碑进度（从邮件和文档里自动提取状态）、自动生成周报分发给团队、协调跨时区会议（综合各方Calendar空闲时段）。

5.3 创意与内容

结合Gemini Omni的多模态生成能力，从一段口述到结构化文档再到配图发布，一条线串下来。市场数据分析报告、行业新闻定时简报，也可以交给它。

六、竞品深度对比

6.1 Agent产品形态

目前市面上三个代表性Agent产品，三种完全不同的路线：

维度	Gemini Spark	Claude Cowork	ChatGPT Operator

厂商	Google	Anthropic	OpenAI
运行模型	Cloud VM永续Daemon	桌面应用内Agent	浏览器沙箱操作者
生命周期	天级（7×24）	会话级（关应用就没了）	任务级（完成即结束）
交互方式	异步（做完通知）	同步（实时协同）	半同步（需要旁站盯着）
核心优势	Google生态API级整合	直接操控本地桌面应用	通用Web界面操作
生态整合	Gmail/Docs/Sheets + MCP	文件系统 + Shell + MCP	浏览器网页操作
定价	$100/月（AI Ultra）	$20/月（Pro）	$200/月（Pro）
自主时间窗口	你睡觉时也在工作	你开终端时陪你工作	你盯着时才工作

排个序就是：

Operator < Claude Cowork < Gemini Spark

6.2 各自适用场景

Gemini Spark的舒适区：

绑在Google生态上的重度用户（Gmail + Calendar + Drive深度使用）

需要24小时后台跑任务（邮件监控、信息追踪、定时报告）

「设完就忘」的异步工作流

Claude Cowork的舒适区：

需要直接操控本地桌面软件的开发和设计工作

Pair Programming和代码审查

实时协同创作

ChatGPT Operator的舒适区：

需要操作任意Web界面的通用自动化

非Google生态的Web应用

浏览器表单填写和信息抓取

6.3 工程复杂度

永续Agent要解决的问题：

状态持久化：跨小时的上下文压缩，跨天的记忆管理

故障恢复：VM挂了之后的状态重建，任务进度不丢

资源调度：一台VM跑多个Agent，隔离和调度都要做好

安全隔离：Agent A的数据不能漏给Agent B

长上下文管理：跨天的对话记忆怎么高效压缩和检索

Google选最难的路，因为它手里有别人没有的牌：用户的Gmail、Calendar、Drive。Spark不用像Operator那样靠DOM操作去扒网页信息，它直接调API。这是基础设施层级的竞争差距。

七、未来趋势

7.1 技术演进

短中期（2026-2027）：

模型能力继续升级。Gemini 3.5 Pro级别的推理成本降下来后，Agent做复杂决策的准确率会跳一档。结合Gemini Omni的世界模型，视频和语音的综合性任务也能交给Agent。跨设备（手机、电脑、眼镜）协同会更顺滑。MCP生态大概率爆发，大量SaaS服务商会暴露MCP Endpoint。

中长期（2027-2029）：

不同用户的Spark之间会直接通信。你的Spark可以直接找同事的Spark协调会议时间、交换信息。Agent会从「被动执行」进化到「主动预判」：在你开口说「我需要」之前，它已经把准备工作做完了。模型还会被个人使用习惯反向训练，形成高度个性化的行为模式。

7.2 商业化路径

$100/月的AI Ultra订阅是基本盘。Workspace企业客户有专属部署选项，B2B利润更高。Antigravity 2.0 SDK开放后，第三方开发者可以构建技能插件，像App Store一样分账。

核心逻辑是习惯锁定：你一旦习惯了24小时在线的AI管家，想切到别的平台，迁移成本非常高。续费率有结构性的保障。

7.3 风险和问题

成本：$100/月跑一台Cloud VM加每天几百上千次推理，Google现在大概率在贴钱。用户规模起来后，单位经济性能不能跑通是个严肃问题。

隐私和安全：Agent要持续读你的邮件、位置、浏览记录、购物习惯。账号被攻破的后果比传统产品严重得多：攻击者不仅能看数据，还能花你的钱。攻击面大了一个数量级。

低打扰悖论：Agent越聪明、越自主，你越不会盯着它。但它一旦犯错，比如把促销邮件误判为账单自动付了款，你可能很久都不会发现。低打扰和有效监督之间怎么平衡，是Spark最底层的设计难题。

生态冷启动：Antigravity SDK刚出，第三方MCP服务目前基本是空白。Google能不能像当年推Android那样发动开发者，还是会重蹈Google+的覆辙，看SDK的开发体验和MCP协议的网络效应扩散有多快。

7.4 行业影响

几个结构性的变化已经在发生：

MCP正在变成Agent时代的HTTP。任何2B SaaS产品如果想让用户的AI代理能找到自己，就该认真考虑暴露一个MCP Endpoint

应用分发的逻辑在变。以前的链条是「用户安装App → 打开App → 操作App」，Agent时代变成「Agent发现服务 → Agent代用户操作 → 用户看结果」。「获客」的含义从抢注意力变成了抢Agent的信任度

Antigravity 2.0把进程管理、状态存储、故障恢复、安全隔离全部打包，跟Docker简化了部署一样，它可能催生一批Agent-First应用

八、结语

Gemini Spark让我想起2007年的iPhone。当年所有厂商都在做「更好的功能手机」，苹果把电脑塞进了口袋。现在所有AI公司都在做「更好的聊天机器人」，Google直接给AI配了一台云服务器，让它自己转。

工程上，Spark给了「永续Agent长什么样」一个高质量的参考答案：三层架构、状态持久化、声明式安全、MCP标准协议。产品上，它把「AI助手」的能力边界重新划了一道：不是等你开口，是替你完成。

当然，发布会Demo永远是完美的。Beta测试的表现、生态建设的速度、成本模型的可持续性，都是真刀真枪的考验。但有一件事不需要等验证：AI产品从「工具」到「代理」的那扇门，Gemini Spark已经推开了。