AI工具的实战时刻,Google先打了个样

事情是这样的。

6月1号，Google 的营销副总裁 Marvin Chow 在官方博客上发了一篇文章，标题叫「How We Used Gemini to Build Google I/O 2026」。

我一开始以为就是那种常规的公关稿，讲几句「AI 赋能创意」之类的漂亮话。结果点进去一看，信息量大得离谱。

这篇文章详细复盘了 Google 团队是怎么用自家 AI 工具，从零开始构建整个 I/O 2026 大会的。不是说「我们用了 AI 帮忙」，而是具体到了每一个工具、每一个环节、每一个工作流。

而且最让我觉得有意思的一点是，他们今年 I/O 的开场短片，主角是一个手工木偶。

你没看错，科技公司全年最重要的大会，开场放的第一个视频，是用毛绒管道清洁器做的 TPU 芯片木偶。

这反差也太大了吧。。。

一个手工木偶，怎么被 AI 变成电影

这部短片叫「TPU Training Day」，讲的是几个 TPU 芯片在 I/O 大会前紧张训练的故事。

已关注

关注

重播分享赞

视频详情

角色的表演是用真实的木偶和简单的3D动画捕捉的,为什么不用纯AI生成？因为团队要对镜头和构图保持完全的创意控制,你用提示词让AI生成一个镜头，出来的东西大概方向是对的，但木偶表演中那些微妙的、不完美的动作质感，AI凭空造不出来。

所以他们的思路很有意思，人负责表演，AI负责「美化」。

具体怎么做的呢？团队先用 Nano Banana（这个我等下会展开讲）从原始拍摄素材生成风格化的首帧画面。然后在 Google AI Studio 里搭了个自定义工具，批量测试这些 AI 生成的帧在视觉上是否一致。最后，用 Gemini Omni 和其他实验模型，把基础动画和风格化帧融合，提升到电影级的画面质感。

已关注

关注

重播分享赞

视频详情

整个流程中有一个设计原则让我印象特别深，AI 管道被刻意设计成会保留木偶表演中那些「微小的人类瑕疵」。

你可以想想这是多反直觉的一件事，我们在聊 AI 的时候，99%的时间在说怎么让它更完美、更精准、更不出错。但这个团队反其道而行之，他们让 AI 学会「不要修掉那些不完美」。

因为这些不完美，恰恰是手工木偶电影的灵魂。

说实话，光这一个短片背后的工作流，就够我消化很久了。但 Marvin Chow 的博客还没完，接下来他讲到品牌视觉的部分，同样离谱。

让 AI 设计 logo，但每次都是人说了算

I/O 2026 的视觉标识是一个四色渐变系统，重叠的透明度、互锁的图标、动态的色彩流动，这个设计上了主题演讲的大屏、实体标牌、数字应用，贯穿了整个大会。

而这个设计，是跟 AI 一起做的。

团队把过去五年的 I/O 品牌指南和视觉回顾全部喂给 Gemini 模型，让它在理解品牌基因的基础上做探索。一开始出来的东西不行，这也是意料之中的，AI 对「品牌调性」这种东西的理解还很粗糙。

但有意思的是接下来他们做的事，他们没有放弃 AI，而是开始做「微实验」。把 AI 的输出拿回来，人工给反馈，再把反馈连同修正方向一起喂回给 Nano Banana，让它重新生成，一轮一轮地迭代。

这个过程中人的角色不是「操作员」，更像是一个创意总监。AI 是那个出方案的 junior designer，人是那个说「这个方向不对，往那边试试」的人。

具体到图标设计上，团队用了一个提示词来驱动 Nano Banana。

「一个由多彩圆点组成漩涡状的极简扁平矢量图标，极简主义，扁平设计，明亮有活力，暗色模式，UI，UX，应用图标，插画，I/O 品牌感」

最终，平面 2D 图标能动态转化为超纹理 3D 图标，如果你看了今年 I/O 的视觉，那种既扁平又有材质感的矛盾风格，就是这么来的。

我自己看到这里的时候，脑子里冒出来的一个想法是，这不就是设计师们一直在做的事吗？只是以前是跟人类 junior 设计师改稿，现在是跟 AI 改稿。工具变了，但「审美判断」这个东西，还是牢牢攥在人手里。

水母当指挥、纸板盒打游戏、AI 给你拉花

讲完视觉，Marvin Chow 进入了第三个板块，沉浸体验。这块信息量最大，但也是最让我起鸡皮疙瘩的部分。

用水母做音乐

I/O 大会正式开始前，会场会有一段暖场音乐，今年的这段音乐，不太一样。

Google 团队找到蒙特雷湾水族馆，合作了一个叫「Jellectronica」的项目，用水族馆里的月亮水母来实时生成电子乐。

已关注

关注

重播分享赞

视频详情

他们用 Google Colab 训练了一个 YOLO8 视觉模型，然后把它部署到 Google 的 Coral NPU 芯片上，实时追踪水母在水箱里的运动轨迹。水母游到低音区域多的时候，低音就更响更 energetic，水母散开的时候，音乐也跟着变稀疏。

等于说，这群水母就是一支乐队的指挥，不对，它们就是乐队本身。

音乐本身是用 Google 的 Flow Music 和 Lyria API 生成的，团队还在 Google Antigravity（这个我后面还会提到，是 Google 今年刚发布的智能体编程平台）上用 vibe coding 的方式搭了一个「大规模音轨生成器」，能自动批量生成低音、和弦、旋律、鼓的音轨。

我寻思着你要是跟一个十年前的音乐制作人说，未来的某一天，你可以跟一个水族馆合作，让水母来实时指挥音乐，然后用 AI 批量炸音轨，他大概会觉得你在写科幻小说。

一个可以无限玩下去的游戏

第二个案例是一个叫「Infinite Scaler」的游戏。

已关注

关注

重播分享赞

视频详情

这个游戏的概念很骚，玩家在游戏里输入的提示词，会实时变成游戏关卡。你说「一个全是甜甜圈的太空站」，AI 就给你生成一个甜甜圈太空站主题的关卡。

技术栈大概是这样，用户输入提示词，Gemini API 生成关卡方案，Nano Banana 根据方案生成精灵表，就是游戏中角色和场景的贴图素材。然后前景元素再送回 Nano Banana 生成法线贴图、粗糙度贴图和发光贴图，让 2D 素材在光照下看起来有 3D 的深度感。最后纹理映射到 WebGL 渲染的 3D 纸板盒上，加入一个全球玩家共享的世界堆栈。

所以你在游戏里看到的所有关卡，都是真实的、来自世界各地的其他玩家刚刚用提示词生成的。

玩游戏从「玩别人设计的关卡」变成了「你想象的任何东西都能立刻变成关卡」。

这玩意让我想起小时候玩马里奥制造，当时觉得自己设计关卡已经够自由了。但现在这个游戏把你设计关卡的门槛从「你需要会操作编辑器」直接降到了「你会打字就行」。

让 AI 给你做一杯拿铁

第三个体验案例是在会场搞了一个「Antigravity Coffee Co.」快闪咖啡店。

这不是普通的咖啡摊，你走进去，可以用一个 App 自己设计拿铁上的拉花图案，你描述你想要什么，AI 帮你生成图案，然后现场的咖啡师照着做出来。

更骚的是，这个 App 的一部分功能，是来参会的开发者自己在现场用 Google Antigravity 写出来的。

整个 App 的技术架构也值得说一下，用了 Flutter + A2UI 协议来做生成式界面，意思是你跟 App 交互的时候，界面不是写死的，而是根据你的行为实时变化的，有 AI 在后台动态决定下一步该显示什么。Firebase 做前后端的桥接，Cloud Functions 和 Firestore 处理后端逻辑。

一个咖啡店的 App，背后的技术栈复杂度不亚于一个正经的互联网产品。但用户感受到的只有一件事，「卧槽，我能自己做一杯咖啡拉花了」。

每个演讲者，都有一张 AI 画的「身份证」

然后是创意互动板块，主要是两个小细节。但往往是这种小东西，最能看出一家公司对 AI 的态度。

演讲者标题卡

今年 I/O 的每位演讲者上台前，大屏幕会显示一张专属的 AI 生成标题卡，不是那种千篇一律的模板，而是融入了每个人特点的定制画面。

博客里举了一个例子。Google 的 VP Josh Woodward 的标题卡，画面是他骑着 Chrome 浏览器的那个小恐龙（就是你没网的时候玩的那个）然后扣了一个篮。

已关注

关注

重播分享赞

视频详情

我先停一下，Chrome Dino 扣篮？？？这是什么离谱的街头篮球 x 浏览器的 crossover。

制作流程是这样的，Nano Banana Pro 先生成一批「素材参考表」，比如这个人的照片、他的代表性产品、一些跟他相关的视觉元素。然后团队用这些素材做故事板，加入更多个人细节，接着在 Google Flow 里用 Veo 来原型化动作和生成动画片段，比如那个扣篮的动作。Gemini Omni 负责处理「复杂的体育动作」（这个短语出现在 Google 的官方博客里，单独拎出来看有种奇怪的幽默感）。

最后一步是把生成的视频素材做合成和时间重映射，变成一张干净利落的标题卡片。

坦率的讲，整个过程就是 AI 负责出素材和做动画，人负责判断什么是对的、怎么组合最好看。

一颗贴纸的诞生

除了标题卡，会场还有一个互动贴纸游戏。

玩法很简单，一个网页应用，屏幕上会不断掉落各种提示词，蓝莓、迪斯科球、激光、木头，一百多种随机的词。你要控制一个安卓小机器人，在20秒内接住两个你想要的提示词。也可以直接点「手气不错」，让系统随机配对。

选好两个词之后，后端的 Nano Banana 会把这俩词融合成一个定制的 3D I/O 贴纸。

博客里给了两个例子，纯金华夫饼做的 3D I/O 标志，和橡皮糖质感的 I/O 主板。

然后这些设计会在现场直接被打印出来，做成真正的贴纸让你带走。

从线上交互到线下实物，整个流程不到一分钟。我要是去参会的人，光这一个摊我就能玩一下午。

所以，Google 到底想说什么

写到这里，我把博客里提到的所有 AI 工具拉了一张表，你可以感受一下这一场大会到底用了多少东西。

Nano Banana 系列负责所有图像生成，从木偶的风格化帧到品牌图标到贴纸。Gemini Omni 负责电影级的画面提升和复杂动画；Lyria 3 包揽了从水母音乐到游戏原声的所有配乐；Veo 做视频动作原型；Google Antigravity 被用来写代码，水母音轨生成器、Infinite Scaler 游戏、咖啡店 App，都是在上面用智能体编码搭出来的；Google AI Studio 做快速原型验证；Gemini API 驱动了游戏的关卡生成；Flutter + Firebase 撑起了咖啡店的整个技术后台，连 Google Colab 和 Coral NPU 都被拿来训练水母追踪模型。

一张表看下来，你会意识到一件事，Google 的 AI 全家桶，不是放在 PPT 里给你看的。他们是真拿自己的产品，办了全年最重要的一场会。

这里面传递的信号其实很简单，如果这套工具能撑起一场世界级的科技大会，那用来做个 App、出个设计、剪个视频、写首配乐，绰绰有余。

但我觉得比「AI 工具很能打」更重要的，是另一个信号。

你回头看每一个案例，木偶短片里，人控制镜头和表演，AI 只负责风格化渲染。品牌设计里，人决定什么方向是对的方向，AI 负责不停地出方案。水母音乐里，艺术家负责概念和创意，AI 负责把水母的运动翻译成声音和批量生成音轨，演讲者卡片里，人做创意判断和最终合成，AI 负责生成素材和动画。

没有一个环节是「AI 全自动完成了一切」，每一个环节都是人类创作者在主导，AI 在做那些繁琐的、重复的、靠人力堆时间的事。

其实就是，AI 帮你把脏活累活干了，让你把时间花在只有你能做的事上。

做判断、做审美、做创意。

我自己写这篇文章的时候也在想，我一个做内容的，跟这些搞视觉的、搞音乐的、搞游戏的创作者比起来，其实离 AI 的生产线还更远一些。人家已经在用 AI 做电影了，我还在纠结 AI 写出来的句子有没有「人味」。这种感觉，有点像别人都开上电动车了，你还在研究怎么让马跑得更快，愚钝如我。

但换个角度想，Google 的 VP 写这篇博客，我觉得不只是为了展示技术肌肉。更重要的，是给整个行业看一个参考答案，「AI 工具投入真实生产」这件事，到底是什么样子的。

不是替代，是放大。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

>/ 作者：秀秀