事情是这样的。
6月1号,Google 的营销副总裁 Marvin Chow 在官方博客上发了一篇文章,标题叫「How We Used Gemini to Build Google I/O 2026」。

我一开始以为就是那种常规的公关稿,讲几句「AI 赋能创意」之类的漂亮话。结果点进去一看,信息量大得离谱。
这篇文章详细复盘了 Google 团队是怎么用自家 AI 工具,从零开始构建整个 I/O 2026 大会的。不是说「我们用了 AI 帮忙」,而是具体到了每一个工具、每一个环节、每一个工作流。
而且最让我觉得有意思的一点是,他们今年 I/O 的开场短片,主角是一个手工木偶。
你没看错,科技公司全年最重要的大会,开场放的第一个视频,是用毛绒管道清洁器做的 TPU 芯片木偶。
这反差也太大了吧。。。
一个手工木偶,怎么被 AI 变成电影
这部短片叫「TPU Training Day」,讲的是几个 TPU 芯片在 I/O 大会前紧张训练的故事。
角色的表演是用真实的木偶和简单的3D动画捕捉的,为什么不用纯AI生成?因为团队要对镜头和构图保持完全的创意控制,你用提示词让AI生成一个镜头,出来的东西大概方向是对的,但木偶表演中那些微妙的、不完美的动作质感,AI凭空造不出来。
所以他们的思路很有意思,人负责表演,AI负责「美化」。
具体怎么做的呢?团队先用 Nano Banana(这个我等下会展开讲)从原始拍摄素材生成风格化的首帧画面。然后在 Google AI Studio 里搭了个自定义工具,批量测试这些 AI 生成的帧在视觉上是否一致。最后,用 Gemini Omni 和其他实验模型,把基础动画和风格化帧融合,提升到电影级的画面质感。
整个流程中有一个设计原则让我印象特别深,AI 管道被刻意设计成会保留木偶表演中那些「微小的人类瑕疵」。
你可以想想这是多反直觉的一件事,我们在聊 AI 的时候,99%的时间在说怎么让它更完美、更精准、更不出错。但这个团队反其道而行之,他们让 AI 学会「不要修掉那些不完美」。
因为这些不完美,恰恰是手工木偶电影的灵魂。
说实话,光这一个短片背后的工作流,就够我消化很久了。但 Marvin Chow 的博客还没完,接下来他讲到品牌视觉的部分,同样离谱。
让 AI 设计 logo,但每次都是人说了算
I/O 2026 的视觉标识是一个四色渐变系统,重叠的透明度、互锁的图标、动态的色彩流动,这个设计上了主题演讲的大屏、实体标牌、数字应用,贯穿了整个大会。

而这个设计,是跟 AI 一起做的。
团队把过去五年的 I/O 品牌指南和视觉回顾全部喂给 Gemini 模型,让它在理解品牌基因的基础上做探索。一开始出来的东西不行,这也是意料之中的,AI 对「品牌调性」这种东西的理解还很粗糙。
但有意思的是接下来他们做的事,他们没有放弃 AI,而是开始做「微实验」。把 AI 的输出拿回来,人工给反馈,再把反馈连同修正方向一起喂回给 Nano Banana,让它重新生成,一轮一轮地迭代。
这个过程中人的角色不是「操作员」,更像是一个创意总监。AI 是那个出方案的 junior designer,人是那个说「这个方向不对,往那边试试」的人。
具体到图标设计上,团队用了一个提示词来驱动 Nano Banana。

「一个由多彩圆点组成漩涡状的极简扁平矢量图标,极简主义,扁平设计,明亮有活力,暗色模式,UI,UX,应用图标,插画,I/O 品牌感」
最终,平面 2D 图标能动态转化为超纹理 3D 图标,如果你看了今年 I/O 的视觉,那种既扁平又有材质感的矛盾风格,就是这么来的。
我自己看到这里的时候,脑子里冒出来的一个想法是,这不就是设计师们一直在做的事吗?只是以前是跟人类 junior 设计师改稿,现在是跟 AI 改稿。工具变了,但「审美判断」这个东西,还是牢牢攥在人手里。
水母当指挥、纸板盒打游戏、AI 给你拉花
讲完视觉,Marvin Chow 进入了第三个板块,沉浸体验。这块信息量最大,但也是最让我起鸡皮疙瘩的部分。
用水母做音乐
I/O 大会正式开始前,会场会有一段暖场音乐,今年的这段音乐,不太一样。
Google 团队找到蒙特雷湾水族馆,合作了一个叫「Jellectronica」的项目,用水族馆里的月亮水母来实时生成电子乐。
他们用 Google Colab 训练了一个 YOLO8 视觉模型,然后把它部署到 Google 的 Coral NPU 芯片上,实时追踪水母在水箱里的运动轨迹。水母游到低音区域多的时候,低音就更响更 energetic,水母散开的时候,音乐也跟着变稀疏。
等于说,这群水母就是一支乐队的指挥,不对,它们就是乐队本身。
音乐本身是用 Google 的 Flow Music 和 Lyria API 生成的,团队还在 Google Antigravity(这个我后面还会提到,是 Google 今年刚发布的智能体编程平台)上用 vibe coding 的方式搭了一个「大规模音轨生成器」,能自动批量生成低音、和弦、旋律、鼓的音轨。
我寻思着你要是跟一个十年前的音乐制作人说,未来的某一天,你可以跟一个水族馆合作,让水母来实时指挥音乐,然后用 AI 批量炸音轨,他大概会觉得你在写科幻小说。
一个可以无限玩下去的游戏
第二个案例是一个叫「Infinite Scaler」的游戏。
这个游戏的概念很骚,玩家在游戏里输入的提示词,会实时变成游戏关卡。你说「一个全是甜甜圈的太空站」,AI 就给你生成一个甜甜圈太空站主题的关卡。
技术栈大概是这样,用户输入提示词,Gemini API 生成关卡方案,Nano Banana 根据方案生成精灵表,就是游戏中角色和场景的贴图素材。然后前景元素再送回 Nano Banana 生成法线贴图、粗糙度贴图和发光贴图,让 2D 素材在光照下看起来有 3D 的深度感。最后纹理映射到 WebGL 渲染的 3D 纸板盒上,加入一个全球玩家共享的世界堆栈。
所以你在游戏里看到的所有关卡,都是真实的、来自世界各地的其他玩家刚刚用提示词生成的。
玩游戏从「玩别人设计的关卡」变成了「你想象的任何东西都能立刻变成关卡」。
这玩意让我想起小时候玩马里奥制造,当时觉得自己设计关卡已经够自由了。但现在这个游戏把你设计关卡的门槛从「你需要会操作编辑器」直接降到了「你会打字就行」。
让 AI 给你做一杯拿铁
第三个体验案例是在会场搞了一个「Antigravity Coffee Co.」快闪咖啡店。

这不是普通的咖啡摊,你走进去,可以用一个 App 自己设计拿铁上的拉花图案,你描述你想要什么,AI 帮你生成图案,然后现场的咖啡师照着做出来。
更骚的是,这个 App 的一部分功能,是来参会的开发者自己在现场用 Google Antigravity 写出来的。
整个 App 的技术架构也值得说一下,用了 Flutter + A2UI 协议来做生成式界面,意思是你跟 App 交互的时候,界面不是写死的,而是根据你的行为实时变化的,有 AI 在后台动态决定下一步该显示什么。Firebase 做前后端的桥接,Cloud Functions 和 Firestore 处理后端逻辑。
一个咖啡店的 App,背后的技术栈复杂度不亚于一个正经的互联网产品。但用户感受到的只有一件事,「卧槽,我能自己做一杯咖啡拉花了」。
每个演讲者,都有一张 AI 画的「身份证」
然后是创意互动板块,主要是两个小细节。但往往是这种小东西,最能看出一家公司对 AI 的态度。
演讲者标题卡
今年 I/O 的每位演讲者上台前,大屏幕会显示一张专属的 AI 生成标题卡,不是那种千篇一律的模板,而是融入了每个人特点的定制画面。
博客里举了一个例子。Google 的 VP Josh Woodward 的标题卡,画面是他骑着 Chrome 浏览器的那个小恐龙(就是你没网的时候玩的那个)然后扣了一个篮。
我先停一下,Chrome Dino 扣篮???这是什么离谱的街头篮球 x 浏览器的 crossover。
制作流程是这样的,Nano Banana Pro 先生成一批「素材参考表」,比如这个人的照片、他的代表性产品、一些跟他相关的视觉元素。然后团队用这些素材做故事板,加入更多个人细节,接着在 Google Flow 里用 Veo 来原型化动作和生成动画片段,比如那个扣篮的动作。Gemini Omni 负责处理「复杂的体育动作」(这个短语出现在 Google 的官方博客里,单独拎出来看有种奇怪的幽默感)。
最后一步是把生成的视频素材做合成和时间重映射,变成一张干净利落的标题卡片。
坦率的讲,整个过程就是 AI 负责出素材和做动画,人负责判断什么是对的、怎么组合最好看。
一颗贴纸的诞生
除了标题卡,会场还有一个互动贴纸游戏。
玩法很简单,一个网页应用,屏幕上会不断掉落各种提示词,蓝莓、迪斯科球、激光、木头,一百多种随机的词。你要控制一个安卓小机器人,在20秒内接住两个你想要的提示词。也可以直接点「手气不错」,让系统随机配对。
选好两个词之后,后端的 Nano Banana 会把这俩词融合成一个定制的 3D I/O 贴纸。
博客里给了两个例子,纯金华夫饼做的 3D I/O 标志,和橡皮糖质感的 I/O 主板。

然后这些设计会在现场直接被打印出来,做成真正的贴纸让你带走。
从线上交互到线下实物,整个流程不到一分钟。我要是去参会的人,光这一个摊我就能玩一下午。
所以,Google 到底想说什么
写到这里,我把博客里提到的所有 AI 工具拉了一张表,你可以感受一下这一场大会到底用了多少东西。
Nano Banana 系列负责所有图像生成,从木偶的风格化帧到品牌图标到贴纸。Gemini Omni 负责电影级的画面提升和复杂动画;Lyria 3 包揽了从水母音乐到游戏原声的所有配乐;Veo 做视频动作原型;Google Antigravity 被用来写代码,水母音轨生成器、Infinite Scaler 游戏、咖啡店 App,都是在上面用智能体编码搭出来的;Google AI Studio 做快速原型验证;Gemini API 驱动了游戏的关卡生成;Flutter + Firebase 撑起了咖啡店的整个技术后台,连 Google Colab 和 Coral NPU 都被拿来训练水母追踪模型。
一张表看下来,你会意识到一件事,Google 的 AI 全家桶,不是放在 PPT 里给你看的。他们是真拿自己的产品,办了全年最重要的一场会。
这里面传递的信号其实很简单,如果这套工具能撑起一场世界级的科技大会,那用来做个 App、出个设计、剪个视频、写首配乐,绰绰有余。
但我觉得比「AI 工具很能打」更重要的,是另一个信号。
你回头看每一个案例,木偶短片里,人控制镜头和表演,AI 只负责风格化渲染。品牌设计里,人决定什么方向是对的方向,AI 负责不停地出方案。水母音乐里,艺术家负责概念和创意,AI 负责把水母的运动翻译成声音和批量生成音轨,演讲者卡片里,人做创意判断和最终合成,AI 负责生成素材和动画。
没有一个环节是「AI 全自动完成了一切」,每一个环节都是人类创作者在主导,AI 在做那些繁琐的、重复的、靠人力堆时间的事。
其实就是,AI 帮你把脏活累活干了,让你把时间花在只有你能做的事上。
做判断、做审美、做创意。
我自己写这篇文章的时候也在想,我一个做内容的,跟这些搞视觉的、搞音乐的、搞游戏的创作者比起来,其实离 AI 的生产线还更远一些。人家已经在用 AI 做电影了,我还在纠结 AI 写出来的句子有没有「人味」。这种感觉,有点像别人都开上电动车了,你还在研究怎么让马跑得更快,愚钝如我。
但换个角度想,Google 的 VP 写这篇博客,我觉得不只是为了展示技术肌肉。更重要的,是给整个行业看一个参考答案,「AI 工具投入真实生产」这件事,到底是什么样子的。
不是替代,是放大。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
>/ 作者:秀秀
夜雨聆风