乐于分享
好东西不私藏

硬刚OpenAI!谷歌突发重磅计划:Gemini与Veo合体打造“全能AI助手”,看完Youtube拿捏现实!

硬刚OpenAI!谷歌突发重磅计划:Gemini与Veo合体打造“全能AI助手”,看完Youtube拿捏现实!

家人们,AI圈的核军备竞赛又双叒叕加速了!

就在最近,谷歌 DeepMind 掌门人 Demis Hassabis 在一档播客中,抛出了一个足以令所有竞争对手警惕的重磅战略:谷歌计划将地表最强的文字/多模态模型 Gemini 与顶级视频生成模型 Veo 强强融合,目标直指真正的“全能 AI 助手”!

这绝对不是简单的技术缝合,而是 AI 对物理世界理解方式的降维进化。今天,就让我们看透谷歌这局大棋背后的真相。

一、 不只是作图写诗,谷歌想要一个“物理世界向导”

一直以来,我们对 AI 助手的理解都停留在“赛博空间”。但 Hassabis 直接摊牌了:“我们从一开始就把 Gemini 打造成多模态,就是为了实现一个宏大的愿景——构建一个能在现实物理世界中为你提供实质性帮助的通用数字助手。

怎么理解?以前的 AI 给它一张照片,它能告诉你这是什么;但未来的融合体,给它一段视频,它不仅知道怎么生成后续画面,更能深刻理解里面的物理规律、因果关系,甚至在现实中指导你修车、做菜、甚至组装家具!

二、 疯狂“看视频”学习物理规律,Veo 2 背后的秘密武器

模型怎样才能懂物理世界?答案是:给它看海量的视频!

在这个拼数据的时代,谷歌掏出了自己无可匹敌的杀手锏——YouTube。Hassabis 透露,Veo 2 能够洞悉物理规律,秘密就在于观看了海量的高质量 YouTube 视频。

你以为它只是在“看短片”,实际上它是在做高密度的物理世界常识压缩。这也是为什么亚马逊、OpenAI 都在拼命构建“任意输入到任意输出”的全能模型,但这波,背靠全球最大视频库的谷歌显然拥有着得天独厚的“数据金矿”。

三、 “全能模型”战局打响,未来的端侧革命

目前,整个 AI 行业都在朝着大一统的“全能(Omni)”模型狂奔。除了 OpenAI 的 ChatGPT 能听能看能画,苹果的设备端 AI 也在排兵布阵。

一旦 Gemini 与 Veo 完美合体:

  1. 输入端:AI 将具备“视频流级别”的实时环境感知能力;
  2. 输出端:用文本、音频甚至超现实的生成的视频来指导人类。

这不仅仅是在模型排行榜上刷几分的事情,它是开启具身智能、高级个人助理、乃至全自动生成式 Metaverse 的底层入口。

写在最后:AI的下半场,是融合之战

不管是 OpenAI 还是谷歌,单点突破的时代已经结束,真正的对决在于跨模态大一统架构的较量。当一个 AI 即将彻底懂物理世界的时候,对于我们来说,这意味着真正的“赛博钢铁侠”贾维斯,可能很快就要上线了。

👇 评论区聊聊:如果 AI 真的能完美理解现实物理规律,你最希望它帮你解决什么生活难题?

如果这篇内幕揭秘让你有所启发,记得点赞、在看、转发三连!你的支持是我爆肝更新的最大动力🔥