谷歌AI掌门人:百万token窗口处理视频只够20分钟

每日学习：第195天
播客：Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

Demis Hassabis拿诺贝尔奖那天，全世界都在恭喜他解了蛋白质折叠。但他自己最在意的事情，大概是另一个还没解开的问题。

一个研究记忆的人，说AI的记忆方式不对

Demis的博士论文研究的是海马体，就是人脑里负责把白天经历的事情在你睡着以后悄悄整理归档的那个部件。睡眠时通过REM阶段反复回放重要片段，把新知识编进旧知识网络里。不重要的信息会被自然淘汰。

2013年DeepMind做的第一个能打通Atari游戏的程序DQN，核心技巧就是从这个脑科学思路借来的，叫经验回放。把成功的操作轨迹存下来反复练习。这套东西十几年前就跑通了。

但现在的大模型走了另一条路。百万token上下文窗口，什么都往里塞。百万token处理视频只够20分钟。你想让AI理解你一两个月的生活，窗口根本不够用。更大的问题是，就算窗口够大，里面塞了一堆不重要的甚至错误的信息，找到当下真正需要的那条内容，成本非常高。

他用了一个词，蛮力。

这跟现在业界的主流叙事完全反着来。各家都在卷上下文窗口有多长，好像窗口越大AI就越聪明。但一个研究了十年人脑记忆机制的人告诉你，人脑工作记忆只有7个左右的单位，偏偏比你那个塞了一千万token的窗口高效得多。原因很简单，人脑会忘。会忘掉不重要的东西，这件事本身就是一种能力。

AI现在缺的，可能恰好是学会遗忘。

能下围棋和能发明围棋，中间隔了什么

Demis把AI的创造力分了三层。

第一层，AlphaGo在2016年下出了那步著名的第37手。全世界震惊了，觉得AI有创造力。但Demis说这只是在已有规则空间里的搜索。搜索空间再大，边界是固定的。

第二层，他提了一个问题。如果你给AI一段模糊的需求描述，"设计一个5分钟能学会规则但穷尽一生也玩不透的游戏，视觉上很美，一个下午就能下完一局"，AI能不能给你造出围棋来？现在的系统做不到。

第三层更狠。他提了一个自己发明的测试方法，叫"爱因斯坦测试"。把AI的知识截止到1901年，看它能不能自己推导出1905年爱因斯坦搞出来的狭义相对论。如果能，说明AI真的会发明新东西了。如果不能，那它做的所有事情，本质上都还是在已知的版图里排列组合。

Demis提这个分层跟他自己的经历有关。他17岁设计了一款叫Theme Park的游戏，卖了几百万份。他自己就是一个"从无到有创造规则体系"的人。他对创造力的理解，来自亲手做过的经验。所以他能分清楚"在规则里找最优解"和"发明规则本身"之间的区别，这个区别，大部分做纯工程的人是感受不到的。

企业里也是同样的分层。优化现有产品的功能，这是第一层。发明一个新品类，比如当年的iPhone，这是第二层。改变整个行业理解价值的方式，这是第三层。绝大多数公司一辈子停在第一层，以为自己在创新。AI目前也停在这里，连第二层的门都还没摸到。

2030年之前，可能还差一两个没人想到的东西

Garry Tan问Demis，AGI的最终架构里，我们已经掌握了多少？Demis说现有的东西，大规模预训练、RLHF、思维链，这些肯定是最终架构的一部分。但可能还差一两个没被发现的大想法。他给的概率是五五开。时间线是2030年左右。

一个在脑科学和AI两个领域都做到顶尖的人，诺贝尔奖得主，Google DeepMind的负责人，给出的判断是"我不知道还差什么，但我知道还差东西"。他列了三个明确的缺口，持续学习、长程推理、记忆。Agent做不到"交给它就不用管了"，根本原因是它没法在你给的具体场景里自己学习和适应。

他喜欢跟Gemini下国际象棋，因为棋类有明确的对错，可以很清楚地看到AI的思维链在干什么。他发现一个问题，AI有时候会考虑一步棋，意识到是臭棋，但找不到更好的，就又回到那步臭棋走了。在一个需要精确推理的系统里，这种事情不应该发生。

这大概就是他说的"锯齿状智能"。一方面能解奥数金牌题，另一方面换个提问方式就犯小学数学错误。AI还不会审视自己的思维过程。

小模型的尽头在哪

Demis在播客里透露了一个判断，他认为蒸馏的信息密度极限目前还远没有被碰到。Google内部的逻辑是，前沿大模型发布半年到一年后，同等能力就能压进边缘设备可以跑的小模型里。Gemma 4发布两周半下载量就到了4000万。

Google有十几个超过十亿用户的产品，搜索、YouTube、地图，每一个都要用到Gemini相关技术。这些场景要求低延迟、低成本、高效率。所以Google在蒸馏和小模型优化上的投入，本身就是生存需要。别家做小模型是降本增效，Google做小模型是因为不做就服务不了自己的用户。

他设想的最终架构是这样的。边缘设备上跑小模型处理所有音视频信息，数据留在本地，只有遇到小模型搞不定的任务才委托给云端大模型。手机上、眼镜上、家里的机器人，处理的都是个人信息。这套架构同时解决了隐私问题和延迟问题。

如果你现在做的产品强依赖云端大模型的全量能力，半年后可能就有一个小模型在手机上就能跑你百分之九十的功能。你的壁垒在哪？大概只剩下那百分之十需要大模型的部分，加上你对具体场景的理解深度。

Demis最后说，如果你的AGI时间线是2030年，你今天开始做一件需要十年的事，AGI会在你做到一半的时候出现。这不一定是坏事，但你必须把这件事想清楚。你做的东西，到时候能被AGI加速，还是会被AGI替代？

这个问题他没给答案。大概也没有人能给。