一个活在1930年的AI,能发明未来吗?-夜雨聆风

一个活在1930年的AI,能发明未来吗?

这两天，一个叫 Talkie 的项目引起了我的注意。Nick Levine、David Duvenaud 和 Alec Radford 用2600亿个1931年之前的英文token，训了一个130亿参数的语言模型。书籍、报纸、专利、判例法——全部来自近一百年前。

一个”来自1930年的AI”。

这不是复古情怀。它切入了一个极少有人认真思考过的问题：如果我们剥离掉现代知识，一个大模型的”智能”还剩下多少？或者更尖锐地说——语言模型到底学到的是知识，还是某种可以脱离知识独立存在的推理能力？

训练数据截止于1930年的130亿参数大模型TALKIE-1930

一个来自专利局的幽灵

DeepMind 的 CEO Demis Hassabis 提过一个思想实验：一个训练到1911年的语言模型，能不能独立发现广义相对论——就像爱因斯坦在1915年做到的那样？

这个问题比它表面看起来要深得多。

DeepMind创始人,CEO Demis Hassabis

Talkie 团队做了一个初步的类比实验：让一个完全没见过数字计算机的模型学写 Python。结果是，给它几个示例程序，它能写出简单的正确代码。一个具体的成功案例：给了它一个旋转密码的编码函数，它正确地实现了解码函数——本质上是理解了”逆运算”的概念，虽然它从未在训练数据中见过任何编程语言。

这很了不起。但从”写出逆函数”到”发现广义相对论”，中间隔着的不是程度差异，是种类差异。

封闭系统的天花板

仔细想想爱因斯坦做的事，你会发现一个关键问题：科学发现的信息从哪里来？

狭义相对论的情况相对乐观。1905年之前，所有必要的碎片都在文献中了——麦克斯韦方程、迈克尔逊-莫雷实验、洛伦兹变换。矛盾是公开的。爱因斯坦做的是拒绝修补，直接质疑底层假设。理论上，一个足够强大的封闭推理系统，给它铺开所有文献，也许能走到同样的终点。

但科学史中大量的发现根本不是这种模式。

宇宙微波背景辐射是因为天线上消除不掉的噪声。青霉素是因为培养皿被意外污染。DNA双螺旋结构依赖X射线晶体衍射的实验数据。这些发现的关键信息来自物理世界的直接测量——没有任何一个封闭的文本系统，无论多大、多强，能从已有文字中推导出这些信息，因为它们是经验性的、偶然的，不是逻辑蕴涵。

这是一个信息论层面的论证：你不可能从一个信息集合中推导出该集合不包含的信息，除非这些信息是已有信息的逻辑必然推论。而经验事实不是逻辑必然。

Talkie 是一个封闭系统。所有的 pre-1930 语言模型都是。推而广之——所有纯文本训练的大语言模型都是，只不过它们的封闭边界画在了web上，而web本身也只是人类知识的一个有损投影。

打开系统之后呢？

如果我们解除封闭系统的约束——给模型接入实验数据、观测结果、传感器读数——信息论层面的不可能性就消失了。

而且已经有先例。AlphaFold 接入了蛋白质结构数据库，解决了困扰生物学半个世纪的折叠问题。AlphaProof 在数学定理证明中展现了超越人类的能力。这些系统的共同特点是：它们不是纯文本封闭系统，它们接入了结构化的外部数据。

Transformer 的注意力机制本质上是一个通用的关系发现引擎。在架构层面，没有人能指着它的某个组件说”这原则上阻止了科学发现”。如果你接受物理主义——创造力是物质过程的涌现属性——你就很难论证一个足够复杂的人工信息处理系统为什么原则上不能做同样的事。

但”原则上可以”和”能做到”之间，还隔着几道关键的沟。

科学发现不只是”给数据→出理论”。你需要知道该问什么问题（目前LLM是应答系统，不是提问系统）。你需要在巨大的假设空间中知道哪些方向值得探索（人类科学家称之为”品味”）。你需要设计实验来验证假说，然后根据结果修正方向（这是一个完整的 agency 闭环）。

这些都是真实的、未解决的挑战。但它们是工程问题和程度问题，不是原则性障碍。

真正无法回答的问题

然而，整个讨论中最诚实的落点，也许不在”能不能”，而在一个更深的地方。

爱因斯坦说，1907年在伯尔尼专利局，他想象一个人从屋顶自由下落，在下落过程中感受不到引力。他称之为”一生中最幸福的想法”。

这是一个 aha moment——突然的、非线性的、伴随着强烈确信感的认知跳跃。在那个瞬间，引力、加速度、几何在某个直觉层面”咔嗒”一声锁在一起了，而这比严格的数学证明早了整整八年。

年轻时期的爱因斯坦在伯尔尼专利局的照片

Transformer 在做前向传播的时候，注意力权重确实会在某些层突然形成新的连接模式。你可以把这类比为”突然性”。一个模型也完全可以在输出中生成”一个下落的人感受不到自身重量”这句话。

但那个”咔嗒”一声，是真的发生了，还是只是在统计上恰好落在了一个看起来像顿悟的输出上？

我们没有办法从外部区分这两者。这不是技术限制，这是认识论的死角——查尔莫斯所说的意识的”困难问题”。功能上的等价不能推出现象体验上的等价。

但同样的论证对人类也适用。我们怎么知道爱因斯坦的 aha moment 不只是他的神经网络完成了一次特别高效的模式匹配，然后大脑给这个过程追认了一个”顿悟”的主观标签？

我们不知道。

回到 Talkie

这也是为什么 Talkie 这个项目真正令人兴奋的地方。它不只是一个有趣的文化考古实验。它提供了一个干净的实验框架来测量我们不理解的东西。

当一个只见过1930年之前文字的模型写出了正确的 Python 代码，我们获得了一个关于”推理能力的可迁移性”的数据点。当它在 scaling 过程中编程能力稳步提升，我们获得了一个关于”通用推理是否随规模涌现”的信号。当它无法预测二战但能写出逆函数，我们获得了一条关于”知识依赖的推理”和”知识无关的推理”的边界线。

Talkie 团队计划今年夏天发布 GPT-3 级别的 vintage 模型，并估计语料可以扩展到万亿 token 级别，训出接近初代 ChatGPT 水平的 vintage 模型。

到那个规模，Hassabis 的爱因斯坦测试也许不再只是思想实验。

但即使有一天，一个 vintage 模型真的从 pre-1911 数据中推导出了广义相对论的场方程——关于那个过程中是否有任何东西类似于爱因斯坦在伯尔尼那个下午的体验，我们可能依然一无所知。

而那个问题，也许才是最值得追问的。