学习笔记 | 关于 AI 如何理解真实物理世界的两篇核心论文导读-1

作为一名持续学习者, 最近在梳理世界模型的发展脉络，整理成此文，以作备忘和交流. 非专业科班, 只有统计背景, 望多被指点认知有错的地方. 大部分内容均为基于2018年David Ha 和 Jürgen Schmidhuber的《World Model》(开山之作,首次系统性地提出了让AI智能体建立对环境的内部表征,并在自身生成的“梦境”中进行学习和训练的核心理念)以及2022年Yann Lecun发表的《A Path Towards Autonomous Machine Intelligence》(提出了一套通往自主机器智能的全新认知框架蓝图,提出了JEPA,是Physical AI的核心文献之一). 暂时不做向外延伸,主要目的是更通俗易懂地让读者了解论文内容,以及从我自己的角度对一些内容发表一定的理解.

一、摘要及结论

《World Model》

-痛点:

1、模型的“脑子”不好训练,在传统的强化学习里,如果给AI一个特别庞大、复杂的神经网路,模型在信用分配问题上会无法定位哪一步操作得分了,使得大家只能用参数较少的模型.

2、现实试错成本高, 让AI每次都在真实的物理环境或者庞大的游戏引擎里去试错,不仅慢,而且消耗计算资源.

-摘要:

本论文讨论了一种玩法,让AI像人类一样,通过无监督学习快速看懂世界,并在“脑子”里建立一个压缩版的对空间和时间的规律的认识.并给AI配备一个简单、小巧的Controller,它就可以高效完成任务. 并且AI可以在自己的“大脑”里想象出来的幻觉环境去进行训练,并在训练完成后直接套用到现实世界.

-结论:

1、在dream world里进行训练是可行的,可以节省在游戏引擎渲染以及现实物理试错导致的算力开销,此外还可以使用GPU加速模拟过程.

2、局限性:依靠无监督学习出来的世界模型可能会抓错重点.比如在赛车游戏里,可能会去死记硬背墙上无关紧要的砖块纹理,而忽略真正重要的比赛.此外,在这篇文章成文的时候,模型的记忆容量有限,处理复杂长线任务有困难.但当然,现在的长文处理能力和2018年已经不可同日而语了.

《A Path Towards Autonomous Machine Intelligence》

-痛点:

1、AI太笨、太费数据. 一个人练习20个小时可以学会开车,但是AI跑了几百万次模拟、喂了海量数据,却仍然无法如人类一样可靠驾驶.

2、缺乏“常识”与预测能力. 人类在学习新技能时,会有物理常识,因而可以避免致命错误. 但目前的AI缺乏对物理世界的内部模型, 无法通过观察来预测行为的结果. 由于真实世界的试错很贵和危险, 因此必须要让AI在没有进行实操的情况下,仅仅靠观察和想象来规避危险.

-摘要:

本篇论文其实主要还是在讨论一个全新的架构蓝图, 让机器能够像人类和动物那样高效学习, 并且做推理和长远计划. 未来的AI需要包含一个可配置的预测性世界模型, 它的行为不应该靠外部奖励, 而是受到内在动机, 如痛觉、好奇心等的驱动. 此外, 杨立昆还提出了JEPA(联合嵌入架构)的自监督学习方法, 让AI在不同的抽象层级上去理解世界和规划未来.

-结论:

1、这个是机器常识的必经之路

2、LLM纯文本语言模型有缺陷. 目前的纯文本模型虽然看起来懂很多, 但由于没有在真正的物理世界生活过, 因此展现出来的常识容易脱离现实. 真正的常识, 应该如论文里提到的, 能够通过对现实的自洽性进行捕捉, 从而在脑海中“脑补”出没看到的缺失信息.

这里稍微补充一点, 目前的大模型会有捷径依赖的情况, 文本语言本身就是对信息的高度压缩,比如一个有着各种视觉、嗅觉信息的苹果放在我面前, 但是我给的描述可能就只是“一个红色的烟台苹果”, 在信息密度上会远低于没有经过处理的感官像素, 也使得模型在面对问题的时候会偷懒(这个也因为机制上和预测方式上是在基于文本规律和概率进行预测,不是一个物理必然).

今年3月的时候, 斯坦福李飞飞团队就在Mirage(海市蜃楼)效应中发现, 目前的模型很多时候并没有去理解图片, 而是直接调用文本规律和问题中的文字线索来推测答案. 即便没有输入图像的时候, 模型也会使用文本惯性地“脑补”出虚假的视觉描述和给到严密的文本逻辑, 也就是一种虚假的多模态. 举例来说, 这在医疗领域是很严重的问题, 因为AI医生可能会完全没有看X光片就胡说八道. (开个坑)

简单来说, 这是基于统计概率层面的文字接龙, 而不是基于物理直觉的因果推理. 大家在统计学课程上学习的关联度和因果都是统计学意义上的因果, 我很久以前做机器学习练习的时候, 还会常态算出类似”泥土湿润度和今日销售额是关联度最高“这种结论.

LLM其中进行embedding的时候, 其实也就是把高维的信息压缩成更低维的, 再去通过距离计算, 给出距离最近的词语. 比如猫更靠近狗, 而远离车. 维度太高会有维度诅咒, 也就是当parameter太多的时候, 计算距离会变得没有意义. 而且, 现在的LLM在处理离散且优先的tokens的时候是比较有效的, 但是在处理连续且高维的, 如视频像素的时候, 信号的高维度会阻碍模型通过标准的归一化概率分布来表示预测中的不确定性.

ps: 归一化概率分布:是指将模型的原始输出数值转化为符合严格数学定义的概率值，使得所有可能结果的概率总和等于 1.

-如何计算出来: 基于能量的EBM中, 模型最初计算出来的是一个能量值. 为了归一化概率分布, 会使用Gibbs formula, 将某个特定状态的负指数能量, 除以所有可能状态的负指数能量之和(积分), 来确保所有输出的概率总和为1. (这样也才有说A更可能在下一个词出现的可能性说法)

-在高维视觉处理的时候, 归一化容易失效. 因为需要在高维的连续空间中计算所有可能性的积分, 计算上很难实现.

JEPA是杨立昆提出的一个破局的方法, 模型只需要做到“让符合物理规律的预测能量低, 而不需要假设能量函数必须代表未归一化的对数概率分布.

惯例小猫咪

(未完待续)

(明晚继续码JEPA, 里面有一些数学的东西还没看懂)