AI名人传 | Danijar:在梦中教会AI理解世界

Danijar Hafner 是人工智能领域——尤其是世界模型（World Models）与基于模型的强化学习（Model-Based RL）方向上具有影响力的研究者之一。他因开发了 Dreamer 系列算法而广为人知。以下从教育背景、职业经历、核心研究和近况几个方面做一个介绍。

Danijar在NeurIPS 2019上做Contributed talk

教育背景

Danijar 在多伦多大学获得计算机科学博士学位，导师是 Jimmy Ba，博士期间曾以访问学生身份前往加州大学伯克利分校，师从 Pieter Abbeel。在读博期间，他还获得了加拿大最具声望的Vanier Scholar博士生奖学金。

Jimmy Ba（左3）是Hinton的博士生，也是xAI的联合创始人之一（但于26年2月离开xAI）

更早之前，他在伦敦大学学院（UCL）的 盖茨比计算神经科学中心完成了计算统计与机器学习方向的硕士学位，与 Tim Lillicrap 和 Karl Friston 合作。本科阶段，他毕业于德国波茨坦的 Hasso Plattner 学院，获得 IT 系统工程理学学士学位。

职业经历

Danijar 在 Google 体系内工作了将近十年，包括总计 12 次实习以及最后两年半的全职工作。他最初于 2016 年在 Google Brain 实习，此后在 DeepMind 伦敦和 Brain Team 之间深度参与研究。离职前，他的职位是 Google DeepMind 旧金山分部的 Staff Research Scientist（资深研究科学家）。

在 Google 早期，他有机会与Hinton 交流学习，也与 Transformer 论文的核心作者 Łukasz Kaiser、Ashish Vaswani 等人有密切互动。

2025 年 11 月 3 日，Danijar 在社交媒体上宣布当天是他在 Google DeepMind 的最后一天，称这是一个重要篇章的结束。他目前的个人简介写着"Building AI that autonomously understands and interacts with the world"，这也表示他会在智能体领域继续深耕，但尚未公开新的归属。

来源于Danijar 社交媒体X

核心研究方向

他的研究目标是通过构建能在复杂模拟世界中通过交互来学习的智能机器，揭示人类思维的计算原理。具体来说，他的工作聚焦在两个主线：

一是无监督世界模型——从原始视频数据中学习世界模型，让 AI 获得对世界的通用理解，并通过"想象"未来行动的结果来做规划。

二是无监督智能体目标——设计让智能体能自主探索和影响环境的内在目标函数，使其超越狭义的任务规范。

代表性工作：Dreamer 系列

这是 Hafner 最为标志性的研究主线，从 2018 年延续至今，每一代都实现了显著的性能飞跃：

PlaNet（2018）：这是一种基于模型的强化学习算法，能从像素观测中学习隐空间世界模型，并在隐空间中进行规划和动作选择。它是 Dreamer 系列的基石。

DreamerV1（2019）：一个纯粹通过隐空间想象来解决长期决策任务的强化学习智能体。它通过将学习到的状态价值的解析梯度反向传播到由世界模型想象出的轨迹中来高效学习行为。Dreamer 能够从数千个并行预测序列中高效学习，仅需一块 GPU。

DreamerV1（ICLR 2020）

DreamerV2（2020）：采用离散世界模型，在 Atari 游戏基准上实现了强大表现。

DreamerV2（ICLR 2021）

DreamerV3（2023）：一个通用算法，仅用单一配置就在超过 150 个不同任务中超越了专用方法。它通过归一化、平衡和变换等鲁棒性技术实现了跨领域的稳定学习。最令人瞩目的成就是：DreamerV3 是第一个在没有人类数据或课程式训练的情况下、从零开始在 Minecraft 中获得钻石的算法。这篇论文于 2025 年发表在 Nature 上。

DreamerV3

Dreamer 4（2025）：引入了可扩展的 Transformer 架构世界模型，通过 shortcut forcing 目标和高效的 Transformer 架构实现了单 GPU 上的实时交互推理。更关键的突破在于：世界模型仅从少量动作数据中学习通用的动作条件控制，而将绝大部分知识从多样化的无标签视频中提取。Dreamer 4 是第一个纯粹从离线数据中（不与环境交互）在 Minecraft 获得钻石的智能体。

DreamerV4

其他重要工作

除 Dreamer 系列外，他还有几项值得一提的贡献：Plan2Explore（无监督探索）、LEXA（基于目标的探索）、Director（层级强化学习，在世界模型的隐空间中做分层规划）、VIPER（奖励建模），以及与 Karl Friston 合作的将自由能原理（Free Energy Principle）与深度 RL 相结合的理论框架工作 "Action and Perception as Divergence Minimization"。他还参与了 One Step Diffusion via Shortcut Models 等扩散模型方面的研究。

学术影响力

据 Google Scholar 显示，他的论文累计被引用超过 15,000 次，研究领域覆盖人工智能、深度学习、世界模型、内在目标和强化学习。他的主要合作者包括 Timothy Lillicrap、Jimmy Ba、Pieter Abbeel、Karl Friston、Nicolas Heess、Sergey Levine 等强化学习和神经科学领域的顶尖学者。

总的来说，Danijar 是将"在想象中学习"这一理念从理论推向实践的核心人物，Dreamer 系列几乎定义了当前基于世界模型的强化学习范式。他于 2025 年底离开 Google DeepMind 后的下一步动向，是 AI 社区非常关注的事情。

结语

Danijar 的研究履历看下来，最让人感慨的不是某一篇论文有多惊艳，而是这整条线索的建筑感。

从 PlaNet 开始，他就锚定了一个极其清晰的信念：智能体不应该在真实世界里反复试错，而应该在脑中建一个世界，在想象里学会行动。这个想法说起来一句话，但他花了将近七年，一砖一瓦地把它从一个学术直觉垒成了一座完整的技术体系。

PlaNet 解决了"能不能在隐空间里做规划"，Dreamer 解决了"能不能用想象的梯度学策略"，V2 把连续隐空间换成离散表征去啃 Atari，V3 用一套配置通吃 150 多个任务拿下 Minecraft 钻石，到 Dreamer 4 又把 Transformer 和无标签视频引进来，让世界模型真正开始从互联网规模的数据中汲取知识。

每一代都不是另起炉灶，而是在上一代的瓶颈上精准地推进一步（该换表征的时候换表征，该换架构的时候换架构，该换数据范式的时候换数据范式），但"在想象中学习"这根主线从未偏移。这些工作像枝干一样从主干上长出来，合在一起回答的其实是同一个问题：一个智能体要想在开放世界中自主生存，到底还缺什么？

未来一段时间，我将不定期推送世界模型经典论文的阅读报告，欢迎大家关注。