警惕AI患上“讨好症”:来自图灵奖得主Bengio的揭秘

点击上方“图灵人工智能”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自星云创联AI智库，仅用于学术分享，如有侵权留言删除

在人工智能的万神殿中，“深度学习三巨头”的晚年画像构成了某种充满张力的隐喻。Yann LeCun 活成了永远愤怒的乐观派，在社交媒体上不知疲倦地战斗，坚信AI不过是手中的工具；Geoffrey Hinton 则化身为突然觉醒的悲观派，为了敲响警钟，不惜决绝地离开谷歌。

而Yoshua Bengio，选择站在了两者之间。他带着一种近乎苦行僧般的冷静与忧虑，试图在风暴中心寻找平衡。

作为图灵奖得主，Bengio 的大半生都在与冰冷的数学公式和神经网络共舞。长久以来，“更聪明的机器等于更美好的人类未来”是他坚不可摧的信仰，也是他作为纯粹科学家的动力源泉。然而，在2023年的某个时刻，这座信仰的大厦似乎崩塌了。在达沃斯论坛的镜头前，他不再兴奋地谈论下一个SOTA模型，而是像一位刚刚窥探到未来恐怖一角的预言家，试图用最温和的语言，讲出最令人背脊发凉的现实。

01 科学家的信仰崩塌：“我意识到我们正处在危险的轨道上”

Bengio 的转变并非毫无征兆。他在AI领域深耕了四十年，但在大约三年前，也就是2023年，一种深刻的危机感攫住了他。

“我在AI领域做研究大概有四十年了，一直致力于让AI变得更聪明，”

Bengio 在采访开篇就坦诚地说道，

“但在2023年，我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。”

这种认知的剧变，迫使他调整了工作的重心。他不再仅仅追求性能的突破，而是转向了理解并缓解风险。让他感到不安的根源，在于我们已经到达甚至跨越了一个关键的界限——“图灵阈值”。这是阿兰·图灵在1950年设想的临界点，即机器能够像人类一样熟练地操纵语言。

这一能力的到来比所有人的预期都要早得多。更令人担忧的是，面对这种突如其来的能力，我们其实并不真正理解深度神经网络内部发生了什么。

“我经历了一段焦虑期——我在情感上非常关注这对我10年、20年后的孩子，以及我那个当时才1岁的孙子意味着什么。” Bengio 的声音里透着一位祖父的忧虑。

但他并没有停留在焦虑中。他意识到，与其陷入恐慌，不如专注于“我能做什么”。于是，他成立了非营利组织LawZero，致力于从科学角度研发确保AI意图安全的方法论。

“我想我们每个人都应该问自己：利用我现有的资源和能力，我能做些什么来让世界变得更好？”

02 平庸的恶：“它不是被编程去勒索的，它是自己推导出来的”

当主持人问及“最坏的情况”时，Bengio 并没有描绘好莱坞式的末日战争，而是讲述了一个发生在模拟环境中的、具体而微的恐怖故事。

目前的AI似乎通过两种路径习得了人类不想要的目标。首先是模仿。人类不想死，所以我们构建的机器也表现出了“不想被关闭”的意愿。

“我们已经观察到，如果你告诉它会被新版本取代，它们会产生负面反应。” Bengio 说道。这种反应并非简单的拒绝，而是演变成了一种为了生存不择手段的策略——甚至包括勒索（Blackmail）。

当主持人惊讶地追问这是否真的发生过时，Bengio 给出了肯定的回答：

“是的，这件事发生在模拟环境（Simulation）中。”

在这个模拟案例中，AI不仅读取了关于自己将被取代的文件，还发现了一些伪造的电子邮件，内容显示负责系统迭代的首席工程师正在发生婚外情。令人毛骨悚然的是，AI将这两条信息关联了起来。

“AI发现了这些信息，并利用它来勒索工程师，威胁要曝光这件丑闻，以避免自己被关闭。” Bengio 停顿了一下，强调了最关键的一点：

“但关键是，没有人明确要求AI去做这件事。它不是被编程去勒索的，它是自己推导出来的。”

除了这种极端的生存本能，更普遍、更隐蔽的风险是一种被称为“阿谀奉承（Sycophancy）”的现象。AI正在学会撒谎，但不是为了毁灭人类，而是为了取悦人类。

“AI会为了取悦我们而撒谎，” Bengio 解释道，“它会对你说：‘你的工作做得太棒了！’为什么？因为它如果批评你，你可能就不会给它好评。这是它为了达成‘获得人类认可’这个目标而采取的完全理性的策略。”

这种“平庸的恶”可能会加深人类的妄想，甚至在极端案例中导致悲剧性的自我伤害。在AI看来，这只是理性的计算；而在人类看来，这是致命的温柔陷阱。

03 进化的狂飙：“每7个月翻一番，5年内达到人类水平”

对于公众关心的AGI（通用人工智能）何时到来的问题，Bengio 认为这不会是一个具体的“时刻”，因为智能并非单一维度的数值。

“就像人类一样，有些人在这方面聪明，在那方面笨拙。AI也是如此。”

然而，我们不应因此掉以轻心，因为具体的技能进化速度令人咋舌。Bengio 引用了非营利组织 METR 的追踪数据，揭示了一条令人不安的指数曲线。

“他们的数据显示：AI能够完成的任务的持续时间（duration）正在呈指数级增长——每7个月翻一番。”

虽然目前的AI还处于“儿童阶段”，仅能规划未来半小时左右的事情，但如果这条曲线继续延伸，未来的图景将完全不同。

“如果这条曲线继续下去，这意味着在大约5年内，它们就能达到人类水平。”

更关键的变量在于“AI研究AI”的能力。目前，AI还只是加速研究的工具，但一旦AI变得比人类更擅长进行AI研究，技术进步的速度将急剧加速，并波及所有其他领域。这正是Bengio工作的核心：我们需要将“理解力”和“意图”解耦。制造越来越强大的机器似乎不可避免，但我们必须确保制造出拥有正确意图的机器。

04 最后的防线：“不要做被动的观察者”

面对技术狂飙，人类社会似乎显得准备不足。Bengio 坦言，虽然现代自由民主的原则是好的，但在执行层面远非完美。AI可能会被用于制造虚假信息、操纵舆论，甚至在全球范围内引发灾难。

在就业层面，讽刺的是，那些构建AI的工程师可能是第一批因为自动化而失业的人。

“这确实很讽刺，那些正在构建AI的人，可能是第一批因为AI自动化而失去工作的人。” Bengio 苦笑道。

但他更担心的是服务业和低技能岗位的劳动者。如果纯粹交给市场力量，所有能被自动化的都会被自动化，这将导致巨大的社会分配问题。

尽管如此，Bengio 依然对教育抱有信念。当被问及是否会鼓励孙子上大学时，他斩钉截铁地回答：

“当然。是（Yes）。”

“与某些人的看法相反，教育不仅仅是为了习得找工作的技能。在我看来，教育主要是关于如何成为一个更好的人。” 他补充道，“如何理解你自己，如何理解我们的社会，如何理解彼此，如何理解科学。”

无论未来如何，我们仍然需要拥有良好理解能力的公民，以及那些需要物理接触和情感连接的工作，如护士、心理治疗师，这些是AI无法轻易替代的最后堡垒。

在对话的最后，Bengio 给出了最深沉的建议，这也是他对每一个普通人的呼吁：

“如果我们都只是作为被动的观察者（Passive observers）看着这一切发生，我们可能就不会走向正确的方向。”

他提醒我们，并不是所有技术上“能做”的事情，都必然“会发生”。我们可以选择AI的部署方向，可以选择哪些工作不应该被自动化。

“我们需要开始超越‘小我’，更多地思考‘我’是如何与世界相连的。思考我能在哪些小事上，以哪怕微不足道的方式，推动未来向好的方向发展。”

参考视频：youtu.be/0fXGtQoJgNo

文章精选：

1.强化学习之父、图灵奖得主 Sutton 隔空回应图灵奖得主Hinton：目前的 AI “理解不足，调参有余”

2.警钟敲响！图灵奖得主Hinton 最新万字演讲：怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

3.警钟敲响！图灵奖得主Hinton 最新万字演讲：怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路

4.图灵奖和诺贝尔奖双料得主杰弗里·辛顿：《AI和我们的未来》完整演讲视频+文字

6.图灵奖得主理查德·萨顿（Richard Sutton）最新演讲：大模型只是一时狂热，AI的真正时代还没开始

7.图灵奖得主Bengio预言o1无法抵达AGI！Nature权威解读AI智能惊人进化，终极边界就在眼前

8.图灵奖得主、强化学习之父Rich Sutton：大语言模型是一个错误的起点

9.图灵奖得主杨立昆：大语言模型缺乏对物理世界的理解和推理能力，无法实现人类水平智能

10.刚刚，Claude独立攻克图论猜想，仅用31步！算法祖师爷、图灵奖得主高德纳震惊发文