
AI为什么要跟自己下棋:自我博弈背后那个反常识的逻辑
人类学东西需要老师、需要对手、需要反馈。但有一类AI,它的老师是它自己,它的对手也是它自己。听起来像精神分裂,但这恰恰是它超越人类的原因。自我博弈,是AI发展史上最被低估的一个概念。
2016年,AlphaGo击败李世石。很多人记住了那个画面:人类顶尖棋手,输给了一台机器。但大多数人没有追问的一个问题是:这台机器,是怎么变强的?它没有师父,没有棋谱老师,没有一个更厉害的AI在旁边指点。它的训练方式,说出来有点荒诞——它一遍遍地和自己下棋,然后越来越强。
人类的学习有一个隐藏的天花板
我们学任何技能,都依赖一个前提:有人比你强,然后你去跟他学。学棋,你需要找到比你高段的人;学写作,你需要读比你写得好的文章。这个逻辑本身没问题,但它暗含了一个限制:你的上限,被你的老师锁死了。如果世界上最强的棋手是你的老师,你最多只能接近他,很难超越他。人类围棋发展了几千年,棋力在缓慢爬升,但每一代人都是站在上一代人的肩膀上,线性叠加。
AI的自我博弈,打破了这个逻辑。它不需要一个「更强的老师」,它只需要一个「当前的自己」,然后用当前的自己去挑战、去击败、去超越。每次迭代之后,它的对手也随之升级——因为对手就是它自己。这是一个自我驱动的螺旋上升,没有外部上限。
「
最好的对手,是一个和你一样渴望赢的自己
」
自我博弈的底层机制:不是「练习」,是「探索」
很多人把自我博弈理解成「大量练习」,这是一个误解。普通的大量练习,是在已知的知识范围内反复巩固。而自我博弈的核心,是在对抗中生成新知识。两个版本的AI互相对弈,会不断试探彼此的边界,发现对方没见过的走法,逼出对方没有测试过的应对。每一局棋,都是一次知识的边界扩展。这个过程有点像两个人在黑暗中互相摸索地图——他们不是在复习已有的地图,而是在画出新的地图。
490年
人类围棋职业体系存在的时间,AlphaGo Zero用40天超越了这一切积累
AlphaGo Zero是这个逻辑的极端版本。它没有学过任何人类棋谱,从零开始,只知道规则,然后自我博弈。40天后,它击败了学过人类棋谱的AlphaGo,赢得100比0。这个数字不是在说AI有多厉害,而是在说:人类几百年积累的直觉,可能反而是一种束缚。当你从人类棋谱开始学,你学到的不只是好的走法,还有人类的偏见和盲区。从零开始的AI,没有这些包袱。
这个逻辑已经溢出了棋盘
1蛋白质折叠预测:AlphaFold用类似机制,在生物结构预测上实现了「50年问题,两年解决」
2游戏AI:OpenAI Five在Dota2中,用自我博弈训练出超越人类职业战队的协作策略
3语言模型的对齐训练:RLHF中的奖励模型,本质上也是一种自我博弈的变体——用一个模型去评估另一个模型
4芯片设计:Google用强化学习+自我博弈,让AI设计出人类工程师想不到的芯片布局
这四个领域,表面上差异极大,但底层逻辑一致:给定规则,给定目标,让系统在自我对抗中涌现出超越人类先验知识的解法。自我博弈不是一个围棋技巧,它是一种绕过人类知识上限的方法论。
但它有一个致命的前提
自我博弈听起来像万能药,但它有一个经常被忽视的前提:你必须有一个清晰的、可以自动评分的目标。围棋有赢棋这个终极目标,蛋白质折叠有物理规律作为评判标准。在这些领域,AI可以自动知道自己做得好不好,不需要人类介入每一步反馈。但很多真实世界的问题,没有这样清晰的评分函数。写一篇好文章算赢还是算输?做一个好的商业决策,要多久才能知道结果?当目标模糊、反馈延迟,自我博弈就会失去方向感,甚至陷入「两个AI互相说对方好」的自我欺骗循环。
●自我博弈的边界:它能在「规则明确的世界」里无限进化,但在「目标模糊的世界」里,它需要人类来定义什么叫赢
这也是为什么,今天最先进的大语言模型,在训练时仍然需要人类反馈。不是因为AI不够强,而是因为「对人有用」这件事,很难被自动量化。自我博弈是一个强大的引擎,但它需要人类来告诉它,目的地在哪里。
一个更大的问题
如果AI可以在规则明确的领域无限自我进化,那我们应该担心什么?不是「它会不会超越人类」——它在很多领域已经超越了。真正值得想的问题是:当AI通过自我博弈发展出人类从未想到过的策略,我们有没有能力理解它在做什么?AlphaGo下出的「第37手」,当时所有人类棋手都认为是错误,后来发现是天才。但如果有一天,它下出的棋,我们根本看不懂好坏,怎么办?自我博弈生产的,不只是更强的AI,还有越来越难以被人类审计的决策逻辑。
✦ 小结
自我博弈的本质,是一种不依赖人类知识上限的进化机制。它让AI在对抗中生成新知识,而不是复习旧知识。但这个机制有两个边界:一是需要清晰的目标函数,二是它产生的洞察,未必是人类能读懂的语言。AlphaGo教会我们的,不只是AI可以下围棋,而是有些领域,把人类经验清空反而是优势。
夜雨聆风