如果把大模型训练比作培养孩子上学,现在的主流做法就像是让孩子整天刷题备考——数学、编程这些"正式课程"确实能让AI在考试中拿高分,但一遇到需要灵活应变、创意发挥或者揣摩人心的场景,这些"学霸AI"就常常显得呆头呆脑。
最近,一群研究者从人类教育理论中获得了灵感:我们之所以聪明,不仅仅因为课堂上的正式学习,更因为生活中大量的非正式学习——和朋友玩游戏、在街头观察社会、在失败中积累经验。他们提出了一个有趣的问题:能不能让AI也"玩游戏",从而变得更通人性、更有创造力?
让AI从"刷题机器"变成"会玩游戏的通才"
研究团队设计了一套名为"GIFT"的训练框架,核心理念很简单:把数学推理当作"正式课程",把三种游戏当作"课外兴趣班",让AI同时接受这两类训练。
他们精心挑选了三款游戏,难度层层递进:
第一款是"矩阵博弈",类似于囚徒困境这样的抽象策略游戏。AI面对一张只有数字的收益表格,必须推断对手会怎么选,然后找出最稳妥的策略。这考验的是纯粹的抽象推理和战略思维。
第二款是"井字棋",这是需要多轮对抗的棋盘游戏。AI不能只看眼前一步,必须提前规划好几步之后的局面,同时严格遵守规则(只能下在空格子里)。这训练的是长期规划能力和规则意识。
第三款是"谁是卧底",一个多人参与的社交推理游戏。几个玩家拿到相近但不同的词语,通过描述来暗示自己身份,最后投票找出卧底。平民既要描述得清楚让队友听懂,又不能太直白被卧底猜中;卧底则要浑水摸鱼。这考验的是心智理论——也就是揣摩他人想法的能力,以及灵活的语言表达。
这三款游戏覆盖了从抽象推理到长期规划,再到社交智慧的完整光谱。研究者希望,通过这些游戏,AI能学到课本里没有的"街头智慧"。
为什么不能简单"一锅炖"?
一个直观的想法是:既然数学题和游戏都有好处,那直接把训练数据混在一起,让AI同时学不就行了?
研究团队发现,这种做法效果并不好,问题出在两个层面。
第一个问题是"信号打架"。 不同任务产生的学习信号差异很大。数学题的奖励很直接——答案对就是对,错就是错;但游戏的奖励可能来自复杂的社交博弈,探索方式也截然不同。当这些异质的信号被强行塞进同一个训练批次时,就像把爵士乐、摇滚乐和古典乐同时播放,AI听到的只是一片嘈杂,难以分辨出每种任务真正的优化方向。
第二个问题是"方向冲突"。 简单地把各个任务的梯度相加,相当于让几个老师同时拉扯AI往不同方向走。数学老师说要"严谨推理",游戏老师说要"灵活变通",他们的指令可能互相抵消,导致AI在参数空间里原地打转,找不到一个能同时满足所有任务的"甜蜜点"。
实验数据也证实了这一点。在15亿参数的模型上,如果只用数学训练,AI的平均能力得分是38.34%;但简单地把数学和游戏混在一起训练,得分反而跌到了33.53%左右,出现了"1+1<<1"的尴尬局面。
轮流上课的"协调训练法"
为了解决这个问题,研究者提出了一种叫"协调子任务训练"(CST)的方法。它的核心思想非常朴素:不要让所有老师同时说话,而是让他们轮流上课,并且把上一节课的"笔记"传给下一节课。
具体来说,AI先上一节数学课,更新一次参数;然后带着刚刚更新的"大脑状态"去玩游戏,再更新一次;接着再去玩另一个游戏,如此循环。每个任务都在一个"干净"的批次里单独学习,避免了不同信号之间的干扰。
更巧妙的是,这种轮流更新在数学上产生了一个意想不到的效果。当AI先学数学、再学游戏时,第二轮的游戏梯度是在被数学"调整过"的参数上计算的。这种顺序更新引入了一些高阶的交互项,相当于在潜意识中鼓励不同任务的梯度方向更加"对齐"——也就是让数学老师和游戏老师的指令不再南辕北辙,而是逐渐指向同一个大致方向。
打个比方,混合训练像是几个人同时推一个箱子,力量互相抵消;而CST像是几个人接力推箱子,每个人都顺着上一个人推动的方向再加一把力,箱子反而更容易沿着正确的路径前进。
实验结果:会玩游戏的AI更聪明
实验在两个不同规模的模型上展开:15亿参数和70亿参数的Qwen模型。结果非常亮眼。
对于15亿参数的小模型,单纯学数学能把数学成绩从17.2%拉到43.2%,但玩游戏的泛化能力很弱。而引入游戏训练后,虽然数学成绩略有波动,但综合平均能力从38.34%提升到了41.13%。更重要的是,使用CST方法后,AI在矩阵博弈中的胜率大幅提升,在通用知识测试MMLU上的表现也明显优于简单混合训练。
对于70亿参数的较大模型,效果更加显著。单纯数学训练的平均得分是42.00%,而结合游戏训练并采用CST方法后,平均得分跃升至57.39%,提升幅度超过15个百分点。特别是在需要创意写作的CommonGen任务上,以及社交推理的SocialIQA任务上,游戏训练带来的增益非常明显。
一个有趣的发现是,在"谁是卧底"这种社交游戏中,AI展现出了对语言微妙之处的理解。研究者甚至设计了一个"额外提示",要求AI每轮描述都必须换角度、换句式,不能重复。经过训练的AI学会了从不同维度描述同一个词——比如从"功能"、"形态"、"象征意义"等角度切换,展现出相当不错的语言创造力。
一个具体的例子:数学题的"游戏疗法"
论文中展示了一个令人印象深刻的案例,题目是:
> 设p(x)是一个整系数二次多项式,已知4-√11是它的一个根,求p(3)/p(4)的值。
未经游戏训练的70亿参数基础模型,虽然知道要用共轭根式构造多项式,却在展开(x-4)²-11时犯了低级错误,把16-11算成了3,导致最终答案错误。
而经过矩阵博弈训练的同款模型,表现出了截然不同的风格。它一步一步地展开:
(x-4)² - 11 = x² - 8x + 16 - 11 = x² - 8x + 5
并且主动选择了a=1来简化计算,最终得出了正确答案10/11。
研究者分析,游戏训练让AI养成了更谨慎、更逐步验证的习惯——就像下棋时需要反复确认每一步是否安全一样,这种"自我检查"的习惯迁移到了数学推理中,帮助它避免了基础模型的那种粗心错误。
在创意写作任务中,CST训练的效果也肉眼可见。面对"用food、front、sit、table造句"的任务,简单混合训练的AI只会机械地拼凑出一句勉强通顺的话。而经过CST训练的AI,会先在心里"过一遍"场景:设定一个餐厅环境,安排人物坐下,把食物放在桌前,最后写出一句生动自然的句子。这种从"词语堆砌"到"场景构建"的飞跃,正是协调训练带来的深层理解。
为什么这很重要?
这项研究的意义远不止于让AI更会玩游戏。它揭示了一个被长期忽视的训练维度:现实世界中的智慧,很大程度上来自于互动、试错和社交体验,而不是标准答案。
当前的大模型训练极度依赖"正式学习"——海量的文本标注、明确的问答对、固定的评分标准。这固然让AI成为了考试高手,但也限制了它们在面对开放世界时的应变能力。通过引入游戏作为"非正式学习"的载体,研究者开辟了一条低成本、可扩展的新路径:游戏不需要人工标注每一句话的对错,规则本身就提供了反馈;游戏可以无限生成新的对局,永远不会耗尽训练数据。
当然,这项研究也有局限。目前测试的游戏种类还比较少,对手模型也是固定的。未来,如果AI能在更复杂的真实世界环境中学习,或者与不断进化的对手博弈,或许能激发出更惊人的通用智能。
但至少,这项研究给了我们一个清晰的启示:只会刷题的AI,和只会做题的学生一样,可能都缺几堂"游戏课"。 当AI真正学会在游戏中思考、博弈和社交时,它们离"通用智能"的距离,或许就会更近一步。
详情见《GIFT: Games as Informal Training for Generalizable LLMs》
夜雨聆风