会玩游戏的AI更聪明:从＂刷题机器＂到＂通才＂的蜕变

如果把大模型训练比作培养孩子上学，现在的主流做法就像是让孩子整天刷题备考——数学、编程这些"正式课程"确实能让AI在考试中拿高分，但一遇到需要灵活应变、创意发挥或者揣摩人心的场景，这些"学霸AI"就常常显得呆头呆脑。

最近，一群研究者从人类教育理论中获得了灵感：我们之所以聪明，不仅仅因为课堂上的正式学习，更因为生活中大量的非正式学习——和朋友玩游戏、在街头观察社会、在失败中积累经验。他们提出了一个有趣的问题：能不能让AI也"玩游戏"，从而变得更通人性、更有创造力？

让AI从"刷题机器"变成"会玩游戏的通才"

研究团队设计了一套名为"GIFT"的训练框架，核心理念很简单：把数学推理当作"正式课程"，把三种游戏当作"课外兴趣班"，让AI同时接受这两类训练。

他们精心挑选了三款游戏，难度层层递进：

第一款是"矩阵博弈"，类似于囚徒困境这样的抽象策略游戏。AI面对一张只有数字的收益表格，必须推断对手会怎么选，然后找出最稳妥的策略。这考验的是纯粹的抽象推理和战略思维。

第二款是"井字棋"，这是需要多轮对抗的棋盘游戏。AI不能只看眼前一步，必须提前规划好几步之后的局面，同时严格遵守规则（只能下在空格子里）。这训练的是长期规划能力和规则意识。

第三款是"谁是卧底"，一个多人参与的社交推理游戏。几个玩家拿到相近但不同的词语，通过描述来暗示自己身份，最后投票找出卧底。平民既要描述得清楚让队友听懂，又不能太直白被卧底猜中；卧底则要浑水摸鱼。这考验的是心智理论——也就是揣摩他人想法的能力，以及灵活的语言表达。

这三款游戏覆盖了从抽象推理到长期规划，再到社交智慧的完整光谱。研究者希望，通过这些游戏，AI能学到课本里没有的"街头智慧"。

为什么不能简单"一锅炖"？

一个直观的想法是：既然数学题和游戏都有好处，那直接把训练数据混在一起，让AI同时学不就行了？

研究团队发现，这种做法效果并不好，问题出在两个层面。

第一个问题是"信号打架"。不同任务产生的学习信号差异很大。数学题的奖励很直接——答案对就是对，错就是错；但游戏的奖励可能来自复杂的社交博弈，探索方式也截然不同。当这些异质的信号被强行塞进同一个训练批次时，就像把爵士乐、摇滚乐和古典乐同时播放，AI听到的只是一片嘈杂，难以分辨出每种任务真正的优化方向。

第二个问题是"方向冲突"。简单地把各个任务的梯度相加，相当于让几个老师同时拉扯AI往不同方向走。数学老师说要"严谨推理"，游戏老师说要"灵活变通"，他们的指令可能互相抵消，导致AI在参数空间里原地打转，找不到一个能同时满足所有任务的"甜蜜点"。

实验数据也证实了这一点。在15亿参数的模型上，如果只用数学训练，AI的平均能力得分是38.34%；但简单地把数学和游戏混在一起训练，得分反而跌到了33.53%左右，出现了"1+1<<1"的尴尬局面。

轮流上课的"协调训练法"

为了解决这个问题，研究者提出了一种叫"协调子任务训练"（CST）的方法。它的核心思想非常朴素：不要让所有老师同时说话，而是让他们轮流上课，并且把上一节课的"笔记"传给下一节课。

具体来说，AI先上一节数学课，更新一次参数；然后带着刚刚更新的"大脑状态"去玩游戏，再更新一次；接着再去玩另一个游戏，如此循环。每个任务都在一个"干净"的批次里单独学习，避免了不同信号之间的干扰。

更巧妙的是，这种轮流更新在数学上产生了一个意想不到的效果。当AI先学数学、再学游戏时，第二轮的游戏梯度是在被数学"调整过"的参数上计算的。这种顺序更新引入了一些高阶的交互项，相当于在潜意识中鼓励不同任务的梯度方向更加"对齐"——也就是让数学老师和游戏老师的指令不再南辕北辙，而是逐渐指向同一个大致方向。

打个比方，混合训练像是几个人同时推一个箱子，力量互相抵消；而CST像是几个人接力推箱子，每个人都顺着上一个人推动的方向再加一把力，箱子反而更容易沿着正确的路径前进。

实验结果：会玩游戏的AI更聪明

实验在两个不同规模的模型上展开：15亿参数和70亿参数的Qwen模型。结果非常亮眼。

对于15亿参数的小模型，单纯学数学能把数学成绩从17.2%拉到43.2%，但玩游戏的泛化能力很弱。而引入游戏训练后，虽然数学成绩略有波动，但综合平均能力从38.34%提升到了41.13%。更重要的是，使用CST方法后，AI在矩阵博弈中的胜率大幅提升，在通用知识测试MMLU上的表现也明显优于简单混合训练。

对于70亿参数的较大模型，效果更加显著。单纯数学训练的平均得分是42.00%，而结合游戏训练并采用CST方法后，平均得分跃升至57.39%，提升幅度超过15个百分点。特别是在需要创意写作的CommonGen任务上，以及社交推理的SocialIQA任务上，游戏训练带来的增益非常明显。

一个有趣的发现是，在"谁是卧底"这种社交游戏中，AI展现出了对语言微妙之处的理解。研究者甚至设计了一个"额外提示"，要求AI每轮描述都必须换角度、换句式，不能重复。经过训练的AI学会了从不同维度描述同一个词——比如从"功能"、"形态"、"象征意义"等角度切换，展现出相当不错的语言创造力。

一个具体的例子：数学题的"游戏疗法"

论文中展示了一个令人印象深刻的案例，题目是：

> 设p(x)是一个整系数二次多项式，已知4-√11是它的一个根，求p(3)/p(4)的值。

未经游戏训练的70亿参数基础模型，虽然知道要用共轭根式构造多项式，却在展开(x-4)²-11时犯了低级错误，把16-11算成了3，导致最终答案错误。

而经过矩阵博弈训练的同款模型，表现出了截然不同的风格。它一步一步地展开：

(x-4)² - 11 = x² - 8x + 16 - 11 = x² - 8x + 5

并且主动选择了a=1来简化计算，最终得出了正确答案10/11。

研究者分析，游戏训练让AI养成了更谨慎、更逐步验证的习惯——就像下棋时需要反复确认每一步是否安全一样，这种"自我检查"的习惯迁移到了数学推理中，帮助它避免了基础模型的那种粗心错误。

在创意写作任务中，CST训练的效果也肉眼可见。面对"用food、front、sit、table造句"的任务，简单混合训练的AI只会机械地拼凑出一句勉强通顺的话。而经过CST训练的AI，会先在心里"过一遍"场景：设定一个餐厅环境，安排人物坐下，把食物放在桌前，最后写出一句生动自然的句子。这种从"词语堆砌"到"场景构建"的飞跃，正是协调训练带来的深层理解。

为什么这很重要？

这项研究的意义远不止于让AI更会玩游戏。它揭示了一个被长期忽视的训练维度：现实世界中的智慧，很大程度上来自于互动、试错和社交体验，而不是标准答案。

当前的大模型训练极度依赖"正式学习"——海量的文本标注、明确的问答对、固定的评分标准。这固然让AI成为了考试高手，但也限制了它们在面对开放世界时的应变能力。通过引入游戏作为"非正式学习"的载体，研究者开辟了一条低成本、可扩展的新路径：游戏不需要人工标注每一句话的对错，规则本身就提供了反馈；游戏可以无限生成新的对局，永远不会耗尽训练数据。

当然，这项研究也有局限。目前测试的游戏种类还比较少，对手模型也是固定的。未来，如果AI能在更复杂的真实世界环境中学习，或者与不断进化的对手博弈，或许能激发出更惊人的通用智能。

但至少，这项研究给了我们一个清晰的启示：只会刷题的AI，和只会做题的学生一样，可能都缺几堂"游戏课"。当AI真正学会在游戏中思考、博弈和社交时，它们离"通用智能"的距离，或许就会更近一步。

详情见《GIFT: Games as Informal Training for Generalizable LLMs》