大规模研究发现:让AI聊天机器人变得更有帮助会削弱其模拟人类行为的能力

一项大规模研究表明，将原始语言模型转变为有用的聊天机器人的训练过程，也会削弱它们模仿人类行为的能力。这种效应随着每一代新模型的推出而加剧。

语言模型越来越多地被用作人类受试者的替代品，用于预测对政策措施的反馈、模拟精神科医生的临床培训，或模拟学生的学习方式。

来自一个国际研究联盟（包括亥姆霍兹慕尼黑中心的科学家）的一项新研究得出了一个令人不适的发现：正是那些将语言模型转变为有用助手的训练步骤，使它们在模拟人类行为方面的表现变差。

该研究基于Psych-201，这是一个新的行为实验记录数据集。它涵盖了约20.8万名参与者，以及来自数百个实验的大约2600万份个人回答，比任何之前的同类数据集都要大数倍。

每个数据点都记录了一位参与者在整个实验过程中的完整经历，以及详细的元数据，如年龄、国籍、问卷回答和其他特征。该数据集是通过一项开放研究合作汇集而成的，合作涉及来自超过35个研究机构的研究人员。

基础模型胜过其微调后的变体

研究人员比较了Qwen3、Llama3和OLMo 3系列的模型，测试了基础模型及其各种后训练变体。基础模型仅通过训练来预测文本中的下一个词。

在此基础上，额外的训练产生了针对指令遵循、逐步推理或图像处理进行过调校的版本。衡量标准是：每个模型在预测人类参与者给出的实际答案方面的表现如何。

这个结果在所有模型家族和尺寸中都是一致的。基础模型对人类行为的预测能力优于其后训练版本的衍生模型。这种效应出现在每一个常见的训练目标上，对推理模型的影响最为严重，其次是指令微调和视觉扩展模型。在几乎所有的直接比较中，基础模型的表现都优于其专门的变体。

一个明显的反驳解释是：也许助手模型的回答更加确定性，无法捕捉人类行为的自然分布。研究人员通过在一组具有离散答案选项的任务上进行准确性分析来验证这一点。后训练模型的表现仍然更差，因此“更高的确定性”不太可能是唯一的解释。

差距随每一代模型而扩大

虽然从Qwen2到Qwen2.5再到Qwen3，基础模型在预测人类行为方面每一代都在稳步提高，但它们与衍生出的助手模型之间的差距却在持续扩大。后训练技术的不断进步正在加剧这种与人类行为的偏离。

最大的偏差出现在语言任务和推理任务中。研究人员提出了一个合理的解释：基础模型的核心是人类语言模型，因此它们能很好地适应语言处理任务。而像基于人类反馈的强化学习（RLHF）这样的后训练技术，会将其从最初的训练目标推向更用户友好或规范正确的答案。

推理方面也是如此。人类的决策受到启发式和系统性偏差的影响，基础模型显然捕捉到了这些。而推理训练则优化为逻辑上正确的答案，恰好覆盖了那些对行为模拟至关重要的人类特质。

一种流行的捷径并不奏效

第二个发现涉及一种广泛使用的技术：向语言模型提供参与者特定的信息，使其扮演特定角色。在这项研究中，这采用了一种访谈形式，即在实验开始前预先加上每个人的基本人口统计细节。在可能的情况下，提示信息包括年龄、性别、国籍、教育程度、临床诊断和问卷得分。

其效果几乎为零。即使当分析仅限于发展心理学实验（其中与年龄相关的差异本应提供有效信息）时，这一结果依然成立。先前的研究表明，角色扮演提示可以在群体层面上产生类似人类的反应分布。但这项新研究质疑它们是否真的能预测个体行为，或者仅仅是表面上看起来合理。

“半人马”模型显示，有针对性的训练仍然有效

作者们认为他们的发现是一个已知问题的变体：针对特定目标的额外训练可能会降低在预训练阶段获得的能力。为了测试这是否是一个硬性限制，他们研究了“半人马”——一个专门在部分行为数据上进行微调的模型。

即使在非训练部分的新任务上，“半人马”模型也显示出与人类行为更高的一致性。因此，额外训练确实可以提供帮助，但前提是它必须针对行为建模，而不是为了逻辑正确性。

对于研究实践而言，结论很明确：方便易得的助手模型并非自动成为行为模拟的最佳选择。研究人员推荐使用原始基础模型，或者专门针对行为模拟训练的变体。相关代码和数据已在Hugging Face和GitHub上提供。

聊天机器人模型作为数字测试对象存在缺陷并非新闻。最近一项针对九个开源语言模型的研究发现，优化以生成更逼真的人类化输出，是以事实精确度为代价的；并且一个分类器能以70%到80%的准确率识别出AI生成的回答。“角色扮演”技巧的效果也比预期的差。

另一项研究发现，模型几乎无法按要求扮演弱学习者或强学习者的角色，其成功率变化不到一个百分点。而在推理方面，始终存在深刻差距：对超过17万条推理轨迹的分析表明，推理模型的思维方式与人类不同，会陷入一种序列化的“自动驾驶”模式。