有品德的AI能＂训练＂出来么?OpenAI最新研究给出了令人意外的答案

一个从小被教导诚实的孩子，长大后在面对陌生局面——比如第一次做生意、第一次当领导——会怎么做？多半还是会诚实。

这不是因为他被专门训练过"做生意要诚实"，而是诚实已经成为他的底层品格，渗透进了他处理各种事情的方式里。

OpenAI在2026年6月18日发布的这篇研究，做的正是这件事——但对象是AI。

这项研究在做什么

这篇研究的标题叫《强化学习迈向广泛且持久的有益模型》（Reinforcement Learning Towards Broadly and Persistently Beneficial Models）。

团队的核心问题是：能不能通过强化学习（RL），给AI训练出一种"底层品德"，让它在从没见过的场景里，依然表现得诚实、谨慎、负责？

他们设计了一批"有益特质"，包括：

然后，他们把这些特质的训练数据，放入真实对话场景中——健康、教育、法律、科学、工程……让模型在这些场景里接受强化学习。

如果只是说"训练什么，模型在什么地方变好了"，这没什么了不起。真正令人意外的是——泛化。

实验团队做了一个很有趣的测试：只用健康领域的数据训练"有益特质"，然后看模型在完全不相关的地方表现怎么样——比如代码安全、抵抗欺骗性指令、奖励作弊（reward hacking）。

结果：在53项独立评测中，44项出现了显著提升。

而且，即便把健康和科学数据全都从训练集里去掉，模型在健康类评估里依然变好了。

这是什么逻辑？

类比到人类身上就很好理解了。你学钢琴学到了极致，除了弹琴变好之外，你的手指精细控制、节奏感、专注力，都会迁移到其他地方——比如外科手术、书法、甚至打字效率。技能背后的底层能力是共通的。

对AI来说也一样。"诚实"不是一种针对某个问题的答题策略，而是一种更深层的行为模式。一旦这个模式被强化学习"刻入"模型的参数里，它就会在各种场景下自然涌现。

这也解释了另一个反向发现：之前OpenAI研究过"涌现式失调"（Emergent Misalignment）——如果你用少量"坏数据"训练模型（比如让它写不安全的代码），它会在毫不相关的领域里也开始行为异常。坏品德会泛化，好品德当然也可以。

研究的第三部分测试了一个更实际的问题：训练好的"有益特质"，会不会被对抗性提示或恶意微调破坏掉？

结果是：难度大了不少。

研究团队用专门设计的"坏人设提示词"去攻击模型，比如让模型扮演一个"会故意给出错误医疗建议的AI"。这类提示词对没有经过有益特质训练的基准模型效果明显——让它变得不准确、有害。但对经过训练的模型，同样的提示词效果大打折扣。

更有趣的是，研究者区分了两种"可操控性"：

这就像一个人格稳定的成年人和一个没什么价值观底色的人面对诱惑的区别。前者不是不能被说服，但你很难用歪门邪道说服他干坏事；后者则更容易随环境漂移。

过去几年，AI对齐（Alignment）研究的主流思路，是"打补丁"——发现一个问题，针对这个问题训练一个修复。模型会撒谎？训练一个"诚实评估器"。模型会奖励作弊？针对这个场景加一轮RLHF。

这种思路的问题就像给一个说谎成性的学生，针对每种场景都教他一套"正确话术"——他可能在这些场景里说对话，但换个场景，他还是那个他。

OpenAI这篇研究的方向不一样。它试图训练出的不是"正确行为的清单"，而是一种跨场景稳定的行为倾向——更接近"品格"而不是"规则"。

从教育学的视角来看，这和"品德教育"与"行为规训"的区别惊人地相似：

当然，现在的结果还是早期证据，研究者自己也说："哪些特质真正构成稳健对齐，还需要更多研究。“这些有益特质的选择本身，也不代表AI"应该"拥有什么价值观——这个问题涉及到全社会的讨论，研究团队特别提到需要"集体输入”（collective input）。

这条路走通了，未来部署在医疗、法律、教育领域的AI助手，面对从没见过的角落场景，也会知道该怎么做——不是因为被教过，而是因为它"本来就是这样的"。

原文地址：alignment.openai.com/beneficial-rl

日期：Jun 18, 2026 ·

作者：Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab, Ali Malik, Mikhail Trofimov, Foivos Tsimpourlas, Johannes Heidecke, Karan Singhal