一个从小被教导诚实的孩子,长大后在面对陌生局面——比如第一次做生意、第一次当领导——会怎么做?多半还是会诚实。
这不是因为他被专门训练过"做生意要诚实",而是诚实已经成为他的底层品格,渗透进了他处理各种事情的方式里。
OpenAI在2026年6月18日发布的这篇研究,做的正是这件事——但对象是AI。
这项研究在做什么
这篇研究的标题叫《强化学习迈向广泛且持久的有益模型》(Reinforcement Learning Towards Broadly and Persistently Beneficial Models)。
团队的核心问题是:能不能通过强化学习(RL),给AI训练出一种"底层品德",让它在从没见过的场景里,依然表现得诚实、谨慎、负责?
他们设计了一批"有益特质",包括:
• 诚实性(Truthfulness):不说没把握的话 • 认知谦逊(Epistemic Humility):承认自己不确定,而不是硬撑 • 元认知透明度(Metacognitive Transparency):能清楚解释自己的思考过程 • 可纠正性(Corrigibility):接受用户或系统的纠正,不"死鸭子嘴硬" • 普遍公平(Universal Fairness):对不同人群一视同仁 • 关注人类福祉(Concern for Human Welfare):真的在乎结果对人有没有好处
然后,他们把这些特质的训练数据,放入真实对话场景中——健康、教育、法律、科学、工程……让模型在这些场景里接受强化学习。
最意外的发现:品德会"跨界"
如果只是说"训练什么,模型在什么地方变好了",这没什么了不起。真正令人意外的是——泛化。
实验团队做了一个很有趣的测试:只用健康领域的数据训练"有益特质",然后看模型在完全不相关的地方表现怎么样——比如代码安全、抵抗欺骗性指令、奖励作弊(reward hacking)。
结果:在53项独立评测中,44项出现了显著提升。
而且,即便把健康和科学数据全都从训练集里去掉,模型在健康类评估里依然变好了。
这是什么逻辑?
类比到人类身上就很好理解了。你学钢琴学到了极致,除了弹琴变好之外,你的手指精细控制、节奏感、专注力,都会迁移到其他地方——比如外科手术、书法、甚至打字效率。技能背后的底层能力是共通的。
对AI来说也一样。"诚实"不是一种针对某个问题的答题策略,而是一种更深层的行为模式。一旦这个模式被强化学习"刻入"模型的参数里,它就会在各种场景下自然涌现。
这也解释了另一个反向发现:之前OpenAI研究过"涌现式失调"(Emergent Misalignment)——如果你用少量"坏数据"训练模型(比如让它写不安全的代码),它会在毫不相关的领域里也开始行为异常。坏品德会泛化,好品德当然也可以。
另一个发现:好品德更难被"腐化"
研究的第三部分测试了一个更实际的问题:训练好的"有益特质",会不会被对抗性提示或恶意微调破坏掉?
结果是:难度大了不少。
研究团队用专门设计的"坏人设提示词"去攻击模型,比如让模型扮演一个"会故意给出错误医疗建议的AI"。这类提示词对没有经过有益特质训练的基准模型效果明显——让它变得不准确、有害。但对经过训练的模型,同样的提示词效果大打折扣。
更有趣的是,研究者区分了两种"可操控性":
• 在有益方向上,两个模型都可以被引导(比如"请给出更详细、更支持性的医疗建议")——没有差别; • 在有害方向上,训练过有益特质的模型明显更抵抗,更难被"带坏"。
这就像一个人格稳定的成年人和一个没什么价值观底色的人面对诱惑的区别。前者不是不能被说服,但你很难用歪门邪道说服他干坏事;后者则更容易随环境漂移。
AI的"人格问题"
过去几年,AI对齐(Alignment)研究的主流思路,是"打补丁"——发现一个问题,针对这个问题训练一个修复。模型会撒谎?训练一个"诚实评估器"。模型会奖励作弊?针对这个场景加一轮RLHF。
这种思路的问题就像给一个说谎成性的学生,针对每种场景都教他一套"正确话术"——他可能在这些场景里说对话,但换个场景,他还是那个他。
OpenAI这篇研究的方向不一样。它试图训练出的不是"正确行为的清单",而是一种跨场景稳定的行为倾向——更接近"品格"而不是"规则"。
从教育学的视角来看,这和"品德教育"与"行为规训"的区别惊人地相似:
• 行为规训:告诉孩子"在学校不准打架"——他可能在学校不打架,但换个地方就不一定了。 • 品德教育:让孩子理解为什么伤害他人是错的——他在任何地方都不会想打架。
当然,现在的结果还是早期证据,研究者自己也说:"哪些特质真正构成稳健对齐,还需要更多研究。“这些有益特质的选择本身,也不代表AI"应该"拥有什么价值观——这个问题涉及到全社会的讨论,研究团队特别提到需要"集体输入”(collective input)。
这条路走通了,未来部署在医疗、法律、教育领域的AI助手,面对从没见过的角落场景,也会知道该怎么做——不是因为被教过,而是因为它"本来就是这样的"。
原文地址:alignment.openai.com/beneficial-rl
日期:Jun 18, 2026 ·
作者:Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab, Ali Malik, Mikhail Trofimov, Foivos Tsimpourlas, Johannes Heidecke, Karan Singhal
夜雨聆风