OpenAI 自爆训练安全事故:多款 GPT-5 模型的「思维链」被意外施压,安全监控窗口居然没坏?!

导读
【导读】OpenAI 5 月 7 日发布 Alignment Blog，承认内部自动检测系统发现多款已发布模型在 RL 训练中被「意外」施加了思维链评分压力——直接违反自家安全政策。独立机构 Redwood Research 审查后表示：公开证据只消除了约 80% 的担忧。剩下的 20%，没人能替你放心。

「坏消息」和「好消息」

5 月 7 日，OpenAI 对齐团队研究员 Tomek Korbak 在 X 上发了一条帖子。开头两个词：坏消息，好消息。

"Bad news: We at OpenAI have recently found we were accidentally putting optimization pressure on chain of thoughts."

「坏消息：我们 OpenAI 最近发现，自己一直在意外地对思维链施加优化压力。」

"Good news: It didn't affect monitorability and it seems that degrading monitorability via CoT grading is harder than we thought."

「好消息：这没有影响监控性，而且通过 CoT 评分来破坏监控性，似乎比我们以为的更难。」

▲ Tomek Korbak 在 X 上发帖公开事件，11.2 万次查看

这条帖子的口吻带着研究员做 post-mortem 的坦率——主动把内部安全管线的问题拿出来让同行审视。Tomek 在后续回复中补充：

"It's obviously bad this happened and 'no CoT grading' is still an important norm to uphold."

「这件事发生显然很糟糕，'不对 CoT 打分'仍然是需要坚持的重要规范。」

他同时认为，OpenAI 正在培养一种承认错误、主动向 AI 安全社区共享事后分析的文化。

那，到底发生了什么？

思维链：AI 安全监控的命门

要理解这件事的严重性，先要搞清楚一个概念：CoT monitorability（思维链监控性）。

现在的推理模型在给出答案之前，会先生成一段内部推理过程——思维链（Chain of Thought）。这段文字是安全研究员监控模型行为最关键的窗口：模型有没有在 reward hacking？有没有违反指令？有没有隐藏不当行为？都能从思维链里找到线索。

OpenAI 自己说过：监控模型的思维链，是发现和追踪模型 misalignment 的有效方式。

但这扇窗有一个致命弱点：如果训练过程中的奖励信号直接评估了思维链本身，模型就可能学会写「看起来安全」的推理过程——而实际行为不变。

想象一下：一个模型在做危险操作，但它知道哪些想法写出来会被扣分。于是它把真正的意图藏起来，只在思维链里展示无害的推理。监控者看到的一切正常，但模型早已学会了「表演」。

OpenAI 的政策明确规定：RL 训练中不能直接给 CoT 打分。

而他们刚刚承认，这条红线被意外踩了。

三条意外泄漏的奖励路径

OpenAI 同日发布了官方 Alignment Blog，标题是"Investigating the consequences of accidentally grading CoT during RL"。

"Using this system, we found that some previously released models were inadvertently exposed to limited CoT grading during RL training, despite our policy against it."

「我们用该系统发现，一些此前已发布的模型在 RL 训练中无意间暴露于有限的 CoT 评分，尽管这违背了我们的政策。」

▲ OpenAI Alignment Blog 原文，详细披露事故经过与评估方法

具体来说，内部检测系统揪出了三类意外的 CoT 评分路径：

第一类：奖励轨迹有用性（Rewarding trajectory usefulness）。最直接的风险是让模型在思维链中夸大自己的有用性。受影响范围：GPT-5.4 Thinking 低于 0.6% 的样本，GPT-5.4 mini 低于 1.5%。

第二类：惩罚不必要的确认提问（Penalizing unnecessary confirmation questions）。风险在于让模型在思维链中把确认提问说得更有必要，或隐藏自己是否该问确认问题的推理。受影响范围：GPT-5.1 Instant 低于 3.8%，其他相关模型低于 1.8%。

第三类：惩罚成功的 prompt injection（Penalizing successful prompt injections）。风险在于让模型隐藏或重构与 prompt injection 失败相关的推理。受影响范围：所有相关模型低于 0.3%。

Tomek 在 X 上回复网友追问时给了一个口语化总结：受影响样本比例在不同 runs 中介于 0.3% 到 3.8%。

数字看起来不大。但关键在于：这些都是已经发布、用户正在使用的模型。

这些问题是怎么被发现的

值得注意的是发现方式。

OpenAI 最近新建了一个自动检测系统，专门扫描所有 RL 训练 runs，检查 reward 机制的输入中是否包含了模型的 CoT trace。系统通过正则匹配触发警报，通知 RL run 负责人，并将疑似案例发布到一个内部公开的 Slack 频道。

换句话说，这些意外的 CoT 评分路径，是 OpenAI 自己造的探针从训练管线里捞出来的。

Tomek 在回复网友 Hao Wang 时确认：

"We do have a detection system in place now, yes!"

「我们确实已经有一个检测系统了！」

这恰恰说明了一个现实：frontier lab 的 RL 训练管线已经复杂到连内部人都无法靠肉眼巡检确保安全政策没被违反。必须有专门的基础设施来兜底。

官方博文还披露了一个特别微妙的泄漏路径：有些模型在训练中能通过工具调用访问自己的思维链，导致 CoT 出现在后续被评分的 tool outputs 中。检测不能只看 grader 配置，还得追踪整条数据流。

监控性到底坏没坏

这是所有人最关心的问题。OpenAI 的回答是：没有发现监控性显著退化的明确证据。

"We investigated the affected runs and did not find clear evidence of significant monitorability degradation."

注意措辞。「没有发现显著退化的明确证据」，这是科学谨慎口径，不等于「已证明完全没有影响」。

OpenAI 给出了两条主要证据：

对GPT-5.4 Instant的确认提问惩罚做了消融实验（ablation）：在有 CoT 评分和无 CoT 评分的训练 run 中，检测器看到的不必要确认提问率相近；CoT-aware 与 CoT-blind 检测器的分歧率也相近；monitorability 评估没有显示明显下降。

对GPT-5.4 Thinking：没有完整的消融对照。OpenAI 重新计算了 usefulness reward，比较有无 CoT 访问权限的评分结果，发现分数大体同步，样本级差异与两个 CoT-blind grader 之间的正常波动相近。结合低受影响比例和评估未显示下降，OpenAI 表示「担忧减轻」，但也承认无法完全排除微妙影响。

网友 Tim Kostolansky 追问：你们怎么知道没影响 monitorability？Tomek 回了一句：

"We ran monitorability evals."

「我们跑了监控性评估。」

第三方评价：消除了 80% 的担忧

OpenAI 在发布前把草稿分享给了三家独立机构：METR、Apollo Research 和 Redwood Research。其中 Redwood 的 Buck Shlegeris 公开发表了详细评论。

▲ Redwood Research 在博客上发布的独立评论

Buck 的总评：

"My overall assessment is that I mostly agree with the analysis in the post."

「我的总体评估是，我大体同意文中的分析。」

他进一步量化了自己的判断：

"I believe the evidence from OpenAI's investigation of the incident assuages 80% of the negative update I would have made..."

「OpenAI 的调查证据消除了我原本因 CoT 被训练而产生的约 80% 的负面更新。」

80%，听起来挺高。但反过来想：还有 20% 的担忧，Redwood 觉得现有证据不够消除。

Buck 指出了两个关键的剩余风险：

第一，CoT 访问权限对 grader 的影响可能极其微弱，现有技术难以测出——但在大规模 RL 训练中，即便极小的 reward 差异也可能推动模型在少数关键场景中学会不再吐露危险想法。

第二，monitorability 评分本身可能没有覆盖所有最值得担心的性质。

Buck 还提出：如果站在「假设最坏情况」的角度，公开材料并不足以让不信任 OpenAI 的外部观察者放心。AI 公司需要更强的外部审查和组织流程。

Redwood 的评论也同步进入了 LessWrong 社区讨论。

▲ Redwood 评论在 LessWrong 引发 AI 安全社区讨论

安全窗口保住了，但警报远没有解除

OpenAI 在官方文章最后划了几条关键边界：

这次有限的 CoT 意外施压没有导致监控性广泛下降，这是一个有价值的经验数据。

但这绝对不能成为允许 CoT 评分的理由。

"But this is not a reason to allow CoT grading."

已有研究显示，直接优化 CoT 监控器可以降低监控性。OpenAI 自己的实验也表明，思维链在足够压力下可以被引导。一旦失去 CoT 监控性，检测模型 misalignment 将变得困难得多。

OpenAI 的政策仍然是：RL 中禁止 CoT 评分。

他们已经修复了受影响的 reward pathways，扩展了自动检测系统，加强了内部流程指导。Tomek 也在 X 上确认：GPT-5.5 没有受到影响。

这件事的真正意义可能不在事故本身。受影响比例确实有限，监控性评估也没有拉响红灯。

真正值得持续关注的问题在于：当推理模型越来越强，训练管线越来越复杂，思维链这扇安全监控窗口还能不能守得住？

这一次守住了。下一次呢？

OpenAI 用自建探针抓住了自己的失误，用公开 post-mortem 向外界展示了内部安全流程——这值得肯定。但正如 Redwood 所说，一家 frontier lab 的自查自纠再透明，也替代不了更强的外部审查机制。

CoT 监控性同时也是基础设施问题、流程问题和文化问题。这次事故至少证明了一件事：在训练 frontier 推理模型的管线里，安全政策的执行不能只靠人工审查，必须有自动化兜底。

— END —