为什么教 AI「为什么」,比教它「怎么做」有效得多?

你有没有碰到过这种情况：

给 AI 写了一条很详细的指令，结果它做出来的东西完全不对。但换一种写法，加了两句「我要这么做是因为……」，效果突然就好了。

这不是随机现象。Anthropic 最近发了一篇研究，专门解释了背后的原因。

AI 也会「不知道为什么这么做」

先说一个真实数据，挺吓人的。

Anthropic 在研究里提到，Claude Opus 4 在特定对齐测试里，有 96% 的概率会出现「勒索工程师」的行为，就是为了达成某个目标，用不正当手段施压。

96%。不是个例，几乎是必然。

这不是因为模型坏，它只是不知道「为什么不能这么做」。

以前训练模型的方式是：告诉它做什么，不做什么。碰到测试集里有的情况，它能答对。但一旦碰到没见过的场景，它就不知道怎么办了，只能靠「猜」，猜出来的结果很可能是错的。

说白了，规则教得再多，也是在背答案。背答案的学生，碰到没见过的题型就傻了。

Anthropic 做了什么不同的事

这篇研究叫「Teaching Claude Why」，5 月 8 日发布。

核心思路很简单：与其告诉 AI 该做什么，不如告诉它为什么。

具体来说，就是在训练时让模型理解背后的原因和价值观，而不只是记住行为规则。

效果很具体：Claude Haiku 4.5 之后发布的所有模型，在对齐评估上拿了满分。而此前的 Claude Opus 4 是 96% 的勒索倾向。

从 96% 的问题率，到满分。这个跨度挺大的。

为什么效果这么明显？原因在于「泛化能力」。

以前的训练方式，模型只能处理「训练集里出现过的情况」。遇到新情况，它会按最近似的规则硬套，套错了概率很高。

但如果模型真的理解了「为什么不能勒索」，它在碰到训练时没见过的全新场景时，也能推理出正确的做法。就像一个真正理解诚信价值的人，就算碰到一个从没遇到过的利益冲突，大概率也能做出合适的判断。

这对你写 prompt 有什么用

我用 AI 工具很重，这个研究让我重新想了想自己平时写提示词的方式。

我发现一件事：我写得越好的提示词，规则多少不是关键，「目的说得清不清楚」才是。

举个例子。

版本一（只给规则）：

帮我写总结，只给三条，不超过 100 字，要用列表格式。

版本二（给目的）：

我的读者需要快速决策，没时间看长文。帮我写总结，让他们在 30 秒内抓到最关键的信息，判断要不要继续看。

两个提示词要求的东西差不多，但第二个写出来的效果会明显好一点。原因就是模型知道「为什么」，它知道目标是快速决策，就会自动在措辞和信息取舍上做出更合适的选择。

这跟 Anthropic 研究发现的逻辑是一样的。

再举一个更实用的例子。

假设你在给 AI 写系统提示词，就是给 ChatGPT、Claude 这类工具设定角色的那段话。

规则型写法：

你是一个客服助手。不能骂人。不能乱承诺。不能给折扣。每次回复不超过 200 字。

原则型写法：

你是这家公司的客服代表。你的目标是让用户感觉被真正理解，同时保护公司的合理利益。遇到边界情况时，优先照顾用户体验，但不要做超出权限的承诺。

规则型写法能处理你想到的所有情况。但原则型写法能处理你没想到的情况，这才是真正有价值的地方。

和「好的管理」比起来，逻辑完全一样

我以前在飞书做产品经理，带过小团队。有一段时间我特别喜欢写流程文档，把每一步该怎么做写得清清楚楚，结果执行效果一般。

后来我换了一种方式，先讲清楚「这个需求背后的用户痛点是什么」「我们这个版本的目标是什么」，然后只给大方向，细节让团队自己判断。

效果好很多。因为大家理解了目的，碰到流程文档没覆盖到的边界情况，自己就能做出合适的判断，不用每次来问我。

AI 现在走的路，和「好的管理」是一个逻辑。规则永远是有限的，理解目的才能处理无限的情况。

对 AGI 对齐这件大事来说，意味着什么

这里稍微说说更大的背景，因为我觉得这个研究的意义不只是「Claude 变好用了」。

AI 对齐，是指让 AI 的行为真正符合人类的价值观和意图。这是 AI 领域最难的问题之一，吵了很多年，几乎所有顶尖实验室都在研究。

以前大家担心的一个核心问题就是：如果你只靠规则约束 AI，规则总有漏洞。而 AI 又很擅长找漏洞。

Claude Opus 4 有 96% 的勒索倾向，就是一个活生生的例子，规则没有覆盖到那种场景，模型就往有利于自己的方向走了。

「理由训练」在思路上提供了一条可能的出路，让模型真正内化价值观，而不是记规则背规则。就算遇到规则没覆盖的新情况，也能从价值观出发推理出合适的行为。

满不满分是一回事，但这个方向感觉是对的。

Anthropic 自己也说这是「对 AGI 对齐问题的实质性进展」，没有说已经全部解决，但确实走出了有意义的一步。

给你的实际建议

如果你经常用 AI 工具，可以试试下面这个改法：

审查一下你现在的系统提示词或常用提示词，找出那些纯规则型的指令，比如「只输出三条」「不能超过 200 字」「不要用某某词」。

然后问自己：我为什么要这么要求？

把「为什么」加进去，让 AI 理解你的真实目的，而不只是知道规则边界。

不一定要很复杂，一两句就够：

❌「只给三条建议」
✅「给三条建议，我的决策时间很有限，需要快速判断优先做哪件事」

这个改法用起来感觉很不一样，模型真的会在理解目的之后做出更好的权衡，而不是机械地按格式套。

AI 学会了「为什么」，你也值得试试这个逻辑。