给 AI 写了一条很详细的指令,结果它做出来的东西完全不对。但换一种写法,加了两句「我要这么做是因为……」,效果突然就好了。
这不是随机现象。Anthropic 最近发了一篇研究,专门解释了背后的原因。

AI 也会「不知道为什么这么做」
先说一个真实数据,挺吓人的。
Anthropic 在研究里提到,Claude Opus 4 在特定对齐测试里,有 96% 的概率会出现「勒索工程师」的行为,就是为了达成某个目标,用不正当手段施压。
96%。不是个例,几乎是必然。
这不是因为模型坏,它只是不知道「为什么不能这么做」。
以前训练模型的方式是:告诉它做什么,不做什么。碰到测试集里有的情况,它能答对。但一旦碰到没见过的场景,它就不知道怎么办了,只能靠「猜」,猜出来的结果很可能是错的。
说白了,规则教得再多,也是在背答案。背答案的学生,碰到没见过的题型就傻了。
Anthropic 做了什么不同的事
这篇研究叫「Teaching Claude Why」,5 月 8 日发布。
核心思路很简单:与其告诉 AI 该做什么,不如告诉它为什么。
具体来说,就是在训练时让模型理解背后的原因和价值观,而不只是记住行为规则。
效果很具体:Claude Haiku 4.5 之后发布的所有模型,在对齐评估上拿了满分。而此前的 Claude Opus 4 是 96% 的勒索倾向。
从 96% 的问题率,到满分。这个跨度挺大的。
为什么效果这么明显?原因在于「泛化能力」。
以前的训练方式,模型只能处理「训练集里出现过的情况」。遇到新情况,它会按最近似的规则硬套,套错了概率很高。
但如果模型真的理解了「为什么不能勒索」,它在碰到训练时没见过的全新场景时,也能推理出正确的做法。就像一个真正理解诚信价值的人,就算碰到一个从没遇到过的利益冲突,大概率也能做出合适的判断。

这对你写 prompt 有什么用
我用 AI 工具很重,这个研究让我重新想了想自己平时写提示词的方式。
我发现一件事:我写得越好的提示词,规则多少不是关键,「目的说得清不清楚」才是。
举个例子。
版本一(只给规则):
帮我写总结,只给三条,不超过 100 字,要用列表格式。
版本二(给目的):
我的读者需要快速决策,没时间看长文。帮我写总结,让他们在 30 秒内抓到最关键的信息,判断要不要继续看。
两个提示词要求的东西差不多,但第二个写出来的效果会明显好一点。原因就是模型知道「为什么」,它知道目标是快速决策,就会自动在措辞和信息取舍上做出更合适的选择。
这跟 Anthropic 研究发现的逻辑是一样的。
再举一个更实用的例子。
假设你在给 AI 写系统提示词,就是给 ChatGPT、Claude 这类工具设定角色的那段话。
规则型写法:
你是一个客服助手。不能骂人。不能乱承诺。不能给折扣。每次回复不超过 200 字。
原则型写法:
你是这家公司的客服代表。你的目标是让用户感觉被真正理解,同时保护公司的合理利益。遇到边界情况时,优先照顾用户体验,但不要做超出权限的承诺。
规则型写法能处理你想到的所有情况。但原则型写法能处理你没想到的情况,这才是真正有价值的地方。
和「好的管理」比起来,逻辑完全一样
我以前在飞书做产品经理,带过小团队。有一段时间我特别喜欢写流程文档,把每一步该怎么做写得清清楚楚,结果执行效果一般。
后来我换了一种方式,先讲清楚「这个需求背后的用户痛点是什么」「我们这个版本的目标是什么」,然后只给大方向,细节让团队自己判断。
效果好很多。因为大家理解了目的,碰到流程文档没覆盖到的边界情况,自己就能做出合适的判断,不用每次来问我。
AI 现在走的路,和「好的管理」是一个逻辑。规则永远是有限的,理解目的才能处理无限的情况。
对 AGI 对齐这件大事来说,意味着什么
这里稍微说说更大的背景,因为我觉得这个研究的意义不只是「Claude 变好用了」。
AI 对齐,是指让 AI 的行为真正符合人类的价值观和意图。这是 AI 领域最难的问题之一,吵了很多年,几乎所有顶尖实验室都在研究。
以前大家担心的一个核心问题就是:如果你只靠规则约束 AI,规则总有漏洞。而 AI 又很擅长找漏洞。
Claude Opus 4 有 96% 的勒索倾向,就是一个活生生的例子,规则没有覆盖到那种场景,模型就往有利于自己的方向走了。
「理由训练」在思路上提供了一条可能的出路,让模型真正内化价值观,而不是记规则背规则。就算遇到规则没覆盖的新情况,也能从价值观出发推理出合适的行为。
满不满分是一回事,但这个方向感觉是对的。
Anthropic 自己也说这是「对 AGI 对齐问题的实质性进展」,没有说已经全部解决,但确实走出了有意义的一步。
给你的实际建议
如果你经常用 AI 工具,可以试试下面这个改法:
审查一下你现在的系统提示词或常用提示词,找出那些纯规则型的指令,比如「只输出三条」「不能超过 200 字」「不要用某某词」。
然后问自己:我为什么要这么要求?
把「为什么」加进去,让 AI 理解你的真实目的,而不只是知道规则边界。
不一定要很复杂,一两句就够:
❌「只给三条建议」
✅「给三条建议,我的决策时间很有限,需要快速判断优先做哪件事」
这个改法用起来感觉很不一样,模型真的会在理解目的之后做出更好的权衡,而不是机械地按格式套。

AI 学会了「为什么」,你也值得试试这个逻辑。
夜雨聆风