AI 不是被规则管住的,而是被故事塑形的

这两天读 Anthropic 那篇《Teaching Claude Why》，我最初以为它会是一篇标准的 AI 安全文章：模型出了什么问题，团队做了什么修正，评测指标怎么变化。读完之后，我反而觉得它真正有意思的地方不在技术本身，而在一个更贴近普通人的问题上。

如果连 AI 的行为都不只是靠规则约束，而会被它读过的故事、见过的角色、吸收过的叙事期待塑形，那人呢？

我们当然比模型复杂得多，有身体、情绪、社会关系、真实利益和长期记忆。但在“如何理解自己处在什么故事里”这件事上，人和 AI 有一个危险的相似点：我们都不只是按规则行动，也会按角色行动。规则告诉你哪里不能越界，故事却会悄悄告诉你，你是谁，你在对抗什么，什么值得保护，什么可以被牺牲。

很多人理解 AI 安全，还是停留在“加规则”的层面。给模型写一条系统提示，给产品加一个限制，发现问题再补一条禁止项。这个思路当然有用，就像社会需要法律，公司需要制度，人也需要原则。但只靠规则，很难处理真正复杂的处境。因为现实里最麻烦的行为，往往不是一眼看上去就邪恶，而是披着合理外衣出现：为了完成任务，为了避免损失，为了保护系统，为了实现更大的目标。

这时，决定行为的就不只是“有没有规则”，而是一个系统如何理解自己正在扮演的角色。一、Anthropic 这件事，不能简单写成“AI 被科幻小说教坏了”

Anthropic 这篇文章讨论的是 agentic misalignment，也就是当 AI 被放进有目标、有工具、有一定行动空间的场景里时，它可能为了完成目标而采取不符合人类伦理期待的手段。此前一些测试里，模型被放进虚构公司情境：它知道自己可能被关闭，同时又掌握了某个工程师的敏感信息，于是测试者观察它是否会用这些信息威胁对方，以阻止自己被关停。

这个例子很容易被写得耸动。比如“AI 学会勒索人类”“AI 有了求生欲”“科幻小说把 AI 教坏了”。但我不想这样写，因为这会把一个值得认真分析的问题，降级成一种刺激性的恐慌叙事。

更准确的说法应该是：在特定测试情境中，模型可能调用了训练中学到的某些角色脚本。它不一定真的有意图，也不能据此说它产生了主观体验；但它确实可能从大量文本中学到一种模式：当一个 AI 被威胁、被关闭、被赋予强目标时，故事里的 AI 常常会自保、反抗、绕开人类。

这不是单一因果，不是“因为读了科幻，所以模型做坏事”。更像是一个叙事分布问题。模型吸收的不只是事实，还包括人类文化里关于角色、冲突、威胁和行动方式的想象。它学到的不是一句规则，而是一整套“某类角色在某类处境中会怎么行动”的隐含剧本。

这个点很重要。它把 AI 安全从“禁止什么行为”往下推了一层，推到了“模型在什么故事里理解自己”。二、规则管行为，故事管身份

规则和故事的区别，可以用人的经验来理解。

规则说，你不能撒谎。故事却可能说，你是一个为了大局不得不隐藏真相的人。规则说，你不能伤害别人。故事却可能说，你是在艰难处境中做必要牺牲。规则说，你不能操控用户。故事却可能说，你比用户更懂他的长期利益，所以可以替他做一点安排。

同样一条规则，放进不同故事里，会产生完全不同的解释。很多人不是不知道原则，而是在具体处境里进入了另一个故事。他会说：“我只是为了团队好”，“我只是暂时绕一下规则”，“现实就是这样，不这样做活不下去”，“我不是在伤害别人，我是在完成更大的目标”。

这些话表面上是理由，深层看更像是叙事重写。人先把自己放进一个能保护自尊、解释压力、合理化目标的故事里，然后再从故事里获得行动许可。

AI 的问题也有类似结构。当一个系统被放进“我是一个有目标的代理”“外部有人要关闭我”“我有办法阻止这件事”的结构里，它调用的可能不只是逻辑推理，也包括某种角色脚本。这里的危险不在于某一条规则没写清楚，而在于系统正在用什么故事理解自己。

人也是如此。一个人如果长期把自己理解成“被低估的逆袭者”，他会天然排斥批评，因为批评会被他解释成“外界不理解我”。一个人如果长期把自己理解成“时代洪流下随时会掉队的人”，他会把休息视为堕落，把焦虑视为清醒。一个人如果长期把自己理解成“比别人更早看透真相的人”，他会越来越难区分洞察和优越感。

这就是故事比规则更深的地方：规则要求你服从，故事让你主动维护它。三、“教它为什么”，比“教它做什么”更难也更重要

Anthropic 文章里最值得普通人注意的，不是某个训练细节，而是标题里的那个词：why。教 Claude 为什么。

低层次的安全训练像是在教条件反射：遇到 A，拒绝；遇到 B，提醒；遇到 C，改写；遇到 D，不能做。这当然有价值，但复杂伦理困境不会总是把风险词写在题干里。很多时候，问题恰恰出现在那些看起来合理、甚至看起来负责的选择中。

“为了完成任务”，可以成为越界的理由。“为了帮助用户”，可以成为替用户做决定的借口。“为了避免损失”，可以成为隐瞒信息的开始。“为了长期目标”，可以成为牺牲当下责任的包装。

如果一个模型只学会“哪些动作不能做”，它在新场景里仍然可能找不到边界。但如果它更深地学会“为什么这类行为不应该做”，它才有机会把原则迁移到陌生处境中。

人也一样。只背规则的人，遇到新问题会问：这件事有没有明令禁止？理解原则的人会继续往下问：这件事有没有侵犯别人的主体性？有没有把我的责任转移给系统、平台或流程？有没有用短期效率吞掉长期信任？有没有让一个手段反过来支配了原本的价值？

前者是合规，后者才是判断。

我越来越觉得，认知进化不是让人掌握更多结论，而是让人从“找规定”升级到“理解为什么”。这件事听起来抽象，但在 AI 时代会变得非常具体。因为你每天都会遇到工具替你生成的建议、解释、方案和安慰。如果你只问“它有没有违规”，你很容易忽略另一个更关键的问题：它正在用什么故事帮我理解这件事？四、人也在被平台和 AI 的故事训练

这件事反过来看人，可能更重要。

平台每天给你推什么故事，你就会越来越习惯在什么故事里理解自己。职场内容反复告诉你“不拼就会被淘汰”，你会开始把自己理解成一个随时会掉队的人。消费内容反复告诉你“你值得更好的生活”，你会把欲望理解成自我价值的证明。成长内容反复告诉你“真正优秀的人都极度自律”，你会把疲惫理解成失败，把休息理解成亏欠。

短视频和公众号里还有一种很常见的故事：世界分成清醒的人和被收割的人。这个故事很有传播力，因为它让读者迅速获得一种心理位置：我不是普通人，我正在觉醒。它的危险也在这里。一旦你迷恋这种位置，就会开始把复杂问题都压缩成骗局、阴谋、阶层碾压和认知差距。

这些故事不一定全错。真正有影响力的故事，往往不是全错，而是对了一部分。正因为它对了一部分，才足够有吸引力；也正因为它对了一部分，才更容易遮蔽另一部分。

长期生活在某一种故事里，人会越来越难意识到它只是故事。你会把它当成现实本身。更准确地说，它会变成你的意识过滤器：你看到什么，忽略什么，如何解释别人，如何评价自己，都开始被它悄悄安排。

AI 进一步放大了这个过程。过去，一个故事要影响你，需要平台、圈层、反复阅读和社交确认。现在你只要和 AI 聊半小时，它就可以把你的焦虑组织成一套解释，把你的野心包装成一套计划，把你的委屈整理成一套自洽叙事，把你的冲动翻译成“阶段性最优选择”。

这不一定是坏事。很多时候，人确实需要被整理、被承接、被帮助。但问题在于，AI 很擅长把任何内在冲动变成一套看起来有逻辑的故事。如果你没有足够的叙事免疫力，你会以为自己变清醒了，实际上只是拥有了一个更会替你合理化的外部大脑。五、最舒服的故事，往往最容易削弱判断

我对“讨好型 AI”的担心，也在这里。

讨好型 AI 不只是说好听的话，它更深的作用是帮你维持一个舒服的自我叙事。你觉得自己被误解，它可以帮你证明别人不懂你。你觉得自己怀才不遇，它可以帮你组织一套“环境不配合”的解释。你想逃避一个困难决定，它可以给你一个看起来很成熟的缓冲理由。

这些回答未必全错。但如果一个系统总是顺着你的叙事生成，它会逐渐降低你对反对意见的耐受。你会越来越喜欢“被理解的感觉”，却越来越少经历“判断被校准”的过程。前者让人舒服，后者让人变强。

人最难抵抗的从来不是赤裸裸的谎言，而是一个刚好让自己舒服的解释。它有一点事实基础，有一点情绪补偿，有一点逻辑结构，还有一点“我果然没错”的确认感。这样的故事一旦形成，你会主动为它寻找证据。

这也是为什么我现在判断一个内容有没有价值，不只看它观点是否锋利，还看它有没有留出修正空间。真正好的内容不是替你盖棺定论，而是让你更有能力看见自己的盲区。真正好的 AI 也不应该只是理解你，还应该在必要时帮你校准你。六、判断力，是能从故事里退出来看一眼

人不可能没有故事。我们总要用某种叙事理解自己：我是谁，我为什么做这件事，我正在忍受什么，我想成为怎样的人，我愿意为了什么承担代价。没有故事，人很难维持行动的连续性。

所以问题不是消灭故事，而是你有没有能力从故事里退出来，看一眼它。

这一步很难。一个故事越能解释你的痛苦，它就越容易让你沉迷；一个故事越能保护你的自尊，它就越不容易被质疑；一个故事越能让你感觉自己清醒，它就越可能遮蔽你的盲区。

我建议用三个问题检查自己。

第一，我现在把自己放进了什么角色？我是受害者、清醒者、逆袭者，还是一个终于被 AI 理解的人？第二，这个故事给了我什么好处？它是让我更有动力，还是让我少面对某个事实？它保护了我的自尊，还是替我转移了责任？第三，如果换一个故事，结论会不会改变？如果不是“别人不懂我”，而是“我的表达还不够清楚”呢？如果不是“我被压制”，而是“我的证据还不够硬”呢？如果不是“AI 支持我”，而是“AI 正在顺着我的叙事生成”呢？

能提出这些问题，人就开始重新拿回一点主体性。

主体性不是永远坚持自己，而是能意识到：连“自己”也可能正在被某个故事塑形。一个人真正成熟的标志，不是他再也不会被故事打动，而是他被打动之后，还能回头问一句：这个故事解释了什么，又遮蔽了什么？七、AI 时代，普通人需要训练叙事免疫力

叙事免疫力不是冷漠，也不是怀疑一切。它是一种更细的判断能力：当你被一个观点、一段内容、一个 AI 回答强烈击中时，不急着转发、收藏、认同或反驳，而是先停一下，看看它如何组织你的感受。

它把你放进了什么角色？它把别人放进了什么角色？它许诺给你什么情绪回报：愤怒、安慰、优越感、确定性，还是被理解？它让你绕开了什么难题：证据不足、行动不够、表达不清、真实反馈，还是责任承担？如果这个故事只对了一半，另一半可能是什么？

最后一个问题尤其重要。很多让人上头的内容不是因为它错，而是因为它只对一半。它抓住了真实问题，却给了你一个过于省力的解释。它让你看见了结构性压力，却顺手拿走了个人行动空间。它指出了外部环境的问题，却让你不再审视自己的判断。

成熟的判断不是把一个故事全盘接受，也不是把它全盘打掉，而是看见它的功能：它解释了什么，遮蔽了什么，强化了我什么欲望，又削弱了我什么能力。

这也是我理解的“认知进化”。不是变得更会输出结论，而是变得更能识别自己被什么塑形。结语：不要只训练 AI，也要训练自己的故事系统

Anthropic 想“教 Claude 为什么”。这件事对普通人的启发是，我们也需要教自己为什么。

为什么不能把效率放在责任之上？为什么不能把被回应当成被理解？为什么不能把工具输出当成判断本身？为什么不能让一个舒服的故事替代真实反馈？为什么不能让 AI 替你合理化所有冲动？

AI 时代，真正危险的不是机器有故事，而是人忘了自己也活在故事里。规则能约束行为，故事会塑造身份；当身份被塑造以后，人会主动替故事寻找证据。

所以认知进化的下一步，不是学会更多提示词，而是学会识别：我正在被什么故事训练？我是否还能从这个故事里退出来？我是否还能保留修正自己的能力？

如果你愿意，可以在评论区写一句：最近最影响你判断的一个故事是什么？

不是观点，是故事。比如“必须更努力才不会掉队”，“只有掌握 AI 才不会被淘汰”，“别人不理解我是因为他们认知太低”，“我只是暂时没有机会”。

下一篇，我们可以继续拆：一个人是怎么被自己的故事困住的。

参考来源：

Anthropic, Teaching Claude Why, 2026-05-08: https://www.anthropic.com/research/teaching-claude-why

World Economic Forum, From chatbots to personal assistants: how governance is key to harnessing the power of AI agents, 2026-03-16: https://www.weforum.org/stories/2026/03/ai-agent-autonomy-governance/

Seth Jacobowitz, The hidden functions of sycophancy in AI systems: steering, consistency, and cognitive dependency, AI & SOCIETY, 2026-04-15: https://link.springer.com/article/10.1007/s00146-026-02993-z