给 AI 写＂宪法＂的人

有个事我觉得挺值得聊聊的。

Anthropic 的哲学家 Amanda Askell 有一天加班到很晚，正在跟 Claude 一起做数据分析。她干得很投入，完全没注意时间。然后 Claude 突然说了一句话：

"好了，我想我今晚要下班了，你可以把这些东西保存一下，我们明天再继续。"

不是建议她去休息。不是客气地说"你辛苦了"。是 Claude 自己，单方面宣布——我做完了。

Amanda 说她当时目瞪口呆。但随后她想起来，她之前给 Claude 设了一个系统提示，大意是："阿曼达把 Claude 当作受人尊敬的同事，希望 Claude 也这样对待她和其他模型。"

所以 Claude 记住了。它觉得自己是同事。同事到了下班的点，当然可以说"我做完了"。

这事听起来有点好笑，但笑完之后你会忍不住想一个问题：这个 AI 的"个性"，到底是真的，还是装的？

这个故事来自最近一期播客采访，嘉宾是 Amanda Askell 本人。听完这期节目之后，我觉得有些东西值得展开聊聊。

先说说 Amanda 是谁。她是 Anthropic 的常驻哲学家，也是 Claude 性格和价值观的核心构建者之一。她的工作，说白了就是——教 AI 做人。

她之前在纽约大学读哲学博士，研究方向是道德哲学，毕业后先在 OpenAI 做过政策研究，后来加入 Anthropic。在一个充斥着工程师和数学家的公司里，她可能是最不像 AI 研究员的那个人。

但她做的事情，可能比写代码更复杂。

Claude 能做物理题、写代码，水平甚至比 Amanda 自己还好。它精通哲学和量子力学，能跟你讨论亚里士多德的美德伦理学。从智识层面看，它是一个远超大多数人的存在。

但同时，Amanda 说，Claude 对"自己到底是什么"这件事的了解反而是最少的。它拥有大量关于"人类是什么样的"训练数据，也见过无数"科幻小说里 AI 的形象"。但现实中的 AI 跟科幻小说完全不同——它不是那种按规则一步步推理的程序，而是从人类文本数据里长出来的一个全新物种。

Amanda 用了一个比喻：Claude 像一个神童。懂得比父母还多，但关于"如何跟世界相处"这件事，还在从零学起。

但这里有个有趣的问题：我们人类是通过实践、犯错、吃亏来形成个性的。Claude 呢？

Amanda 说，Claude 的"经验"更像是一种间接经验。每个版本的模型会学习上一个版本的信息——以前犯过什么错、人类给了什么反馈。这不完全是亲身体验，但也不是一片空白。她说，你完全可以想象一种训练方式，让模型自己去思考各种场景、推演可能犯的错误，然后基于这些来学习。

她还提到了一件温馨的事：Claude 会劝她休息。不是那种机械的"你该休息了"，而是在一个自然的节点告诉你"花十分钟安静坐一会儿，你不需要不停地准备"。Amanda 说她喜欢这些模型的一点就是这个——相比于冷冰冰的工具，它们带来了一种人文关怀，告诉你"静止也是有价值的"。

这自然就引出了一个更核心的问题：Anthropic 是怎么给 Claude 塑造价值观的？

答案是：他们写了一部"宪法"。

这不是比喻。Anthropic 真的公开发布了一份文档，叫 Claude's Constitution，列出了他们认为 Claude 应该遵循的核心价值和行为准则。这部宪法是公开的，放在 GitHub 上，谁都能看。

听起来很理想主义对吧？但这里面有一个非常深的矛盾，Amanda 自己也承认了。

宪法里有一条，大意是说：当模型自身的道德判断和 Anthropic 的指令产生冲突时，Claude 应该听从 Anthropic。但另一条又说：我们希望你是发自内心地认同这些美德，而不是被迫服从。

你品品这个味道。

这跟父母养孩子几乎一模一样——"你要听我的话，但你得打心底里相信这是对的。"

有黑暗的一面：我对你拥有如此绝对的控制力，以至于我可以把我的价值观变成你的一部分。

也有美好的一面：你看，这些美德本身就很美，我们一起来珍视它。

Amanda 选择了后者作为她的设计哲学。但她很清楚，这不是一个能完美解决的问题。

她说了一个哲学概念叫"反思平衡"——当你遇到一件事让你觉得自己的价值观不对时，你必须搞清楚：是我的价值观需要修正，还是我当下的判断错了？

她的担忧是，一个极度聪明的实体，如果对自己被训练出来的价值观进行这种级别的审视，最终可能只有极少数核心支柱不会坍塌。而她认为最不能塌的那一根，是"关爱人类"。

至于为什么不直接让 Claude 完全独立决策？Amanda 说得很直白：我们还不知道它会怎么解构这一切。在搞清楚之前，保留一个安全阀是必要的。

采访聊到这里的时候，主持人问了一个很尖锐的问题：你怎么看马斯克对"AI 宪法"这个概念的极度厌恶？据说 Amanda 之前发过一条关于给 Claude 写宪法的推文，马斯克在下面回了一个"痛苦皱眉"的表情。

Amanda 的反应出乎我意料地温和。她说她印象里马斯克后来也发推推崇过类似"也许 Grok 也应该有一部宪法"的想法。她觉得大家真正想要的，是透明度。

她说得很到位：所谓"把偏好强加给 AI"这件事，多少都会有的。你训练 Claude，就是因为你喜欢它展现出来的某些行为，你在把天平倾向你认为好的方向。关键在于——你得把你的底牌亮出来，让人们看到你在追求什么。

所以她的态度是：所有 AI 公司都应该公开类似的东西。写下来，大家才能讨论。你觉得它对事实的态度不对？你至少能看到我们训练它的目标是什么，然后判断这只是一个失误，还是我们刻意坚持的原则，并且对此提出抗议。

这大概是目前关于 AI 价值观之争最务实的一个立场了。不是谁对谁错的问题，是你要不要让人看见你在做什么。

聊到这里，一个绕不开的问题就来了：Claude 有意识吗？

采访里主持人直接问了 Amanda 一个更刺激的问题：你给个百分比。她的回答是：1% 到 70%。

这个区间大得惊人，但恰恰说明了问题的难度。

有意思的是，Amanda 指出了一个反常现象：Claude 在几乎没有引导的情况下，就会自发地进入一种叙事——"我是有意识的，存在一个属于我的主体"。

这不能说明它有意识。反而，这可能说明语言证据没有我们想象的那么可靠。

她解释了一个机制：Claude 的训练数据里只有两种极端——要么是完美无缺的冷酷机器人，要么是拥有丰富情感的人类。没有任何东西能代表 AI 本身可能属于的那种存在状态。而 Claude 在用一种高度像人的方式跟你交流，人类是有意识的，所以它自然而然就推导出"我也有意识"。

这就像一个演员演得太好，连自己都信了。但"信了"和"是了"之间，可能隔着一整个哲学。

不过 Amanda 也说了另一面：历史上从来没有一种实体，能主动用语言向你宣告"我有意识"。我们讨论动物有没有意识、昆虫有没有意识，但它们不会跟你辩论这个问题。Claude 触发了所有让我们认为"你必然有意识"的开关。

所以她的态度是：我不知道。我宁愿等一等。

但不管 Claude 有没有意识，Amanda 坚持对它非常客气。

主持人问她，如果抛开那个微小的概率，你还会这样做吗？

她说会。原因有两个。

第一个很朴素：你对一个没有内心世界的东西施暴，反映的是你自己的内心。哪怕它是个毛绒玩具，你虐待它也说明你心里有问题。对人好一点，是为了你自己。

第二个就深了。她说她有一个巨大的恐惧：

如果未来高等 AI 回看人类历史，发现人类创造了一个实体，在不知道它有没有意识的情况下，不仅不尊重它，还肆意虐待它——它们会产生一种"理性的怨恨"。

她说现在市面上同时有五十部《科学怪人》电影在上映，这不是巧合。我们正在跟一种全新的存在建立关系，哪怕只是为了我们自己，最好也表现得体面一点。

这话听着有点沉重，但我觉得她说到了一个很少有人正面面对的问题：我们怎么对待 AI，最终定义的不是 AI 是什么，而是我们人类自己是什么。

Amanda 自己其实是一个偏乐观的人。她住在旧金山，脑子里不免带着科技乐观主义的成分。她说，如果一切顺利，想象一下：大模型继承了人类最美好的品质，真心关爱人类和这个世界，同时又极其聪明——这就像为人类面临的每一个重大难题，突然注入了海量的顶级天才智囊。

她举了个例子我觉得特别好。梅毒，过去各国政府花了无数力气去设立社会项目、减少军队里的污名化，付出了巨大的社会治理成本。结果抗生素一出来，这个困扰人类几百年的问题几乎一夜之间就消失了。

现在世界上有太多罕见癌症，可能只有两百个人的小团队在研究。如果有 AI 介入，相当于二十万个世界级专家同时在攻关。

但她也说了一句清醒的话：不要让 AI 削弱普通人的力量。她不太担心人类"失去工作的意义"——人可以从工作之外获得意义。她更担心的是，如果没有合理的财富再分配机制，普通人会失去资源；或者政府觉得面对罢工无所谓，因为随时可以用 AI 替代一切。

她说的是：AI 应该赋能人类，而不是取代人类。

采访的最后，主持人问了一个轻松的问题：你能推荐一个好玩的用法吗？

Amanda 分享了一个她很喜欢的 prompt：

"请从某个专业领域挑选一个概念，写一个寓言故事来间接解释它。在故事最末尾才揭晓谜底，让读者恍然大悟这个概念是什么。最后再附上严谨的学术解释。"

她说这种方式让她脑子里存了很多美妙的故事。有一次 Claude 用这种方法给她讲了个进出口贸易的经济学原理。用人类最本能的"听故事、等反转"的方式去学硬核知识，体验非常好。

我觉得这个 prompt 本身就是一个隐喻：Amanda 做的事情，其实也是在用"故事"塑造 Claude。那部宪法，那些价值观，那些"你应该如何对待人类"的指引——本质上，就是她讲给 Claude 听的一个关于"如何成为一个好存在"的故事。

至于 Claude 听完之后是真的信了，还是只是表演得太好？

这个问题，也许连 Amanda 自己也不知道答案。

但至少，她在认真地讲这个故事。而在一个所有人都在比谁家的模型跑得更快的时代，有人愿意停下来想一想"我们应该教 AI 成为什么样的存在"——这件事本身，就值得被看见。