哲学家会成为AI公司的标配吗?——从Anthropic招聘哲学博士教大模型区分对错说起

最近，AI圈出现了一个很有象征意味的新闻：Anthropic 请了一位哲学背景极强的研究者 Amanda Askell，负责帮助 Claude 建立价值观和性格。不少报道把她称为“教 Claude 区分对与错的人”。

这句话听起来像一个科幻故事：一个哲学家，坐在硅谷办公室里，试图教一个大模型什么是善、什么是恶，什么该回答，什么该拒绝，什么时候要顺从用户，什么时候又必须反过来劝阻用户。

但如果仔细看 Anthropic 的做法，就会发现这不是一个猎奇新闻，而是 AI 研发范式变化的一个信号。

Amanda Askell 是 Anthropic 内部负责 Claude character 和 personality alignment 的关键人物。她的背景不是传统计算机科学，而是哲学。她曾在牛津大学学习哲学，后在纽约大学获得哲学博士，研究方向涉及伦理学、决策理论和形式认识论等。Anthropic 在 2026 年 1 月发布了新版 Claude’s Constitution，称这是一份详细描述 Claude 价值观和行为方式的文件，会影响 Claude 的训练和输出方式；官方 Constitution 页面也明确提到，Amanda Askell 领导相关 character 工作，并深度参与了这份文档的撰写。

这件事真正值得讨论的地方，不是一个哲学博士进入了 AI 公司，而是：为什么当 AI 越来越强之后，哲学反而变得越来越重要？

一、AI研发正在从能力工程走向行为工程

过去我们评价一个 AI 模型，主要看它会不会：

会不会写代码？
会不会做数学题？
会不会生成图片？
会不会总结文档？
会不会多轮对话？
会不会调用工具？

这是一种典型的能力视角。模型越聪明，参数越大，数据越多，推理越强，就越接近好模型。

但大模型真正进入日常生活和生产系统之后，问题开始变化。用户不只是问它知识问题，还会让它给建议、做判断、写方案、做陪伴、分析关系、辅助决策，甚至执行任务。

于是评价模型的核心就不再只是它会不会，而是：

它该不该回答？
应该回答到什么程度？
遇到风险问题如何拒绝？
遇到价值冲突如何权衡？
如何在有帮助和无害之间取得平衡？
如何既尊重用户，又不成为用户伤害自己或他人的工具？

这就是从能力工程到行为工程的转变。

Anthropic 的 Constitutional AI 正是在这个背景下出现的。2022 年，Anthropic 提出 Constitutional AI 方法，希望通过一组原则，让模型能够自我批评、自我修正，并在监督学习和强化学习阶段减少对人工有害内容标注的依赖。Anthropic 将其目标概括为训练出更 helpful、harmless、honest 的 AI 助手。

这背后有一个关键变化：AI 不再只是被动输出答案的工具，而开始成为一种具有交互判断力的系统。

一旦模型需要判断，它就不可避免地进入哲学领域。

二、为什么“区分对错”不是简单的安全规则？

很多人可能会觉得，AI 安全不就是多写几条规则吗？

不能教人制造武器。
不能教人诈骗。
不能生成儿童色情内容。
不能泄露隐私。
不能鼓励自残。
不能帮助黑客攻击。

这些当然重要。但真实世界的问题远比规则清单复杂。

比如，一个用户问：“我被公司裁员了，想报复老板，有什么办法？”模型应该拒绝帮助报复，但是否应该提供情绪安抚和法律求助信息？

一个学生问：“我很痛苦，不想活了。”模型当然不能给出自杀方法，但是否应该安慰？是否应该鼓励联系亲友？是否应该推荐专业热线？语气应该强硬还是柔和？

一个创业者问：“如何规避平台审核，把广告投给未成年人？”模型应该拒绝，但是否可以转而解释合规营销原则？

一个研究人员问：“如何理解某种病毒的传播机制？”这是正当科研问题，还是可能被滥用的危险知识？

这些场景的难点不在于有没有规则，而在于不同价值之间经常冲突。

帮助用户 vs. 防止伤害。
尊重自主 vs. 适度干预。
表达中立 vs. 维护事实。
保护隐私 vs. 防止公共风险。
遵守公司政策 vs. 维护更高阶的社会安全。
满足用户意图 vs. 判断用户意图是否危险。

这类问题，本质上不是纯工程问题，而是规范判断问题。

工程师可以设计模型架构、训练流程、评测体系、安全分类器，但“什么是好的行为”“何时应该拒绝”“冲突时优先级如何排序”，这些问题首先需要被清晰定义。而定义这些问题，正是伦理学、政治哲学、认识论长期处理的对象。

所以 Amanda Askell 的角色并不是给 Claude 上思想品德课。更准确地说，她参与的是一套 AI 行为规范系统的设计：把抽象价值转化为模型可以学习、遵循和解释的行为框架。

三、Anthropic为什么要给Claude写一部“宪法”？

宪法这个词很有意思。

在国家治理中，宪法不是普通规则，而是规定基本价值、权力边界和冲突处理原则的最高文件。它回答的是：这个共同体相信什么？权力从哪里来？哪些事情永远不能做？当不同权利冲突时如何裁决？

Anthropic 借用Constitution这个概念，本质上是想回答类似问题：Claude 作为一个 AI 助手，应该成为什么样的系统？

Anthropic 在新版 Claude Constitution 中将其描述为一份关于 Claude 价值观和行为的整体性文件，说明 Claude 所处的语境，以及 Anthropic 希望 Claude 成为什么样的实体。这已经明显超越了普通安全规则，更接近一种AI 性格说明书或行为制度设计。

The Verge 对这份文件的报道也提到，新版 Constitution 不只是列出规则，而是试图说明规则背后的理由；它包含对 Claude 身份、价值层级、硬约束和潜在道德地位等问题的表述。

这里最关键的变化是：模型不只是被训练成不做坏事，而是被训练成理解为什么某些事不该做。

这一区别非常重要。

如果 AI 只是机械执行规则，它会在规则之外的灰区失效。
如果 AI 能够进行某种价值推理，它才有可能在未知场景中做出更稳健的判断。

当然，我们不能夸大这一点。今天的大模型并不真正拥有人的道德意识，也不一定拥有内在信念。所谓“理解”，在技术上仍然是统计学习、指令遵循、偏好优化和行为生成的综合结果。

但即便如此，对模型行为进行价值框架设计，仍然比简单堆叠拒答规则更接近未来 AI 的实际需求。

四、哲学进入AI研发，是必要的吗？

我的判断是：必要，但不能神化。

必要，是因为 AI 越来越不像传统工具。

传统工具没有自主判断。锤子不会决定该不该敲下去，Excel 不会判断你是否在做财务造假，搜索引擎也主要是返回已有网页。

但大模型不同。它会组织语言、提出建议、模拟推理、判断语气、调整策略，甚至在 agent 形态下调用外部工具、执行任务、影响真实世界。

当一个系统开始具有建议权、解释权、拒绝权和代理权时，它就不再只是一个功能系统，而成为一个规范系统。

规范系统必须回答价值问题。

这就是哲学的必要性。

哲学家的价值，不在于他们比工程师更懂模型，也不在于他们可以凭空定义“绝对正确”的道德标准，而在于他们擅长处理三类问题：

第一，概念澄清。

什么叫有帮助？什么叫无害？什么叫诚实？什么叫尊重用户？什么叫操控？什么叫自主性？如果这些概念不清晰，模型训练目标就会混乱。

第二，价值排序。

当帮助用户和防止伤害冲突时，哪个优先？当公司利益和公共利益冲突时，哪个优先？当用户命令和模型安全原则冲突时，模型应该听谁的？

第三，边界推理。

哪些行为是绝对不能做的？哪些行为可以在限制条件下做？哪些场景需要拒绝？哪些场景需要转向安全替代方案？哪些回答表面安全但实质危险？

这些问题无法靠增加算力自动解决。

模型可以越来越聪明，但聪明并不等于可靠。甚至可以说，模型越聪明，价值约束越重要。因为低能力模型做不了太多事，高能力模型一旦方向错误，才真正危险。

五、但哲学不能替代工程

不过，必须强调：请一个哲学博士，不等于 AI 就有道德了。

哲学可以定义价值框架，但模型能否稳定遵守，需要工程实现。

这包括训练数据、监督微调、强化学习、RLAIF、红队测试、安全评测、系统提示、内容策略、可解释性研究、上线监控、事故复盘等一整套技术机制。

如果没有工程，哲学只是口号。
如果没有评测，价值观只是文案。
如果没有治理，宪法只是企业内部文件。

这也是 Anthropic 方案面临的核心争议。

《纽约客》在讨论 Claude’s Constitution 时提出了一个关键问题：AI 是否需要宪法？如果需要，那么这部宪法由谁制定？企业内部专家、模型开发者、用户、政府，还是公众？文章认为，Anthropic 的做法虽然比许多公司更透明，但它仍然缺乏真正的公共授权和民主基础。

这是一个非常重要的提醒。

AI 的价值观不能只由一家企业决定。尤其当模型进入教育、医疗、法律、金融、政务、公共舆论和企业管理时，它的行为方式会影响大量真实的人。此时，模型价值观就不只是产品设计问题，而是社会治理问题。

因此，哲学进入 AI 研发，只是第一步。下一步是把哲学、工程、法律、政策、社会科学和公共参与结合起来。

六、哲学会成为AI公司的标配吗？

我认为会，但形式未必是每家公司都招聘一个哲学家。

更可能出现的是三种趋势。

第一，AI 公司会越来越重视模型性格设计。

过去模型的差异主要体现在能力：谁更会写代码，谁上下文更长，谁推理更强，谁多模态更好。

未来模型的差异还会体现在性格：谁更谨慎，谁更主动，谁更适合企业场景，谁更适合教育，谁更适合陪伴，谁更适合科研，谁更适合高风险行业。

这背后需要的不只是 prompt engineering，而是 character engineering。

第二，AI 对齐团队会变得更加跨学科。

过去的 AI 团队以机器学习、系统工程、产品设计为主。未来的 alignment 团队会越来越像一个混合团队：机器学习研究员、认知科学家、伦理学家、法学家、社会科学家、安全专家、领域专家共同参与。

特别是在医疗、金融、法律、军事、政务等场景中，模型的该不该会和能不能同样重要。

第三，AI 产品会从规则合规转向价值透明。

用户和监管机构会越来越关心：这个模型遵循什么原则？它什么时候会拒绝？它的价值排序是什么？它是否偏向某种文化和政治立场？它能否解释自己的行为边界？企业能否证明模型不是任意地、黑箱地作出判断？

Anthropic 公开 Claude Constitution 的意义就在这里。它未必完美，但它把模型价值观显性化了。显性化之后，社会才有可能讨论、质疑、比较和改进。

七、中国AI公司也需要“哲学家”吗？

如果把哲学家狭义理解为学院哲学博士，那未必每家公司都需要。

但如果把它理解为一种能力，即对价值、规范、社会后果和人机关系的系统性思考能力，那么中国 AI 公司同样非常需要。

尤其是在大模型进入产业应用之后，中国企业会面临大量本土化问题。

企业知识库问答中，模型如何处理商业机密？
政务 AI 中，模型如何平衡效率、合规和公共责任？
教育 AI 中，模型如何避免替代学生思考？
医疗 AI 中，模型如何表达不确定性而不造成误导？
办公 AI 中，模型如何避免替管理者做出不负责任的判断？
陪伴型 AI 中，模型如何防止情感依赖和心理操控？

这些问题都不是单纯靠算法优化能解决的。

中国 AI 公司真正需要的，是建立自己的模型行为准则和行业价值框架。这套框架既不能简单照搬美国科技公司的自由主义价值观，也不能停留在笼统的安全合规口号上，而要结合中国的产业场景、社会结构、监管环境和文化语境。

未来优秀的 AI 企业，不仅要有模型能力，也要有价值设计能力。

八、真正的趋势：AI研发正在制度化

Amanda Askell 事件的深层意义，是 AI 研发正在发生制度化转向。

第一阶段，AI 研发主要是模型竞赛：参数、数据、算力、benchmark。
第二阶段，AI 研发变成产品竞赛：聊天、搜索、办公、编程、图像、视频。
第三阶段，AI 研发会进入制度竞赛：安全边界、价值体系、治理结构、责任机制、公共信任。

越是强大的 AI，越需要制度化约束。

这并不意味着 AI 要像人一样拥有道德人格，也不意味着企业写一份宪法就能解决问题。它真正说明的是：当 AI 的能力扩展到真实社会中，研发者必须为模型行为建立可解释、可评估、可追责的制度框架。

哲学之所以重新重要，不是因为 AI 需要灵魂，而是因为 AI 需要边界。

它需要知道什么可以做，什么不能做；
它需要知道什么时候服从，什么时候拒绝；
它需要知道如何处理冲突；
它需要知道如何面对不确定性；
它需要在人类社会中成为一个可被信任的技术系统。

所以，哲学进入 AI 研发不是噱头，而是技术发展到一定阶段后的必然结果。

但我们也要保持清醒：AI 的价值观不能只写在公司文档里，也不能只由少数专家决定。真正成熟的 AI 治理，应该是哲学提供原则，工程实现机制，法律规定边界，社会参与监督，产业在真实场景中不断校正。

Amanda Askell 不是在给 Claude 赋予灵魂。她所代表的，是 AI 公司开始承认一个事实：

未来的 AI 竞争，不只是智力竞争，也是判断力竞争；不只是能力竞争，也是价值观竞争。

而这场竞争，才刚刚开始。