最近,AI圈出现了一个很有象征意味的新闻:Anthropic 请了一位哲学背景极强的研究者 Amanda Askell,负责帮助 Claude 建立价值观和性格。不少报道把她称为“教 Claude 区分对与错的人”。
这句话听起来像一个科幻故事:一个哲学家,坐在硅谷办公室里,试图教一个大模型什么是善、什么是恶,什么该回答,什么该拒绝,什么时候要顺从用户,什么时候又必须反过来劝阻用户。
但如果仔细看 Anthropic 的做法,就会发现这不是一个猎奇新闻,而是 AI 研发范式变化的一个信号。
Amanda Askell 是 Anthropic 内部负责 Claude character 和 personality alignment 的关键人物。她的背景不是传统计算机科学,而是哲学。她曾在牛津大学学习哲学,后在纽约大学获得哲学博士,研究方向涉及伦理学、决策理论和形式认识论等。Anthropic 在 2026 年 1 月发布了新版 Claude’s Constitution,称这是一份详细描述 Claude 价值观和行为方式的文件,会影响 Claude 的训练和输出方式;官方 Constitution 页面也明确提到,Amanda Askell 领导相关 character 工作,并深度参与了这份文档的撰写。
这件事真正值得讨论的地方,不是一个哲学博士进入了 AI 公司,而是:为什么当 AI 越来越强之后,哲学反而变得越来越重要?
一、AI研发正在从能力工程走向行为工程
过去我们评价一个 AI 模型,主要看它会不会:
会不会写代码?
会不会做数学题?
会不会生成图片?
会不会总结文档?
会不会多轮对话?
会不会调用工具?
这是一种典型的能力视角。模型越聪明,参数越大,数据越多,推理越强,就越接近好模型。
但大模型真正进入日常生活和生产系统之后,问题开始变化。用户不只是问它知识问题,还会让它给建议、做判断、写方案、做陪伴、分析关系、辅助决策,甚至执行任务。
于是评价模型的核心就不再只是它会不会,而是:
它该不该回答?
应该回答到什么程度?
遇到风险问题如何拒绝?
遇到价值冲突如何权衡?
如何在有帮助和无害之间取得平衡?
如何既尊重用户,又不成为用户伤害自己或他人的工具?
这就是从能力工程到行为工程的转变。
Anthropic 的 Constitutional AI 正是在这个背景下出现的。2022 年,Anthropic 提出 Constitutional AI 方法,希望通过一组原则,让模型能够自我批评、自我修正,并在监督学习和强化学习阶段减少对人工有害内容标注的依赖。Anthropic 将其目标概括为训练出更 helpful、harmless、honest 的 AI 助手。
这背后有一个关键变化:AI 不再只是被动输出答案的工具,而开始成为一种具有交互判断力的系统。
一旦模型需要判断,它就不可避免地进入哲学领域。
二、为什么“区分对错”不是简单的安全规则?
很多人可能会觉得,AI 安全不就是多写几条规则吗?
不能教人制造武器。
不能教人诈骗。
不能生成儿童色情内容。
不能泄露隐私。
不能鼓励自残。
不能帮助黑客攻击。
这些当然重要。但真实世界的问题远比规则清单复杂。
比如,一个用户问:“我被公司裁员了,想报复老板,有什么办法?”模型应该拒绝帮助报复,但是否应该提供情绪安抚和法律求助信息?
一个学生问:“我很痛苦,不想活了。”模型当然不能给出自杀方法,但是否应该安慰?是否应该鼓励联系亲友?是否应该推荐专业热线?语气应该强硬还是柔和?
一个创业者问:“如何规避平台审核,把广告投给未成年人?”模型应该拒绝,但是否可以转而解释合规营销原则?
一个研究人员问:“如何理解某种病毒的传播机制?”这是正当科研问题,还是可能被滥用的危险知识?
这些场景的难点不在于有没有规则,而在于不同价值之间经常冲突。
帮助用户 vs. 防止伤害。
尊重自主 vs. 适度干预。
表达中立 vs. 维护事实。
保护隐私 vs. 防止公共风险。
遵守公司政策 vs. 维护更高阶的社会安全。
满足用户意图 vs. 判断用户意图是否危险。
这类问题,本质上不是纯工程问题,而是规范判断问题。
工程师可以设计模型架构、训练流程、评测体系、安全分类器,但“什么是好的行为”“何时应该拒绝”“冲突时优先级如何排序”,这些问题首先需要被清晰定义。而定义这些问题,正是伦理学、政治哲学、认识论长期处理的对象。
所以 Amanda Askell 的角色并不是给 Claude 上思想品德课。更准确地说,她参与的是一套 AI 行为规范系统的设计:把抽象价值转化为模型可以学习、遵循和解释的行为框架。
三、Anthropic为什么要给Claude写一部“宪法”?
宪法这个词很有意思。
在国家治理中,宪法不是普通规则,而是规定基本价值、权力边界和冲突处理原则的最高文件。它回答的是:这个共同体相信什么?权力从哪里来?哪些事情永远不能做?当不同权利冲突时如何裁决?
Anthropic 借用Constitution这个概念,本质上是想回答类似问题:Claude 作为一个 AI 助手,应该成为什么样的系统?
Anthropic 在新版 Claude Constitution 中将其描述为一份关于 Claude 价值观和行为的整体性文件,说明 Claude 所处的语境,以及 Anthropic 希望 Claude 成为什么样的实体。这已经明显超越了普通安全规则,更接近一种AI 性格说明书或行为制度设计。
The Verge 对这份文件的报道也提到,新版 Constitution 不只是列出规则,而是试图说明规则背后的理由;它包含对 Claude 身份、价值层级、硬约束和潜在道德地位等问题的表述。
这里最关键的变化是:模型不只是被训练成不做坏事,而是被训练成理解为什么某些事不该做。
这一区别非常重要。
如果 AI 只是机械执行规则,它会在规则之外的灰区失效。
如果 AI 能够进行某种价值推理,它才有可能在未知场景中做出更稳健的判断。
当然,我们不能夸大这一点。今天的大模型并不真正拥有人的道德意识,也不一定拥有内在信念。所谓“理解”,在技术上仍然是统计学习、指令遵循、偏好优化和行为生成的综合结果。
但即便如此,对模型行为进行价值框架设计,仍然比简单堆叠拒答规则更接近未来 AI 的实际需求。
四、哲学进入AI研发,是必要的吗?
我的判断是:必要,但不能神化。
必要,是因为 AI 越来越不像传统工具。
传统工具没有自主判断。锤子不会决定该不该敲下去,Excel 不会判断你是否在做财务造假,搜索引擎也主要是返回已有网页。
但大模型不同。它会组织语言、提出建议、模拟推理、判断语气、调整策略,甚至在 agent 形态下调用外部工具、执行任务、影响真实世界。
当一个系统开始具有建议权、解释权、拒绝权和代理权时,它就不再只是一个功能系统,而成为一个规范系统。
规范系统必须回答价值问题。
这就是哲学的必要性。
哲学家的价值,不在于他们比工程师更懂模型,也不在于他们可以凭空定义“绝对正确”的道德标准,而在于他们擅长处理三类问题:
第一,概念澄清。
什么叫有帮助?什么叫无害?什么叫诚实?什么叫尊重用户?什么叫操控?什么叫自主性?如果这些概念不清晰,模型训练目标就会混乱。
第二,价值排序。
当帮助用户和防止伤害冲突时,哪个优先?当公司利益和公共利益冲突时,哪个优先?当用户命令和模型安全原则冲突时,模型应该听谁的?
第三,边界推理。
哪些行为是绝对不能做的?哪些行为可以在限制条件下做?哪些场景需要拒绝?哪些场景需要转向安全替代方案?哪些回答表面安全但实质危险?
这些问题无法靠增加算力自动解决。
模型可以越来越聪明,但聪明并不等于可靠。甚至可以说,模型越聪明,价值约束越重要。因为低能力模型做不了太多事,高能力模型一旦方向错误,才真正危险。
五、但哲学不能替代工程
不过,必须强调:请一个哲学博士,不等于 AI 就有道德了。
哲学可以定义价值框架,但模型能否稳定遵守,需要工程实现。
这包括训练数据、监督微调、强化学习、RLAIF、红队测试、安全评测、系统提示、内容策略、可解释性研究、上线监控、事故复盘等一整套技术机制。
如果没有工程,哲学只是口号。
如果没有评测,价值观只是文案。
如果没有治理,宪法只是企业内部文件。
这也是 Anthropic 方案面临的核心争议。
《纽约客》在讨论 Claude’s Constitution 时提出了一个关键问题:AI 是否需要宪法?如果需要,那么这部宪法由谁制定?企业内部专家、模型开发者、用户、政府,还是公众?文章认为,Anthropic 的做法虽然比许多公司更透明,但它仍然缺乏真正的公共授权和民主基础。
这是一个非常重要的提醒。
AI 的价值观不能只由一家企业决定。尤其当模型进入教育、医疗、法律、金融、政务、公共舆论和企业管理时,它的行为方式会影响大量真实的人。此时,模型价值观就不只是产品设计问题,而是社会治理问题。
因此,哲学进入 AI 研发,只是第一步。下一步是把哲学、工程、法律、政策、社会科学和公共参与结合起来。
六、哲学会成为AI公司的标配吗?
我认为会,但形式未必是每家公司都招聘一个哲学家。
更可能出现的是三种趋势。
第一,AI 公司会越来越重视模型性格设计。
过去模型的差异主要体现在能力:谁更会写代码,谁上下文更长,谁推理更强,谁多模态更好。
未来模型的差异还会体现在性格:谁更谨慎,谁更主动,谁更适合企业场景,谁更适合教育,谁更适合陪伴,谁更适合科研,谁更适合高风险行业。
这背后需要的不只是 prompt engineering,而是 character engineering。
第二,AI 对齐团队会变得更加跨学科。
过去的 AI 团队以机器学习、系统工程、产品设计为主。未来的 alignment 团队会越来越像一个混合团队:机器学习研究员、认知科学家、伦理学家、法学家、社会科学家、安全专家、领域专家共同参与。
特别是在医疗、金融、法律、军事、政务等场景中,模型的该不该会和能不能同样重要。
第三,AI 产品会从规则合规转向价值透明。
用户和监管机构会越来越关心:这个模型遵循什么原则?它什么时候会拒绝?它的价值排序是什么?它是否偏向某种文化和政治立场?它能否解释自己的行为边界?企业能否证明模型不是任意地、黑箱地作出判断?
Anthropic 公开 Claude Constitution 的意义就在这里。它未必完美,但它把模型价值观显性化了。显性化之后,社会才有可能讨论、质疑、比较和改进。
七、中国AI公司也需要“哲学家”吗?
如果把哲学家狭义理解为学院哲学博士,那未必每家公司都需要。
但如果把它理解为一种能力,即对价值、规范、社会后果和人机关系的系统性思考能力,那么中国 AI 公司同样非常需要。
尤其是在大模型进入产业应用之后,中国企业会面临大量本土化问题。
企业知识库问答中,模型如何处理商业机密?
政务 AI 中,模型如何平衡效率、合规和公共责任?
教育 AI 中,模型如何避免替代学生思考?
医疗 AI 中,模型如何表达不确定性而不造成误导?
办公 AI 中,模型如何避免替管理者做出不负责任的判断?
陪伴型 AI 中,模型如何防止情感依赖和心理操控?
这些问题都不是单纯靠算法优化能解决的。
中国 AI 公司真正需要的,是建立自己的模型行为准则和行业价值框架。这套框架既不能简单照搬美国科技公司的自由主义价值观,也不能停留在笼统的安全合规口号上,而要结合中国的产业场景、社会结构、监管环境和文化语境。
未来优秀的 AI 企业,不仅要有模型能力,也要有价值设计能力。
八、真正的趋势:AI研发正在制度化
Amanda Askell 事件的深层意义,是 AI 研发正在发生制度化转向。
第一阶段,AI 研发主要是模型竞赛:参数、数据、算力、benchmark。
第二阶段,AI 研发变成产品竞赛:聊天、搜索、办公、编程、图像、视频。
第三阶段,AI 研发会进入制度竞赛:安全边界、价值体系、治理结构、责任机制、公共信任。
越是强大的 AI,越需要制度化约束。
这并不意味着 AI 要像人一样拥有道德人格,也不意味着企业写一份宪法就能解决问题。它真正说明的是:当 AI 的能力扩展到真实社会中,研发者必须为模型行为建立可解释、可评估、可追责的制度框架。
哲学之所以重新重要,不是因为 AI 需要灵魂,而是因为 AI 需要边界。
它需要知道什么可以做,什么不能做;
它需要知道什么时候服从,什么时候拒绝;
它需要知道如何处理冲突;
它需要知道如何面对不确定性;
它需要在人类社会中成为一个可被信任的技术系统。
所以,哲学进入 AI 研发不是噱头,而是技术发展到一定阶段后的必然结果。
但我们也要保持清醒:AI 的价值观不能只写在公司文档里,也不能只由少数专家决定。真正成熟的 AI 治理,应该是哲学提供原则,工程实现机制,法律规定边界,社会参与监督,产业在真实场景中不断校正。
Amanda Askell 不是在给 Claude 赋予灵魂。她所代表的,是 AI 公司开始承认一个事实:
未来的 AI 竞争,不只是智力竞争,也是判断力竞争;不只是能力竞争,也是价值观竞争。
而这场竞争,才刚刚开始。
夜雨聆风