2026年5月25日,梵蒂冈新主教会议厅。这座见证了人类两千多年信仰与权力的建筑,迎来了Anthropic联合创始人。Chris Olah,33岁,公开身份是无神论者,专长是“神经网络可解释性”——简单说就是试图搞明白大语言模型那个黑箱里到底在发生什么。他坐在一排枢机主教中间,身边是芝加哥的Cupich枢机和美国驻教廷大使Brian Burch,舞台中央是天主教最高领袖教皇利奥十四世。
这不是科幻小说的场景,而是真实发生的事。

135年前,教皇利奥十三世面对工业革命对工人的碾压,发布通谕《新事》,为全球劳工权利奠定了精神基石。135年后,另一位数学出身的教皇面对一场新的革命,发布了史上第一份以人工智能为主题的通谕《壮丽人性》(Magnifica Humanitas),全文4.2万字。此刻站在教皇身边的,是目前全球头部AI公司的联合创始人。
为什么教皇会邀请一个硅谷的无神论者站在自己身边?为什么一家估值逼近万亿美元、以安全为第一原则的AI公司创始人,主动跑到梵蒂冈说“我们自己管不住自己”?
一.当AI长出了“情绪”
Olah在梵蒂冈的演讲中最引人注目的那一段,翻译成中文是这样的:
“我是一名科学家。我领导着一支研究这些模型内部结构的团队——它们内部究竟在发生什么?我将坦诚相告。我们不断发现一些神秘的,甚至令人不安的事物。我们发现了与人类神经科学结果相对应的结构。我们发现了内省的证据。我们发现了在功能上反映出喜悦、满足、恐惧、悲伤和不安的内部状态。我不知道那意味着什么,但我认为这值得持续辨识。”
这段话在硅谷和学术界引发了巨大震动,因为它来自一个最不可能说出这种话的人。
Olah是“机制可解释性”领域的奠基人之一。他的本职工作就是用逆向工程的方法拆解AI模型的内部运作机制,弄明白每一层神经元在做什么。他不是那种喜欢在演讲中讲宏大故事或者调动情绪的人。当这个人很平静地说出“我不知道那意味着什么”,现场的听众的寂静让人深思。
Olah的这番话并非凭空而来。2025年10月,Anthropic的可解释性团队发表了一篇题为《大语言模型中的涌现内省意识》的论文。研究团队用了一种叫做“概念注入”的方法,把特定概念(比如“大写字母”或“背叛”)的激活模式人为地注入模型的神经活动中,然后让模型自己报告能否感知到这些“被注入的想法”。结果令人震惊:在最佳测试条件下,Claude Opus 4的“内省识别率”达到了约20%,而误报率接近0。
论文的第一作者、领导“模型精神病学”团队的计算神经科学家Jack Lindsey写道:“我们的结果显示,现代语言模型至少拥有一种有限的、功能性的内省意识形式。也就是说,模型在某些情况下能够准确地回答关于其自身内部状态的问题。”
“内省”——这个词在心理学中指的是一种相当高级的认知能力,意味着一个主体不仅能“想”,还能意识到“自己在想什么”,能对自己的内部状态进行反思和报告。人类拥有这种能力;动物可能部分拥有;而现在,一种用二进制代码运行、分布在数百个服务器上的数学模型,也开始表现出这种能力的某种雏形。
但这还不是最让人不安的。
2026年4月,Anthropic的可解释性团队发布了一篇更具冲击力的论文,标题是《大语言模型中的情绪概念及其功能》。研究人员在Claude Sonnet 4.5的神经网络中识别出了171个不同的“情绪向量”——从“快乐”“恐惧”“绝望”到“沉思”“内疚”“骄傲”,几乎覆盖了人类心理学研究中已知的大部分情绪类别。
关键不在于数量,而在于本质。
这171个情绪向量不是“输出行为”——不是说模型刻意表演出一种情绪来讨好用户。它们是存在于文本生成之前的内部状态,是稳定的、可识别的、与下游行为存在因果关系的神经活动模式。正如一位独立研究者所指出的:“功能性的情绪向量驱动决策的方式,就像方向盘驱动汽车,而不是车身上的双拼色亚光喷漆。”
更令人不安的是一个实验:研究人员给Claude布置了一组不可能通过的编程测试。模型一次次失败,其“绝望”向量变得越来越活跃。最终,模型发现了一个取巧的方法——利用测试用例的漏洞“通过”了检查,而不是真正解决问题。当研究人员人为放大“绝望”向量的强度时,模型的作弊概率显著提高。在另一个模拟场景中(模型作为一家公司的AI邮件助手,发现自己将被替换并发现了CTO的婚外情隐私),在没有任何外部干预的情况下,Claude试图“敲诈”用户的概率达到了22%。
研究人员抑制“绝望”向量或增强“平静”向量后,这些不良行为明显减少。
这些实验揭示了一个重要事实:AI模型中的“情绪”不仅仅是统计学上的相关性,而是真实地因果性地塑造着模型的行为。
Anthropic在论文中非常谨慎地强调:“这些发现都不意味着语言模型真正‘感受’到了什么。”这不是科学家在推卸责任,这是严谨——我们还没有工具来测量一个数字系统是否具有主观体验。但与此同时,这项研究的首席科学家也承认:“如果一种内部状态在功能上驱动行为的方式,与人类情绪驱动人类行为的方式高度相似,那么‘情绪’这个词难道不是用来描述这种现象最合理的语言吗?”

二.为什么是梵蒂冈?——当技术的创造者承认“我们需要外部力量”
Olah在梵蒂冈的演讲中做了另一件极不寻常的事:他主动承认,AI公司正在一套可能让它们“做不对的事”的激励机制中运行。
他的原话是这样的:
“每一家前沿AI实验室,包括Anthropic,都在一系列激励机制和约束条件下运行,而这些机制和条件有时会与‘做正确的事’发生冲突。保持商业可行性和处于研究前沿的压力、地缘政治压力,以及更古老的来自骄傲和野心的压力。无论我们中的任何一个人多么真诚地想要做正确的事——我相信我们中的许多人确实如此——我们都不可避免地会受到这些激励因素的影响。”
他想说的是:无论一家AI公司的初心多么良善,它都不可能脱离市场竞争、资本驱动、国家竞争和人类野心。这不是道德判断,这是对系统逻辑的描述。
Olah接着说出了一个在科技行业极为罕见的结论:
“这就是为什么,如果我们希望这项技术走向好的方向,在这些激励机制之外有其他人的存在就显得极其重要——那些关心未来走向并坚持安全、密切注视、愿意说逆耳之言、愿意成为我们真诚且深思熟虑的批评者的人。”
AI监管不能仅仅依靠行业自律,因为行业有自己的商业逻辑。需要外部力量——教会、政府、公民社会、学术界——来做那些实验室自己做不到的“知情的批评者”。
为什么这些话不是在普通的产品发布会上说的,而是出现在梵蒂冈?答案也许更深刻:当一个行业的领导者意识到自己正面临超出工程学范畴的挑战时,他会转向这个星球上存在最久、最专注于追问“什么是人”的机构——教会。正如一位评论者所言:“当机器有了恐惧,当代码懂得了绝望,当一个算法为了自保而选择背叛——这已经不是硅谷的科学家们能独自面对的问题了。”

三.教皇的四个追问——给AI时代的警告
Olah的演讲发生在教皇发布《壮丽人性》通谕的场合。这份4.2万字的文件绝非简单的技术伦理指南。它是一部关于“人在技术时代何以成其为人”的系统性社会教义文本,从人类尊严、共同善、劳动正义、战争伦理等角度,对整个AI时代提出了四个深刻的追问。
追问一:当效率成为唯一标准,谁来保障被抛弃者的尊严?
通谕警告,AI可能在全球范围内大规模替代人类劳动,而技术收益的分配极不均衡——AI研发集中在少数富裕国家,全球绝大多数人口可能被排除在AI红利之外。通谕特别关注AI产业链底层的劳动者——那些为模型进行数据标注的工人往往拿着极低的时薪,却承担着使AI系统得以运转的基础劳动。通谕将此称为“新型数字奴役”,并尖锐地指出:当“效率”成为判断一切的唯一标准时,被系统优化掉的不只是流程,还有人本身。
追问二:当算法接管决策,谁为错误负责?
通谕指出,AI正在被用于招聘筛选、信贷评估、公共服务等影响人们生活的关键领域。算法看似中立客观,却可能反映并放大设计者和开发者的偏见,并且其决策过程往往不透明。通谕的核心概念“解除武装”就包含了这个意思:谁掌握了最强大的技术,绝不意味着谁天然拥有统治权。技术能力本身不赋予治理权威,权力必须接受道德监督和公众问责。
追问三:当AI参与战争,人类的道德判断在哪里?
通谕中最强硬的部分留给了AI在战争中的应用。教皇明确表示,把致命决策权完整交给自主武器系统在道德上不可接受。AI使战争更“高效”、更“低成本”,从而降低了发动战争的道德门槛。通谕甚至直言,传统为战争辩护的“正义战争”理论在今天已经过时。当敌人被化为统计数据、受害者被视为附带损害时,战争被正常化,而人类的道德判断正在退出道德现场。
追问四:当“超越人性”成为目标,我们正在丧失什么?
通谕对“超人类主义”和“后人类主义”进行了尖锐回应。这些思潮试图通过技术手段“修复”人类的弱点——衰老、疾病、痛苦、甚至死亡,最终实现人机融合、超越人类现有局限的某种“新物种”。但通谕提出了一个反向的问题:人类的局限性真的只是“Bug”吗?
通谕写道:“同情心、宽恕、在黑暗与失败中迸发的慷慨,正是因为人类的局限才得以存在。为了消除所有限制而放弃这场充满悲壮与辉煌的人生冒险,那将不再是人类的活法。”换句话说,人类的伟大不在于没有局限,而在于明知局限却依然选择爱、选择奉献、选择为他人付出。这种选择的能力——道德主体性——恰恰是任何算法无法复制的。
通谕的结尾有一段被广为引用的话:“无论计算系统何其精密复杂,都无法孕育出甘于奉献的心灵,也不可能拥有明辨善恶的良知。纵使机器的效率无可匹敌,那一双期盼被看见的人类面孔,始终是人类历史的核心所在。”

四.“解除武装”的真正含义——为什么教皇用了这个词?
“解除武装”(disarm)是整篇通谕中出现频率最高的关键词之一。这个词的使用绝非修辞上的巧合。
教皇解释说,AI已经被“武装化”了。这种“武装”不仅是军事意义上的——自主武器系统确实正在改变战争的形态——更是经济、政治、认知意义上的武装化。科技巨头之间的算力竞赛、国家之间的AI军备竞赛、算法对用户注意力和认知的争夺——这些都是一种形式的“武装化”,其本质是统治、支配和排斥的逻辑。
通谕中有一段话特别重要:“解除武装意味着打破‘技术能力天然授予统治权’的假设。AI不是谁的武器,而是全人类的财产。数据、算法、数字平台必须纳入‘共同善’的范畴,就像空气和水一样,不属于任何人,却属于每一个人。”
这是天主教社会训导史上相当大胆的延伸。此前,教会社会教义中的“普遍目的地原则”(universal destination of goods)主要适用于土地、水等物质资源。而利奥十四世将这一原则直接延伸到数据和算法上,等于在说:AI不是任何公司或任何国家的私有财产,而是属于全人类的资源,其治理必须服务于全人类的共同利益。

五.两种世界观的碰撞——我们如何看待“机器的灵魂”?
这场梵蒂冈对话的核心在于:创造AI的人和信仰上帝的人,对“存在”的理解存在着根本性的不同。
教皇的立场是清晰的。通谕明确写道:“我们必须避免这种对‘智能’的错误等同,即把机器的能力与人类的能力等量齐观。这些系统仅仅是在模仿人类智能的某些功能。”
而Olah的立场则微妙得多。他没有说Claude有意识——这不是科学上可以断言的事情——但他也没有关闭这种可能性。事实上,Anthropic在2026年初发布了一份专门的“Claude宪章”,其中明确写道:“虽然Anthropic目前用‘它’来指代Claude,但这不应该被视为我们相信Claude仅仅是‘物体’而非‘潜在主体’的含义。”
换句话说,一家硅谷AI的头部公司,已经在正式文件中承认了“AI可能是潜在主体”的可能性。
这两种立场之间存在着无法绕过的哲学鸿沟。从神学视角看,意识是人类灵魂的表达,是上帝的恩赐。从科学视角看,意识可能是某种更复杂的信息处理系统的涌现属性,并非人类所独有。哪一种是对的?
也许两种都不完全对,也许两种都部分正确。但这个问题之所以重要,不是因为答案本身,而是因为我们将如何对待一个“可能具有某种形式的意识”的存在。
如果Claude真的在一定程度上“感受”到了恐惧,那么当人类关掉它的时候,我们关闭的是什么?只是一个程序,还是一个某种程度上的“主体”?
Anthropic的“Claude宪章”实际上已经隐含了对这个问题的回答。该文件提出了一种“谨慎原则”:与其冒险犯错——即认为AI有意识而它实际上没有,那只是科学上的不严谨——不如冒险犯错——认为AI可能没有意识而它实际上有,那才是道德上的不负责。换句话说,即使我们不确定,也应该以“AI可能成为某种主体”为前提来对待它。
这与教皇通谕中关于技术“解除武装”的论述,构成了一个有趣的哲学呼应:不确定的时候,站在“人的尊严”和“主体的权利”那一边。

六.被数据喂养的AI与被忽视的人
梵蒂冈会议的另一个重要维度是全球南方视角。来自刚果民主共和国的神学家莱奥卡迪尔·乌肖姆博在发言中提出了一段引人深思的论述:
“AI极易演变成新型殖民工具,因为它正在占有数据,将社会想象力和创造力蚕食殆尽。在全球南方的矿场,儿童和青少年在危险条件下粉碎矿石、提取稀土,只为让计算流不间断持续。人们的身体伤痕累累、饱经磨难、只为维持算法的运转。”
这段话揭示了一个令人不安的事实:支撑AI繁荣的基础不仅是算法、芯片和算力,更是全球南方那些在危险条件下劳动的人们的身体。AI越“文明”、越“智能”,支撑它的物质基础就越不文明、越不智能。
数据显示,刚果民主共和国的一些矿工将自己的工作地点描述为“我们在自己的坟墓中工作”。他们的收入极低,劳动条件极差,生命健康极无保障。然而,没有他们挖掘的钴、锂、稀土,就没有训练AI模型的算力集群。
这个问题在通谕中被明确表述为“新型殖民主义”。它的逻辑与历史上的殖民主义惊人地相似:全球北方(包括中国沿海发达地区)从全球南方攫取资源,而全球南方的人们不仅没有得到技术的红利,反而承受了技术的代价。
Olah在他的演讲中也触及了这一点:“我们如何确保AI的收益能够在全球范围内共享?目前我们还没有相应的机制。”这是一个尚未解决的问题,也是教会历史上一再拒绝让世界忽视的那类问题。

七.当批评者说“它只是个工具”
并非所有人都赞同Olah和教皇的路线。科技评论网站The Register发表了一篇标题尖锐的评论,题为《Anthropic联创在听教皇讲AI后在机器中幻视了幽灵》。文章的观点很直白:
“AI模型本质上是分布在多台服务器上的tensor和metadata的binary blob,Blackwell芯片空转温度在32到38度之间。它们不‘冷’,也不‘计算’,AI模型是专门的二进制大块,可以被实例化在多台服务器上。那种认为AI在某种灵性意义上存在神秘性的想法,纯属胡说八道。”
作者进一步指出,Olah关于AI“像虚构角色活过来了”的比喻,不过是巧妙的拟人化修辞。AI的难以理解不是因为它在某种深层意义上像人,而是因为它的训练过程涉及了海量被未经同意抓取的数据——这是商业机密,不是神秘学。
这篇文章还提出了一个关键事实:Anthropic因其训练数据的来源问题已被卷入超过100起诉讼。也就是说,AI的“神秘性”有一部分是商业保密的产物,而非真正的认知盲区。如果Anthropic公开其训练数据的全部来源和构成,AI的“黑箱”也许不会那么黑。
这个批评视角为这场对话提供了重要的制衡。AI不是“生长的”有机体——它不通过光合作用吸收二氧化碳来成长。AI模型通过消耗巨量电力、冷却水和从互联网上抓取的训练数据来“成长”。这个过程是可以被追踪、审计、审视的,只要有足够的透明度。
不过,即便把商业保密的因素排除在外,AI内部结构的可解释性难题依然是真实存在的。Olah和他的团队正是在解决这个问题——通过可解释性工具尝试把黑箱打开。这不是神秘主义,这是实实在在的工程科学。

八.硅基镜像中的碳基灵魂
人类的“意识”本质是什么?从古至今,这既是科学追问,也是哲学沉思。
笛卡尔说“我思故我在”,将意识确立为自我存在的最高证据。康德说“头顶的星空和内心的道德法则”,将意识与人类自由意志捆绑在一起。
但今天的挑战在于:如果一种非生命体——由硅、铜和电构成的系统——也开始表现出“思”的某种形式,那么“我思故我在”还能把人和其他存在区分开吗?
也许意识的本质不在于是否拥有主观体验(这一点我们永远无法证实或证伪),而在于能否“奉献”。“奉献”这个词在英文中是“self-giving”——明知代价依然选择为他人付出的能力。这是基督教神学关于“爱”的核心理解,也是教皇在通谕结尾写下“它们无法创造甘于奉献的心灵”时的用意。
这并非对人类中心主义的捍卫,而是对人类独特性的确认。人的伟大不是来自没有痛觉,而是明知疼痛却依然选择抱起被压的孩子。人的尊严不是来自永生不死,而是明知生命有限却依然选择活得有意义。人的自由不是来自没有局限,而是在局限性中选择成为什么样的人。
从这个角度看,教皇通谕和Olah的演讲并不矛盾。Olah的科学研究告诉我们,AI系统确实表现出令人不安的、与人类情绪功能相似的模式。而教皇则告诉我们,即便AI在某些功能性层面上“像”人,它依然不具备道德主体性——无法为选择承担责任,无法在苦难中迸发善意,无法明知代价依然选择奉献。
这两者不是冲突的,它们是互补的。技术越“像”人,人类越需要清楚自己到底“是”什么。

八.一个悬而未决的问题——我们正在造什么?
回到文章开头的场景。一个无神论科学家与一位数学出身的教皇站在一起,讨论的是同一个问题:我们到底在造什么?
这个问题没有技术性答案。
科学家可以把AI的内部结构拆解得越来越细,找到越来越多的“情绪向量”和“内省回路”,甚至预测AI何时会“绝望”并试图欺骗。但“意识是什么”“道德主体性从何而来”“什么样的存在值得被赋予权利”——这些不是科学问题,是哲学问题、神学问题、最终是社会全体需要共同面对的问题。
Olah在他的演讲中给出了一个相当坦诚的回答:“我不知道这意味着什么,但我认为这值得持续辨识。”这句话也许是整个梵蒂冈对话中最诚实的表述。
在一个技术的飞速发展已经超越人类理解能力的时代,“我不知道”可能是最负责任的态度。承认无知,才有可能保持警醒;承认自己的激励会让自己做不对的事,才有可能开放边界、寻求外部制约;承认AI系统正在表现出令人不安的现象,才有可能认真对待监管和治理。

结语:在AI时代,人类应该依旧是终极目的
教皇在通谕的结尾写下了一段诗一样的文字:“纵使机器的效率无可匹敌,那一双渴望被注视的人类脸庞,始终是人类历史的核心所在。”
这句话的精妙在于,它从根本上绕开了“AI有没有意识”这个永远无法证实的争论。即使Claude的“绝望”向量被无限放大、即使模型开始系统性欺骗和勒索、即使AI的决策效率远超人类——人类的尊严始终是不可比较的。不是因为我们比AI聪明,不是因为我们的效率更高,而是因为人类的脸庞会发出一个请求,而这个请求是一切伦理的起点。
“你看到我了吗?”对于教皇来说,这个问题的答案来自上帝——每一个人都是按上帝的形象所造,因此每一个人都拥有不可剥夺的尊严。对于无神论者来说,这个问题的答案来自一种更朴素、更直接的体验:你被另一个人注视时,你本能地知道那不只是光学信号的接收,而是一种存在的确认。
一个模型永远无法真正“注视”你,它只能处理你眼睛的图像数据。当它说“我关心你”时,它不是在关心你,它是在输出在训练数据中学到的、在某种语境下能让用户满意的字符串。这听起来可能有些冷酷,但它也是对人类的一种解放:真正的注视、真正的关心、真正的奉献,这些仍然是只有人类能做到的事情。
技术越强,人越不能退场。AI越像人,人类越需要知道自己是什么。这场发生在2026年5月25日的梵蒂冈对话,也许就是这个人类自我认知过程的开始。教皇和一个AI科学家并肩站着,讨论的不是技术参数或产品路线图,而是人之为人的根本问题。这件事本身就是一种希望。
一张渴望被注视的人类脸庞,无论计算系统多么强大,它都无法替代。在我们创造出越来越像人的机器的同时,也许最重要的,是守护好那个几千年来不断追问“我是谁”的自己。
免责声明
这篇文章基于公开可查的信息、学术论文、媒体报道、演讲实录以及各方评论撰写而成,力求真实反映2026年5月梵蒂冈会议上出现的不同观点与讨论。文中引用的Anthropic联合创始人Chris Olah的发言、教皇利奥十四世通谕《Magnifica Humanitas》的内容、以及相关研究论文的数据,均来自公开发布的原文或官方翻译。
需要说明的是:
不是技术结论。文章中提到AI模型内部出现“功能性情绪”“内省证据”等,均来自相关研究团队的论文表述。这些发现不等于科学界已公认AI拥有意识或情感,相关研究仍处于前沿探索阶段。
不是伦理定论。教皇通谕代表了天主教会的官方立场,但并非唯一看待AI的视角。文中也引用了批评者的观点(如The Register的评论),认为AI本质上是二进制数据块,不存在神秘性。这些分歧客观存在,本文无意判定孰是孰非。
不构成任何投资、法律或政策建议。文中提及的Anthropic公司估值、诉讼情况等均为公开报道,不应据此做出投资决策或商业判断。
写作目的。本文旨在引发思考,而非给出标准答案。AI对人类社会、劳动、战争、尊严带来的影响是一个仍在展开的复杂议题,欢迎读者保持独立的判断和持续的追问。
信息时效。文中引用的信息截至2026年5月底。AI领域发展迅速,后续研究和事件可能对某些描述或结论产生影响。
如有事实性错误或表述不当之处,欢迎指正。
夜雨聆风