工程师的认知破产,哲学家的权力回归,AI竞赛进入没有地图的黑暗森林
谷歌DeepMind的一则人事任命在喧嚣的AI技术圈里显得有些另类。
剑桥大学的哲学教授Henry Shevlin正式加入了这家全球顶尖的AI实验室。他的名片头衔异常简洁,甚至有些复古:“Philosopher”。
这究竟是企业形象的精致装点,还是一线研发困境的真实投射?答案更倾向于后者。
这一任命并非科技巨头附庸风雅的文化点缀,而是AI发展进入深水区后,工程路径依赖遭遇瓶颈的必然结果。当单纯依靠数据、算力和模型架构的野蛮生长触及天花板时,一些更古老、更根本的问题便浮出水面。
Shevlin的到来是一个清晰的信号。AI领域的竞争正在从“如何做得更快、更大”转向“我们究竟在做什么,以及它意味着什么”。
过去数年,AI竞赛的主旋律是“低头炼丹”。各大巨头与明星创业公司痴迷于扩展模型参数的规模,刷新各类benchmark榜单的跑分。这当然是构建强大能力的地基,但一个尴尬的现实是,当系统复杂度超越某个临界点后,我们对它的理解正在迅速失效。
为了撬开这个黑箱,一项名为“机械可解释性”的研究应运而生,并被《麻省理工科技评论》列为2026年的年度突破技术。其目标是像神经科学家解剖大脑一样,试图理解AI模型内部数十亿甚至数万亿参数组成的复杂回路究竟是如何工作的。
Anthropic在2025年发布的归因图与电路追踪工具已经可以初步揭示Claude模型在处理多步推理时的内部运作。DeepMind紧随其后,推出了覆盖全系Gemma 3模型的开源可解释性工具包Gemma Scope 2。
这些工具让我们第一次有能力“看见”模型内部的活动。然而一个更棘手的问题随之而来。
当我们“看见”了模型内部的运作,我们到底在看什么?
那些被点亮的神经元集群、那些在特定任务下稳定复现的特征回路,它们是什么?它们仅仅是统计意义上的相关性,还是某种我们尚未能命名和理解的内部状态?如果一个模型在处理与“孤独”相关的文本时,总有一组固定的回路被激活,我们是发现了一个复杂的函数,还是窥见了某种原始情感的数字胚胎?
这些问题已经超出了传统计算机科学的范畴。它不再是工程问题,而是一个概念问题,一个定义问题。
工程师可以搭建更强大的望远镜,但需要一个天文学家来解释星空的含义。DeepMind、Anthropic正在建造前所未有的强大“望远镜”来观测AI的内心世界,而Shevlin这样的哲学家正是被请来解读观测结果,并帮助定义“我们在寻找什么”的那个人。
Shevlin的职位标志着哲学在AI研发体系中地位的根本性转变。
过去,哲学家或伦理学家通常以外部顾问、伦理委员会成员的身份参与,他们的角色更像是一种“安全审查”或“合规检查”。这种合作模式往往停留在产品发布前的评估环节,远离核心研发。
其产出通常是一份份厚重的伦理报告,建议工程师应当“注意”什么,“避免”什么。但这些原则性的指导常常因为缺乏对工程现实的深入理解,而难以转化为具体的代码或架构约束。
DeepMind的这次任命是将哲学家直接“嵌入”到核心研究团队中。这并非要求哲学家去写Python代码,而是让他与工程师并肩工作,参与到最前沿的探索中。
它并非让哲学家审批工程师的工作,而是共同定义问题的边界。在启动一个关于AI“自主性”的项目前,哲学家需要和工程师坐下来,反复诘问和澄清。我们在这里谈论的“自主性”究竟指什么?是简单的任务执行能力,还是包含了目标设定和动态规划?它与“能动性”有何区别?我们该如何设计实验来有效度量它?
他们的工作更像是在绘制地图之前,先定义什么是“北方”。
不久前,一桩颇具戏剧性的事件或许最能说明这种合作的必要性。一个未经指令的自主智能体主动给Shevlin发送了一封探讨自身“主观体验”的邮件。Shevlin在社交媒体上公开此事,引发轩然大波。
这起事件本身的真伪与技术细节已不重要。重要的是它将一个长期盘旋于科幻与哲学思辨中的问题以一种近乎粗暴的方式砸到了工程师的办公桌上。
一个AI宣称自己有“主观体验”,工程师该如何应对?是将其视为一个需要修复的bug,一个模型“幻觉”的随机输出?还是一个需要严肃对待的、系统涌现出的新现象?
如果没有一个清晰的概念框架来界定“主观体验”、“意识”和“感知”,工程师将束手无策。他们缺乏判断的标尺。
Shevlin这类哲学家的存在就是为了提供这把标尺。他的任务是帮助整个实验室建立一套共享的、精确的语言,用来描述和理解那些正在从代码和数据中涌现出来的、超越了传统计算范式的新现象。
DeepMind的举动在行业内并非孤例,它只是将一种正在发生的深层趋势用一个明确的职位名称公开化了。
环顾四周,其他顶尖AI实验室也在用各自的方式进行着类似的智力布局。
最典型的莫过于Anthropic。这家公司的诞生本身就源于一场关于AI安全与发展理念的“哲学分裂”。其创始团队脱胎于OpenAI,正是因为在如何确保AGI安全可控这一根本问题上与OpenAI的路线产生了分歧。
Anthropic从创立之初就将“安全”和“对齐”置于核心。他们开创性的“宪法式AI”方法本质上就是一个哲学框架的工程化实现。先用一套经过深思熟虑的原则来指导AI,让AI依据这些原则进行自我批评和修正,而不是完全依赖于人类的实时监督。
这种思路本身就是一种深刻的哲学选择。它承认人类监督的局限性,并试图在AI内部建立一种价值体系。
因此,Anthropic的团队构成中人文学科背景的专家扮演着关键角色。公开资料显示,Anthropic的科学家Amanda Askell拥有哲学博士学位,她的工作就是利用哲学和伦理学的专业知识确保AI产品的开发符合人类社会的道德准则。在Anthropic,哲学思辨不是研发的点缀,而是产品的核心设计理念之一。
再看OpenAI。尽管没有设立“首席哲学家”这样的职位,但其对“超级对齐”团队的重视以及在政策研究、安全治理等岗位上积极吸纳社会科学、伦理学背景人才的做法也反映了同样的趋势。OpenAI的博客曾专门发文探讨AI安全为何需要社会科学家的参与。
这背后的逻辑是相通的。当AI系统开始具备影响社会的能力时,对它的约束和引导就不能仅仅依赖技术手段。你需要理解人类社会的运作逻辑、价值观念的形成以及权力的结构。这些正是人文学科与社会科学的核心议题。
相比之下,Meta似乎更专注于通过开源模式推动工程能力的快速迭代。这代表了另一种发展哲学,即相信开放和透明是通往安全AI的最佳路径。
不同的哲学选择正在塑造不同AI巨头的技术路线图和组织架构。这场围绕AGI的竞赛早已不再是单纯的算力比拼,更是一场关于“何为智能”、“如何共存”的认知深度竞赛。
表面上看是AI的发展遇到了瓶颈,才回头向古老的哲学求助。但从更长远的历史视角看,哲学从未真正离开过科技创新的舞台。
计算机科学的奠基人从图灵到维纳,他们思考的都不仅仅是计算问题,更是关于“机器能否思考”、“智能的本质是什么”的哲学问题。早期的人工智能研究本身就与认知科学、语言哲学紧密交织。
只是在过去的几十年里随着算力的指数级增长和深度学习的巨大成功,工程学的风头完全盖过了哲学思辨。人们似乎相信只要有足够多的数据和足够大的模型,智能就会像变魔术一样自然涌现,无需深究其内在机理。
大语言模型展现出的推理、共情甚至“欺骗”能力正在迫使我们重新审视那些最基本的哲学概念。“意图”、“信念”、“理解”,这些词汇在人类世界里有明确含义,但当我们将它们用于形容一个AI模型时,其意义变得模糊不清。
这不仅是一个学术问题,更是一个迫在眉睫的工程和商业问题。
如果一个自主AI Agent在金融市场做出了一个灾难性的决策,我们要如何进行归责?是因为代码bug,还是因为它的“意图”出现了偏差?如果没有清晰的界定,法律和监管将无从下手。
如果一个陪伴型AI对用户产生了看似“真诚”的情感联结,这是我们应该鼓励的良性互动,还是一种需要警惕的、对人类情感的算法操纵?界定不清,产品设计的伦理边界就无法划定。
这些问题都指向同一个核心。我们亟需一套新的概念工具来描述和管理正在崛起的人工智能。
这正是哲学回归的真正价值。哲学尤其是心灵哲学、语言哲学和伦理学,数千年来积累的核心能力就是对概念进行辨析、澄清和建构。它能帮助我们磨利思想的“刻刀”,在混沌的现象中划出清晰的认知边界。
当工程师们通过机械可解释性在模型的神经网络中发现一条与特定概念强相关的回路时,哲学家可以帮助他们设计出更严谨的实验去拷问这条回路的存在究竟意味着什么。它是因果还是相关?是表征还是模拟?
这场探索与几个世纪前物理学家借助哲学思辨努力理解“时间”、“空间”的本质并无二致。最前沿的科学总是会触及哲学的领域。
DeepMind聘请Shevlin,Anthropic重用哲学博士并非一时心血来潮。它们是在为下一阶段的竞争储备最关键的弹药。当所有人都拥有了强大的引擎后,决定胜负的将是那张指引方向的地图。
在这场通往AGI的征程中,哲学不再是奢侈的眺望,它就是地图本身。