AI:我好像要长脑子了

神经科学，AI，与大脑的数字孪生

项目地址：https：//github.com/facebookresearch/tribev2

想象你正在听播客或者看电影，此时一台机器在扫描你的大脑，记录你每一秒钟哪些脑区在“亮灯”（这就是fMRI，功能性磁共振成像）。

神经科学家用这样的方法积累了几十年数据，但数据之间少有挖掘关联，因为大多数研究都只能聚焦一件事：有的专门研究“听到名词时大脑的反应”，有人研究大脑的视觉处理……我们知道运动感知在V5区，面孔识别在梭状回，书写语言的加工在视觉词形区……但这些结论终究有些孤立。就像是一本词典，即便知道每个词条的含义也难以串联主线。

本文的起点是Meta FAIR团队的研究论文（d’Ascoli et al.， 2026），它介绍了一个名为 TRIBE v2 的 AI 模型，其训练野心在于，能预测人类大脑作为一个整体（而不是某个脑区）在观看视频、聆听声音、阅读文字时的神经活动。

以下是作为语言学人对这篇论文的阅读笔记——包含论文内容的梳理、神经语言学视角的重新解读，以及一些衍生思考。

一、神经语言学与 fMRI

TRIBE v2的研究对象是 fMRI 数据。

fMRI（功能性磁共振成像）测量的是大脑各区域的血氧水平。原理是哪里的神经元越活跃，那里就需要越多含氧血液，生物电信号就越强。它的空间分辨率相当高，可以精确到几毫米内的不同区域。

但它有物理限制（语音实验中也很常见）：延迟。神经元放电是瞬时的，但血氧变化反应很慢——大约需要5秒才能达到峰值，然后再缓慢下降，整个周期长达10到15秒。这意味着，当你测量到一个脑区“亮了”的时候，触发它的刺激早在几秒前就结束了。

这个延迟在神经语言学实验中是一个反复出现的技术挑战。句子加工发生在毫秒级别，而fMRI的时间分辨率是秒级别。

TRIBE v2的处理方式是把所有fMRI信号整体往后偏移5秒，相当于做了一次系统性的时间校正。这是个工程上的合理妥协，但也就有了前提：这个模型能学到的，是相对慢速的、整合性的神经反应，而非语言加工的实时动态。

二、实验设计与 TRIBEv2 的核心结构

TRIBEv2 核心结构很像个多模态翻译机。其任务是把“外部世界的刺激”翻译成“大脑的神经活动”。输入端有三条通道：

文字：通过 Llama 3.2 处理。它不只是把词语变成向量，而是提取带有语境的语义表示——每个词的意义会受到前面1024个词的影响。这和神经语言学里的语境依赖理论高度契合：大脑对一个词的加工，从来不是孤立进行的。

声音：通过 Wav2Vec-BERT 2.0 处理。这是一种在大量语音数据上预训练的模型，它提取的不只是物理声学特征，而是已经经过某种抽象加工的语音表示——有点像是从音位层面理解语音，而非仅仅分析频谱。

视频：通过V-JEPA2处理。它以2Hz的频率对视频帧采样，理解画面内容的动态变化。

三路信息最终汇入一个Transformer编码器——这和大语言模型的核心结构相同——负责整合跨时间的信息，并最终输出对大脑每一个测量位置的“亮度”预测。

这里有个设计细节，模型有一个叫做模态随机丢弃（modality dropout）的机制。训练时，每种输入模态都有30%的概率被随机屏蔽，但至少保留一种。这迫使模型学会在缺少某种感觉输入的情况下仍然做出有意义的预测——比如，只给音频，就像让一个人闭着眼睛听播客。这个设计思想在神经语言学里有一个有趣的对照：大脑在缺乏某种感觉输入时，的确会增强对其他模态的依赖（比如失明者的听觉皮层会被语言加工“借用”）。

TRIBE v2 的训练和测试数据来自8个公开fMRI数据集，总计超过1，000小时、720名被试的扫描数据。

三、模型复现经典语言学发现

对一个学语言学的人来说，论文的这部分结论含金量很高，读起来很开心。

研究者做了一件很聪明的事：他们把TRIBE v2当成一个“虚拟被试”，把历史上经典的神经语言学实验原封不动地喂给它，然后比较模型的预测和真实人类数据的一致程度。这些实验来自一个叫做Individual Brain Charting（IBC）的数据集，它收录了几十种功能定位范式的真实大脑数据。

1️⃣ 谁在处理语言？

最基础的实验是语言定位：给被试听一段含有语音的视频片段，和一段不含语音的对照片段，看哪些脑区对语音有选择性响应。

TRIBE v2 正确定位了语言核心区域，包括：

A5区（联合听觉皮层）：对复杂语音而非简单音响有更强响应，是语音从物理声音向语言信号转变的重要中继站。
颞上沟（STS）：这是神经语言学里出镜率极高的区域。它参与语音感知、多模态整合，也和语用推理有关——当你理解别人说话时“言下之意”，颞上沟很可能在参与工作。

Broca区（45区）：经典的“语言产出区”，但大量研究已经证明，它同时也深度参与句法理解，尤其是复杂句法结构的在线处理。

这些都是教科书般的定位，模型在没有被专门“教过”这些知识的情况下，自动复现了这些发现，空间相关系数R = 0.79，统计上极度显著。

2️⃣ 情绪痛苦 vs 身体疼痛

第二个实验比较有趣。研究者对比了两类句子：

“我感到很沮丧” / “我感到很愤怒”（情绪痛苦）
“我的脚很疼” / “我的手受伤了”（身体疼痛）

TRIBE v2正确区分了两者，并找到了关键脑区——颞顶联合区（TPJ）和中颞回（MTG）——它们对情绪/社会性语言有更强的响应。

这背后的问题是，“疼痛”这个词，根据它指的是身体感觉还是社会情感，大脑动用的是不同的系统。描述身体疼痛时，感觉运动系统参与更多；描述情绪痛苦时，激活的是更抽象的社会认知回路。

这个区分其实很直觉：你理解“我的脚很疼”，和理解“我感到很沮丧”，调用的不是同一套神经资源。语义并非整齐地住在某一块“语言区”里，而是分散在和这个词的内容相关的各处——你怎么感知世界，很大程度上也就是你怎么理解语言。（相关概念和理论有神经语言学的抽象语义和具身语义、Barsalou的具身认知理论（embodied cognition）等）

3️⃣ 句子 vs 词语列表

这个对比是句法神经科学里的经典实验设计：

正常句子：“我去了商店”
乱序词表：“商店去了我到”

TRIBE v2 正确预测了真实句子比词语列表能激活更强的语言网络响应，并且这种差异主要出现在语义整合相关区域（TPJ）。这对应的理论问题是：把词组合成句子，大脑额外做了什么？答案是某种结构建立过程——这个过程不只是依次处理词语，而是实时构建一个层级性的句法-语义表征。

4️⃣ 复杂句 vs 简单句

最后一个语言实验是句法复杂度对比：

复杂句：“水手们被海鸥的噪音吵到了”（被动句、从句嵌套）
简单句：“这些是被海鸥噪音吵到的水手”

TRIBE v2正确预测了两项发现：

1. 复杂句激活更强的左半球侧化（语言处理的左偏侧性是人类语言神经基础的一个标志性特征）

2. 复杂句更多激活句法处理区域（Broca区），而两者都激活语义整合区域（TPJ）

这区分了句法工作记忆负荷（Broca）和语义整合（TPJ）的不同角色，和传统神经语言学实验的发现高度一致，空间相关R = 0.21，虽然在所有实验中是最低的，但仍然统计显著（p = 4e-05）。

四、延伸问题

这篇文章读下来让我想到几个有意思的问题。

问题一：能不能用大脑来给 AI 的“智能”评级？

查了下，还真有人在做了。

传统的 AI 评估方式是行为主义的：让模型做题，看对多少——MMLU、HumanEval、各种benchmark。这套方法的问题越来越明显：模型可以“刷题”，可以在训练集里见过类似的问题，高分不一定代表真正的理解能力。（AI 有自己五年高考，三年模拟x）

而用大脑的神经反应来评估AI，提供了一个完全不同的参照系。它的逻辑是：如果一个 AI 模型的内部表示和人类大脑在处理同样输入时的神经模式越相似，我们就有理由说它的“表征方式”越接近人类认知。这不是在测试它答对了多少题，而是在测试它如何加工信息。

这就是Brain-Score（大脑得分），已经有一定规模的研究社区在做。大致方法是把各种 AI 视觉模型的中间层激活，和猕猴视觉皮层（或人类fMRI）的神经响应做相关，相关越高，说明这个模型的内部表示越“脑化”。有意思的结论是，一些在ImageNet上表现最好的模型，并不一定得到最高的Brain-Score；“擅长做题”和“用人脑的方式处理信息”是两件不完全重合的事情。

TRIBE v2 的逻辑可以被看作是这个方向的一个更大规模的版本：把对大脑预测精度本身，作为衡量 AI 表示质量的一把尺子。

但对于这种评估方式，也有一个值得探讨的地方：“像人脑”等于“更智能”吗？

因为人脑在某些任务上其实是很低效的，比如大数乘法和长时间的精确记忆。如果我们把“像人脑”作为智能的终极定义，那这种低效是被接受的，甚至是显著特征；但显然，我们对智能的期待不是这样的（人类宽于待己，严于待AI）。

问题二：多模态训练对语言模型的启发

GPT-4V、Gemini、Claude这些模型都是多模态的，但它们的多模态整合方式和TRIBE v2 有根本性的差异。

主流的多模态大模型大致是这样工作的：把图片/视频编码成一些“视觉token”，然后把这些token和文字token拼在一起，一起送进语言模型。本质上，视觉信息是被翻译成语言模型能读懂的格式，然后语言模型用处理语言的方式来处理这些翻译过来的视觉信息。

TRIBE v2 的逻辑则是三种模态是并行的、平等的，模型需要学习如何整合三个通道的信息，而不是把一切都归约到语言表示。这更接近人脑的实际工作方式——视觉皮层、听觉皮层、语言网络，是三个相对独立的处理系统，但它们之间有大量的相互连接和信息交流。

TRIBE v2 这类模型给多模态训练两条启发：

1、多模态训练对语言能力本身有溢出效益，而且可能超出预期。

论文里有一个不起眼但很重要的发现：文字模态单独训练时，预测精度最低——比音频和视频都差。但是，把文字和音频、视频结合起来，某些脑区的预测精度提升了高达50%。这说明，语言理解在大脑里本来就是多模态的——视觉和听觉信息在帮助语言的加工，而不只是语言在帮助视觉和听觉。

对模型训练的类比推论是：如果你在做一个语言类产品，加入视频和音频数据做联合训练，可能不只是让模型“多会一项技能”，而是让模型的语言表示本身变得更丰富、更接地气。因为大量的语言含义是通过感知情境建立的——“蓝色”这个词，人类是在看到蓝色东西的同时学会它的，而不是在一堆文字里习得的。纯文本训练的语言模型在这一点上有先天的缺陷，多模态数据可以弥补这个缺陷。

2、模态之间的“互相预测”可能是一种很有价值的自监督信号。

目前的多模态训练，很多时候是“给图片配文字描述，让模型把两者对齐”——本质上还是在做配对匹配。但 TRIBE v2 的方式是：让模型预测一个统一的输出（大脑活动），这个输出自然地整合了所有模态的信息。在模型训练的语境里，类似的思路可以是：不是让模型把图片和文字对齐，而是让模型从三种模态里预测一个共同的隐变量，然后用这个隐变量来生成各种模态的输出。这种训练方式可能会学到更深层的跨模态语义，而非仅仅学到表面的配对关系。

但是……加入更多模态意味着训练数据的质量控制更复杂，模态之间的噪声会相互干扰，训练成本也会大幅上升。

问题三：技术是人类身体的延伸——AI与人脑的趋同

这个问题有点技术哲学了。麦克卢汉在上世纪60年代说过一句话：“媒介是人的延伸。”车轮是腿的延伸，书写是记忆的延伸，望远镜是眼睛的延伸。每一项技术，都在某种意义上把人类的某个能力外部化、放大化。

AI，尤其是大语言模型，是这个逻辑的一个极端案例——它试图延伸的，是人类最核心的能力：语言、推理、认知。

TRIBE v2这类模型，有意无意的揭示了，不是“AI 在功能上像人脑”，而是“AI 在内部表示的结构上像人脑”。模型自发地学出了初级听觉皮层、语言网络、默认模式网络……模型没有被告知这些结构，它自己“长”出来的。

有一种解释是收敛进化的逻辑：不同的系统，如果面对相同的任务约束，会独立演化出相似的解决方案。鸟的翅膀和蝙蝠的翅膀，结构不同，但都是“能飞”这个约束下的收敛解。大脑处理语言、视觉、听觉的功能分区，也许不是进化的偶然，而是在“用有限的计算资源高效处理这些信息”这个约束下，几乎不可避免的最优解。如果一个 AI 模型也面对相同的任务——处理语言、视觉、听觉——它在足够大的规模和足够多的数据下，也会收敛到相似的内部结构。

这个解释如果成立，说明人脑的功能组织方式，可能不是生物的特殊性，而是信息处理问题的通解。换句话说，任何足够强大的智能系统，无论是碳基的还是硅基的，都可能会收敛到相似的结构原则上去。

但还有另一种解释：也许AI内部结构“像人脑”，不是因为它们独立收敛到了相同的最优解，而是因为AI是用人类生产的数据训练出来的——它的内部结构只是人类认知模式的一个统计映射，是一面镜子，而非一个独立的智能实体。在这种情况下，AI和人脑的相似性，只是“训练数据的签名”，而非真正的结构同构。

我自己觉得，这种趋同是双向的。不只是 AI 在变得像人脑，人类也在把自己的认知越来越多地外包给 AI。认知科学家叫这个“延展心智”：当一个工具足够稳定、可及、可信任，它就不只是工具，而是成为认知系统的一部分。

如果这个方向继续走下去，可能最终出现的不是“AI越来越像人脑”，而是“人脑+AI形成的混合系统，作为一个整体，和单独的人脑越来越不同”。这是一个更奇怪、也更有可能是真实未来的图景。

ps. 本文回到论文本身，还有很多局限性和待研究项：

1、时空分辨率：fMRI无法捕捉毫秒级神经元放电动态

2、感觉模态不完整：当前输入仅涵盖视觉、听觉和语义，未包含嗅觉、体感、平衡觉等

3、只处理英语（及少量法语）数据：语言普遍性与特殊性的问题在这里完全没有被触及。

4、被试群体单一：论文自己也承认，所有被试都是健康成年人，且多为西方文化背景（Henrich等人所说的"WEIRD"问题——西方的、受教育的、工业化的、富裕的、民主的）。

5、模型是"观察者"，不是主动"说话者"：当前模型只能预测"听/看"时的大脑反应，无法模拟语言产出时的神经过程。而神经语言学里产出和理解的神经机制有很大差异。

论文本体：

A foundation model of vision， audition， and language for in-silico neuroscience. FAIR at Meta.

图片由 AI 生成