2025年哈佛和MIT在神经科学顶刊《Neuron》上发表的一篇论文,揭示了一个惊人事实:大模型Transformer的注意力机制,和人脑海马体-新皮层的记忆分工,在数学上是等价的。
一、先说一个你每天都在经历的事
你有没有想过这个问题:
你为什么能记住十年前的事,却经常忘了昨天午饭吃了什么?
这不是因为十年前的事比午饭更重要(也许确实更重要),而是因为人脑的记忆系统,从底层架构上就和你想的完全不一样。
你的大脑里有一个"图书管理员"——海马体,和一个"巨型书架"——新皮层。海马体不存书,只管索引;新皮层不管索引,只存内容。
而你每天体验到的"遗忘",绝大多数时候不是内容消失了,而是索引找不到了。
书还在书架上,只是你翻不到那张索引卡。
这个结论不是鸡汤,是2025年6月发表在《Neuron》上的论文——《Key-value memory in the brain》,作者来自哈佛大学和MIT。
而更让人震惊的是:这套人脑记忆的底层逻辑,和大模型Transformer的数学公式,几乎是同一套。
二、人脑的记忆系统:一套"键值分离"架构
海马体:你的"索引卡"
海马体(Hippocampus)是大脑深处一个弯曲的结构,因形状像海马而得名。它的核心职能只有一个:
为每一份记忆生成一张精准的"索引卡"(Key)
你今天早上喝了杯咖啡,海马体会把这件事编码成一个独特的"地址标记"。至于咖啡什么味道、杯子什么颜色——这些细节内容,全部存在别的地方。
经典实验证据:海马体损伤的大鼠,会出现记忆过度泛化。
科学家训练大鼠在A场景中接受电击。正常大鼠只在A场景中害怕,在B场景中没事。但海马体损伤的大鼠,在所有相似场景中都会害怕——因为失去了精准的"索引卡",所有记忆混成一团。
新皮层:你的"巨型书架"
新皮层(Neocortex)是大脑外层那层折叠的灰质,负责存储记忆的实际内容。
这里有个颠覆认知的结论:
记忆一旦写入新皮层,几乎不会被永久擦除。
科学家让受试者记忆"单词-位置"配对,间隔不同时间测试。结果显示:
- • 可访问性(能否想起来)随时间明显下降
- • 精度(想起来了有多准确)完全没有衰减
换句话说:你的记忆没有变模糊,只是你越来越难找到它了。
遗忘的本质:不是数据丢失,是检索失败
论文用了一个精准类比:
遗忘,就像你在图书馆里找不到一本书。书还在书架上完好无损,但索引卡模糊了、放错位置了、或者被其他索引卡干扰了。
实验也验证了这一点。记忆干扰才是遗忘的核心诱因,而不是时间本身:
受试者依次学习多个单词列表,然后回忆倒数第二个列表。结果发现:回忆准确率取决于被回忆列表本身的长度,而不是后面那个列表的长度。
这说明新学的知识并没有"覆盖"旧知识,只是增加了检索时的干扰。
这对大模型的"灾难性遗忘"现象也提供了一种解释:旧知识可能还在模型权重里,只是被新知识的检索路径干扰了。
三、大模型的"记忆"是怎么做的?
大模型(GPT、Claude、GLM等)本质上没有记忆。每次对话从零开始,像是一个每天早上醒来都失忆的人。
但2025年以来,学术界和工业界拼命给它"装记忆",已经发展出九条技术路线。我挑最重要的几条说:
1. 上下文窗口 = 工作记忆
把最近的对话全塞进模型的输入窗口。就像你和人聊天时脑子里维持的上下文,容量有限(128K-1M token),而且有个致命问题:
"Lost in the Middle"效应:GPT-4o在90K token处的信息召回率不到40%。开头和结尾的信息记得住,中间的被忽略了。
这就像人脑的工作记忆——著名的"7±2"定律:你只能同时记住约7个信息单元。
2. RAG(检索增强生成)= 翻笔记本
把历史对话和知识切块存到向量数据库,对话时先搜索相关片段,再喂给模型。
目前最主流的方案,但弱点明显:它不会自动更新和关联。一个金融客服上线3个月后,知识库40%的信息已过时,答案自相矛盾。
3. MemGPT = 操作系统式换页
把上下文窗口当"内存",外部数据库当"硬盘"。内存使用率超过70%时,模型自己决定把什么换出去。
这和人脑的注意力分配机制惊人相似——你不可能同时关注所有事,大脑会自动把不重要的"降到后台"。
4. 遗忘曲线式记忆 = 越用越记得
模仿人类的艾宾浩斯遗忘曲线,每条记忆有"强度值"。被回忆一次就加强,长期不用就衰减。
某AI伴侣产品实测:使用这套机制10天后,用户亲密度评分提升18%。
5. 强化学习式记忆管理 = 让模型学会"该记什么、该忘什么"
用强化学习训练一个"记忆管理器",它自己决定什么时候新增(ADD)、更新(UPDATE)、删除(DELETE)记忆。
谷歌的Memory-R1只用了152条训练数据就收敛了,在记忆管理任务上的F1值比之前的Mem0提升了48%。
6. 可写记忆模块 = 外置海马体
谷歌的Titans给模型装了一个1亿参数的"可写记忆"模块,1步梯度更新就能记住新知识。这可能是最接近人脑"快速写入+长期保存"的设计。
四、核心对比:人脑 vs 大模型
| 维度 | 人脑 | 大模型 |
|---|---|---|
| 短期记忆 | 工作记忆(前额叶,约7±2个单元) | 上下文窗口(128K-1M token) |
| 长期记忆 | 新皮层(几乎永久保存) | 向量数据库 / 模型参数 |
| 记忆索引 | 海马体(编码检索地址) | 注意力机制的Key矩阵 |
| 记忆巩固 | 睡眠时海马体重播,固化到新皮层 | 模型重新训练 / LoRA微调 |
| 遗忘机制 | 索引失效,内容仍在 | 窗口截断 / RAG结果过时 |
| 联想能力 | 一个线索触发大量关联记忆 | 向量相似度检索(粗糙版联想) |
| 重要性筛选 | 杏仁核+多巴胺系统 | 强化学习记忆管理器 |
| 个性化 | 每个人独立记忆 | 用户级记忆存储 |
五、为什么说它们"等价"?
2025年那篇《Neuron》论文最核心的贡献,是用数学证明了:
Transformer的自注意力机制,和人脑海马体-新皮层的键值分工,是同一个数学公式的两种实现。
数学上的对应关系
Transformer的计算核心是三步:
- 1. 用查询向量(Query)和所有键(Key)算相似度
- 2. 通过softmax放大最匹配的键的权重
- 3. 用权重对所有值(Value)加权求和
人脑的记忆提取完全对应:
- 1. 用一个"回忆线索"去匹配海马体中的索引(Key)
- 2. 大脑的分离机制聚焦到最匹配的记忆地址
- 3. 从新皮层提取对应记忆内容(Value)
论文甚至证明了一个更惊人的结论:任何用梯度下降训练的神经网络(包括最简单的多层感知机),都可以被等价重写为一种键值记忆系统。
也就是说,不是Transformer碰巧像人脑,而是——
所有通过学习来记忆的系统,最终都会收敛到键值分离架构。
这是一个关于智能本质的深刻洞察。
"沉默记忆"实验
论文做了一个对标神经科学的MNIST实验:
- 1. 训练模型完成任务1(精度99%)
- 2. 继续训练任务2(任务1精度暴跌到9%——经典灾难性遗忘)
- 3. 不做任何重新训练,只是在推理时放大任务1的"记忆权重"
结果:任务1精度从9%恢复到99%。
如果旧记忆真的被覆盖了,放大多少倍都不可能恢复。这说明旧记忆一直完好无损地保存在权重中,只是被新记忆的检索路径干扰了。
这和神经科学中的"光遗传学激活沉默印迹细胞"实验——用激光唤醒失忆动物的记忆——在计算上完全等价。
六、这意味着什么?
对AI从业者
- • 纯RAG不够。它就像一个只会往笔记本里塞纸条但从不整理的人。真正有用的记忆需要:能更新、能遗忘、能联想、能个性化。
- • 记忆管理是下一个技术热点。2025年从MemGPT到Titans,九条技术路线并存,说明行业已经意识到:模型再大,记不住用户是谁也白搭。
- • "记忆即服务"可能成为新赛道。跨模型、跨平台的记忆迁移,权限管理,版本控制——这些需求正在浮出水面。
对普通人
- • 你的遗忘不是缺陷,是功能。大脑主动遗忘,是为了让检索系统保持高效。如果什么都记得,检索会瘫痪——这比遗忘更可怕。
- • "想不起来"不等于"忘了"。很多时候你只需要一个对的关键词、一个旧场景、甚至一种气味,就能激活"沉默"的记忆。
- • 反复回忆能让记忆更牢。这不是鸡汤,是海马体索引路径被反复走通的物理结果。
更深的哲学层面
如果人脑的记忆是键值分离架构,如果所有学习系统都会收敛到同一套公式,那一个自然的问题就出现了:
"记忆"可能不是某种特定生物结构的产物,而是任何足够复杂的信息处理系统的必然属性。
硅基还是碳基,不重要。只要系统在学习、在存储、在检索,它就会发展出记忆。而记忆的结构,可能只有那么一种最优解。
参考资料
- 1. Gershman et al., Key-value memory in the brain, Neuron (2025)
- 2. McClelland et al., Complementary Learning Systems, Psychological Review (1995)
- 3. Memory-R1: RL-based memory management for LLM agents (2025)
- 4. MemGPT: Towards LLMs as Operating Systems (2024)
- 5. Titans: Learning to Memorize at Test Time (2025)
- 6. AWS, Agent记忆模块的最佳实践 (2025)
本文观点基于已发表学术论文和公开技术报告。如有不准确之处,欢迎指正。
夜雨聆风