你有没有过这样的体验:和 ChatGPT 聊了一个小时,精心调教好了它的回答风格,结果一刷新页面,一切归零。或者你在某个 AI 助手里积累了大量工作偏好,换到另一个平台,又得从头来过。再或者,你让 AI 帮你写一份长报告,写到第十页它已经忘了第二页你交代的格式要求。
这些痛点的根源都指向同一个问题:大模型没有真正的记忆管理系统。
最近,来自 MemTensor、上海交通大学、北京大学、浙江大学等十余家机构的研究团队提出了一个大胆的方案——MemOS(Memory Operating System),一个专门为大语言模型设计的"记忆操作系统"。这篇论文不是在给 LLM 打补丁,而是从操作系统的高度重新定义了"记忆"在 AI 系统中的角色。更重要的是,MemOS 在 PreFEval、PersonaMem、LongMemEval、LoCoMo 四大基准测试上全部取得了 SOTA 表现,显著超越了 Mem0、Zep、Memobase 等强基线——这不只是概念创新,而是有硬数据支撑的系统级突破。
大模型的"记忆困境":不只是"忘事"那么简单
要理解 MemOS 的价值,我们先看看当前大模型在记忆方面到底面临哪些困境。这些困境并非孤立的功能缺陷,而是指向一个深层的架构性缺失。
困境一:长上下文的“健忘症”。 Transformer 架构天然受限于上下文窗口。即便窗口扩展到了 128K 甚至更长,模型在处理长对话时依然会“前丢后忘”——你在对话开头定义的代码风格,十轮对话后就被抛到九霄云外。更棘手的是,注意力机制的计算成本随序列长度呈二次方增长,简单地“拉长窗口”是一条越走越窄的路。
从技术层面看,这里有三重障碍叠加:第一,物理窗口限制了输入容量,超出部分被截断;第二,即使在窗口内,注意力分数的分布也并不均匀,模型对中间位置的信息关注度明显低于首尾(即“lost in the middle”现象);第三,用户指令和模型行为在长跨度上容易“脱钩”——比如在复杂编程任务中,用户定义的架构约束经常在几轮迭代后被模型“遗忘”,输出退化为默认模式。这不是简单地“记不住”,而是缺乏持久状态维护和结构化上下文保持的机制。
困境二:知识更新的“时差病”。 模型的参数记忆是训练时固化的。法律法规更新了、科学发现刷新了、时事新闻发生了——这些模型统统不知道。RAG(检索增强生成)虽然能从外部拉取新信息,但它本质上是个“临时抱佛脚”的方案:没有版本管理、没有时间感知、没有冲突消解,可能同时引用过时法条和新规而浑然不觉。
更本质的问题是,RAG 的工作模式是“无状态的即时拼接”——每次检索都是独立事件,系统对知识的时间维度毫无感知。它既不能标记某条信息“已过期”,也不能在新旧信息冲突时做出优先级判断。这意味着在法律咨询、医疗建议等对知识时效性敏感的场景中,RAG 可能制造比“不知道”更危险的“知道但说错”。
困境三:个性化的“失忆症”。 每次开启新对话,模型都像失忆一样回到出厂设置。虽然 ChatGPT 和 Claude 已经推出了记忆功能,但现有方案存在容量限制、访问不稳定、更新逻辑不透明等问题。它们更像是“被动的便签本”,而非“主动的记忆系统”。
从系统设计角度看,现有的记忆功能缺少几个关键能力:结构化存储(记忆只是扁平的文本片段)、语义关联(不同记忆之间缺乏链接)、主动调度(系统不能根据当前任务智能决定加载哪些记忆)、以及编辑透明度(用户无法精确控制哪些记忆被使用、如何被使用)。
困境四:跨平台的“记忆孤岛”。 你在 ChatGPT 里积累的偏好,带不到 Cursor 里;你在某个企业 AI 平台的工作记忆,迁移不到另一个平台。每个系统都是一座记忆孤岛,用户在不同工具间反复“重建上下文”,体验割裂。
这个问题的影响远不止用户体验。从生态层面看,记忆的锁定效应加剧了平台垄断——掌握用户记忆的平台通过正反馈循环越来越强,而分散的小型模型实例因无法共享经验而逐渐边缘化。打破记忆孤岛不仅是技术问题,更关乎 AI 生态的多样性和健康发展。
这四个问题看似各不相同,但背后有一个共同的结构性缺陷:大模型缺少一个系统级的记忆管理层。 论文精辟地指出,无论是参数记忆还是 RAG,都没有把记忆当作"可调度、可演化的系统资源"来对待——这个结构性空白才是阻止 LLM 成为持久化、协作型智能体的核心瓶颈。
MemOS 的核心思路:把记忆当作系统资源来管理
MemOS 的设计哲学可以用一句话概括:像操作系统管理 CPU、内存和磁盘一样,去管理大模型的记忆。
在传统计算机中,操作系统负责把硬件资源(处理器时间、物理内存、存储空间)抽象成统一的接口,再通过调度、权限控制、生命周期管理等机制让多个程序高效共享。MemOS 做的事情如出一辙——只不过它管理的“资源”换成了大模型的三种记忆:
明文记忆(Plaintext Memory): 就是我们熟悉的外部知识——检索到的文档片段、知识图谱节点、提示模板。相当于计算机里的 I/O 缓冲区,可读可写可追踪。MemOS 将明文记忆组织为层级化的图结构,按"任务—概念—事实"路径索引,支持语义相似度与主题感知的混合检索策略,并内建冲突检测、去重和版本管理机制。
激活记忆(Activation Memory): 推理过程中产生的中间状态,核心是 KV-cache,还包括隐藏状态和注意力权重。相当于 CPU 缓存,速度极快但容量有限,是模型"当前正在想什么"的体现。MemOS 对激活记忆提供了惰性加载、选择性冻结和优先级驱动的调度策略——高频 KV 模式被缓存为低延迟的"即时记忆路径",反复触发的策略性行为则可被抽象为 steering vector 或语义模板等持久结构。
参数记忆(Parameter Memory): 训练时写入模型权重的长期知识,具体体现为前馈层权重矩阵和注意力的 Key/Value 投影矩阵。相当于 CPU 的微码或寄存器,深度内化但更新成本极高。MemOS 支持通过 LoRA 等轻量级适配器将特定领域知识蒸馏为可加载的“能力模块”(如摘要专家、法律顾问、风格生成器),实现模块化的参数记忆管理。
论文中给出了一张清晰的组件映射表:传统 OS 的调度器对应 MemOS 的 MemScheduler,文件系统对应 MemVault(版本化存储),系统调用对应 Memory API,设备驱动对应 MemLoader/Dumper,权限控制对应 MemGovernance,系统日志对应 Audit Log。这不是简单的类比,而是一套完整的架构对应——MemOS 真正把操作系统的成熟方法论移植到了记忆管理领域。
MemOS 在这三种记忆之间建立了统一的调度框架:它们不再是割裂的三个世界,而是可以相互转化、协同工作的整体。比如,用户反复提到的偏好(明文记忆)可以被压缩成激活路径(激活记忆),频繁使用且结构稳定的知识最终可以蒸馏进模型参数(参数记忆)。
MemCube:记忆世界的“容器”
MemOS 引入了一个关键抽象——MemCube(记忆立方体)。如果说 Docker 容器封装了应用和运行环境,那 MemCube 封装的就是一段记忆及其完整的“元数据身份证”。
每个 MemCube 包含两部分:
记忆载荷(Memory Payload):具体的语义内容——可以是一段文本、一组 KV 对、一个 LoRA 适配器权重,甚至是一个知识图谱子图。载荷类型的多样性正是 MemCube 能统一三种记忆的关键。
元数据(Metadata):这段记忆的完整身份信息,分为三个层级:
描述性标识:时间戳(创建/更新时间)、来源签名(来自推理提取、用户输入、外部检索还是参数微调)、语义类型(任务提示、事实知识、用户偏好等)。这些构成记忆的“语义指纹”,是大规模调度的基础。
治理属性:访问权限、所属用户/任务/会话、版本号、过期策略。这些支撑多租户环境下的安全控制和生命周期管理。
行为指标:调用频次、命中率、最近访问时间、与其他 MemCube 的关联强度。这些动态指标驱动调度器的优先级决策——就像操作系统用 LRU(最近最少使用)算法管理页面缓存一样,MemScheduler 可以根据这些指标决定哪些记忆保持“热加载”、哪些应该归档、哪些需要淘汰。
这个设计让记忆变成了可组合、可迁移、可追溯的"乐高积木"。你可以把一组 MemCube 打包成"记忆档案"分享给别人,可以对记忆设置过期时间,可以对敏感记忆设置访问权限——这些在之前的 RAG 系统中是完全做不到的。MemCube 还支持组合操作:多个 MemCube 可以被融合(fusion)为一个更高阶的记忆单元,也可以在不同记忆类型之间迁移——比如将一组频繁使用的明文 MemCube 转化为激活记忆的 MemCube。
系统架构:记忆的“全生命周期管理”
MemOS 的架构围绕记忆的完整生命周期构建,核心组件各司其职:
MemReader:负责从各种来源读取和解析记忆,将非结构化信息转化为标准化的 MemCube。
MemScheduler:记忆调度的中枢,根据当前任务上下文、MemCube 的行为指标和治理策略,决定激活哪些记忆、以何种优先级加载、如何分配计算资源。
MemLifecycle:管理记忆从“生成→激活→融合→归档→过期”的完整状态机,每一次状态转换都被记录在审计日志中。
MemOperator:执行具体的记忆操作——切片、合并、类型转换、跨模态融合等。
MemVault:版本化持久存储,支持记忆的快照、回滚和增量更新。
MemStore:类似包管理器,支持将记忆打包为可分享的“记忆包”,在不同实例间分发。
MemGovernance:权限控制和安全审计,确保多用户、多任务环境下的记忆隔离和合规性。
Memory API:统一的访问接口,屏蔽底层记忆类型的差异,让上层应用以一致的方式操作所有记忆。
这套架构的精妙之处在于“关注点分离”:每个组件只负责一件事,但通过标准化接口协同工作,形成了一个完整的记忆治理体系。
三大核心能力
可控性:记忆有了“门禁系统”
MemOS 为记忆的全生命周期提供了管控能力——从创建、激活、融合到归档和销毁。它实现了多级权限控制和上下文感知的激活策略。
举个例子:在一个多租户的企业 AI 系统中,用户 A 的偏好记忆不会泄露给用户 B;某个项目的任务记忆在项目结束后可以自动归档;医疗 AI 中的患者隐私信息被严格限定在授权范围内。每一次记忆的读写都有审计日志,就像银行系统的每笔交易都有记录一样。
更具体地说,MemOS 的治理机制支持按用户、角色、会话、任务等多个维度设定访问策略。记忆的每一次状态转换(创建、读取、修改、删除、迁移)都会触发审计事件,形成完整的操作链路追踪。这在合规性要求严格的场景(如金融、医疗、政务)中是刚需。
可塑性:记忆能跨任务“变形”
传统系统里,记忆是“一次写入、原样读出”的死数据。MemOS 中的记忆是活的——它支持切片、标签、层级映射和上下文绑定。
想象一个 AI 写作助手:当用户切换到“学术论文模式”时,系统激活学术写作相关的记忆视图;切换到“营销文案模式”时,另一组记忆被加载进来。模型不需要重新训练,只需要在不同任务间动态切换记忆组合,就能实现快速的“认知切换”。
从技术实现上看,MemOS 通过“记忆视图”机制实现了这种灵活性。每个任务或角色可以定义自己的记忆视图——一个逻辑上的记忆子集和访问规则。同一份底层 MemCube 可以出现在不同视图中,以不同的优先级和呈现方式被使用。这类似于数据库中“视图”的概念,但应用于语义记忆的调度。
可演化性:记忆会“成长”
这是 MemOS 最激动人心的特性。三种记忆类型之间不是静态隔离的,而是可以动态转化。论文将其概括为两条主要路径:
激活路径(Activation Pathways)——从高密度表示走向低密度表示:
参数解码:模型权重中的知识在推理时被激活为隐藏状态和 KV-cache。
缓存/解码:激活记忆进一步被解码为可读的明文输出。
固化路径(Consolidation Pathways)——从低密度表示走向高密度表示:
编码:明文知识通过模型的编码过程转化为激活状态(如 KV 对)。
潜在激活:从明文或激活记忆中提取的模式被压缩为 steering vector 等紧凑表示。
微调:反复验证有效的知识模式通过 LoRA 等方法被写入参数。
具体来说:
明文→激活:你反复告诉 AI “我喜欢简洁的回答”,这个偏好最初是一条明文记录。经过多次使用,系统可以将其编码为一个 steering vector(引导向量),直接注入推理过程,响应更快、效果更稳定。
激活→参数:如果某个激活路径被反复验证是有效的,它可以通过轻量级微调被写入模型参数,变成模型的“内功”。
参数→明文:当参数中的某些知识过时了,系统可以将其“退回”到明文层,用更新的外部信息替代。
这构成了一条完整的知识演化链路:从外部感知到内化吸收,再到必要时的"遗忘与刷新"——和人类的记忆机制惊人地相似。人类的海马体负责短期记忆的编码和整合,新皮层负责长期记忆的固化存储——MemOS 的三层记忆转化机制,实际上是这种神经科学原理的工程化实现。
与现有方案的对比:不是改进,是换赛道
理解 MemOS 的定位,有必要将它与现有方案做一个系统性对比。
vs. 传统 RAG:RAG 本质上是“无状态的即时检索+拼接”,缺乏生命周期管理、版本控制和权限机制。它是一个“管道”而非“系统”。MemOS 将 RAG 的检索能力纳入明文记忆管理的一部分,但在此基础上增加了调度、演化和治理。
vs. Memory3:Memory3 是 MemOS 的重要理论基础。它首次提出在参数记忆和外部检索之间引入显式记忆层(将外部知识编码为稀疏 KV 对注入自注意力层),并从内存层级的角度分析了训练和推理成本。MemOS 将这一思想从单点创新扩展为系统级设计——不仅有记忆的表示,还有完整的调度、生命周期和治理机制。
vs. Mem0/Zep/Memobase 等工具:这些属于论文所说的“阶段三:工具化记忆管理”。它们提供了基本的 CRUD 接口,但缺乏记忆演化、类型转换和系统级治理。打个比方,它们是“文件管理器”,而 MemOS 是“操作系统”。
vs. Letta(MemGPT):Letta 借鉴了 OS 中的分页机制来管理上下文,是系统化思维的早期尝试。但它主要关注上下文窗口的管理,并未触及多种记忆类型的统一调度和跨类型演化。
论文的实验结果也验证了这种架构优势:MemOS(MemOS-1031 版本)在 PreFEval(个性化响应率)、PersonaMem(精确率)、LongMemEval(长期记忆综合评分)和 LoCoMo(对话记忆)四个基准上全部排名第一,显著超越了上述所有基线系统。
从"后训练"到"记忆训练":下一个 Scaling Law?
论文中提出了一个颇具前瞻性的概念:Mem-training(记忆训练)范式。
回顾大模型的发展轨迹:预训练阶段靠堆数据和参数(GPT-3/GPT-4),后训练阶段靠 RLHF 和指令微调(GPT-o1/DeepSeek-R1),但两者都面临收益递减的瓶颈。论文认为,下一代 scaling law 的突破点在于记忆——模型不再仅仅通过大规模训练来获取能力,而是通过持续的记忆积累、结构重组和跨实例共享来实现进化。
这个洞察背后有一个深刻的逻辑:传统训练的本质是把知识压缩进参数,但参数空间是有限的、更新是昂贵的。如果把一部分知识外化为可管理的记忆单元,就相当于为模型开辟了一个弹性可扩展的“外部知识空间”——这个空间的容量不受参数量限制,更新成本也远低于重新训练。
设想这样一个场景:数千个部署在不同场景中的模型实例,各自积累本地经验并压缩为 MemCube,然后通过记忆交换协议共享——不需要传递庞大的梯度或参数,只需要交换轻量的记忆单元。这实际上把"训练"从一个集中式的高成本事件,变成了一个分布式的、持续进行的知识生长过程。论文将其称为"记忆并行"(memory-parallel),认为它可以将数据并行扩展到社会级别的分布式智能生态。
当然,这也带来了两个核心技术挑战:一是在高度异构环境中实现高效的知识交换,二是在最大化共享效用的同时严格保护隐私和敏感数据——而这正是 MemOS 的治理机制要解决的问题。
实际应用场景
医疗 AI 助手:患者的诊疗历史、用药记录作为明文记忆持久保存于 MemVault 中,带有严格的权限标签;医生的诊断模式(如"优先考虑保守治疗")被抽象为 steering vector 形式的激活记忆,在推理时自动注入;疾病-机理推理能力作为参数记忆深度内化。三层记忆协同,让 AI 既有通用医学能力,又能记住每位患者的具体情况。当患者转诊时,MemCube 可以在授权范围内迁移到新的 AI 系统中,避免信息断裂。
企业知识管理:新员工入职后,企业知识库自动以 MemCube 形式加载;当制度更新时,旧版本 MemCube 被标记为"已归档"、新版本被激活,所有引用自动更新——不会出现"新旧制度并存"的混乱。MemLifecycle 管理每份制度文件的版本链,MemGovernance 确保只有授权角色才能修改核心制度记忆。
个人 AI 伴侣:你的写作风格、工作习惯、沟通偏好被封装为可迁移的 MemCube。换一个 AI 平台时,只需"导入记忆档案",新系统立刻了解你——真正实现"记忆跟着人走,而不是锁在平台里"。随着使用时间的增长,高频偏好会自动从明文记忆固化为激活记忆甚至参数记忆,响应越来越快、越来越精准。
学术价值与研究意义
从学术角度看,MemOS 的贡献不止于工程实现,更在于它提出了一个新的研究框架:
第一,它将记忆从“模型的附属功能”提升为“系统级的一等资源”,为后续研究提供了清晰的抽象层级和术语体系。第二,三种记忆类型的统一建模和转化路径,为理解 LLM 中知识的表示、存储和演化提供了新的视角。第三,“记忆训练”范式的提出,为突破传统 scaling law 瓶颈指出了一条可能的路径——这或许是比任何具体技术细节都更深远的贡献。
论文还系统梳理了 LLM 记忆研究的四阶段演进——从定义探索、类人记忆开发、工具化管理到系统化治理——这本身就是一份有价值的领域综述。
写在最后
MemOS 论文描绘的不仅是一个技术方案,更是一种范式转换:AI 系统正在从“无状态的工具”进化为“有记忆的智能体”。
如果说过去十年的 AI 进步主要靠“感知”和“生成”能力的提升,那么下一个十年的竞争焦点很可能在于“记忆”和“演化”。谁能让模型真正记住、真正成长、真正跨越时间和空间积累经验,谁就掌握了通往 AGI 的关键钥匙。
正如传统操作系统通过统一管理计算和存储资源奠定了现代计算的基础,MemOS 试图通过将记忆提升为核心系统资源,为下一代通用智能体和具身智能体构建不可或缺的基础设施。这标志着大模型发展的一个关键转折点:从“感知与生成”迈向“记忆与演化”。
MemOS 已经开源(GitHub: MemTensor/MemOS),感兴趣的开发者不妨一探究竟。毕竟,给大模型装上一个真正的记忆操作系统——这件事,迟早要发生。
夜雨聆风