AI记忆体:为什么每家公司都在做,但没有人真正做出来了

本文精华

90%的AI"记忆"是假学习——检索不是学习

Mem0拿了$24M，Letta拿了$10M，但大厂已在内置这层功能，壁垒正在塌

Online RL的门槛比你想的更低了

Cameron Wolfe：PPO是上一代算法，REINFORCE/RLOO同等效果、成本大幅下降

最大的隐形炸弹：GDPR与权重级记忆的冲突

用户数据微调进模型权重，"被遗忘权"几乎无法执行——这比技术难度更先成为瓶颈

BVP 2026最新判断：持续学习是五大基础设施前沿之一

但真正的机会不在通用记忆层，在有客观反馈信号的垂类

Tanay（Wing VC）：我们进入了经验时代

护城河不是"谁的AI记忆更好"，是"谁能为模型构建最好的反馈环境"

心理学家有一个反直觉的发现：读了一本书但从不使用书里的知识，一周内你会忘掉95%。不是因为你记性差，是因为你只做了"消费"，没有做"检索"——大脑根本没有把这些信息真正编码进记忆。

AI世界里，同样的事正在大规模发生。所有人都说自己的AI"记住了你"，但几乎没有人告诉你——它到底是在存，还是在学。这两件事的差距，比想象中大得多。我把记忆的方案分阶段做了汇总，记忆的方案经历了从Prompt-Rag-RL-TTT等多个阶段，以下是一个简单的概览，希望大家多多指正，共同探讨。

你以为AI在学你，其实它只是在记笔记

市面上90%的AI"记忆"功能，本质是同一套逻辑：把你说过的话提炼成文字，存进向量数据库，下次对话时检索出来塞进Prompt。从用户感知上，AI"记住了你"。从技术层面，模型权重分毫未动。

这个赛道不缺钱。

Mem0——YC孵化，2025年10月完成Series A，Basis Set Ventures领投，Peak XV、GitHub Fund参投，总融资$24M，投资人包括HubSpot创始人Dharmesh Shah。

Letta（MemGPT商业化主体）——UC Berkeley BAIR Lab直系血脉，2024年9月$10M种子轮，Felicis领投，Google Jeff Dean、HuggingFace创始人等天使入场。

大厂更不用说，OpenAI Memory 2025年6月扩展到免费用户，Anthropic企业版同年9月上线自动记忆+Incognito模式，Gemini Advanced 2024年底推出个人记忆。

但Dwarkesh Patel在2025年6月说了一句让很多人不舒服的话：

"LLMs不会像人类一样随着时间变好。持续学习的缺失是一个巨大、巨大的问题。你被困在开箱即用的能力里了。"

RAG型记忆有三个根本缺陷，不是工程问题，是设计问题：

① 非实时批量周期性更新，不是连续写入。你今天告诉AI你换工作了，它可能明天才"知道"。

② 时序丢失向量数据库里的记录是扁平的，AI不知道一条信息是今天的还是三个月前的状态。

③ 语言覆盖不全大量人格特质和行为偏好根本无法被语言精准描述。你的决策风格、压力下的反应模式——用文字存进数据库，信息损耗极大。

壁垒有多低？Mem0的$24M验证了方向，但没有$100M+大轮。不是没人看好，是投资人清楚：大厂一旦把这个做成标配功能，独立公司的护城河就消失了。

Online RL：最接近真正学习，门槛比你想的低

真正的持续学习，是让模型权重本身更新。Online RL的逻辑：用强化学习对模型做周期性微调，模型在真实交互中获得反馈，真正"学会"新东西。

ChatGPT和Gemini的内部机制（业内知情人描述，非官方确认）：每20分钟收集交互数据 → GRPO打分训练 → 生成权重差分（weight diff） → 实时同步到在线服务，全程不停服。

过去大家默认这条路只有大厂能走，因为PPO（Proximal Policy Optimization）这个RL算法太重了——需要同时维持4份LLM副本，训练不稳定，超参数极难调。

但Cameron Wolfe在2026年1月的文章里给出了一个修正：

"PPO的复杂性是为从零训练设计的。对已有强先验知识的LLM，用更简单的REINFORCE或RLOO就能达到同等效果，成本和复杂度大幅下降。"

换句话说：Online RL的算法门槛已经显著下移，中型团队可以实施。

但真正的门槛没有消失，只是换了一个地方：反馈信号质量。代码生成（编译pass/fail是硬指标）> 数学推理 > 高频搜索/广告 > 情感陪伴（信号主观模糊，几乎没用）。

没有客观反馈信号，Online RL就是在噪声上训练。这是结构性问题，不是工程问题。

TTT：2026-2027年的技术窗口，现在没人商业化

2025年12月29日，Stanford + NVIDIA + UC Berkeley + UC San Diego联合发布TTT-E2E论文，给出了一个完全不同的思路。

Test-Time Training（TTT）不是对大模型做训练，而是用一个小型神经网络作为"快速权重"（fast weight），在推理时对这个小网络做实时梯度更新。核心数据：

128K context：速度2.7倍（vs 全attention transformer，NVIDIA H100）

2M context：速度35倍，精度持平

更重要的是论文的视角转换：把长上下文建模重新定义为"持续学习问题"，而非"架构设计问题"。这意味着未来的模型可以在推理时学习，而不是等待下一轮全量训练。

目前TTT仍在学术阶段，没有专注这个方向的初创公司获得融资。2026-2027年是技术窗口期，2027-2028年才可能看到商业化落地。

没人提的隐形炸弹：GDPR与权重级记忆的冲突

OpenAI提供"Temporary Chat"（无记忆），Anthropic企业版有"Incognito模式"（零数据保留）。这不只是产品功能，是预判监管压力的主动防御。

欧盟GDPR里有一项"被遗忘权"（Right to be Forgotten）：用户有权要求企业删除其个人数据。

问题在于：如果用用户数据微调了模型权重，这个人的信息已经被永久编码进了神经网络参数。你怎么"删除"？没有人知道答案。

这比技术难度更先成为瓶颈。任何认真做持续学习的公司，早晚要正面回答这个问题。目前没有人有答案，也没有判例。

这是这个方向最大的隐性障碍——不是"做不做得到"，是"做了之后能不能合规"。

VC怎么看：从"记忆层"到"经验时代"

BVP（Bessemer Venture Partners）2026年4月3日发布最新AI基础设施路线图，把"持续学习"列为五大前沿之一，原话：

"随着模型商品化，差异化转移到记忆和上下文层。基础设施的下一波机会在于：将AI扎根于真实世界经验和持续学习。"

但比BVP的框架更有穿透力的，是Wing VC合伙人Tanay Jaipuria的"经验时代"判断。

Tanay认为我们已经从"人类数据时代"进入"经验时代"——模型不再从静态文本里学，而是从在环境中行动、观察结果、获得反馈中学。DeepMind Silver和Sutton的《Era of Experience》论文把这个趋势定义得更清楚：

"下一代Agent将从交互流中学习，在真实动作空间中采取行动，从后果中获得实地奖励，并越来越多地以经验的货币来规划。"

OpenAI研究员Dan Roberts的说法更直白：o1加了一些RL计算量，o3多了一点。"未来某个时候，RL计算量会完全主导和碾压一切。"

Mercor CEO Brendan Foody补了最关键的一句：RL已经如此有效，模型将能达到任何eval的上限。真正的壁垒变成了——为所有事情构建评估环境。不是模型能力，是反馈环境质量。

初创公司的真实机会在哪里

把以上框架拼在一起，答案其实相当清晰。

① 垂类深度（现在就能做）选一个有天然客观反馈的行业，在大厂通用化之前积累数据飞轮。法律AI Legora 18个月到$100M ARR——判决/审查结果是天然的客观反馈。Cursor做代码——编译pass/fail是最干净的信号。Wonderful做企业客服$134M——问题是否解决是可量化的指标。这些公司的共同点不是"AI记性好"，是在有客观反馈的场景里先跑起来了飞轮。

② TTT基础设施（2027-2028年窗口） TTT-E2E论文成果一旦被工程化，可能产生"低成本持续学习即服务"的机会，让中小公司也能做权重级个性化，而不需要大厂规模的算力。

③ GDPR合规的持续学习（空白市场）联邦学习 + 差分隐私，解决"学习但不留记录"的问题。监管压力是确定性的，解决方案目前几乎是空白。

不太可能出大公司的路线：通用RAG记忆（大厂标配化只是时间问题）、通用Online RL（只有百亿估值以上的平台才有条件做）。

护城河的本质：不是谁记得更多，是谁的反馈环境更好

回到人类学习的类比：真正记住的不是你读了多少，是你用了多少。AI也一样——"存"不等于"学"，检索不等于进化。

Tanay的框架说的是同一件事：经验时代里，模型的进化速度取决于它能在多好的环境里行动和获得反馈。谁能为模型构建最好的反馈环境，谁就赢了这场竞争。

如果非要给一个判断：这波真正有护城河的公司，不会是"做AI记忆"的公司，而是在某个有客观反馈的垂类里，先把数据飞轮跑起来的那些。法律、医疗、代码、金融——这些场景的共同点是，对错有标准答案，学习信号足够清晰。

大厂迟早会有通用记忆。但他们很难有每个垂类十年积累的专有反馈数据。这才是真正的护城河。

核心结论

① 90%的AI"记忆"是假学习——RAG只是在存，模型权重没有改变

② Online RL算法门槛已下移，REINFORCE替代PPO，中型团队可实施

③ 真正的门槛是反馈信号质量，不是算力

④ TTT是2026-2027年技术窗口，目前无商业化公司

⑤ GDPR与权重级记忆的冲突，是比技术难度更先到来的瓶颈

⑥ BVP/Wing VC判断：持续学习是基础设施下一波，但机会在垂类而非通用层

⑦ 护城河公式：有客观反馈的垂类 × 先跑起来的数据飞轮 × GDPR合规

⑧ 大厂迟早有通用记忆，但他们很难有你的垂类专有反馈数据

by 小海盐 | 2026-04
参考来源：Cameron Wolfe《Continual Learning with RL for LLMs》《REINFORCE: Easy Online RL for LLMs》| Tanay Jaipuria《RL and The Era of Experience》| BVP《AI Infrastructure Roadmap: Five Frontiers for 2026》| Stanford/NVIDIA《TTT-E2E》| Profound Ideas《How To Stop Forgetting 95% of What You Learn》