AI记忆体:为什么每家公司都在做,但没有人真正做出来了Mem0拿了$24M,Letta拿了$10M,但大厂已在内置这层功能,壁垒正在塌Cameron Wolfe:PPO是上一代算法,REINFORCE/RLOO同等效果、成本大幅下降用户数据微调进模型权重,"被遗忘权"几乎无法执行——这比技术难度更先成为瓶颈BVP 2026最新判断:持续学习是五大基础设施前沿之一但真正的机会不在通用记忆层,在有客观反馈信号的垂类护城河不是"谁的AI记忆更好",是"谁能为模型构建最好的反馈环境"心理学家有一个反直觉的发现:读了一本书但从不使用书里的知识,一周内你会忘掉95%。不是因为你记性差,是因为你只做了"消费",没有做"检索"——大脑根本没有把这些信息真正编码进记忆。AI世界里,同样的事正在大规模发生。所有人都说自己的AI"记住了你",但几乎没有人告诉你——它到底是在存,还是在学。这两件事的差距,比想象中大得多。我把记忆的方案分阶段做了汇总,记忆的方案经历了从Prompt-Rag-RL-TTT等多个阶段,以下是一个简单的概览,希望大家多多指正,共同探讨。市面上90%的AI"记忆"功能,本质是同一套逻辑:把你说过的话提炼成文字,存进向量数据库,下次对话时检索出来塞进Prompt。从用户感知上,AI"记住了你"。从技术层面,模型权重分毫未动。Mem0——YC孵化,2025年10月完成Series A,Basis Set Ventures领投,Peak XV、GitHub Fund参投,总融资$24M,投资人包括HubSpot创始人Dharmesh Shah。Letta(MemGPT商业化主体)——UC Berkeley BAIR Lab直系血脉,2024年9月$10M种子轮,Felicis领投,Google Jeff Dean、HuggingFace创始人等天使入场。大厂更不用说,OpenAI Memory 2025年6月扩展到免费用户,Anthropic企业版同年9月上线自动记忆+Incognito模式,Gemini Advanced 2024年底推出个人记忆。但Dwarkesh Patel在2025年6月说了一句让很多人不舒服的话:"LLMs不会像人类一样随着时间变好。持续学习的缺失是一个巨大、巨大的问题。你被困在开箱即用的能力里了。"RAG型记忆有三个根本缺陷,不是工程问题,是设计问题:① 非实时 批量周期性更新,不是连续写入。你今天告诉AI你换工作了,它可能明天才"知道"。② 时序丢失 向量数据库里的记录是扁平的,AI不知道一条信息是今天的还是三个月前的状态。③ 语言覆盖不全 大量人格特质和行为偏好根本无法被语言精准描述。你的决策风格、压力下的反应模式——用文字存进数据库,信息损耗极大。壁垒有多低?Mem0的$24M验证了方向,但没有$100M+大轮。不是没人看好,是投资人清楚:大厂一旦把这个做成标配功能,独立公司的护城河就消失了。Online RL:最接近真正学习,门槛比你想的低真正的持续学习,是让模型权重本身更新。Online RL的逻辑:用强化学习对模型做周期性微调,模型在真实交互中获得反馈,真正"学会"新东西。ChatGPT和Gemini的内部机制(业内知情人描述,非官方确认):每20分钟收集交互数据 → GRPO打分训练 → 生成权重差分(weight diff) → 实时同步到在线服务,全程不停服。过去大家默认这条路只有大厂能走,因为PPO(Proximal Policy Optimization)这个RL算法太重了——需要同时维持4份LLM副本,训练不稳定,超参数极难调。但Cameron Wolfe在2026年1月的文章里给出了一个修正:"PPO的复杂性是为从零训练设计的。对已有强先验知识的LLM,用更简单的REINFORCE或RLOO就能达到同等效果,成本和复杂度大幅下降。"换句话说:Online RL的算法门槛已经显著下移,中型团队可以实施。但真正的门槛没有消失,只是换了一个地方:反馈信号质量。代码生成(编译pass/fail是硬指标)> 数学推理 > 高频搜索/广告 > 情感陪伴(信号主观模糊,几乎没用)。没有客观反馈信号,Online RL就是在噪声上训练。这是结构性问题,不是工程问题。TTT:2026-2027年的技术窗口,现在没人商业化2025年12月29日,Stanford + NVIDIA + UC Berkeley + UC San Diego联合发布TTT-E2E论文,给出了一个完全不同的思路。Test-Time Training(TTT)不是对大模型做训练,而是用一个小型神经网络作为"快速权重"(fast weight),在推理时对这个小网络做实时梯度更新。核心数据:128K context:速度2.7倍(vs 全attention transformer,NVIDIA H100)更重要的是论文的视角转换:把长上下文建模重新定义为"持续学习问题",而非"架构设计问题"。这意味着未来的模型可以在推理时学习,而不是等待下一轮全量训练。目前TTT仍在学术阶段,没有专注这个方向的初创公司获得融资。2026-2027年是技术窗口期,2027-2028年才可能看到商业化落地。OpenAI提供"Temporary Chat"(无记忆),Anthropic企业版有"Incognito模式"(零数据保留)。这不只是产品功能,是预判监管压力的主动防御。欧盟GDPR里有一项"被遗忘权"(Right to be Forgotten):用户有权要求企业删除其个人数据。问题在于:如果用用户数据微调了模型权重,这个人的信息已经被永久编码进了神经网络参数。你怎么"删除"?没有人知道答案。这比技术难度更先成为瓶颈。任何认真做持续学习的公司,早晚要正面回答这个问题。目前没有人有答案,也没有判例。这是这个方向最大的隐性障碍——不是"做不做得到",是"做了之后能不能合规"。BVP(Bessemer Venture Partners)2026年4月3日发布最新AI基础设施路线图,把"持续学习"列为五大前沿之一,原话:"随着模型商品化,差异化转移到记忆和上下文层。基础设施的下一波机会在于:将AI扎根于真实世界经验和持续学习。"但比BVP的框架更有穿透力的,是Wing VC合伙人Tanay Jaipuria的"经验时代"判断。Tanay认为我们已经从"人类数据时代"进入"经验时代"——模型不再从静态文本里学,而是从在环境中行动、观察结果、获得反馈中学。DeepMind Silver和Sutton的《Era of Experience》论文把这个趋势定义得更清楚:"下一代Agent将从交互流中学习,在真实动作空间中采取行动,从后果中获得实地奖励,并越来越多地以经验的货币来规划。"OpenAI研究员Dan Roberts的说法更直白:o1加了一些RL计算量,o3多了一点。"未来某个时候,RL计算量会完全主导和碾压一切。"Mercor CEO Brendan Foody补了最关键的一句:RL已经如此有效,模型将能达到任何eval的上限。真正的壁垒变成了——为所有事情构建评估环境。不是模型能力,是反馈环境质量。① 垂类深度(现在就能做) 选一个有天然客观反馈的行业,在大厂通用化之前积累数据飞轮。法律AI Legora 18个月到$100M ARR——判决/审查结果是天然的客观反馈。Cursor做代码——编译pass/fail是最干净的信号。Wonderful做企业客服$134M——问题是否解决是可量化的指标。这些公司的共同点不是"AI记性好",是在有客观反馈的场景里先跑起来了飞轮。② TTT基础设施(2027-2028年窗口) TTT-E2E论文成果一旦被工程化,可能产生"低成本持续学习即服务"的机会,让中小公司也能做权重级个性化,而不需要大厂规模的算力。③ GDPR合规的持续学习(空白市场) 联邦学习 + 差分隐私,解决"学习但不留记录"的问题。监管压力是确定性的,解决方案目前几乎是空白。不太可能出大公司的路线:通用RAG记忆(大厂标配化只是时间问题)、通用Online RL(只有百亿估值以上的平台才有条件做)。回到人类学习的类比:真正记住的不是你读了多少,是你用了多少。AI也一样——"存"不等于"学",检索不等于进化。Tanay的框架说的是同一件事:经验时代里,模型的进化速度取决于它能在多好的环境里行动和获得反馈。谁能为模型构建最好的反馈环境,谁就赢了这场竞争。如果非要给一个判断:这波真正有护城河的公司,不会是"做AI记忆"的公司,而是在某个有客观反馈的垂类里,先把数据飞轮跑起来的那些。法律、医疗、代码、金融——这些场景的共同点是,对错有标准答案,学习信号足够清晰。大厂迟早会有通用记忆。但他们很难有每个垂类十年积累的专有反馈数据。这才是真正的护城河。① 90%的AI"记忆"是假学习——RAG只是在存,模型权重没有改变② Online RL算法门槛已下移,REINFORCE替代PPO,中型团队可实施④ TTT是2026-2027年技术窗口,目前无商业化公司⑤ GDPR与权重级记忆的冲突,是比技术难度更先到来的瓶颈⑥ BVP/Wing VC判断:持续学习是基础设施下一波,但机会在垂类而非通用层⑦ 护城河公式:有客观反馈的垂类 × 先跑起来的数据飞轮 × GDPR合规⑧ 大厂迟早有通用记忆,但他们很难有你的垂类专有反馈数据by 小海盐 | 2026-04
参考来源:Cameron Wolfe《Continual Learning with RL for LLMs》《REINFORCE: Easy Online RL for LLMs》| Tanay Jaipuria《RL and The Era of Experience》| BVP《AI Infrastructure Roadmap: Five Frontiers for 2026》| Stanford/NVIDIA《TTT-E2E》| Profound Ideas《How To Stop Forgetting 95% of What You Learn》