你的 AI 助手,还在每次对话都失忆吗?今日 AI 最前线深度拆解(2026.03.26)-夜雨聆风

你的 AI 助手,还在每次对话都失忆吗?今日 AI 最前线深度拆解(2026.03.26)

如果你的 AI 助手忘了你昨天说的话，忘了你的技术偏好，每次对话都要从头介绍自己——如果你的多模态 Agent 越调用工具、速度越慢，串行等待让延迟飙升——如果你想问 AI：”这段形式化证明对不对？”，但模型根本没有定理证明的能力——

今天这期，我们聊的正是这些问题。

今天 GitHub Trending 上最受关注的 AI 项目，有一个共同的方向：让 AI 真正”记住”东西，并且越用越好用。与此同时，arXiv 上两篇刷新 benchmark 的论文，一篇让多模态 Agent 的推理速度提升 3.35 倍，另一篇让 560B 参数的大模型在数学竞赛级定理证明上达到了 97% 的正确率。

我们一篇一篇来拆解。

一、Hermes-Agent：会自我进化的个人 AI 助手

解决了什么问题

你有没有这种体验：你告诉 ChatGPT “我的项目用 TypeScript，不要用 any“，它这次听了，下次对话又忘了。你给它讲了你们团队的代码规范，它每隔几周就需要重新喂一遍。

这就是现有 AI 助手的根本缺陷——它们是”失忆的聊天机器人”，没有跨会话记忆，没有学习能力，每次对话都是一张白纸。

Hermes-Agent 由 Nous Research 开发，GitHub 今日新增 850 Stars，总计 13,211 Stars，正在解决这个问题。它的目标是：让 AI 助手越用越懂你，而不是永远保持零状态。

技术/产品原理

理解 Hermes-Agent，最好的类比是：把它想象成一个拥有”日记本 + 工作手册 + 自学能力”的助手，而不是每天清空记忆的聊天机器人。

它有三个核心机制：

第一，闭环学习架构。每次你和它完成一次任务，它不是简单结束对话，而是自动把这次任务的经验提炼成一个”技能程序”，存入本地记忆库。下次遇到同类任务，它会先检索自己之前积累的技能。这个过程完全自动，不需要你手动告诉它”记住这个”。

第二，持久化记忆系统。它使用 SQLite FTS5 全文检索 + LLM 摘要压缩来存储跨会话记忆，同时通过 Honcho 用户建模框架构建你的”数字画像”——你的技术偏好、工作习惯、常用工具，都会逐渐沉淀下来，成为它回答问题的隐性背景。

第三，多平台消息网关。它支持 Telegram、Discord、Slack、WhatsApp 接入，你可以随时随地发一条消息给它，它知道这是你、知道你的上下文、知道你想要什么。

安装只需一行命令：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

支持 Linux、macOS、WSL2，安装后运行 hermes，首次配置选择 LLM 提供商（支持 OpenRouter 200+ 模型），然后就可以开始和它建立”长期关系”了。

适合谁用 / 不适合谁用

最适合：需要 AI 长期记住工作上下文的开发者、研究者，以及希望在 Telegram/Discord 等平台随时调用 AI 的人。它尤其适合那些已经厌倦了”每次对话都要重新介绍项目背景”的人。

不适合：只需要一次性问答、不在意会话连续性的场景；完全不懂命令行的非技术用户；对企业合规部署有严格要求的团队（目前无官方企业版）。

与 AutoGPT、LangChain 的核心区别在于：LangChain 是”乐高积木”，你来决定怎么搭；Hermes-Agent 是”会学习的机器人助手”，它自己进化。前者给你工具，后者给你成长。

项目地址：https://github.com/NousResearch/Hermes-Agent

二、Supermemory：给所有 AI 应用装上”海马体”

解决了什么问题

很多开发者给自己的 AI 应用做了 RAG（检索增强生成），以为这就是”记忆”了。但 RAG 只是”图书馆”——你去查什么，它就找什么文档给你，对所有用户返回一样的结果，不知道用户上次说了什么，不会主动更新旧信息，也不知道”这条信息已经过时了”。

真正的记忆系统，应该像大脑的海马体：自动提取重要事实、当有新信息和旧信息矛盾时主动更新、旧的不重要的信息自动遗忘、还要维护一个关于用户的”长期画像”。

Supermemory 就是在做这件事。今日新增 810 Stars，总计 19,194 Stars，它提供一套 API，让任何 AI 应用都能拥有这样的记忆引擎。

技术/产品原理

RAG 和 Supermemory 的区别，可以用一个场景来说明：你用一个 AI 编程助手，第一天告诉它”我们团队用函数式风格，避免类继承”，用了两个月后你改口说”新项目用 OOP，之前说的不适用了”。

RAG 的处理方式：两条信息都保存着，查询时两条都可能被检索出来，你不知道哪条是最新的，模型也不知道。

Supermemory 的处理方式：检测到矛盾，自动用新信息覆盖旧信息，标记变更时间，维护一个”当前有效”的用户画像。

这套机制在三个权威 benchmark 上都拿了第一名：LongMemEval 得分 81.6%、LoCoMo 第一、ConvoMem 第一。它还提供统一的混合检索——一次 API 调用同时返回用户画像和相关记忆片段，不需要你自己拼接。

开发者接入非常简单：

import Supermemory from "supermemory";const client = new Supermemory();// 存入记忆（支持多用户隔离）await client.add({  content: "用户偏好 TypeScript 和函数式编程",  containerTag: "user_alice_123",});// 检索用户画像 + 相关记忆const { profile, searchResults } = await client.profile({  containerTag: "user_alice_123",  q: "推荐适合的前端框架",});

它还支持通过 MCP 协议快速接入 Claude Desktop、Cursor 等工具，以及 Google Drive、GitHub 等数据连接器。

适合谁用 / 不适合谁用

最适合：构建需要”记住用户”的 AI 产品的开发者，特别是多用户场景（需要用户级别记忆隔离）；想给自己的 AI 应用增加跨会话记忆能力的团队；已经在用 RAG 但发现不够用的开发者。

不适合：只做静态知识库问答（直接用 RAG 反而更简单）；对数据完全自托管要求极严格的企业（核心是 SaaS 服务）；预算非常有限的个人项目。

和 Mem0、Zep 的区别在于：Mem0/Zep 做的是”更好的记忆存储”，Supermemory 做的是”更像人脑的记忆系统”——不只是存，还会主动整理、更新和遗忘。

项目地址：https://github.com/supermemoryai/supermemory

三、论文：SpecEyes——让多模态 Agent 加速 3.35 倍，还更准了

解决了什么问题

OpenAI o3、Gemini Agentic Vision 这类最新的多模态 AI，它们为什么那么强？很大程度上是因为它们可以迭代调用视觉工具：看一眼图片、想一想、再调用 OCR 工具、再想一想、再调用目标检测工具……这个循环可以持续好多轮，每一轮都让推理更准确。

但这个方式有一个严重问题：每一轮都是串行等待，工具链越长，延迟越高。如果同时有很多用户请求，系统的并发能力会被严重拖累——这是当前 Agentic AI 部署面临的最大瓶颈之一。

来自厦门大学 MAC-AutoML 组和罗切斯特大学的研究者，今天在 arXiv 上发表了 SpecEyes（2603.23483），提出了一套系统性的解决方案。

提出了什么方法 / 核心创新点

SpecEyes 的核心思想，可以用”聪明的猜测员”来理解。

你的公司有一个全能顾问（大模型），他的建议很准，但每次咨询都要花很长时间排队。SpecEyes 的解法是：雇一个轻量级的”预测员”，先快速猜一个答案，如果猜得有把握，就直接用这个答案，不用等全能顾问；如果猜得没把握，才去排队找全能顾问确认。

具体实现分三步：

推测规划器：一个轻量级的多模态模型，不调用任何工具，直接预测完整的工具调用链应该给出什么结果。如果它给出的答案置信度够高，就直接用，跳过昂贵的工具链。

认知门控机制：基于”答案可分离性”来量化置信度——简单说就是，如果这个问题有一个非常明显的唯一答案，那置信度就高；如果模型觉得可能是好几个答案，就低。这个机制不需要任何真实标签，完全自验证。

异构并行漏斗：让多个轻量级小模型并发跑，来掩盖大模型串行执行的延迟，最大化系统吞吐量。

实验结果：在 V* Bench、HR-Bench、POPE 三个标准测试集上，SpecEyes 实现了 1.1 至 3.35 倍的加速，同时精度最高还提升了 6.7%——精度不降反升是因为认知门控过滤了大模型”过度思考”产生的噪声。

对工程落地有何指导意义

这篇论文对工程师来说有两个直接的应用价值：

第一，如果你在维护一个有工具调用的 Agentic AI 系统，SpecEyes 的框架可以作为前置层接入，不需要重新训练大模型，就能获得显著的速度提升和成本降低（工具调用次数减少 = API 费用降低）。

第二，认知门控中”答案可分离性”这个概念，可以推广到任何 Tool-Calling 系统的”是否需要调用工具”判断逻辑，是一个值得借鉴的设计范式。

代码已在 GitHub 开源：https://github.com/MAC-AutoML/SpecEyes

论文链接：https://arxiv.org/abs/2603.23483

四、论文：LongCat-Flash-Prover——5600 亿参数模型挑战数学竞赛级定理证明

解决了什么问题

让 AI 写代码、回答问题，大家都见过了。但有一类任务，现有 AI 几乎没法做到：形式化数学证明——不是”给我解释一下勾股定理”，而是”用 Lean4 定理证明器，写出一段可以被机器严格验证的完整证明”。

这件事为什么难？因为它要求模型同时具备三种能力：把人类语言描述的数学问题翻译成形式化语言（自动形式化），规划证明思路（草图生成），以及执行完整的逐步证明（证明生成）。这三个能力都需要极深的逻辑推理，任何一步出错，证明器就会拒绝。

美团 LongCat 团队联合多个研究机构，发布了 LongCat-Flash-Prover（arXiv:2603.21065），一个 5600 亿参数的开源混合专家（MoE）模型，专门攻克这个问题。

提出了什么方法 / 核心创新点

这个模型最值得关注的不是参数量，而是它的训练方法。

HisPO 算法（分层重要性采样策略优化）：这是整篇论文最核心的技术贡献。普通的强化学习算法用在超大规模 MoE 模型上，在长序列任务中会非常不稳定——想象一下你让 560B 参数的模型反复尝试证明同一道数学题，梯度更新可能会让它”忘掉”已经学会的技能。HisPO 通过序列级和 Token 级的梯度掩码，专门解决了这个不稳定性问题。

定理一致性和合法性检测：强化学习中有一个众所周知的问题叫”奖励黑客”——模型可能通过找漏洞、走捷径来获得高分，而不是真正解决问题。在定理证明中，这意味着模型可能生成”看起来对但逻辑有缺陷”的证明。这篇论文引入了专门的一致性检测机制，从根本上杜绝了这类欺骗。

实验结果非常亮眼：在 MiniF2F-Test 上，每道题只用 72 次推理预算就达到了 97.1% 的通过率；在更难的 PutnamBench（普特南数学竞赛级别）上解决了 41.5% 的问题，显著超越已有开源模型。

对工程落地有何指导意义

这篇论文的工程意义主要在两个层面：

短期：如果你在构建需要形式化验证的系统（如代码自动验证、硬件设计验证、安全协议验证），LongCat-Flash-Prover 的方法提供了一套完整的可复现流水线，从数据生成到 RL 训练，都是开放的。

长期：HisPO 算法解决的”大型 MoE 模型在长序列交互任务上的训练不稳定性”，是一个通用问题——不只适用于定理证明，任何需要长程推理和工具交互的 Agent 训练都可以借鉴这个思路。

论文链接：https://arxiv.org/abs/2603.21065

本期新增项目全局解决方案映射表

项目名称	链接	解决的核心问题	适用场景
Hermes-Agent	https://github.com/NousResearch/Hermes-Agent	AI 助手跨会话失忆，无法积累用户偏好与技能	需要长期记忆的个人 AI 助手；Telegram/Discord AI 机器人；自托管可进化 Agent
Supermemory	https://github.com/supermemoryai/supermemory	RAG 无状态、无法追踪用户随时间变化的事实	多用户 AI 产品的记忆 API；替代或补充 RAG 的用户记忆层；MCP 接入 Cursor/Claude
SpecEyes（论文）	https://arxiv.org/abs/2603.23483	多模态 Agent 工具调用链串行延迟高，并发吞吐量低	Agentic MLLM 推理加速；减少视觉工具 API 调用成本；边缘端小模型+云端大模型混部
LongCat-Flash-Prover（论文）	https://arxiv.org/abs/2603.21065	LLM 无法完成 Lean4 形式化定理证明，推理深度不足	代码/协议形式化验证；数学推理 Agent；大型 MoE 模型长序列 RL 训练参考

每日 AI 最前线，深度解读不灌水。如有具体项目想深挖，欢迎留言。