AI 终于能＂记住＂了?

YC CEO Garry Tan 的 GBrain，能解决困扰 AI 十年的「金鱼记忆」吗？

上个月，Y Combinator CEO Garry Tan 在 SXSW 峰会上说了句大实话：

"我现在每晚只睡 4 个小时。不是因为失眠，是因为 AI Agents 太有意思了，根本停不下来。""我把这叫做'赛博精神病'（Cyber Psychosis），但我认识的 CEO 里，三分之一都有这毛病。"

这话听着有点凡尔赛，但细想又有点心酸——这位掌管全球最大创业孵化器的男人，40 岁了还要靠吃抗嗜睡药物来跟 AI "搏斗"。

不过就在上周，他把藏在口袋里的"秘密武器"掏了出来：GBrain——一个开源的个人知识系统，据说是他 13 年积累的"第二大脑"。

GitHub 上线 5 天，5000+ Star。

有意思的是，这已经不是他第一次"放炮"了。一个月前的 GStack（基于 Claude Code 的提示词合集），一周狂揽 69,000 颗星，同样炸翻整个社区。

批评者说那玩意儿"就是一堆 Markdown 文件加提示词"。

这次呢？GBrain 真的不一样吗？

AI 的「金鱼记忆」，困住了多少人

先说个痛点。

你用 ChatGPT 问过这个问题吗？

"我上周跟张总聊了什么来着？"

答案是：它不知道。

每次新建对话，AI 就跟喝了孟婆汤似的，你俩之前的灵魂交流全部归零。哪怕你昨天刚让它帮你写了 50 页方案，今天它依然不认识你。

这不是 Bug，是 LLM 的"生理缺陷"——无状态（Stateless）。

本质原因是：大模型本质上是个超级强的"函数"。你给它输入，它给你输出，中间不留痕迹。每次对话都是全新的开始。

这个缺陷在简单问答场景下无关痛痒。但如果你是：

✓每天见 10 位创始人的投资人

✓需要记住 3000 个客户偏好的销售

✓要追踪 200 个项目进度的管理者

金鱼记忆，就是噩梦。

YC 的合伙人们每天要处理海量信息。Garry Tan 透露，到他决定开源 GBrain 时，他的个人知识库已经有：

14,700+

Markdown 文件

3,000+

人物档案

13年

数据积累

当数据量突破 3000 人时，grep 搜索已经彻底失效——你根本找不动了。

这就是 GBrain 诞生的直接原因。

GBrain 的核心：让 AI 学会「读-写-循环」

GBrain 的设计哲学，用 Garry Tan 自己话说就一句：

"让 Agent 经历读取—对话—写入的闭环。"

展开来说，就是这套流程：

GBrain 核心：读取—对话—写入循环

每走一圈，Agent 就比上一圈更懂你。

举个例子。

周二下午，你和某位创业者开了一场产品评审会。会议录音自动转录后流入 GBrain，Agent 会做这几件事：

1实体识别：认出所有人名和公司名

2查重：去知识库搜这些名字，看是否见过

3有记录：把新会议要点追加到"老朋友"的时间线里

4新面孔：创建新档案页，联网搜索 LinkedIn、Twitter 填充背景

两周后，你再次见到这位创始人时，不需要翻邮件、不需要查日历、不需要靠大脑回忆——Agent 已经把完整上下文打包好了。

你只需要问："Jordan 最近在忙什么？上次聊到哪儿了？"

答案，秒出。

三个硬核技术细节

3.1 "编译真相"架构：答案和证据分开放

GBrain 的每个知识页面都有一个固定结构：

【已整理事实】

"这家公司做 AI 编程工具，B 轮，估值 2 亿，创始人是连续创业者"

【时间线】

2024.03 - 第一次接触，种子轮2024.08 - 产品评审会，讨论 A 特性2025.01 - B 轮融资，更关注合规

"已整理事实"是答案，"时间线"是证据。

新证据来了，Agent 会重写上面的判断，但下面的时间线永远不动。

为什么？可追溯。你想知道自己"当初是怎么得出这个结论的"，翻到底部看证据链。

3.2 混合搜索：关键词 + 向量 + RRF 融合

纯关键词搜索有个问题：你搜"无视常规做法"，可能搜不到一篇标题叫"天才的公交车票理论"的文章——哪怕它核心内容恰好就是讲这件事。

纯向量搜索呢？在精确短语匹配上又容易翻车。

GBrain 的解决方案是三路并行：

向量搜索（语义理解）

关键词搜索（精确匹配）

RRF 融合（合并排名）

再配合多查询扩展：一个问题，Claude Haiku 会自动改写成多种表达方式，覆盖你想不到的说法。

官方说 7500 页规模的知识库，总存储约 750MB，其中嵌入向量 134MB。初始嵌入成本大约 4-5 美元（用 OpenAI text-embedding-3-large）。

3.3 "梦境循环"：睡觉时也在进化

这是 GBrain 最浪漫的设计：

"Agent 在我睡觉的时候运行。梦境循环会扫描当天每一段对话，充实缺失的实体信息，修复损坏的引用，合并冗余记忆。我早上醒来，大脑已经比我睡着前更聪明了。"

— Garry Tan

你睡美容觉，AI 替你做知识整理工。

当然，"梦境循环"本质上是定时任务。Tan 用的 OpenClaw 框架通过一个 DREAMS.md 文件定义这个逻辑。其他框架（如 Hermes Agent）可以通过 cron job 实现类似效果。

技术选型：务实到骨子里

GBrain 的技术栈选得很有意思：

数据库：PGLite（WebAssembly 运行的嵌入式 Postgres 17.5）

本地初始化：2 秒，无需 Docker，无需云服务账号

向量支持：pgvector

扩展性：一条命令 gbrain migrate --to supabase 迁到云端

"2 秒启动"这个数字很关键。

很多个人知识管理工具之所以失败，不是因为功能不够，而是门槛太高——你要装数据库、配环境、搞 API Key，用户还没开始用就放弃了。

GBrain 的思路是：本地优先，先跑起来再说。

等你的知识库超过 1000 个文件，再考虑迁移到 Supabase（Pro 版 25 美元/月，8GB）。

争议：当"核心功能"只是提示词

然而，GBrain 一上线就被泼了冷水。

DEV Community 上 Penfield Labs 的分析文章，在仓库上线 6 天后就对代码进行了"解剖"，结论相当犀利：

README 里宣传的三个核心功能——编译真相重写、梦境循环维护、消息级实体检测——在代码库中均无对应的程序逻辑实现。

换句话说：

• 这些"功能"实际上是写在 Markdown 文档里的 Agent 指令

• 执行靠 LLM 自行解读，而非确定性代码

• 你是"告知"Agent 该怎么做，而不是"命令"代码执行

此外，GitHub Issue #22 记录了 12 个关键 Bug，包括竞态条件、NULL 嵌入覆盖等。安全审计甚至标注 S3 后端"未达到生产就绪"状态。

这触及了一个根本问题：

当一个系统的核心功能是通过自然语言指令让 LLM 代为执行，而非通过确定性代码实现时，它究竟算"软件产品"，还是"精心编排的提示词工程"？

换个角度思考

但如果从另一个方向看，这件事或许没那么糟糕。

AI 的能力正在快速跃升。

十年前，"用自然语言写代码"听起来是天方夜谭。现在，Claude 已经能写出可编译、可运行的代码。

同理，"用自然语言定义 Agent 行为"，现在看起来像是"钻空子"。但五年后，当模型能力再上一个台阶，这套"意图即代码"的模式，可能反而是最优雅的方案。

Garry Tan 在 SKILLPACK 文档里引用了 Vannevar Bush 1945 年的经典设想——Memex：一台能存储个人所有记录并建立关联检索的设备。

Bush 说："关联索引是人类思维的本质。"

但 Bush 的 Memex 是被动的，需要用户手动建立关联。而 GBrain 的野心是：让 Agent 自动检测实体、自动创建交叉引用、自动维护知识。

"你不需要去建造 Memex。Memex 自己会建造自己。"

这句话，比代码本身更让人兴奋。

最后说一句

GBrain 不是完美的产品。

Bug 是真的，争议是真的，"核心功能靠提示词"也是真的。

但它的价值，可能不在于"现在就解决 AI 记忆问题"，而在于它指出了一个方向：

未来的 AI Agent，不应该是每次都从零开始的"失忆症患者"，而应该是越用越懂你、越用越聪明的成长型助手。

YC 的使命是"让创新更容易"。Garry Tan 正在用 GBrain 做一次有趣的实验——不是用代码解决问题，而是用思路启发整个社区。

至于这个实验最终会走向何方？也许答案，就藏在你自己的"第二大脑"里。