YC CEO Garry Tan 的 GBrain,能解决困扰 AI 十年的「金鱼记忆」吗?
上个月,Y Combinator CEO Garry Tan 在 SXSW 峰会上说了句大实话:
"我现在每晚只睡 4 个小时。不是因为失眠,是因为 AI Agents 太有意思了,根本停不下来。""我把这叫做'赛博精神病'(Cyber Psychosis),但我认识的 CEO 里,三分之一都有这毛病。"
这话听着有点凡尔赛,但细想又有点心酸——这位掌管全球最大创业孵化器的男人,40 岁了还要靠吃抗嗜睡药物来跟 AI "搏斗"。
不过就在上周,他把藏在口袋里的"秘密武器"掏了出来:GBrain——一个开源的个人知识系统,据说是他 13 年积累的"第二大脑"。
GitHub 上线 5 天,5000+ Star。
有意思的是,这已经不是他第一次"放炮"了。一个月前的 GStack(基于 Claude Code 的提示词合集),一周狂揽 69,000 颗星,同样炸翻整个社区。
批评者说那玩意儿"就是一堆 Markdown 文件加提示词"。
这次呢?GBrain 真的不一样吗?
01
AI 的「金鱼记忆」,困住了多少人
先说个痛点。
你用 ChatGPT 问过这个问题吗?
"我上周跟张总聊了什么来着?"
答案是:它不知道。
每次新建对话,AI 就跟喝了孟婆汤似的,你俩之前的灵魂交流全部归零。哪怕你昨天刚让它帮你写了 50 页方案,今天它依然不认识你。
这不是 Bug,是 LLM 的"生理缺陷"——无状态(Stateless)。
本质原因是:大模型本质上是个超级强的"函数"。你给它输入,它给你输出,中间不留痕迹。每次对话都是全新的开始。
这个缺陷在简单问答场景下无关痛痒。但如果你是:
✓每天见 10 位创始人的投资人
✓需要记住 3000 个客户偏好的销售
✓要追踪 200 个项目进度的管理者
金鱼记忆,就是噩梦。
YC 的合伙人们每天要处理海量信息。Garry Tan 透露,到他决定开源 GBrain 时,他的个人知识库已经有:
14,700+
Markdown 文件
3,000+
人物档案
13年
数据积累
当数据量突破 3000 人时,grep 搜索已经彻底失效——你根本找不动了。
这就是 GBrain 诞生的直接原因。
02
GBrain 的核心:让 AI 学会「读-写-循环」
GBrain 的设计哲学,用 Garry Tan 自己话说就一句:
"让 Agent 经历读取—对话—写入的闭环。"
展开来说,就是这套流程:


GBrain 核心:读取—对话—写入 循环
每走一圈,Agent 就比上一圈更懂你。
举个例子。
周二下午,你和某位创业者开了一场产品评审会。会议录音自动转录后流入 GBrain,Agent 会做这几件事:
1实体识别:认出所有人名和公司名
2查重:去知识库搜这些名字,看是否见过
3有记录:把新会议要点追加到"老朋友"的时间线里
4新面孔:创建新档案页,联网搜索 LinkedIn、Twitter 填充背景
两周后,你再次见到这位创始人时,不需要翻邮件、不需要查日历、不需要靠大脑回忆——Agent 已经把完整上下文打包好了。
你只需要问:"Jordan 最近在忙什么?上次聊到哪儿了?"
答案,秒出。
03
三个硬核技术细节
3.1 "编译真相"架构:答案和证据分开放
GBrain 的每个知识页面都有一个固定结构:
【已整理事实】
"这家公司做 AI 编程工具,B 轮,估值 2 亿,创始人是连续创业者"
【时间线】
2024.03 - 第一次接触,种子轮2024.08 - 产品评审会,讨论 A 特性2025.01 - B 轮融资,更关注合规
"已整理事实"是答案,"时间线"是证据。
新证据来了,Agent 会重写上面的判断,但下面的时间线永远不动。
为什么?可追溯。你想知道自己"当初是怎么得出这个结论的",翻到底部看证据链。
3.2 混合搜索:关键词 + 向量 + RRF 融合
纯关键词搜索有个问题:你搜"无视常规做法",可能搜不到一篇标题叫"天才的公交车票理论"的文章——哪怕它核心内容恰好就是讲这件事。
纯向量搜索呢?在精确短语匹配上又容易翻车。
GBrain 的解决方案是三路并行:
向量搜索(语义理解)
+
关键词搜索(精确匹配)
+
RRF 融合(合并排名)
再配合多查询扩展:一个问题,Claude Haiku 会自动改写成多种表达方式,覆盖你想不到的说法。
官方说 7500 页规模的知识库,总存储约 750MB,其中嵌入向量 134MB。初始嵌入成本大约 4-5 美元(用 OpenAI text-embedding-3-large)。
3.3 "梦境循环":睡觉时也在进化
这是 GBrain 最浪漫的设计:
"Agent 在我睡觉的时候运行。梦境循环会扫描当天每一段对话,充实缺失的实体信息,修复损坏的引用,合并冗余记忆。我早上醒来,大脑已经比我睡着前更聪明了。"
— Garry Tan
你睡美容觉,AI 替你做知识整理工。
当然,"梦境循环"本质上是定时任务。Tan 用的 OpenClaw 框架通过一个 DREAMS.md 文件定义这个逻辑。其他框架(如 Hermes Agent)可以通过 cron job 实现类似效果。
04
技术选型:务实到骨子里
GBrain 的技术栈选得很有意思:
数据库:PGLite(WebAssembly 运行的嵌入式 Postgres 17.5)
本地初始化:2 秒,无需 Docker,无需云服务账号
向量支持:pgvector
扩展性:一条命令 gbrain migrate --to supabase 迁到云端
"2 秒启动"这个数字很关键。
很多个人知识管理工具之所以失败,不是因为功能不够,而是门槛太高——你要装数据库、配环境、搞 API Key,用户还没开始用就放弃了。
GBrain 的思路是:本地优先,先跑起来再说。
等你的知识库超过 1000 个文件,再考虑迁移到 Supabase(Pro 版 25 美元/月,8GB)。
05
争议:当"核心功能"只是提示词
然而,GBrain 一上线就被泼了冷水。
DEV Community 上 Penfield Labs 的分析文章,在仓库上线 6 天后就对代码进行了"解剖",结论相当犀利:
README 里宣传的三个核心功能——编译真相重写、梦境循环维护、消息级实体检测——在代码库中均无对应的程序逻辑实现。
换句话说:
• 这些"功能"实际上是写在 Markdown 文档里的 Agent 指令
• 执行靠 LLM 自行解读,而非确定性代码
• 你是"告知"Agent 该怎么做,而不是"命令"代码执行
此外,GitHub Issue #22 记录了 12 个关键 Bug,包括竞态条件、NULL 嵌入覆盖等。安全审计甚至标注 S3 后端"未达到生产就绪"状态。
这触及了一个根本问题:
当一个系统的核心功能是通过自然语言指令让 LLM 代为执行,而非通过确定性代码实现时,它究竟算"软件产品",还是"精心编排的提示词工程"?
06
换个角度思考
但如果从另一个方向看,这件事或许没那么糟糕。
AI 的能力正在快速跃升。
十年前,"用自然语言写代码"听起来是天方夜谭。现在,Claude 已经能写出可编译、可运行的代码。
同理,"用自然语言定义 Agent 行为",现在看起来像是"钻空子"。但五年后,当模型能力再上一个台阶,这套"意图即代码"的模式,可能反而是最优雅的方案。
Garry Tan 在 SKILLPACK 文档里引用了 Vannevar Bush 1945 年的经典设想——Memex:一台能存储个人所有记录并建立关联检索的设备。
Bush 说:"关联索引是人类思维的本质。"
但 Bush 的 Memex 是被动的,需要用户手动建立关联。而 GBrain 的野心是:让 Agent 自动检测实体、自动创建交叉引用、自动维护知识。
"你不需要去建造 Memex。Memex 自己会建造自己。"
这句话,比代码本身更让人兴奋。
最后说一句
GBrain 不是完美的产品。
Bug 是真的,争议是真的,"核心功能靠提示词"也是真的。
但它的价值,可能不在于"现在就解决 AI 记忆问题",而在于它指出了一个方向:
未来的 AI Agent,不应该是每次都从零开始的"失忆症患者",而应该是越用越懂你、越用越聪明的成长型助手。
YC 的使命是"让创新更容易"。Garry Tan 正在用 GBrain 做一次有趣的实验——不是用代码解决问题,而是用思路启发整个社区。
至于这个实验最终会走向何方?也许答案,就藏在你自己的"第二大脑"里。
夜雨聆风