YC-CEO:让 AI Agent 真正工作的秘密

作者：Garry Tan

人们一直在问我，为什么我每天晚上还在编码到凌晨两点。

我有一份工作，而且是一份很大的工作——作为 Y Combinator 的 CEO。我们每年帮助成千上万的建设者（builders）去实现他们打造真正创业公司的梦想，这些公司拥有真实收入，并且高速增长。

过去 5 个月，AI 让我重新变成了一个 builder。去年年底，工具终于变得足够好了，于是我重新开始构建东西。

不是玩具项目。

而是真正会产生复利的系统。

我想通过具体的例子向你展示：当你不再把 AI 当成一个聊天窗口，而是开始把它当成一个操作系统时，个人 AI 实际上会是什么样子。

而我之所以把这些东西作为开源项目和像这样的文章公开出来，是因为我希望你能和我一起加速成长。

⸻

这是一个系列文章的一部分：

《Fat Skills, Fat Code, Thin Harness》介绍了核心架构。

《Resolvers》讲的是智能路由表。

《The LOC Controversy》讨论的是：每一个技术人员实际上都把自己放大了 100 倍到 1000 倍。

《Naked models are stupider》论证了：模型是引擎，而不是汽车。

《The skillify manifesto》解释了为什么 LangChain 融资了 1.6 亿美元，却只是给了你一套深蹲架和哑铃，而没有给你训练计划；然后又给了你真正需要的训练计划。

⸻

那本“会读懂我的书”

上个月，我在读 When Things Fall Apart。

这本书有 162 页，共 22 个章节，讲的是佛教对于痛苦、无根感（groundlessness）以及放下（letting go）的理解。

一个朋友在我经历困难时期时推荐了这本书。

我让我的 AI 做了一个“book mirror（书籍映射）”。

具体来说，这意味着：

系统提取了全书 22 个章节，然后针对每个章节，都运行了一个子 Agent，同时完成两件事情：

1. 总结作者的思想
2. 将每一个思想映射到我的真实人生中

不是那种泛泛的“这适用于领导者”的空话。

而是具体的映射。

它知道我的家庭历史（移民父母，父亲来自香港和新加坡，母亲来自缅甸）。

它知道我的职业背景（运营 YC、构建开源工具、辅导数千位创业者）。

它知道我最近读了什么、我凌晨两点在思考什么、我和治疗师正在处理什么问题。

最终输出的是一份 3 万字的 brain page（脑页）。

每个章节都以两栏形式呈现：

左边是 Pema 在说什么，

右边是它如何映射到我真正正在经历的人生。

关于“groundlessness（无根感）”的章节，关联到了我前一周和某位创业者的一次具体对话。

关于“恐惧”的章节，映射到了我治疗师指出的一些行为模式。

关于“放下”的章节，则引用了某次深夜中，我写下的关于今年重新获得创造自由的感悟。

整个过程大约花了 40 分钟。

一个时薪 300 美元的治疗师，即使读完这本书并尝试将它应用到我的人生中，也不可能在 40 小时内完成，因为他们没有完整加载并可交叉引用的：

* 我的职业背景图谱
* 我的阅读历史
* 我的会议记录
* 我的创业者关系网络

⸻

到目前为止，我已经对超过 20 本书做了这样的处理：

* 《Amplified》（Dion Lim）
* 《Autobiography of Bertrand Russell》
* 《Designing Your Life》
* 《Drama of the Gifted Child》
* 《Finite and Infinite Games》
* 《Gift from the Sea》
* 《Siddhartha》
* 《Steppenwolf》
* 《The Art of Doing Science and Engineering》
* 《The Dream Machine》
* 《The Book on the Taboo Against Knowing Who You Are》
* 《What Do You Care What Other People Think》
* 《When Things Fall Apart》
* 《A Brief History of Everything》
* 等等。

每一本都会变得更加丰富，因为“brain（脑）”本身也在变得更丰富。

第二次 mirror 会知道第一次的内容。

第二十次会知道前十九次的内容。

⸻

Book-Mirror 是如何通过迭代变强的

我第一次做的 book mirror 很糟糕。

V1 版本里，有三个关于我家庭的事实错误。

它说我父母离婚了，但实际上没有。

它说我在香港长大，但我其实出生在加拿大。

这些都是基础信息错误，如果我分享出去，会严重损害信任。

于是我加入了一个强制性的事实校验步骤。

现在，每一个 mirror 在输出之前，都会运行跨模态评估（cross-modal evaluation），对照 brain 中已知的事实进行验证。

* Opus 4.7 1M 负责捕捉精度错误
* GPT-5.5 负责发现缺失上下文
* DeepSeek V4-Pro 负责发现内容是否过于泛化

后来，我又升级成了基于 GBrain tool use 的深度检索（deep retrieval）。

原始版本很擅长综合总结，但缺乏具体性。

V3 会对每个章节执行 brain 搜索。

右栏中的每一条内容，都会引用真实的 brain 页面。

当书中谈到如何处理困难对话时，它不会只是综合一些通用原则。

它会调取：

* 我和某位创业者关于联合创始人矛盾的真实会议记录
* 我某个星期四和我弟弟 James 一起闲聊时产生的想法
* 我 19 岁时和大学室友的 IM 聊天记录

这种感觉非常不可思议（uncanny）。

⸻

Skillification 在现实中的含义

这就是“skillification”（在 GBrain 中使用 /skillify）在实际中的意义。

我把第一次手工完成的流程，提炼出了其中可重复的模式，然后写成了一个经过测试的 skill 文件，其中包含：

* 触发器（triggers）
* 边界情况（edge cases）

之后，所有未来的 book mirrors 都会共享这些修复和优化成果。

⸻

Skills 可以构建 Skills

接下来事情开始变得递归化了，而我认为这也是其中最大的洞察。

运行我整个生活系统的东西，并不是一个单体系统（monolith）。

它是由 Skills 组装出来的。

而这些 Skills 本身，又是由另一个 Skill 创建出来的。

⸻

Skillify 是一个用于创建新 Skill 的 meta-skill（元技能）。

当我遇到一个我会重复执行的工作流时，我只需要说一句：

“skillify this”

然后它会分析刚刚发生了什么，提取其中可重复的模式，编写一个经过测试的 skill 文件（包括 triggers 和 edge cases），并把它注册到 resolver 中。

Book-mirror pipeline 就是我第一次手工执行后被 skillify 的。

Meeting-prep workflow 也是在我发现自己每次通话前都在重复同样步骤之后，被 skillify 的。

⸻

Skills 可以组合

Skills 是可以组合的。

Book-mirror 会调用：

* brain-ops（用于存储）
* enrich（用于上下文增强）
* cross-modal-eval（用于质量验证）
* pdf-generation（用于输出 PDF）

每一个 skill 都只专注于一件事情。

它们通过链式调用，组合成复杂工作流。

当我改进其中一个 skill 时，所有使用它的工作流都会自动变得更好。

再也不会出现：

“我忘了在 prompt 里提到这个 edge case”

因为 skill 会记住。

⸻

那场“自己完成准备”的会议

Demis Hassabis 来 YC 做了一场炉边谈话（fireside chat）。

而 Sebastian Mallaby 关于他的传记刚刚出版。

我让系统帮我做准备。

不到两分钟，它就拉取出了：

* Demis 的完整 brain page（已经通过文章、播客转录以及我自己的笔记积累了数月）
* 他关于 AGI 时间线的公开观点（“50% scaling，50% innovation”，认为 AGI 距离现在还有 5-10 年）
* Mallaby 传记中的重点内容
* 他公开提出的研究重点（持续学习、世界模型、长期记忆）
* 与我公开谈论 AI 的内容之间的交叉引用
* 三个用于展示 brain 多跳推理能力的 demo 脚本
* 一组基于我们世界观相似与分歧点设计的对话 hook

这已经不只是更高级的 Google 搜索。

这是利用我积累下来的关于 Demis 的上下文、我自己的立场以及这场对话的战略目标所完成的准备。

系统准备的不只是事实。

还有角度。

⸻

10 万页 Brain 是什么样子

我维护着一个大约 10 万页的结构化知识库。

我遇到的每一个人，都会拥有一个页面，其中包括：

* 时间线
* 状态部分（当前真实情况）
* 未完成线程（open threads）
* 一个评分

每一场会议都会拥有：

* transcript（转录）
* 结构化摘要
* 我称之为 entity propagation（实体传播）的东西

也就是说：

每次会议结束后，系统都会遍历会议中提到的每个人和每家公司，并把讨论内容更新到他们各自的 brain 页面中。

每一本书都会生成章节级 mirror。

每一篇文章、播客、视频，都会被摄取（ingest）、打标签、交叉引用。

⸻

整个 schema 非常简单。

每个页面包含：

* 顶部是“compiled truth”（当前最佳理解）
* 下方是 append-only timeline（按时间追加的时间线）
* 旁边是用于存放原始资料的 raw data sidecars

你可以把它理解为：

一个由 AI 持续维护的个人 Wikipedia。

这个 AI：

* 参加过会议
* 读过邮件
* 看过演讲
* 摄取过 PDF

⸻

这里有一个复利的例子。

我在 office hours 里见到一个创业者。

系统会：

* 创建或更新他的 person page
* 创建或更新 company page
* 关联会议记录
* 检查我之前是否见过他（并调出上次聊过的内容）
* 检查他的申请数据
* 拉取最新指标
* 判断我的投资组合公司或联系人中，是否有人能帮助他解决问题

等到我下一次见到他时，系统已经准备好了完整的 context pack。

⸻

这就是：

“文件柜”和“神经系统”之间的区别。

文件柜只是存储信息。

神经系统会：

* 建立连接
* 标记变化
* 主动浮现当前相关的信息

⸻

架构

下面是它的工作方式。

我认为这是构建个人 AI 的正确方式。

而我已经把整个系统开源了，因此你也可以自己构建。

⸻

Harness 是薄的（thin）。

OpenClaw 是 runtime。

它接收我的消息，判断应该调用哪个 skill，然后进行 dispatch。

它只有几千行路由逻辑。

它并不知道书籍、会议或创业者是什么。

它只负责路由。

⸻

Skills 是厚的（fat）。

现在已经有超过 100 个 skill。

每一个都是一个独立的 markdown 文件，里面包含针对某个特定任务的详细指令。

你已经在前面看到：

* book-mirror
* meeting-prep

下面是 GBrain 自带的几个 skill：

⸻

meeting-ingestion

每次会议结束后，它会：

* 拉取 transcript
* 创建结构化摘要
* 遍历会议中提到的每个人和公司
* 更新他们的 brain 页面

会议页面本身并不是最终产品。

真正的价值在于：

entity propagation 回流到所有人和公司页面。

⸻

enrich

输入一个人的名字。

它会从五个不同来源拉取信息，并整合成一个统一的 brain page，包括：

* 职业轨迹
* 联系方式
* 会议历史
* 关系上下文

每一个 claim 都会附带引用来源。

⸻

media-ingest

处理：

* 视频
* 音频
* PDF
* 截图
* GitHub 仓库

进行：

* 转录
* 实体提取
* 归档到正确 brain 位置

我经常用它处理 YouTube 视频、播客和语音备忘录。

⸻

perplexity-research

这是一个“brain 增强版”的网页研究工具。

它通过 Perplexity 搜索互联网，但在综合信息之前，会先检查 brain 已经知道什么。

这样它就能告诉你：

什么是真正新增的信息，

而不是你已经记录过的内容。

⸻

我还有几十个为自己工作流构建的 skill，之后可能也会开源：

* email-triage
* investor-update-ingest
* calendar-check
* 一整套用于 civic work 的新闻研究工具链

每一个 skill 都封装了需要新的人类助理花数月才能掌握的 operational knowledge（操作知识）。

当别人问我：

“你是怎么 prompt 你的 AI 的？”

我的答案是：

我并不 prompt。

Skills 才是 prompts。

⸻

数据是厚的

Brain repo 中有 10 万页结构化知识。

每一个：

* 人
* 公司
* 会议
* 书籍
* 文章
* 想法

都被关联、可搜索，并且每天都在增长。

⸻

代码也是厚的

支撑它的数据管道代码同样重要：

* transcription（转录）
* OCR
* 社交媒体归档
* 日历同步
* API 集成

等等。

但真正产生复利价值的是数据。

我每天运行超过 100 个 cron。

它们会持续检查：

* 社交媒体
* Slack
* 邮件
* 我关注的一切

我的 OpenClaw/Hermes Agents 也会一起帮我处理这些。

⸻

模型是可替换的

我使用：

* Opus 4.7 1M：负责精确性
* GPT-5.5：负责召回与穷尽式提取
* DeepSeek V4-Pro：负责创造性工作与第三视角
* Groq + Llama：负责速度

由 skill 决定针对哪个任务调用哪个模型。

Harness 并不关心。

所以当别人问：

“哪个 AI 模型最好？”

答案是：

问错问题了。

模型只是引擎。

其他所有东西才是汽车。

⸻

凌晨两点的 Builder 与复利系统

人们总问我关于“生产力”的问题。

但我并不是那样思考的。

我思考的是：

复利。

每一场会议都会向 brain 增加内容。

每一本书都会丰富下一本书的上下文。

每一个新 skill 都会让下一个工作流更快。

每一个被更新的人物页面，都会让下一次 meeting prep 更精准。

今天的系统，比两个月前强了 10 倍。

而两个月后，它还会再强 10 倍。

⸻

当我凌晨两点还在写代码时（而且确实经常如此，因为 AI 重新给了我构建的快乐），我不仅仅是在写软件。

我是在为一个每小时都在变得更好的系统增加能力。

100 个 cron jobs 全天候运行。

meeting ingestion 自动执行。

email triage 每 10 分钟运行一次。

knowledge graph 会从每一次对话中自动 enrich 自己。

系统会处理每天的 transcript，并实时提取我遗漏掉的模式。

⸻

这不是一个写作工具。

不是搜索引擎。

不是聊天机器人。

它是一个真正工作的“第二大脑”。

不是比喻意义上的。

而是一个正在运行的系统：

* 10 万页知识
* 100+ skills
* 15 个 cron jobs
* 以及过去一年中，我参与过的每一段职业关系、会议、书籍和想法所积累的上下文

⸻

我把整个技术栈都开源了。

* GStack 是编码 skill framework（已有 8.7 万+ stars）
* 当 Agent 需要写代码时，我仍然会在 OpenClaw/Hermes Agent 中把它作为一个 skill 使用
* 里面包含一个非常强大的可编程浏览器（支持 headed 和 headless）
* GBrain 是知识基础设施
* OpenClaw 和 Hermes Agent 是 harness
* 数据仓库都在 GitHub 上

⸻

我的核心论点很简单：

未来属于那些构建“复利型 AI 系统”的个人，

而不是那些只会使用企业集中式 AI 工具的人。

这之间的差异，就像：

“写日记”

与

“拥有一个神经系统”

之间的差异。

⸻

如何开始

如果你也想构建这样的系统：

⸻

选择一个 harness。

* OpenClaw
* Hermes Agent
* 或者你自己用 Pi 从零构建

保持它足够薄。

Harness 只是路由器。

你可以：

* 用家里的备用电脑 + Tailscale 部署
* 或者使用云上的 Render / Railway

⸻

使用 GBrain 创建一个 brain。

我受到 Andrej Karpathy 的 LLM Wiki 启发，在 OpenClaw 中实现了它，并扩展成