AI编码代理真正的1000x不是更好模型,而是“Thin Harness+Fat Skills”架构

YC总裁Garry Tan：AI编码代理真正的1000x不是更好模型，而是“Thin Harness+Fat Skills”架构

Steve Yegge说，使用AI编码代理的人，“生产力是今天用Cursor和聊天的人的10x到100x，大约是2005年谷歌工程师的1000x。”

这是真实数字。我亲眼见过，也亲身经历过。但当人们听到这个数字时，他们总是找错解释：更好的模型、更聪明的Claude、更多参数。

其实，10x的人和100x的人，用的是完全相同的模型。差别不在智能，而在架构——而且这个架构能写在一张索引卡上。

线束（Harness）才是产品

2026年3月31日，Anthropic不小心把Claude Code的全部源代码（51.2万行）推到了npm registry。我读完了。它印证了我一直在YC教的一切：秘密从来不在模型，而在包裹模型的那个东西。

实时仓库上下文、提示缓存、专为目的打造的工具、最小化上下文膨胀、结构化会话记忆、并行子代理……这些东西都不会让模型变聪明，但它们能让模型在正确的时间获得正确的上下文，而不会被噪声淹没。

这个包裹就叫线束（Harness）。每个AI构建者都应该问的问题是：什么放进线束，什么放在外面？答案有一个明确的形状，我把它叫做薄线束，胖技能。

五大定义

瓶颈从来不是模型的智能。模型早就知道如何推理、综合、写代码。它们失败，是因为不懂你的数据——你的schema、你的惯例、你问题的独特形状。下面五个定义能解决这个问题。

1. 技能文件（Skill files）
技能文件是一个可复用的Markdown文档，它教模型如何做某件事。不是“做什么”（那是用户提供的），而是过程。

大多数人错过的关键洞见：技能文件就像方法调用。它接受参数。你用不同的参数调用它，同一个过程就能产生截然不同的能力。

拿一个叫/investigate的技能举例。它有七个步骤：划定数据集范围、构建时间线、对每份文档做说话人分离、综合、两面论证、引用来源。它接受三个参数：TARGET、QUESTION、DATASET。

把它指向一位安全科学家和210万封发现邮件，你得到的就是一位医学研究分析师，判断举报人是否被封口；指向一家空壳公司和FEC备案，你得到的就是一位法务调查员，追踪协调的政治献金。

同一个技能、同七个步骤、同一个Markdown文件。技能描述的是判断过程，调用时传入的是真实世界。

这不是提示工程，这是软件设计——用Markdown作为编程语言，用人类判断作为运行时。Markdown其实比僵硬的源代码更完美地封装能力，因为它用模型已经会思考的语言，描述了过程、判断和上下文。

2. 线束（The harness）
线束就是运行LLM的程序。它只做四件事：把模型跑在循环里、读写你的文件、管理上下文、强制安全。仅此而已，这就是“薄”。

反模式是胖线束+瘦技能。你见过：40多个工具定义吃掉一半上下文窗口、神级工具每次MCP往返2-5秒、把每个REST API端点都包成单独工具……结果是3倍token、3倍延迟、3倍失败率。

你真正想要的是专为目的打造、又快又窄的工具。一个Playwright CLI每次浏览器操作只要100毫秒，而不是一个Chrome MCP花15秒去截图-找-点-等-读。那是75倍更快。软件不用再珍贵了。只构建你真正需要的，什么都别多。

3. 解析器（Resolvers）
解析器是上下文的路由表。当出现X类任务时，先加载文档Y。

技能告诉模型怎么做，解析器告诉模型什么时候加载什么。开发者改了一个提示。没有解析器，他就直接上线了；有了解析器，模型会先读docs/EVALS.md，上面写着：跑评估套件，对比分数，如果准确率下降超过2%，就回滚并调查。开发者甚至不知道评估套件存在，是解析器在正确时刻加载了正确上下文。

Claude Code内置了解析器。每个技能都有description字段，模型会自动把用户意图匹配到技能描述。你永远不用记住/ship存在，描述本身就是解析器。

我承认：我以前的CLAUDE.md有2万行，把我遇到的每个怪癖、模式、教训全塞进去。完全荒谬，模型注意力严重退化。Claude Code直接告诉我“砍掉”。解决办法是200行——只放指针。解析器在需要时才加载对应文档。2万行的知识，按需可用，绝不污染上下文窗口。

4. 潜变量 vs 确定性（Latent vs. deterministic）
系统里的每一步，要么是潜变量，要么是确定性。把两者搞混，是代理设计里最常见的错误。

潜变量空间是智能所在：模型阅读、解读、决策、判断、综合、模式识别。
确定性是信任所在：相同输入，永远相同输出——SQL查询、编译后的代码、算术。

LLM能完美安排8人晚宴（考虑个性与社交动态），但让它安排800人，它就会产生看似合理却完全错误的座位表。这是一个确定性问题（组合优化），却被塞进了潜变量空间。最差的系统把错误的工作放错了边，最好的系统对此极其残酷。

5. 说话人分离（Diarization）
这是让AI真正适用于知识工作的步骤。模型读完关于一个主题的所有内容，然后写出一个结构化画像——从几十甚至几百份文档中提炼出的单页判断。

SQL查询做不到，RAG管道也做不到。模型必须真正阅读、同时记住矛盾点、注意到什么在何时变化，并综合出结构化智能。这就是数据库查表和分析师简报的区别。

架构

这五个概念组合成一个简单的三层架构：

最上层：胖技能——Markdown过程，编码判断、流程和领域知识。这是90%价值所在。
中间层：薄CLI线束——大约200行代码。JSON进，文本出，默认只读。
最底层：你的应用——QueryDB、ReadDoc、Search、Timeline……确定性基础。

原则是定向的：把智能推到技能里，把执行推到确定性工具里，保持线束薄。这样，每一次模型改进都会自动提升所有技能，而确定性层永远可靠。

会学习的系统

让我给你看这五个定义如何在真实系统中协同工作——不是理论，是我们正在YC构建的实际系统。

2026年7月，Chase Center。6000位创始人参加Startup School。每人都有结构化申请、问卷答案、1对1导师聊天转录，以及公开信号（X帖子、GitHub提交、Claude Code转录显示他们出货速度）。

传统做法：15人的项目团队读申请、凭直觉决策、更新Excel。在200位创始人时还能用，6000位就崩了。没人能在工作记忆里同时记住这么多画像，更别说发现“AI代理基础设施” cohort里最好的三位候选人分别是：拉各斯的开发工具创始人、新加坡的合规创始人、布鲁克林的CLI工具创始人——他们在1对1聊天里用不同的话描述了同一个痛点。

模型能做到。方法如下：

丰富（Enrichment）。一个叫/enrich-founder的技能拉取所有来源、运行丰富、做说话人分离，并高亮“创始人说的”和“实际在做的”之间的差距。确定性层负责SQL查询、GitHub统计、演示URL的浏览器测试、社交信号拉取、CrustData查询。每晚cron自动运行。6000个画像，永远保持新鲜。

说话人分离的输出能抓住任何关键词搜索都找不到的东西：

创始人：Maria Santos
公司：Contrail (contrail.dev)
说的：“AI代理的Datadog”
实际在做的：80%的提交都在计费模块。
她在做一个伪装成可观测性的FinOps工具。

这个“说的 vs 实际在做”的差距，需要同时阅读GitHub提交历史、申请表和导师转录，并把三者放在一起判断。任何嵌入相似性搜索或关键词过滤都做不到，模型必须读完整画像并做出判断（这正是放进潜变量空间的完美决策！）

匹配（Matching）。这里技能即方法调用的优势彻底显现。同一个匹配技能，三次调用，三种完全不同的策略：

/match-breakout处理1200位创始人，按领域亲和度聚类，每房间30人（嵌入+确定性分配）；
/match-lunch处理600人，做跨领域惊喜匹配，每桌8人、不重复——LLM自己发明主题，再由确定性算法分配座位；
/match-live处理当前在场的人，最近邻嵌入，200毫秒，1对1配对，排除已见过的人。

模型还能做出聚类算法永远做不到的判断：“Santos和Oram都是AI基础设施，但他们不是竞争对手——Santos做成本归因，Oram做编排，把他们放同一组。”或者：“Kim申请时填的是‘开发者工具’，但1对1转录显示他在做SOC2合规自动化，把他挪到FinTech/RegTech。”

任何嵌入都抓不住Kim的重新分类，模型必须读完整画像。

学习循环（The learning loop）。活动结束后，一个/improve技能读取NPS调查，对“还行”（不是差，而是“OK”）的反馈做说话人分离，提取模式，然后提出新规则并写回匹配技能：

当参与者说“AI基础设施”
但初创公司80%+代码是计费：
→ 分类为FinTech，而非AI Infra。

当同一组两位参与者
已经互相认识：
→ 降低亲近度优先级，优先新介绍。

这些规则直接写回技能文件。下次运行自动生效。技能自己重写了。

7月活动“OK”评分12%，下次活动降到4%。技能文件学会了“OK”到底意味着什么，系统在没人重写代码的情况下变好了。

同样的模式可以迁移到任何地方：检索、阅读、说话人分离、计数、综合。然后：调查、调研、说话人分离、重写技能。

如果你想知道2026年最有价值的循环是什么，就是这些。我们可以把它们应用到存在的所有知识工作领域和人生场景。

技能是永久升级

我最近给OpenClaw发了一条指令，没想到反响这么大：

“你不允许做一次性工作。如果我让你做某件事，而这件事以后还会重复，你必须：第一次在3-10个样本上手动完成，给我看输出。如果我批准，就把它固化成技能文件。如果应该自动运行，就放到cron上。
测试标准：如果我不得不第二次问你同一件事，你就失败了。”

上千点赞、2500收藏。很多人以为这是提示工程技巧。其实不是，这就是我上面描述的架构。你写的每一个技能，都是系统的永久升级。它永不退化、永不遗忘、凌晨3点也能运行。当下一个模型发布时，所有技能瞬间变得更好——潜变量步骤的判断力提升，而确定性步骤依然完全可靠。

这就是Yegge说的1000x的真正来源。不是更聪明的模型，而是胖技能 + 薄线束 + 把一切都固化下来的纪律。

系统会复利。一次构建，永远运行。

（本文全文翻译自Garry Tan于2026年4月11日在X上的长帖，已按逻辑重新分节、加小标题，便于微信阅读。Garry同时开源了相关项目：GStack——https://github.com/garrytan/gstack；GBrain——https://github.com/garrytan/gbrain。欢迎转发分享，一起构建真正属于自己的AI软件工厂！）