YC总裁Garry Tan:AI编码代理真正的1000x不是更好模型,而是“Thin Harness+Fat Skills”架构
Steve Yegge说,使用AI编码代理的人,“生产力是今天用Cursor和聊天的人的10x到100x,大约是2005年谷歌工程师的1000x。”
这是真实数字。我亲眼见过,也亲身经历过。但当人们听到这个数字时,他们总是找错解释:更好的模型、更聪明的Claude、更多参数。
其实,10x的人和100x的人,用的是完全相同的模型。差别不在智能,而在架构——而且这个架构能写在一张索引卡上。
线束(Harness)才是产品
2026年3月31日,Anthropic不小心把Claude Code的全部源代码(51.2万行)推到了npm registry。我读完了。它印证了我一直在YC教的一切:秘密从来不在模型,而在包裹模型的那个东西。
实时仓库上下文、提示缓存、专为目的打造的工具、最小化上下文膨胀、结构化会话记忆、并行子代理……这些东西都不会让模型变聪明,但它们能让模型在正确的时间获得正确的上下文,而不会被噪声淹没。
这个包裹就叫线束(Harness)。每个AI构建者都应该问的问题是:什么放进线束,什么放在外面?答案有一个明确的形状,我把它叫做薄线束,胖技能。
五大定义
瓶颈从来不是模型的智能。模型早就知道如何推理、综合、写代码。它们失败,是因为不懂你的数据——你的schema、你的惯例、你问题的独特形状。下面五个定义能解决这个问题。
1. 技能文件(Skill files)
技能文件是一个可复用的Markdown文档,它教模型如何做某件事。不是“做什么”(那是用户提供的),而是过程。
大多数人错过的关键洞见:技能文件就像方法调用。它接受参数。你用不同的参数调用它,同一个过程就能产生截然不同的能力。
拿一个叫/investigate的技能举例。它有七个步骤:划定数据集范围、构建时间线、对每份文档做说话人分离、综合、两面论证、引用来源。它接受三个参数:TARGET、QUESTION、DATASET。
把它指向一位安全科学家和210万封发现邮件,你得到的就是一位医学研究分析师,判断举报人是否被封口;指向一家空壳公司和FEC备案,你得到的就是一位法务调查员,追踪协调的政治献金。
同一个技能、同七个步骤、同一个Markdown文件。技能描述的是判断过程,调用时传入的是真实世界。
这不是提示工程,这是软件设计——用Markdown作为编程语言,用人类判断作为运行时。Markdown其实比僵硬的源代码更完美地封装能力,因为它用模型已经会思考的语言,描述了过程、判断和上下文。
2. 线束(The harness)
线束就是运行LLM的程序。它只做四件事:把模型跑在循环里、读写你的文件、管理上下文、强制安全。仅此而已,这就是“薄”。
反模式是胖线束+瘦技能。你见过:40多个工具定义吃掉一半上下文窗口、神级工具每次MCP往返2-5秒、把每个REST API端点都包成单独工具……结果是3倍token、3倍延迟、3倍失败率。
你真正想要的是专为目的打造、又快又窄的工具。一个Playwright CLI每次浏览器操作只要100毫秒,而不是一个Chrome MCP花15秒去截图-找-点-等-读。那是75倍更快。软件不用再珍贵了。只构建你真正需要的,什么都别多。
3. 解析器(Resolvers)
解析器是上下文的路由表。当出现X类任务时,先加载文档Y。
技能告诉模型怎么做,解析器告诉模型什么时候加载什么。开发者改了一个提示。没有解析器,他就直接上线了;有了解析器,模型会先读docs/EVALS.md,上面写着:跑评估套件,对比分数,如果准确率下降超过2%,就回滚并调查。开发者甚至不知道评估套件存在,是解析器在正确时刻加载了正确上下文。
Claude Code内置了解析器。每个技能都有description字段,模型会自动把用户意图匹配到技能描述。你永远不用记住/ship存在,描述本身就是解析器。
我承认:我以前的CLAUDE.md有2万行,把我遇到的每个怪癖、模式、教训全塞进去。完全荒谬,模型注意力严重退化。Claude Code直接告诉我“砍掉”。解决办法是200行——只放指针。解析器在需要时才加载对应文档。2万行的知识,按需可用,绝不污染上下文窗口。
4. 潜变量 vs 确定性(Latent vs. deterministic)
系统里的每一步,要么是潜变量,要么是确定性。把两者搞混,是代理设计里最常见的错误。
潜变量空间是智能所在:模型阅读、解读、决策、判断、综合、模式识别。
确定性是信任所在:相同输入,永远相同输出——SQL查询、编译后的代码、算术。
LLM能完美安排8人晚宴(考虑个性与社交动态),但让它安排800人,它就会产生看似合理却完全错误的座位表。这是一个确定性问题(组合优化),却被塞进了潜变量空间。最差的系统把错误的工作放错了边,最好的系统对此极其残酷。
5. 说话人分离(Diarization)
这是让AI真正适用于知识工作的步骤。模型读完关于一个主题的所有内容,然后写出一个结构化画像——从几十甚至几百份文档中提炼出的单页判断。
SQL查询做不到,RAG管道也做不到。模型必须真正阅读、同时记住矛盾点、注意到什么在何时变化,并综合出结构化智能。这就是数据库查表和分析师简报的区别。
架构
这五个概念组合成一个简单的三层架构:
最上层:胖技能——Markdown过程,编码判断、流程和领域知识。这是90%价值所在。
中间层:薄CLI线束——大约200行代码。JSON进,文本出,默认只读。
最底层:你的应用——QueryDB、ReadDoc、Search、Timeline……确定性基础。
原则是定向的:把智能推到技能里,把执行推到确定性工具里,保持线束薄。这样,每一次模型改进都会自动提升所有技能,而确定性层永远可靠。
会学习的系统
让我给你看这五个定义如何在真实系统中协同工作——不是理论,是我们正在YC构建的实际系统。
2026年7月,Chase Center。6000位创始人参加Startup School。每人都有结构化申请、问卷答案、1对1导师聊天转录,以及公开信号(X帖子、GitHub提交、Claude Code转录显示他们出货速度)。
传统做法:15人的项目团队读申请、凭直觉决策、更新Excel。在200位创始人时还能用,6000位就崩了。没人能在工作记忆里同时记住这么多画像,更别说发现“AI代理基础设施” cohort里最好的三位候选人分别是:拉各斯的开发工具创始人、新加坡的合规创始人、布鲁克林的CLI工具创始人——他们在1对1聊天里用不同的话描述了同一个痛点。
模型能做到。方法如下:
丰富(Enrichment)。一个叫/enrich-founder的技能拉取所有来源、运行丰富、做说话人分离,并高亮“创始人说的”和“实际在做的”之间的差距。确定性层负责SQL查询、GitHub统计、演示URL的浏览器测试、社交信号拉取、CrustData查询。每晚cron自动运行。6000个画像,永远保持新鲜。
说话人分离的输出能抓住任何关键词搜索都找不到的东西:
创始人:Maria Santos
公司:Contrail (contrail.dev)
说的:“AI代理的Datadog”
实际在做的:80%的提交都在计费模块。
她在做一个伪装成可观测性的FinOps工具。
这个“说的 vs 实际在做”的差距,需要同时阅读GitHub提交历史、申请表和导师转录,并把三者放在一起判断。任何嵌入相似性搜索或关键词过滤都做不到,模型必须读完整画像并做出判断(这正是放进潜变量空间的完美决策!)
匹配(Matching)。这里技能即方法调用的优势彻底显现。同一个匹配技能,三次调用,三种完全不同的策略:
/match-breakout处理1200位创始人,按领域亲和度聚类,每房间30人(嵌入+确定性分配);/match-lunch处理600人,做跨领域惊喜匹配,每桌8人、不重复——LLM自己发明主题,再由确定性算法分配座位;/match-live处理当前在场的人,最近邻嵌入,200毫秒,1对1配对,排除已见过的人。
模型还能做出聚类算法永远做不到的判断:“Santos和Oram都是AI基础设施,但他们不是竞争对手——Santos做成本归因,Oram做编排,把他们放同一组。”或者:“Kim申请时填的是‘开发者工具’,但1对1转录显示他在做SOC2合规自动化,把他挪到FinTech/RegTech。”
任何嵌入都抓不住Kim的重新分类,模型必须读完整画像。
学习循环(The learning loop)。活动结束后,一个/improve技能读取NPS调查,对“还行”(不是差,而是“OK”)的反馈做说话人分离,提取模式,然后提出新规则并写回匹配技能:
当参与者说“AI基础设施”
但初创公司80%+代码是计费:
→ 分类为FinTech,而非AI Infra。
当同一组两位参与者
已经互相认识:
→ 降低亲近度优先级,优先新介绍。
这些规则直接写回技能文件。下次运行自动生效。技能自己重写了。
7月活动“OK”评分12%,下次活动降到4%。技能文件学会了“OK”到底意味着什么,系统在没人重写代码的情况下变好了。
同样的模式可以迁移到任何地方:检索、阅读、说话人分离、计数、综合。然后:调查、调研、说话人分离、重写技能。
如果你想知道2026年最有价值的循环是什么,就是这些。我们可以把它们应用到存在的所有知识工作领域和人生场景。
技能是永久升级
我最近给OpenClaw发了一条指令,没想到反响这么大:
“你不允许做一次性工作。如果我让你做某件事,而这件事以后还会重复,你必须:第一次在3-10个样本上手动完成,给我看输出。如果我批准,就把它固化成技能文件。如果应该自动运行,就放到cron上。
测试标准:如果我不得不第二次问你同一件事,你就失败了。”
上千点赞、2500收藏。很多人以为这是提示工程技巧。其实不是,这就是我上面描述的架构。你写的每一个技能,都是系统的永久升级。它永不退化、永不遗忘、凌晨3点也能运行。当下一个模型发布时,所有技能瞬间变得更好——潜变量步骤的判断力提升,而确定性步骤依然完全可靠。
这就是Yegge说的1000x的真正来源。不是更聪明的模型,而是胖技能 + 薄线束 + 把一切都固化下来的纪律。
系统会复利。一次构建,永远运行。
(本文全文翻译自Garry Tan于2026年4月11日在X上的长帖,已按逻辑重新分节、加小标题,便于微信阅读。Garry同时开源了相关项目:GStack——https://github.com/garrytan/gstack;GBrain——https://github.com/garrytan/gbrain。欢迎转发分享,一起构建真正属于自己的AI软件工厂!)
夜雨聆风