
会被吞掉的是可测的薄封装,留下来的是私有数据、信任与责任
编辑丨阿特
导语:AI 投资圈这两年反复冒出一种情绪:既然模型越来越强,应用层是不是终将失去价值?如果大模型迟早吞掉检索、路由、工具调用乃至工作流,那今天看上去热闹非凡的 AI 创业公司,最后会不会都只剩“一层皮”?
Sarah Guo 的《The Untrainable》讨论的正是这个问题。她的回答并不悲观:会被吞掉的,主要是那些可量化、可复制、可替代的“薄封装”;真正能留下的价值,往往在另一侧——企业私有数据、行业内部判断、长周期信任关系,以及需要进入系统、承担责任、重塑组织流程的那部分工作。
作者简介:Sarah Guo 是 AI 投资机构 Conviction 的创始人,曾任 Greylock 合伙人,长期关注 AI-native 软件、基础设施和新一代创业公司。她同时主持播客《No Priors》,在硅谷 AI 创投圈影响力很强。她的写作风格一向以判断直接、产业感强著称,这篇文章也是这种风格的典型体现。
到了 2026 年,投资圈关于 AI 最常见的一种绝望,是觉得已经没什么可投了。钱不如直接买 Anthropic,买英伟达,别折腾了。
我一直不认同这种看法。
不是因为我低估模型。恰恰相反,我早就接受模型已经比我聪明这件事;如果按市场价让我买 Anthropic 和英伟达,我会买;我身边最聪明的人,也大都相信模型的自我改进很快就会发生。即便如此,我还是不觉得“除了模型层和算力层,其他一切都不值得投”。
这种绝望并不愚蠢。它的逻辑很完整:如果模型在所有维度上都持续进步,那么所有建立在模型之上的公司,最后都会显得只是薄薄一层封装。封装迟早会被底层吸收。最后剩下的价值,只会属于算力和最前沿的模型权重。
软件行业最容易让人相信这套逻辑。
2024 年,Devin 刚出来时,在标准软件 benchmark 上只能完成很少一部分任务,当时很多人觉得不过如此。可一年半以后,最强的一批 agent 已经能把这一数字推到八九成,而且开始在高盛和美国陆军这样的真实组织里做实际工作。
于是很多人得出同一个结论:模型正在吃掉软件工程。
我觉得,这个结论抓住了变化,却抓错了重点。
模型吃掉的,首先是软件工程里最容易被测量的那部分;而工程真正难的地方,从来就不是最容易测量的地方。很多团队其实早就知道这一点,只是过去我们习惯性忽略了——工程天然就抗拒被量化,而那些最适合拿来做评测的任务,并不等于最重要的任务。
MIT 的研究已经把这件事说得很清楚:在超过 10 万名开发者样本里,最新编程 agent 让代码产出量大幅提升,但真正进入生产环境的代码,增幅远没那么夸张。
这并不矛盾。写代码变便宜了,可把代码变成真正可上线、可维护、可负责的系统,仍然要经过人。中间这一段没有消失,而且非常重要。
原因其实不复杂。
凡是 benchmark,本质上都是“能测量的东西”;凡是能测量,就能围着它训练。编程 agent 之所以成熟得最快,是因为它有天然的免费校验器:编译器是校验器,测试套件是校验器。只要答案能被快速验证,你就可以围着验证体系反复优化,直到把分数刷上去。
问题在于,通过测试从来不等于做对了事。
一个跑了十年的代码库,为什么会长成现在这样,往往藏着很多没有文档记录的历史原因;某个模块为什么不能动,可能有三层隐性依赖;部署链路之所以没崩,也许只是因为一个没人愿意承认自己写过的 cron job 还在那里吊着命。对于这种系统,测试通过并不能告诉你,这次改动到底是不是“对的”。
这种正确性,不在排行榜上,也不太可能通过任何外部指标直接读出来。
你只能让它在真实世界里跑足够久,靠时间、靠负载、靠事故、靠一轮又一轮反馈,慢慢知道它行不行。模型可以更聪明,但世界不会因此转得更快。
没有人会因为一套超大规模系统单测全绿,就觉得自己已经验证完毕。真正让人信服的,是它在真实流量下活了很多年。这种正确性不仅是私有的,而且形成得很慢;它不是资本一砸就能压平的东西。
所以,真正的自动化从来不只是模型更强。
它是产品、模型、工作流和组织一起变化。这四样东西里,后三样的推进速度都接近组织本身的速度,而组织变化最难的部分,恰恰是 benchmark 完全碰不到的:让怀疑的人改变做法,让团队在重建期间不散掉,让原本的协作模式重新形成秩序。
这也是为什么,我们在挑 CEO 时,处理人的能力始终和分析能力一样重要。模型再聪明,也不会改写这个事实。这里的反馈是含混的,周期是按年算的,最后被信任、被追责的,仍然是人。
今天,几乎所有我认识的公司,都已经让工程师用上最前沿的编程模型。但没有一家公司会以同样速度重建整个工程组织。接入一个模型,也许只要一个季度;而真正围绕它重做流程、分工和责任结构,往往要花几年。
可见的变化总是发生得更快。真正值钱的变化,发生得更慢。
这也是我对 AI 价值迁移的基本判断:
越是清晰、越是可测、越是能写进 leaderboard 的工作,越会更快商品化。
因为只要一种工作可以被公开测量,它就会迅速变成训练目标;一旦变成训练目标,它就会越来越便宜,越来越通用,越来越不稀缺。这个过程不会一步到位,也不会彻底结束,但方向不会反过来。
如果换成商业语言来说,就是:一个 token 只是拿来回答通用问题,几乎不值钱,因为任何模型都能答;一个 token 如果是在理解你公司的私有数据、处理你组织内部的真实上下文,它就值钱得多,因为它做的不是“看起来像对的事”,而是“你真正想让它做的事”。
所以,那些“可见的工作”实际上正在被两头夹击。
从下往上看,一旦某项任务的结果可以低成本验证,买方就不再关心是谁做的,只会关心谁更便宜。于是任务迅速饱和,利润被压缩,最后落到当周最便宜的开源模型或蒸馏模型手里。
从上往下看,实验室又在把过去包在模型外面的脚手架一点点吸进去:检索、路由、工具调用、推理策略,那些曾经是“应用层能力”的东西,正在不断并入模型权重本身,直到 wrapper 变成模型的一部分。
但故事没有在这里结束。
因为还有另一类工作,它们的正确性既不公开,也不容易建立;它们的环境又是封闭的,外部很难进入。真正值得看的,不是“哪些任务还没被模型做掉”,而是“哪些任务即使模型会做,你也进不去、验不了、承担不起”。
这是我理解里 AI 创业真正的核心分界线。
我们可以问每一种工作两个问题:第一,它的正确性是不是私有的,而且验证代价很高?第二,它是不是被锁在一个封闭系统里,外部很难进入?
如果答案都是“是”,那它就落在最有价值、也最难被训练压平的那一格。
这类价值已经能看见了。
在一些给 AI-native 公司提供推理服务的云平台上,绝大多数 token 并不是由通用开源模型生成,而是由定制模型生成。原因很简单:真正重要的任务,最终会逼着你走向私有评测、私有数据和私有优化。通用模型是起点,未必是终点。
当然,不同场景的“墙”高低不一样。
一个独立开发者写着玩的代码库,结构标准、迁移容易,壁垒很低。银行的生产系统完全不是这样。你不可能因为在公开软件 benchmark 上高了 2%,就自然获得银行核心系统的访问权。
能力会吃掉很多东西,但能力本身不会把私有真相变成公开真相。模型再强,也不会自动拥有牌照,不会自动签责任书,不会自动持有企业文件,更不会在答案出错时作为被起诉的一方出庭。
瓶颈不在智力,而在许可,在责任,在谁有资格被信任。
所以,那扇门上其实有两道关。
第一道是环境本身。你必须先通过安全审查、完成集成、签下把结果责任写清楚的合同,才有机会进入系统内部,验证模型到底有没有创造价值。
第二道是用户。哪怕某家实验室明天训练出一个近乎完美的医疗模型,它也不意味着医生就会改变习惯,不意味着医院就会把它嵌进临床决策流程。信任不是梯度下降出来的,它是靠长期关系一点点建立起来的。
而这,恰恰就是应用公司的工作。
它们真正的价值,常常不在模型本身,而在那些不够光鲜的劳动里:把企业内部混乱、分散、私有的现实整理成模型能处理的形式,把模型需要调用的工具接进去,再和客户一起改变组织如何工作。
谁能做成这层翻译,谁就很难被复制。更重要的是,这层翻译不会结束。集成、维护、修正、重建,会和客户关系一起长期存在。
法律行业就是很好的例子。
一家顶级律所,每年仅并购业务就可能有近千笔交易同时推进。你不可能让大量初级律师把客户材料下载到本地,再交给一个通用 agent 扫过去,不只是因为保密,也因为那样得到的只会是碎片:某个文档的修改建议,某个条款的批注,某个律师个人层面的纠错。
真正有价值的信号,不在单个文档,而在“整笔交易”这个层级。交易有它的结构、节奏、角色分工和责任边界。并购是一套形状,知识产权诉讼是另一套形状,不同 practice area 之间既不能随意互换人,也不能互换工具。律所真正要解决的问题,还不是优化单点任务,而是让整个机构并行运转,让合伙人能够同时推进大量事项、拿新业务、培养初级律师。
这种问题,不是写出一个 eval 就结束的。
它更像一场长期运营:目标中间态很模糊,反馈很不完整,时间跨度很长,环境还一直在变化。也正因为如此,这种价值很难被外部快速看懂,也很难被直接商品化。
这也解释了为什么最强的 AI 公司,最后往往不再试图从外部证明自己,而是先进系统,再按结果收费。
Sierra 只在 agent 真正解决客户问题时收费,转人工则不收费。于是,“收费”本身就变成了评测。Devin 也做类似的事,用 performance guarantee 去绑定结果。但这种承诺,只有在你已经进入系统、已经被信任的前提下才可能成立。
哪怕是在最容易被说成商品的推理服务层,现实也没那么简单。
AI-native 公司常常把服务集中在很少几家推理供应商身上,不只是因为价格,也因为真实流量下的稳定性、稀缺算力的保障和服务质量并不商品化。真正像商品的,也许只有单个 token 的价格,而不是整层服务。
另一个常见疑问是:既然实验室才是上游,它为什么不自己做第一方产品,把应用层全打掉?
这类担心只有在模型层是单人游戏时才成立。但现实不是。今天的模型市场显然是多方混战,而且竞争会长期存在。客户希望供应商之间彼此制衡,实验室更想抢市场份额,也未必真想把每一个应用公司都逼死。
消费级聊天市场已经给出过例子。
最强模型从来没靠“模型最好”这一件事直接通吃全部用户。ChatGPT 能守住领先,不只是因为模型;它今天失去的一部分份额流向 Gemini,也不只是因为模型,而和 Android、Search 这样的分发能力直接相关。Anthropic 即便被很多人视为模型能力最强的一家,在消费级聊天里也没形成同等强势的位置,反而在企业和编程场景更有存在感。
如果更强的模型连最核心的通用聊天场景都无法纯靠能力吃掉对手,它就更不可能自动渗透医院、银行、律所这些高度封闭、责任极重的系统。
更重要的是,真正决定钱流向哪里的评测,本来就是私有的。
不是“这个模型在公开 benchmark 上几分”,而是“这家企业、在这类事项上、认为什么结果算好”。足够多这样的判断,被持续写下来,才会慢慢变成行业标准。Harvey 在法律里做这件事,Sierra 在语音 agent 里也在做这件事。你不是先拥有定义权,才赢得客户;而是先被客户反复使用,才慢慢获得定义权。
这也是为什么,基础模型实验室再聪明,也未必能直接写下行业标准。
法律里什么算好,最终要由资深律师来界定;临床里什么算安全,最终要由医生来界定;“问题已解决”是什么意思,也通常由已经拥有客户关系的那家公司来界定。这不是单纯的测量,而是一种判断权,而这种判断权通常属于行业内部,而不属于行业外部。
当然,所谓“不可训练”的地盘并不是静止的。
随着我们越来越会测量更多工作,更多任务会被吸进去、压缩掉、商品化掉。你不能找到一个位置,从此高枕无忧。真正的护城河不是“占住某块地”,而是持续向那些尚未被评分的地方移动,并不断重新定义自己的价值。
在一个狭窄场景里,如果你掌握私有数据、私有评测,又能把模型训练推进到真正关键的边界,你完全可能在重要结果上胜过通用模型。这时候,专用模型会成为护城河的一部分。
但如果你试图在一大块通用任务上正面和前沿模型竞争,最后拼的几乎一定是资本开支、算力储备和数据中心规模。那不是多数创业公司能赢的战争,结局通常也不是独立成为冠军,而是被更有算力的人收走。
上面这些都还是防守。真正更难的,是进攻:你一开始到底该做什么?
这也是我每年真正花时间找的东西,而能找到的机会,可能一年也就三次。
模型在这件事上帮不了你太多。它会做你指给它的事,但它不会告诉你什么值得去做。这个问题无法 benchmark,无法训练,也无法通过扩大算力自然得到答案。
也正因为如此,既有大公司并不能拿走一切。它们会守住已有阵地,但下一个重要应用,往往来自那个比别人更早看见用途的人。也许在 AI 时代,比算力更稀缺的,反而是意图。
所以,那种“除了模型和芯片,别的都不值得投”的绝望,只说对了一半。
薄封装确实在被吸收,很多今天看起来像公司的东西,最后也许真的只是一层封装。但这不意味着价值会消失,只意味着价值会迁移。
机制已经很清楚了:智能会越来越便宜,越是可测的能力越会失去溢价。真正留下来的价值,会不断向模型碰不到的地方滑去——那里有历史,有上下文,有责任,有关系,也有一整套只能在现场慢慢写下来的“什么算好”。
如果我是创业者,我会去找那样的地方:进入系统,做那些不光鲜的翻译工作,然后开始把“什么算好”一条条写下来。因为总会有人这么做,而一旦有人先写出来,很多后来者就只能在别人定义好的标准里竞争。
今年最耀眼的 benchmark 分数,也许只是下一块即将失去价值的地图。它不只是成绩单,有时更像一张预告:谁快要失去定义“好”是什么的权利。
资料来源:Sarah Guo《The Untrainable》,saranormous.substack.com/p/the-untrainable。
本文由 AGI 2050 编辑部综合多方公开资讯整理编撰,事实信息均以原始信源为准。文中观点仅作行业交流与知识参考,AI 行业发展存在诸多不确定性,相关数据、技术解读与行业研判仅供参阅。
—— 全文完 ——
夜雨聆风