当大模型吃掉一切,什么样的 AI 公司还能活下来?

会被吞掉的是可测的薄封装，留下来的是私有数据、信任与责任

编辑丨阿特

导语：AI 投资圈这两年反复冒出一种情绪：既然模型越来越强，应用层是不是终将失去价值？如果大模型迟早吞掉检索、路由、工具调用乃至工作流，那今天看上去热闹非凡的 AI 创业公司，最后会不会都只剩“一层皮”？

Sarah Guo 的《The Untrainable》讨论的正是这个问题。她的回答并不悲观：会被吞掉的，主要是那些可量化、可复制、可替代的“薄封装”；真正能留下的价值，往往在另一侧——企业私有数据、行业内部判断、长周期信任关系，以及需要进入系统、承担责任、重塑组织流程的那部分工作。

作者简介：Sarah Guo 是 AI 投资机构 Conviction 的创始人，曾任 Greylock 合伙人，长期关注 AI-native 软件、基础设施和新一代创业公司。她同时主持播客《No Priors》，在硅谷 AI 创投圈影响力很强。她的写作风格一向以判断直接、产业感强著称，这篇文章也是这种风格的典型体现。

到了 2026 年，投资圈关于 AI 最常见的一种绝望，是觉得已经没什么可投了。钱不如直接买 Anthropic，买英伟达，别折腾了。

我一直不认同这种看法。

不是因为我低估模型。恰恰相反，我早就接受模型已经比我聪明这件事；如果按市场价让我买 Anthropic 和英伟达，我会买；我身边最聪明的人，也大都相信模型的自我改进很快就会发生。即便如此，我还是不觉得“除了模型层和算力层，其他一切都不值得投”。

这种绝望并不愚蠢。它的逻辑很完整：如果模型在所有维度上都持续进步，那么所有建立在模型之上的公司，最后都会显得只是薄薄一层封装。封装迟早会被底层吸收。最后剩下的价值，只会属于算力和最前沿的模型权重。

软件行业最容易让人相信这套逻辑。

2024 年，Devin 刚出来时，在标准软件 benchmark 上只能完成很少一部分任务，当时很多人觉得不过如此。可一年半以后，最强的一批 agent 已经能把这一数字推到八九成，而且开始在高盛和美国陆军这样的真实组织里做实际工作。

于是很多人得出同一个结论：模型正在吃掉软件工程。

我觉得，这个结论抓住了变化，却抓错了重点。

模型吃掉的，首先是软件工程里最容易被测量的那部分；而工程真正难的地方，从来就不是最容易测量的地方。很多团队其实早就知道这一点，只是过去我们习惯性忽略了——工程天然就抗拒被量化，而那些最适合拿来做评测的任务，并不等于最重要的任务。

MIT 的研究已经把这件事说得很清楚：在超过 10 万名开发者样本里，最新编程 agent 让代码产出量大幅提升，但真正进入生产环境的代码，增幅远没那么夸张。

这并不矛盾。写代码变便宜了，可把代码变成真正可上线、可维护、可负责的系统，仍然要经过人。中间这一段没有消失，而且非常重要。

原因其实不复杂。

凡是 benchmark，本质上都是“能测量的东西”；凡是能测量，就能围着它训练。编程 agent 之所以成熟得最快，是因为它有天然的免费校验器：编译器是校验器，测试套件是校验器。只要答案能被快速验证，你就可以围着验证体系反复优化，直到把分数刷上去。

问题在于，通过测试从来不等于做对了事。

一个跑了十年的代码库，为什么会长成现在这样，往往藏着很多没有文档记录的历史原因；某个模块为什么不能动，可能有三层隐性依赖；部署链路之所以没崩，也许只是因为一个没人愿意承认自己写过的 cron job 还在那里吊着命。对于这种系统，测试通过并不能告诉你，这次改动到底是不是“对的”。

这种正确性，不在排行榜上，也不太可能通过任何外部指标直接读出来。

你只能让它在真实世界里跑足够久，靠时间、靠负载、靠事故、靠一轮又一轮反馈，慢慢知道它行不行。模型可以更聪明，但世界不会因此转得更快。

没有人会因为一套超大规模系统单测全绿，就觉得自己已经验证完毕。真正让人信服的，是它在真实流量下活了很多年。这种正确性不仅是私有的，而且形成得很慢；它不是资本一砸就能压平的东西。

所以，真正的自动化从来不只是模型更强。

它是产品、模型、工作流和组织一起变化。这四样东西里，后三样的推进速度都接近组织本身的速度，而组织变化最难的部分，恰恰是 benchmark 完全碰不到的：让怀疑的人改变做法，让团队在重建期间不散掉，让原本的协作模式重新形成秩序。

这也是为什么，我们在挑 CEO 时，处理人的能力始终和分析能力一样重要。模型再聪明，也不会改写这个事实。这里的反馈是含混的，周期是按年算的，最后被信任、被追责的，仍然是人。

今天，几乎所有我认识的公司，都已经让工程师用上最前沿的编程模型。但没有一家公司会以同样速度重建整个工程组织。接入一个模型，也许只要一个季度；而真正围绕它重做流程、分工和责任结构，往往要花几年。

可见的变化总是发生得更快。真正值钱的变化，发生得更慢。

这也是我对 AI 价值迁移的基本判断：

越是清晰、越是可测、越是能写进 leaderboard 的工作，越会更快商品化。

因为只要一种工作可以被公开测量，它就会迅速变成训练目标；一旦变成训练目标，它就会越来越便宜，越来越通用，越来越不稀缺。这个过程不会一步到位，也不会彻底结束，但方向不会反过来。

如果换成商业语言来说，就是：一个 token 只是拿来回答通用问题，几乎不值钱，因为任何模型都能答；一个 token 如果是在理解你公司的私有数据、处理你组织内部的真实上下文，它就值钱得多，因为它做的不是“看起来像对的事”，而是“你真正想让它做的事”。

所以，那些“可见的工作”实际上正在被两头夹击。

从下往上看，一旦某项任务的结果可以低成本验证，买方就不再关心是谁做的，只会关心谁更便宜。于是任务迅速饱和，利润被压缩，最后落到当周最便宜的开源模型或蒸馏模型手里。

从上往下看，实验室又在把过去包在模型外面的脚手架一点点吸进去：检索、路由、工具调用、推理策略，那些曾经是“应用层能力”的东西，正在不断并入模型权重本身，直到 wrapper 变成模型的一部分。

但故事没有在这里结束。

因为还有另一类工作，它们的正确性既不公开，也不容易建立；它们的环境又是封闭的，外部很难进入。真正值得看的，不是“哪些任务还没被模型做掉”，而是“哪些任务即使模型会做，你也进不去、验不了、承担不起”。

这是我理解里 AI 创业真正的核心分界线。

我们可以问每一种工作两个问题：第一，它的正确性是不是私有的，而且验证代价很高？第二，它是不是被锁在一个封闭系统里，外部很难进入？

如果答案都是“是”，那它就落在最有价值、也最难被训练压平的那一格。

这类价值已经能看见了。

在一些给 AI-native 公司提供推理服务的云平台上，绝大多数 token 并不是由通用开源模型生成，而是由定制模型生成。原因很简单：真正重要的任务，最终会逼着你走向私有评测、私有数据和私有优化。通用模型是起点，未必是终点。

当然，不同场景的“墙”高低不一样。

一个独立开发者写着玩的代码库，结构标准、迁移容易，壁垒很低。银行的生产系统完全不是这样。你不可能因为在公开软件 benchmark 上高了 2%，就自然获得银行核心系统的访问权。

能力会吃掉很多东西，但能力本身不会把私有真相变成公开真相。模型再强，也不会自动拥有牌照，不会自动签责任书，不会自动持有企业文件，更不会在答案出错时作为被起诉的一方出庭。

瓶颈不在智力，而在许可，在责任，在谁有资格被信任。

所以，那扇门上其实有两道关。

第一道是环境本身。你必须先通过安全审查、完成集成、签下把结果责任写清楚的合同，才有机会进入系统内部，验证模型到底有没有创造价值。

第二道是用户。哪怕某家实验室明天训练出一个近乎完美的医疗模型，它也不意味着医生就会改变习惯，不意味着医院就会把它嵌进临床决策流程。信任不是梯度下降出来的，它是靠长期关系一点点建立起来的。

而这，恰恰就是应用公司的工作。

它们真正的价值，常常不在模型本身，而在那些不够光鲜的劳动里：把企业内部混乱、分散、私有的现实整理成模型能处理的形式，把模型需要调用的工具接进去，再和客户一起改变组织如何工作。

谁能做成这层翻译，谁就很难被复制。更重要的是，这层翻译不会结束。集成、维护、修正、重建，会和客户关系一起长期存在。

法律行业就是很好的例子。

一家顶级律所，每年仅并购业务就可能有近千笔交易同时推进。你不可能让大量初级律师把客户材料下载到本地，再交给一个通用 agent 扫过去，不只是因为保密，也因为那样得到的只会是碎片：某个文档的修改建议，某个条款的批注，某个律师个人层面的纠错。

真正有价值的信号，不在单个文档，而在“整笔交易”这个层级。交易有它的结构、节奏、角色分工和责任边界。并购是一套形状，知识产权诉讼是另一套形状，不同 practice area 之间既不能随意互换人，也不能互换工具。律所真正要解决的问题，还不是优化单点任务，而是让整个机构并行运转，让合伙人能够同时推进大量事项、拿新业务、培养初级律师。

这种问题，不是写出一个 eval 就结束的。

它更像一场长期运营：目标中间态很模糊，反馈很不完整，时间跨度很长，环境还一直在变化。也正因为如此，这种价值很难被外部快速看懂，也很难被直接商品化。

这也解释了为什么最强的 AI 公司，最后往往不再试图从外部证明自己，而是先进系统，再按结果收费。

Sierra 只在 agent 真正解决客户问题时收费，转人工则不收费。于是，“收费”本身就变成了评测。Devin 也做类似的事，用 performance guarantee 去绑定结果。但这种承诺，只有在你已经进入系统、已经被信任的前提下才可能成立。

哪怕是在最容易被说成商品的推理服务层，现实也没那么简单。

AI-native 公司常常把服务集中在很少几家推理供应商身上，不只是因为价格，也因为真实流量下的稳定性、稀缺算力的保障和服务质量并不商品化。真正像商品的，也许只有单个 token 的价格，而不是整层服务。

另一个常见疑问是：既然实验室才是上游，它为什么不自己做第一方产品，把应用层全打掉？

这类担心只有在模型层是单人游戏时才成立。但现实不是。今天的模型市场显然是多方混战，而且竞争会长期存在。客户希望供应商之间彼此制衡，实验室更想抢市场份额，也未必真想把每一个应用公司都逼死。

消费级聊天市场已经给出过例子。

最强模型从来没靠“模型最好”这一件事直接通吃全部用户。ChatGPT 能守住领先，不只是因为模型；它今天失去的一部分份额流向 Gemini，也不只是因为模型，而和 Android、Search 这样的分发能力直接相关。Anthropic 即便被很多人视为模型能力最强的一家，在消费级聊天里也没形成同等强势的位置，反而在企业和编程场景更有存在感。

如果更强的模型连最核心的通用聊天场景都无法纯靠能力吃掉对手，它就更不可能自动渗透医院、银行、律所这些高度封闭、责任极重的系统。

更重要的是，真正决定钱流向哪里的评测，本来就是私有的。

不是“这个模型在公开 benchmark 上几分”，而是“这家企业、在这类事项上、认为什么结果算好”。足够多这样的判断，被持续写下来，才会慢慢变成行业标准。Harvey 在法律里做这件事，Sierra 在语音 agent 里也在做这件事。你不是先拥有定义权，才赢得客户；而是先被客户反复使用，才慢慢获得定义权。

这也是为什么，基础模型实验室再聪明，也未必能直接写下行业标准。

法律里什么算好，最终要由资深律师来界定；临床里什么算安全，最终要由医生来界定；“问题已解决”是什么意思，也通常由已经拥有客户关系的那家公司来界定。这不是单纯的测量，而是一种判断权，而这种判断权通常属于行业内部，而不属于行业外部。

当然，所谓“不可训练”的地盘并不是静止的。

随着我们越来越会测量更多工作，更多任务会被吸进去、压缩掉、商品化掉。你不能找到一个位置，从此高枕无忧。真正的护城河不是“占住某块地”，而是持续向那些尚未被评分的地方移动，并不断重新定义自己的价值。

在一个狭窄场景里，如果你掌握私有数据、私有评测，又能把模型训练推进到真正关键的边界，你完全可能在重要结果上胜过通用模型。这时候，专用模型会成为护城河的一部分。

但如果你试图在一大块通用任务上正面和前沿模型竞争，最后拼的几乎一定是资本开支、算力储备和数据中心规模。那不是多数创业公司能赢的战争，结局通常也不是独立成为冠军，而是被更有算力的人收走。

上面这些都还是防守。真正更难的，是进攻：你一开始到底该做什么？

这也是我每年真正花时间找的东西，而能找到的机会，可能一年也就三次。

模型在这件事上帮不了你太多。它会做你指给它的事，但它不会告诉你什么值得去做。这个问题无法 benchmark，无法训练，也无法通过扩大算力自然得到答案。

也正因为如此，既有大公司并不能拿走一切。它们会守住已有阵地，但下一个重要应用，往往来自那个比别人更早看见用途的人。也许在 AI 时代，比算力更稀缺的，反而是意图。

所以，那种“除了模型和芯片，别的都不值得投”的绝望，只说对了一半。

薄封装确实在被吸收，很多今天看起来像公司的东西，最后也许真的只是一层封装。但这不意味着价值会消失，只意味着价值会迁移。

机制已经很清楚了：智能会越来越便宜，越是可测的能力越会失去溢价。真正留下来的价值，会不断向模型碰不到的地方滑去——那里有历史，有上下文，有责任，有关系，也有一整套只能在现场慢慢写下来的“什么算好”。

如果我是创业者，我会去找那样的地方：进入系统，做那些不光鲜的翻译工作，然后开始把“什么算好”一条条写下来。因为总会有人这么做，而一旦有人先写出来，很多后来者就只能在别人定义好的标准里竞争。

今年最耀眼的 benchmark 分数，也许只是下一块即将失去价值的地图。它不只是成绩单，有时更像一张预告：谁快要失去定义“好”是什么的权利。

资料来源：Sarah Guo《The Untrainable》，saranormous.substack.com/p/the-untrainable。

本文由 AGI 2050 编辑部综合多方公开资讯整理编撰，事实信息均以原始信源为准。文中观点仅作行业交流与知识参考，AI 行业发展存在诸多不确定性，相关数据、技术解读与行业研判仅供参阅。

—— 全文完 ——