关于人工智能在大型企业中的实际落地程度,市场上存在大量猜测。但现有信息大多只是企业自报的AI使用情况,或是捕捉买方主观感受的调研,缺乏硬数据。此外,少数几项确实存在的研究断言AI在企业中表现不佳,最著名的是麻省理工学院的一项研究,声称95%的生成式AI试点项目未能成功转化。
基于我们的内部数据以及与公司高管的交流,我们发现这一统计数字令人难以置信。我们一直在密切追踪AI应用最广泛、投资回报最明确的领域,并汇编了关于企业AI究竟在哪些方面真正见效的硬数据。

一、AI在企业中的渗透率
根据我们的分析,29%的《财富》500强企业以及约19%的全球2000强企业,目前已成为某家领先AI初创公司的活跃付费客户。
我们认为,评估这一趋势最具指示性的方法,是将各用例的收入势头与模型的理论能力进行叠加——后者采用GDPval这一知名基准,该基准由OpenAI提出,用于评估模型在实际经济价值任务上的能力。在我们看来,这两个因素既概括了模型可能达到的水平,也体现了它们目前正在证明的价值。因此,它们能够很好地说明:AI应用目前处于什么阶段、未来可能走向何方,以及在模型能力已经成熟的情况下,哪些领域仍然存在AI应用的空缺。
当前企业AI在哪些领域创造的价值最大?
就收入势头而言,企业采用AI主要集中在几个明确的用例和行业。编码、客服支持和搜索是目前占比最高的用例(其中编码即使在这组用例中也遥遥领先一个数量级),而科技、法律和医疗保健行业则是采用AI最为积极的行业。

1)编码
编码是AI最主要的用例,其规模比其他用例高出近一个数量级。这一点在Cursor等公司爆发式增长的报告中,以及在Claude Code和Codex等工具的超高速增长中表现得淋漓尽致。这些增长速度几乎超出了所有人最乐观的预期,并且《财富》500强/全球2000强企业采用的AI工具中,绝大多数都用于编码。
从多个角度来看,编码是AI的理想用例——无论是从技术本身的能力,还是从企业市场的接受程度而言。代码数据密度高,意味着互联网上有海量的高质量代码可供模型训练。代码基于文本,便于模型解析。代码精确、无歧义,具有严格的语法和可预测的输出。最关键的是,代码是可验证的:任何人都可以运行它并知道其是否有效,从而形成紧密的反馈回路,供模型学习和改进。
从商业角度来看,编码也是一个极佳的应用场景。我们 consistently 从投资组合公司那里听到,他们最优秀的工程师在使用AI编码工具后,生产力水平提升了10到20倍。招聘工程师向来困难且昂贵,因此任何能提高其效率的东西都具有明确的投资回报——而AI编码工具带来的提升幅度巨大,从而产生了强大的采用动力。工程师也往往是早期采用者,他们追求最优秀的工具。而且,与企业中大多数其他职能相比,编码更偏向于独立任务,因此工程师更容易找到最佳工具并直接采用,而不会被企业内部的协调和官僚程序所拖累。
此外,编码工具并不需要100%端到端地完成任务才能增加价值,因为任何加速(例如,发现bug、生成样板代码)都能节省时间,且非常有用。而且,由于编码目前仍保持着紧密的人机协作流程——开发人员仍然监督开发过程——这些工具在加速产出的同时,仍为人类的判断留出了审阅、编辑和迭代的空间。这既增强了企业的信心,也使采纳过程更加顺畅。
编码能力正以指数级速度提升,每个AI实验室都明确将赢得编码用例作为重点。这具有深远的影响。代码是所有其他应用的上游,因为它是任何软件的核心构建块,因此AI对编码的加速效应将推动所有其他领域的发展。这些领域的构建门槛随之降低,释放出新的机会供AI解决,但同样的易用性也使得初创公司建立持久的竞争优势比以往任何时候都更为关键。

2)客服支持
支持与编码处于完全不同的两端。软件工程往往获得组织中最多的投资和关注,而支持职能则常常被忽视。支持组织的工作属于后台、入门级工作,通常被外包给离岸公司或业务流程外包公司,因为企业认为自行管理过于繁琐和复杂。
事实证明,AI在处理这类工作方面表现出色,原因有几个。首先,大多数支持交互具有时间限定性和意图约束性(例如,要求退款),从而为客服人员输出定义明确的问题。支持也是少数几个角色任务被清晰界定的职能之一。支持团队人员流动率高、培训量大,因此需要以快速、标准化的方式培训新员工。为此,他们制定了明确的标准操作流程,用以指导每位客服的工作。这些标准操作流程提供了清晰的规则和指南,AI智能体可以据此建模。这使其与大多数其他企业工作区分开来——后者通常周期更长、定义更模糊,并且涉及比“客户—客服”多得多的利益相关者。
支持也是企业职能中投资回报最清晰的领域之一。支持部门运营基于可量化的指标:处理的工单数量、客户满意度评分和解决率。任何针对现状与AI智能体的A/B测试都会得出对AI智能体有利的结果:它能够处理更多工单、提高解决率、提升客户满意度——而且成本更低。由于大多数支持工作已经外包给业务流程外包公司,采用AI解决方案所需进行的变革管理有限,这使得采纳路径容易得多。
支持也不需要100%的准确率才能发挥作用,因为它有天然的向人工转接的出口(例如,“我将把您的问题转给经理”)。这使得销售周期更快,试点AI支持智能体的风险相对较低;最坏的情况下,100%的案例只会被转接并由人工解决。
最后,支持本质上是交易性的。客户并不在乎电话另一端是谁,这意味着支持工作不需要AI难以复刻的人际关系。
3)搜索
最后一个具有明确企业市场拉动的横向类别是搜索。ChatGPT的主要用例本身就是搜索,因此搜索的影响很可能已大量体现在ChatGPT的收入和使用数据中,并且很可能在此被严重低估。
AI搜索作为一个类别非常宽泛,它催生了许多独立的大型初创公司。许多企业内部的痛点之一是:让员工能够在分散的各个系统中简单地定位和提取相关信息。Glean就是这一用例的主要初创供应商。许多大型行业也基于非常具体的行业信息(包括内部和外部)运作,而像Harvey(始于法律搜索)和OpenEvidence(始于医疗搜索)这样的公司,正是围绕这一核心功能发展壮大的。

二、行业
1)科技
迄今为止,采用AI最为普遍的行业是科技行业。ChatGPT自身报告称,其27%的企业用户来自科技行业,而Cursor、Decagon和Glean等公司的早期客户也多为科技公司。这完全不令人意外,因为科技行业几乎总是早期采用者,并且正是它掀起了这波AI浪潮。
更令人惊讶的是,那些历史上不被视为早期采用者的市场,这次却表现出极大的热情。
2)法律
法律出人意料地成为AI领域的先行行业之一。法律市场向来被认为是软件难以攻克的市场,销售周期长,买家对技术的接受度较低。
这是因为传统企业软件为律师提供的价值有限:静态的工作流工具无法加速律师通常从事的非结构化、细致入微的工作。但AI使技术对律师的价值主张变得清晰得多。AI擅长解析密集文本、对大量文本进行推理、总结和起草回复——这些都是律师的日常工作。AI现在常常充当副驾驶,提高单个律师的生产力,但已经开始超越这一范畴:在某些情况下,它实际上可以通过让律所处理更多案件来创造收入(例如专注于原告方业务的Eve)。
结果显而易见。Harvey在成立后3年内报告的年化经常性收入约为2亿美元,而像Eve这样的公司拥有超过450家客户,并于今年秋季达到了10亿美元的估值。
3)医疗
医疗是另一个对AI的反应与对传统软件截然不同的市场。像Abridge、Ambience Healthcare、OpenEvidence和Tennr这样的公司,凭借医疗听写、医疗搜索或后台自动化(处理那些规定医疗服务和支付方式的复杂规则)等具体用例,收入增长极为迅速。
医疗行业历来采用软件的速度较慢,原因在于:1)高技能、复杂的工作与传统的流程软件所能解决的问题难以匹配;2)像Epic这样的电子病历记录系统占据主导地位,挤压了新的软件供应商。然而,借助AI,公司能够承担离散的人力工作,通过替代行政工作(例如,医疗听写员)或增强医生所做的高价值工作,绕开了记录系统。这些工作足够独特,无需替换电子病历系统,使得这些公司能够快速扩张,而不必替换现有的软件供应商。
4)关于分析的一些说明
这些估算都是最佳估计。它们可能低估了每个类别产生的收入,也可能高估了模型的能力。
我们可能低估收入,因为:
收入分析纯粹基于那些已经成功发展到足以产生大型独立企业AI业务的行业和用例,排除了其他初创公司正在解决的众多长尾用例。
这些市场中有不少规模可观的非初创公司也在产生可观的收入(例如,编码领域的Codex/Claude Code,法律领域的汤森路透CoCounsel),但我们的分析集中在独立初创公司身上。
我们分析中阐述的许多工作任务可能已融入模型公司的核心产品中(例如,ChatGPT和OpenAI中的搜索功能),但本文分析并未将其拆分纳入。
本分析聚焦于企业业务,而非消费者或专业消费者业务。存在一些成功的公司(例如,应用生成领域的Replit和设计领域的Gamma),它们拥有大量企业用户,但目前主要聚焦于消费者或专业消费者市场。鉴于本分析专注于企业AI以及企业正在获取价值的领域,我们排除了以消费者为主导的业务。
在能力方面,衡量AI对经济不同部门的影响极其困难,尽管许多经济学家正在尝试。工作本身定义模糊且长尾,使其极难完全自动化。而且,目前尚不清楚企业能从部分自动化中获得多少价值——如果AI只能完成人类50%的任务,那么不可自动化的任务的重要性可能会上升,因为它们成为瓶颈,其相对价值也随之增加。因此,我们可能高估了当前的能力水平,因为每增加1%的能力并不意味着1%的经济价值,但指出相对能力以及它们随着每个新模型版本的发布而如何改进,仍然具有说明意义。
三、AI正席卷所有市场
该分析衡量了通过GDPval基准测试的、顶级评估模型相对于人类专家的胜率。基于此,可以清楚地看到,自2025年秋季以来,模型在经济价值工作方面的能力有了显著提升。
那么,为什么我们还没有看到所有在该评估中排名靠前的行业都拥有与其他行业类似的收入势头呢?
迄今为止积极采用AI的行业有一些共同点:它们基于文本,涉及机械性和重复性工作,天然拥有人机协作环节以注入人类判断,监管有限,并且具有清晰可验证的最终产出(例如,可运行的代码、已解决的客服工单)。许多行业不具备这些特性。它们要么涉及物理世界,要么严重依赖人际关系,要么在众多利益相关者之间存在明显的协调成本,要么存在监管或合规障碍,要么缺乏可验证的结果。而且,尽管收入势头和模型能力明显相关,但在模型能力理论上与人类相比胜率低于50%的领域(例如法律),像Harvey这样的公司仍然能够通过提供副驾驶产品来增强个人法律工作,从而迅速获取市场份额,并随着模型的演进不断改进其核心产品。
最值得注意的发现是,模型能力正在快速提升。在过去4个月中,有多个领域显示出显著改善——会计和审计在GDPval上的得分跃升了近20%,甚至警察/侦探工作等领域也显示出近30%的改善。我们预计这些跃升将在相关领域催生出引人注目的新产品和新公司。此外,模型公司已经明确声明,他们打算提升在经济价值工作方面的核心能力,包括在电子表格和财务工作流上进行核心工作、利用计算机使用来解决遗留系统和行业中的棘手问题,以及在长期任务上取得有意义的进展——这将打开一个全新的工作类别,这些工作无法轻易被切分成短小、易消化的片段。
四、对构建者的启示
了解企业正在从哪里获取价值、它们如何看待投资回报,以及哪些行业明显存在需求拉动、哪些尚待开发,可以让我们更清晰地思考AI构建者的机会在哪里。
服务于科技、法律和医疗买家显然是当下的沃土,但我们不认为每个类别中只会有一个“赢家”。以法律为例,存在多种类型的律师——公司内部法律顾问、律所律师、专利律师、原告方律师等——他们都有不同的工作流程和不同的需求,公司可以针对性地解决。医疗行业也是如此,因为存在不同类型的医生、医疗机构等,构成了一幅拼图。
除了这些行业,另一个富有成效的思考方式是:哪些领域的能力正在变强,但尚未出现收入层面的突破性公司。许多现有的企业是在模型能力真正解锁产品之前建立的,但它们已经建立了足够的技术基础设施和客户/市场认知,因此在模型能力迎来突破时,它们占据了最大的优势。
最后,关注各实验室在经济价值工作方面的最新研究重点也很重要。随着长期任务智能体的快速改进、对计算机使用的实质性投资,以及对文本之外模态(如电子表格、演示文稿)可靠接口的研究,将有一整类新的初创公司很快获得所需的基础设施,从而产生可观的企业价值。
【本文翻译自a16z】


夜雨聆风