95%的企业AI试点项目失败?a16z报告反证

来源：创头条New，书享界（readsharecn）

作者：Kimberly Tan，Andreessen Horowitz(A16Z)合伙人

导语

外界常对企业AI落地持悲观论调，MIT此前有报告更是称，95%生成式AI试点失败。基于内部数据与企业调研，硅谷‌的顶级风险投资公司a16z发文披露，财富500强近3成、全球2000强近两成已正式付费使用企业AI，颠覆传统技术渗透规律。

报告拆解了AI落地最成熟的三大场景——代码、支持、搜索，以及科技、法律、医疗三大核心行业，揭示其快速落地的底层逻辑。报告还认为，AI模型能力正指数级提升，多个领域即将迎来爆发。

以下为全文：

关于人工智能究竟在多大程度上真正打入大型企业内部，外界一直存在大量猜测。

但现有的绝大多数信息，仅仅是企业自行报告的AI使用情况，或是一些捕捉采购方主观态度的定性调研，而非确凿的数据。

此外，少数已有的研究断言AI在企业中表现不佳，其中最引人注目的是麻省理工学院的一项研究，该研究称，“95%的生成式AI试点项目都未能成功落地推广”。基于我们的内部数据以及与企业高管的交流，我们认为这一数据令人难以置信。

我们一直在密切追踪AI应用最广泛、投资回报最明确的领域，并整理出了企业AI领域中真正行之有效的硬核数据。

AI在企业中的渗透情况

根据我们的分析，29%的财富500强企业以及约19%的全球2000强企业，已经成为某家头部AI初创公司的正式付费客户。

这一统计口径的标准是，这些企业必须与AI初创公司签订自上而下的正式合同、成功完成试点转化，并已在组织内部正式上线产品。在如此短的时间内达到这一渗透水平相当惊人，因为财富500强企业向来不以技术早期采用者著称。

以往，许多初创公司最初只能向其他初创企业销售以获得早期增长，往往要过数年才能拿下第一笔企业级合同，再投入大量收入与时间，才有可能最终服务财富500强级别的客户。AI颠覆了这一常规。

OpenAI于2022年11月推出ChatGPT，立即向消费者与企业同时展现了AI的巨大潜力。由此引发的AI热潮是以往任何一代技术都未曾激起的，大型企业也比以往任何时候都更早愿意押注新兴产品。

结果是，仅仅三年多后，近三分之一的财富500强企业、五分之一的全球2000强企业已在组织内部实现真正的企业级AI部署。

（数据方法：本数据整合自头部企业级AI初创公司，包含为本次报告向我们共享的企业私密数据、公开信息，以及a16z与数千家初创公司及大型企业交流中分析得出的匿名数据。）

企业AI中真正见效的领域

AI应用增长最快的地方在哪里？又如何与模型天生更擅长的工作相匹配？我们发现，最具指示性的评估方式，是将各应用场景的收入增长势头，与GDPval基准定义的模型理论能力进行叠加。

GDPval是OpenAI推出的知名基准，用于评估模型在现实世界高经济价值任务上的能力。

在我们看来，这两个因素既体现了模型理论上能做到多好，也反映了它们当下实际创造的价值。这能清晰说明AI当前落地情况、未来走向，以及为何有些领域模型能力已成熟，但应用仍存在滞后。当下企业AI在哪些领域价值最突出？从收入增长来看，企业AI应用明显集中在一批特定场景与行业。代码开发、客户支持、智能搜索占据了绝大多数应用份额（其中代码开发更是远超其他类别一个数量级）；而科技、法律、医疗行业则是采纳AI最积极的领域。

代码开发

代码开发是AI的主导应用场景，规模几乎高出其他场景一个量级。从Cursor等公司的爆发式增长，以及Claude Code、Codex等工具的高速扩张中都能清晰体现。

这些增速几乎超出所有人最乐观的预测，目前财富500强与全球2000强企业采用的AI工具中，绝大多数集中在代码领域。从多方面看，代码都是AI的理想应用场景，既符合技术能力，也契合企业市场接受度。

代码数据密度高，互联网上存在海量高质量代码供模型训练；同时基于文本，易于模型解析；语法严谨、结果可预测；更关键的是可验证——任何人都能运行并判断是否有效，形成紧密反馈环，帮助模型持续学习优化。从商业角度看同样极具价值。我们持续从被投企业处获悉，顶尖工程师使用AI编码工具后，生产力提升10–20倍。

工程师招聘向来困难且昂贵，因此任何提升效率的方式都有明确投资回报，而AI编码工具带来的提升幅度更是形成了极强的采用动力。

工程师群体本身也偏向早期使用者，追求顶尖工具；且编码工作相比多数企业工作更偏独立执行，他们更容易直接选用最佳工具，而不必陷入企业内部其他部门常见的协调与官僚流程。此外，编码工具不必100%端到端完成任务即可创造价值，任何加速环节（如查找bug、生成模板代码）都能节省时间。

同时编码存在紧密的人机协作流程，开发者仍会监督开发过程，工具在提升产出速度的同时，也保留人工判断、审核、编辑与迭代空间。这既提升企业信心，也让落地路径更顺畅。模型编码能力正呈指数级提升，所有实验室都明确将代码场景视为核心战场。

这影响深远：代码是所有应用的上游，是所有软件的核心构建块，因此AI对代码的加速影响，终将传导至所有其他领域。

这些领域的开发门槛降低，将解锁更多AI应用机会，但同时也让构建持久竞争优势对初创公司变得前所未有的重要。

客户支持

客户支持与代码开发形成鲜明对比。软件工程往往在企业中获得最多投资与关注，而支持工作常被忽视。支持部门多为后台基础工作，常被外包给离岸机构或业务流程外包公司（BPO），因为企业认为其繁琐且管理复杂。AI在处理这类工作上表现异常出色，原因如下：

首先，多数支持交互具有时效性，意图明确（如办理退款），问题边界清晰；

其次，支持是少数任务定义非常清晰的企业职能；

支持团队工作量大、人员流动率高，需要快速标准化培训新员工，因此具备明确的标准作业流程（SOP），这些流程恰好便于AI模型学习模仿。

这与多数企业工作不同，后者往往周期更长、定义模糊、涉及客户与客服之外的多方利益相关者。支持也是最容易体现投资回报的企业职能之一。

支持工作可量化指标明确：工单处理量、客户满意度（CSAT）、解决率等。任何将现状与AI客服进行A/B测试的结果都会偏向AI：处理更多工单、提升解决率、提高客户满意度，且成本更低。

由于多数支持工作已外包给BPO，采用AI方案带来的变革管理成本有限，落地难度更低。支持工作也不要求100%准确即可发挥价值，因为存在自然转人工的出口（如“为您转接主管”）。这让销售周期更快，试点AI客服的风险相对较低；最坏情况下，所有问题仍可转由人工处理解决。最后，支持本质是事务性工作。客户并不在意线另一端是谁，因此不需要AI难以复刻的人际情感关系。这也解释了为何Decagon、Sierra等公司，以及Salient、HappyRobot等垂直领域支持服务商增长如此迅速。

智能搜索

第三个具备明确企业市场需求的通用领域是搜索。ChatGPT本身的核心用途之一就是搜索，因此搜索带来的影响已大量体现在ChatGPT的收入与使用量中，实际价值可能被严重低估。AI搜索作为一个大类覆盖面极广，已催生出多家独立大型初创公司。许多企业内部的核心痛点之一，是让员工能够在分散的系统中查找并提取相关信息。

Glean正是这一场景下的头部初创厂商。许多大型行业依赖高度专业的行业信息（内部与外部），Harvey（始于法律搜索）、OpenEvidence（始于医疗搜索）等公司也围绕这一核心迅速崛起。

行业应用情况

科技行业

迄今为止，采纳AI最普遍的行业无疑是科技行业。ChatGPT公开数据显示，其27%的商业用户来自科技领域，Cursor、Decagon、Glean等公司的早期客户也多为科技企业。这完全在意料之中，科技行业几乎永远是技术早期采用者，也是掀起AI浪潮的源头。更令人意外的是，一些历史上并非技术早期采纳者的市场，这次表现得异常积极。

法律行业

法律行业意外成为AI的先行者之一。传统上，法律市场对软件而言难度较高，采购周期长、客户对技术接受度偏低。原因在于传统企业软件对律师价值有限：静态流程工具无法加速律师所从事的非结构化、高细节性工作。但AI让技术对律师的价值变得清晰。AI擅长处理密集文本、对大量内容进行推理、总结与起草回复——这些都是律师的日常工作。

如今AI常作为助手提升律师个人效率，甚至更进一步：在部分场景下可直接创收，让律所处理更多案件（例如专注于原告律所的Eve）。成果显而易见。Harvey成立三年内年化 recurring revenue（ARR）达到约2亿美元，Eve等公司客户超450家，并在今年秋季估值突破10亿美元。

医疗行业

医疗行业对AI的响应热情，也远超其对传统软件的态度。Abridge、Ambience Healthcare、OpenEvidence、Tennr等公司，凭借医疗笔录、医学检索、复杂医保与交付规则的后台自动化等细分场景，收入实现高速增长。医疗行业历来软件采纳速度较慢，原因有二：

一是高技能复杂工作与传统流程软件解决的问题不匹配；

二是Epic等电子病历系统占据主导，挤压新软件厂商空间。但借助AI，企业可以切入具体人力工作，绕开核心系统，要么替代行政工作（如医疗笔录），要么辅助医生开展更高价值工作。

这类工作独立性强，无需替换现有电子病历系统，因此相关公司可快速扩张，不必取代原有软件供应商。

关于分析的几点说明

这些估算为最佳推测，可能低估了各领域实际收入，并高估了模型当前能力。我们可能低估收入的原因包括：• 收入分析仅基于已成功成长为大型独立企业AI公司的领域与场景，未包含大量长尾应用场景；• 许多市场存在大量非初创类玩家并创造可观收入（如代码领域的Codex/Claude Code、法律领域汤森路透的CoCounsel），但本次分析聚焦独立初创公司；• 许多工作任务已整合进模型公司核心产品（如ChatGPT与OpenAI的搜索功能），但未单独拆分纳入统计；• 本分析聚焦企业级业务，而非消费或高端个人用户业务。部分成功企业（如应用生成领域的Replit、设计领域的Gamma）拥有大量企业用户，但当前仍以消费或个人用户为主，因此未纳入。在能力层面，尽管众多经济学家正在尝试，但衡量AI对经济各领域的影响极为困难。工作本身定义模糊、长尾特征明显，难以完全自动化。

目前也不清楚企业能从部分自动化中获得多少价值——如果AI只能完成人类50%的任务，不可自动化部分的重要性反而会上升，成为瓶颈并提升相对价值。

因此，我们可能高估了当前能力水平，因为每提升1%的模型能力并不直接对应1%的经济价值，但这仍能体现相对能力差异以及模型迭代后的进步幅度。

AI正在席卷所有市场

本分析通过GDPval基准，衡量顶级模型在与人类专家对比中的胜率。数据显示，自2025年秋季以来，模型在高经济价值工作上的能力已显著提升。那么，为何在评估中表现优异的行业，并未全部出现同等强劲的收入增长？目前积极采纳AI的行业具备一些共性：以文本为基础、包含机械重复性工作、存在天然的人机协作环节、监管有限、最终输出可清晰验证（如可运行的代码、已解决的支持工单）。

许多行业不具备这些特征：它们涉及物理世界、高度依赖人际关系、跨多方协调成本高、面临监管合规障碍，或缺乏可验证结果。尽管收入增长与模型能力明显相关，但在模型理论胜率低于50%的领域（如法律），Harvey等公司仍通过助手类产品迅速抢占市场，提升个体法律工作效率，并随模型迭代持续优化核心产品。最值得注意的发现是：模型能力提升速度极快。

过去四个月，多个领域出现大幅进步：会计与审计在GDPval上提升近20%，警务/侦探工作提升近30%。

我们预计这些飞跃将在对应领域催生极具竞争力的新产品与新公司。此外，模型公司已明确表示将重点提升高经济价值工作的核心能力，包括表格与金融工作流、计算机使用以解决传统系统与行业中的复杂任务，以及长周期任务的显著改进——这将打开一大类难以拆分为短片段的全新工作场景。

对构建者的启示

了解企业从何处获取价值、如何衡量投资回报，以及哪些行业需求明确、哪些行业即将爆发，能让AI构建者更清晰地判断机会所在。服务科技、法律、医疗客户目前显然是沃土，但我们不认为每个类别只会出现一个“赢家”。

例如法律行业存在多种律师角色：公司法务、律所律师、专利律师、原告律师等，各自工作流与需求不同，仍有大量可切入空间。医疗行业同理，医生类型、医疗机构多样，机会同样分散。在这些领域之外，另一个有效思路是：关注模型能力快速提升、但尚未出现收入爆发式增长公司的赛道。

当前许多成功企业成立于模型能力真正爆发之前，但它们搭建了足够的技术基础设施与市场认知，因此在模型能力突破时占据先发优势。最后，需密切关注AI实验室最新研究聚焦的高经济价值方向。随着长周期智能体快速进步、计算机使用领域投入加大，以及文本之外模态（表格、演示文稿等）可靠接口的研究，一大批新初创公司将很快具备必要支撑基础设施，为企业创造实质性价值。

点击“阅读原文”立即购买《AI启示》