AI暗产出:无形产出的有形代价

AI暗产出:无形产出的有形代价 | SemiAnalysis

为何AI日益增长的产出将成为经济史上最难衡量的问题之一。AI"暗产出"或将占据经济活动的大多数，却极难被测量。

Malcolm Spittler 与 Dylan Patel2026年5月29日

1980至90年代，宏观经济数据无法检测到新兴计算机革命的贡献。罗伯特·索洛有句名言："你能在任何地方看到计算机时代的身影，唯独在生产率统计数据中看不到。"然而，尽管经历了互联网泡沫的兴衰，"漂亮七姐妹"如今的市值已是整个欧洲的1.8倍。类似的问题正在AI领域上演——宏观经济数据尚无法捕捉AI创造的价值，而媒体头条、公众舆论和世界各国政府却急于统计以美元、瓦特、加仑和就业岗位计量的成本。

2013年一次不起眼的方法论修订，将研发和知识产权投资纳入GDP核算，使1990年代的总产出提升了约3.6万亿美元。在官方账目中，这一增量被均匀分摊，因此增长率仅略有提升，但这一数字相当于2000年全年GDP的近30%。AI带来的测量问题规模远超以往，我们将AI所做而国民账户目前无法呈现的工作称为暗产出。由于AI新产出高度集中于服务业——而国家统计数据在捕捉服务业生产率增长方面本就存在长期不足——其中更大比例的新产出很可能是不可见的。

候任美联储主席凯文·沃什在2025年12月承认了这一点："如果你只盯着数据，我认为你是在向后看。你会落后于形势。你不会意识到这个国家有能力实现更快的非通胀性增长。所以你必须做出判断。"随着AI增长向更活跃的资本市场融资转型，任何未能显示AI成果的指标都将受到泡沫论者的质疑。

何为暗产出

AI的产出将在可被测量之前就已真实存在。

我们能捕捉到令牌消耗，也能捕捉到失业人数。但除非AI的产出以可见的价格出售，否则GDP中只会记录令牌消耗。通常情况下，当某物价格崩溃，我们能看到这种通缩并将其定义为生产率提升。但由于服务业众所周知的统计难题（见附录一），GDP反而会将其记录为产出下降，价格甚至可能显示通胀。就像构成宇宙的暗能量一样，暗产出很可能只能通过其对其他经济要素的影响来间接感知，而无法被直接观测。其中最显而易见的影响之一，是我们目前正在"暗产出监测仪"中追踪的就业替代现象。

我们正面临一场堪比工业革命规模的事件——大多数新产出是不可见的，即便企业正在为AI服务投入越来越大的资金。

暗产出的类型

**暗产出是指AI创造的经济价值确实存在，但在GDP、价格、劳动统计或行业账户中不可见或严重失真。**我们将其分为两类：

替代型暗产出，是指原本由人类完成、现在由AI完成的工作。在我们的暗产出监测仪中，我们已识别出约1.5万亿美元规模的任务，具备被当代AI实质性增强或自动化的潜力。

新增型暗产出，是指AI完成的全新工作——这些工作此前从未由人类完成过（很可能是因为在AI使其廉价化之前，成本过高而无法实施）。从长远来看，这一类型的规模很可能远超替代型。

在这两种情况下，价值都真实存在，只是统计体系看不见它。这并非新问题（见附录一）。

替代型暗产出

以一份简单的法律文件为例。从理论上的GDP角度看，无论由律师起草还是AI起草，对用户而言其经通胀调整后的价值应当相同。但服务业的GDP和通胀难以估算（见附录二），"法律服务"并没有统一的计量单位，有的只是律师事务所的收费记录和对企业的服务成本调查。

当AI接管这项任务时，收费记录随之消失——成本被折算成令牌费用沉入另一个行业。而当政府官员向律师事务所调查服务价格时，或许会发现平均价格反而上涨了——因为最简单的文件现在由AI完成，律师只处理复杂案件。从GDP的视角来看，这笔交易实际上已经消失，留下的只有另一个不相关经济部门里那几美元的令牌费用。

除住房外，大多数服务在国民账户中都通过这种收费记录与价目表体系来衡量，再用支出除以价格来反推完成的"任务数量"。这种核算方式不允许体现生产率提升。当账户记录到收入下降时，会将其解读为产出减少。

一份基本遗嘱的价格随着技术变革已经下降了几代人，但由于变化是渐进的，引入的误差相对较小——30年内从400美元降至150美元，每年不到5%的降幅尚在可接受范围。但从150美元到一年内降至0.5美元，成本降幅超过99%——前者引入偏差，后者则让数据直接消失。法律服务价格直到1987年才被纳入CPI，自那以来（截至2024年9月），价格指数已上涨4.6倍。这个价格指数实际上是一个就业成本指数，因为它从未考虑过生产率的提升。

新增型暗产出

与之相对，新增型暗产出是指AI使某项工作廉价到足以完成之前，这项工作根本不曾发生过。没有工资单消失，因为没有任何企业或家庭会按现行工资水平雇人完成这项工作。例如，当文献综述的成本从2000美元降至2美元时，我们不会做同样数量的综述然后把节省的钱装进口袋——我们会在每个项目开始前都做一次！

对收件箱里过去六个月围绕某一主题的邮件进行汇总是有价值的。在面试前进行一次学术文献检索是有价值的。两者都能创造真实价值，但除了让这项任务廉价到得以运行的令牌、API调用、云服务支出或订阅费，都不会留下清晰的经济痕迹。

有零散迹象表明，当前令牌消耗中有很大一部分用于此前从未被付费完成的新工作，而非替代现有工作。但其确切规模难以捉摸，因为它藏身于令牌的匿名幕后。即便掌握完整的对话记录，识别某项具体AI任务是否创造了价值、创造了多少，都可能十分困难——国民账户充其量只能看到AI的收入。

可被捕获的AI产出

最后一类是：原本由人类完成、现在由AI完成，但仍能维持原有收费水平的工作。这种"可捕获的AI产出"只存在于企业拥有真正市场定价权、能够在成本下降的同时保持价格的领域。

设想两种场景：第一，一家企业过去向外部服务商购买价值1万美元的人力资源服务，现在以同样的1万美元向AI人力资源服务商购买。在这种情况下，产出仍被纳入国民账户，消失的只是工资和员工。第二种情况，这项价值1万美元的服务现在由企业内部用10美元的令牌完成。在这种情况下，GDP下降了9990美元，尽管完成的工作完全相同。

为何服务业不同于制造业

制造业自动化给统计学家提供了可数的对象。如果机械工人生产螺钉的效率提高了，工厂会如实汇报他们生产了更多螺钉、成本更低或利润率更高。实际GDP可以上升，因为它以产出数量为基础。因此，尽管过去6个世纪螺钉的价格下跌了99%以上，我们仍能统计出螺钉的产量也增长了约100亿倍。实际GDP正确地将此记录为增长和生产率提升。

然而，我们缺乏描述服务和脑力劳动"单位"的有效词汇。尽管它很有用，但并没有"脑力"这样的度量单位，能像"马力"之于工业革命那样衡量AI的产出。马力为人们提供了一种将机器产出与畜力、人力相比较的方式。令牌做不到这一点。一百万个令牌可以产生垃圾内容、有用的邮件摘要、一份法律文件，或者改变公司战略的决策。经济价值取决于产出内容，而非令牌数量。

暗产出的"指纹"

AI评论中的一个普遍观察是：初级员工最先从例行工作中被替代。其推论是：在受AI影响的职业中，平均工资可能上升——因为薪资较低的员工离开了样本。最廉价的工人从数据中消失了。没有人获得加薪，工资却上涨了。

AI敞口最大的经济部门的就业人数，正在相对于整体经济而下滑。然而，这些表现落后的领域却呈现出相对工资上涨的迹象。

就业与工资之间的这种错配，是我们在暗产出仪表板中追踪的AI替代"指纹"之一。这并非对暗产出的直接测量，而是暗产出变得普遍后会产生的那种奇特测量异象。

新增型暗产出的初步迹象之一，是令牌使用量在劳动力尚未出现快速恶化迹象的经济领域高度集中。Anthropic 2026年3月发布的《经济指数》显示，37%的令牌被用于计算机与数学领域，然而来自软件投资对GDP的贡献并未突破AI前的趋势线，甚至未曾创下历史新高。

为何我们使用市场信号而非基准测试

基准测试回答的是错误的问题，而且回答得很慢。专家评估询问的是AI能否在测试条件下令评估者满意——而评估者往往期望专家级别的工作。这种评估代价高昂、耗时漫长、主观性强，而且因为专家时间稀缺，本质上是向后看的。

劳动力增强和替代，并不要求AI击败最优秀的律师、分析师或工程师。它只需要AI足够好、足够便宜、足够可靠，能够辅助或替代那些按现行工资完成这项任务的普通工作者。这正是我们监测企业关于自身业务实践的公开声明，而非抽象声称另一家公司能做什么的原因。

证据阶梯

市场信号的可信度参差不齐。第一、二层是基准驱动型，表明模型能在测试条件下完成任务，我们仅用其估算AI完成任务的成本。第三层是炒作层：企业公开声称其产品或公司能胜任这项工作——不幸的是，这也是人工核验的基准层。

在我们看来，企业声称工具已在生产环境中使用，是比模型基准更强的证据。在法庭上成功为AI工作产品辩护，证据强度更高。保险公司为相关风险承保，则是最强的信号——因为第三方已对失败模式定了价并承担了风险。我们在暗产出监测仪中的分析，将这些视为一个证据阶梯，而非非此即彼的判断。

从劳动力敞口到暗产出

1.5万亿美元的估算基于证据阶梯第四层及以上的证据。这并非主张有1.5万亿美元的劳动力已经消失，而是主张与约1.5万亿美元劳动力成本相关的任务，处于当前AI具备可信替代潜力的类别之中。这个数字应被理解为劳动力敞口，而非缺失的产出。

我们迄今尚未看到第五层或第六层的活动案例，这应被视为对AI乐观主义的一个警示。目前我们收集的大多数证据，指向的是AI增强，而非AI替代。

当AI辅助或接管一项任务时，产出并不会自动消失。只有在价格下降，或者任务从外部购买转移到购买方内部自行完成时，它才会从国民账户中消失。如果市场缺乏竞争，企业仍可按人工作业时的价格收费，价值会以利润率爆炸式增长的形式被捕获，并在国民账户中得到正确体现。

暗产出监测仪能说明什么，不能说明什么

我们的暗产出监测仪目前呈现的是一张压力地图，而非对裁员或暗产出的预测。它识别的是企业有动力从人力劳动转向AI劳动的领域——尤其是成本差距最大的地方。

它追踪任务、职业、工资、证据层级、令牌成本和可能的全职当量替代。这些都是劳动力侧和投入侧的指标，足以显示转型从哪里开始；而在大量令牌被使用却未导致劳动力流失的领域，我们得到了新增暗产出正在被创造的线索。

高敞口行业并不意味着就业已经消失，而应被理解为：该行业的替代经济逻辑已清晰可见——任务可识别，工资池庞大，市场证据充分，令牌成本低到足以产生影响。至于需求弹性是否足够大，足以让新产出和劳动力增强维持接近历史水平的就业，还是公民、法律和政府压力足以阻止这一转型，只有时间才能告诉我们答案。

一个有益的对照是自动驾驶汽车的缓慢推广——文化、保险和市场结构方面的挑战，与基础技术难题同等重要，甚至更为关键。

统计数据在哪里失灵

有多种测量误差可能导致产出"变暗"。不同的经济数据集会以不同方式捕捉这些误差。将所有这些失败都归结为"GDP遗漏了AI"，会让问题看起来比实际更简单。

边界位移：原本在市场上购买的工作，转移到企业或家庭内部。一份付费的研究简报变成了内部AI工作流。一项外包任务变成了员工的提示词。价值可能依然存在，但让其可见的交易消失了。

价格崩溃：服务业没有真正独立的数量与质量衡量方式，只有收入、工资和工时被记录，而非数量本身。没有法律服务的标准单位，没有文献综述的公吨，没有咨询的桶装计量。如果账户看到的是收入下降（因为价格下跌）和平均工资上升（因为初级员工被替代），它会将其解读为通胀上升、生产率和产出下降。这些是真正棘手的问题，但技术进步无疑在服务业带来了生产率提升。当这些提升相对缓慢和稳定时，问题尚小；而如今生产率飙升，且似乎仍在加速，问题的规模就截然不同了。

行业路由错误：当AI在一个行业创造价值，但交易却出现在另一个行业时，就会发生行业路由错误。账户最终只数了螺钉，却忽略了用这些螺钉建造的房屋。一家医院可能用AI更快地处理文书工作，但如果AI唯一出现的地方是AI公司或软件提供商的收入，就会扭曲国家统计数据。按行业分类的GDP会让AI供应商看起来是价值的来源，而采用方行业则显得停滞不前。

新工作不可见性：如果除了令牌之外没有任何收据，那么工作只以令牌成本可见。真实的经济工作正在进行——我们因为AI用几个令牌为对面那个人写了一份背景简报而更好地准备了一次会议——但这种价值无处可寻。即便在几年前，用美元和工时来估算现在花几便士、几分钟就能完成的许多任务的成本，也显得荒谬。任何合理的宏观经济衡量标准，都必须以某种方式将此纳入考量，否则AI繁荣在数据上或许会被读作AI萧条。

宏观数据是我们观察经济的最佳窗口。破坏它将带来错误

宏观数据是我们观察经济的最佳窗口。它始终不完美，总在追赶经济变化的脚步。但它是投资者判断繁荣是否真实的依据之一，是政策制定者权衡失业与通胀的参考之一，也是企业决定是招聘、自动化还是建设的基础之一。如果AI切断了劳动力、产出、价格和行业之间的数据纽带，决策质量将随之下降。风险在于，即便数据的准确性日益降低，我们仍继续使用同样的数据。

经济对AI的成本一目了然：数据中心、GPU、电力、水资源和令牌支出，皆肉眼可见。要弄清楚令牌支出代表的是持久的真实经济产出，还是企业在玩弄一件闪亮的新玩具，对于做出正确决策至关重要。

监测不可见之物：未竟之路

暗产出监测仪向我们展示了这一问题中可测量的一角。它照亮了可能被替代的劳动力，以及令牌成本已低到足以产生影响的领域。我们将继续寻找暗产出的其他"影子"，并将其纳入监测仪。

这些测量误差不能只停留在一个仪表板里。如果AI创造了我们的统计数据看不见的真实价值，所有人都有责任学会如何衡量它。有了可见的成本和收入，却没有可见的产出，批评者就可以将AI斥为泡沫而拒绝适应。政治家和投资者需要方法，在劳动力税基弱化之际，对新形式的产出进行分类、定价和征税。AI有潜力为社区创造可共享的盈余，但它同样为工人和政府带来了冲击。

暗产出并非否定AI成本的理由，而是呼吁我们着手测量账本的另一面。劳动力替代、电力需求、水资源消耗和土地使用，如今清晰可见；令牌支出，如今清晰可见。产出，则更难看清。廉价的螺钉变成了可计量的产出。廉价的AI工作，也许不会。如果AI正在创造一场工业革命规模的事件，我们需要的经济数据，必须能看见的不只是它所造成的替代与冲击。

附录一：AI与女性主义经济学

有一个值得明确点名的经济学先例：护理经济学，以及更广泛的女性主义经济学传统。它帮助我们认真思考那些在GDP中没有任何记录条目的商品和服务。即便承认现有GDP是评估AI经济影响的正确指标，如果AI在仅消耗少量令牌的同时产生了巨大的消费者剩余、却替代了大量正式产出，结果仍会被误读。斯蒂格利茨委员会在2009年明确指出了这一点，他们关于GDP是福祉的糟糕替代指标的判断是正确的。

女性主义经济学文献大规模记录了这些问题。玛丽琳·沃林在1988年揭示，起草最初国民账户体系的委员会成员中，91.7%为男性。创始文件中的一句话将女性大量的经济贡献——抚养子女、维持家务、照料老人和病人——定性为对国民账户"几乎没有或毫无重要性"。邓肯·艾恩蒙格估算，澳大利亚的家庭经济规模相当于其整个市场经济的78%。英国国家统计局将家庭生产估算为GDP的63.1%。国际劳工组织估计，每天有164亿小时的无偿护理工作，价值11万亿美元，是全球科技行业的三倍。按照国民账户的惯例，这一切的价值均为零。

这不是遥远的历史，也不是已解决的方法论争论。它是同一条生产边界——经过更新但结构未变——即将以工业规模遭遇AI生成产出的现实。AI可能将大量工作从"有价格的生产"推入"无价格的生产"，使成本与生产脱钩。

经济学家玛格丽特·里德在1934年提出了一个至今仍是最锋利的诊断标准：如果一项工作可以委托给有偿第三方完成，它就是有生产性的。当一个家庭雇佣家政人员时，这项家务进入GDP；当家庭成员自己做同样的工作时，则不进入GDP。行为完全相同，核算方式却完全取决于是否有金钱交换。

AI让几乎所有信息任务都变得可委托。大语言模型可以起草法律摘要、分析财务报表、撰写营销计划、处理患者投诉分级、生成代码或编写研究摘要。在每种情况下，这项工作此前都由有偿的人类完成，并被纳入GDP统计。

如果今天让AI为一次医疗会诊做记录，这笔交易唯一可能出现在国民账户中的地方，是埋藏在AI公司账单里的某一行。没有任何地方以可供正确计算通缩或产出的方式，记录这种使用本身。我们始终在用同一把旧GDP尺子，而生产函数却将越来越多的经济活动推入暗产出的无人之地。

关于我们自身框架从这段历史中继承了什么，需要坦诚说明。替代型暗产出仅衡量有偿市场劳动：BLS工资、BLS就业数据、ONET工作活动。它不衡量AI对无偿护理工作、家庭生产或非正规经济的影响。我们援引沃林和艾恩蒙格，是为了说明生产边界是人为构建的、充满政治争议的，然后建立了一套完全在这条边界内运作的测量体系。这是一个深思熟虑的选择，而非疏漏。衡量市场劳动力替代的数据基础设施（BLS、ONET、雇主调查）已经存在且可供审计；衡量家庭AI采用的基础设施则不存在，凭空创造它只会将不确定性叠加于不确定性之上。但这一局限是真实的。暗产出复制了一个已知的排除项。国际劳工组织记录的每日164亿小时无偿护理工作，在我们的框架中和在我们所批评的框架中同样不可见。我们并不否认这一点。

我们的核心观察是：这些替代性框架所记录的问题，即将变得更加严重。我们所衡量的许多替代，也可能不成比例地落在女性就业比例较高的职业上（行政工作中72%为女性，BLS数据）。我们尚未按性别分类，但这是一个合乎逻辑的延伸方向。

所有在非交易性生产领域的AI使用，都是另一种形式的暗产出。当有人借助AI更快、更轻松或更好地完成一项家务时，这项活动并未从"有价格的生产"转入"无价格的生产"；它只是扩大了"无价格的生产"经济体的规模。

附录二：服务业统计的局限

自1990年格里利彻斯会议以来，服务业核算有所改善，但局限于特定领域。BLS扩大了服务业生产者价格指数的覆盖范围，到2009年PPI服务覆盖率超过服务业的70%；2014年，总体PPI体系转向最终需求-中间需求框架，将服务、建筑、政府采购和出口纳入其中。BEA采用了链式费雪数量和价格指数，将GDP-按行业与投入产出账户整合，将软件和研发资本化，并改善了金融、保险、研发等复杂行业的处理方式。

但核心问题依然存在。BEA仍表示，大多数详细的NIPA组成部分是以美元衡量的，而非以单位衡量，因此实际数量通常通过用价格指数平减当期美元支出来估算。当交易、产品和价格指数描述的还是同一件事时，这种方法尚能运作。但当AI将服务工作转移至订阅、令牌或内部生产时，它就会失灵。账户能看到收入、工资和抽样价格，却不一定能看到那份法律备忘录、文献综述、人力资源任务或代码审查是否仍然完成了。它也没有质量单位——如果一份由AI增强的文献综述详尽程度是以前的10倍，目前没有任何方法能够捕捉这一事实。