中美AI竞争——数学与热力学集成化的哲学与体制之争

人工智能的竞争正在进入一个新阶段。

这个阶段的标志不是模型参数的继续膨胀，而是AI从"语言世界"向"物理世界"的战略转移。

中国信息通信研究院院长余晓晖在《求是》2026年第10期发表的《准确把握人工智能发展前沿与竞争格局》一文中指出，十五五时期，AI将深度渗透经济社会各领域，成为"共生伙伴"。

这个判断的实质是，AI与工业生产的融合将不再停留在示范项目阶段，而是进入系统性的生产力转化。

由此引出一个根本性问题：中美两国在AI上的竞争，真正的胜负手在哪里。

过去两年，公众和媒体的注意力集中在模型能力的跑分竞赛上。

但从工业AI的视角来看，这场竞争的底层逻辑与语言模型的竞赛存在本质区别。

语言模型的训练数据是互联网文本，分布相对公开，获取成本较低。工业AI的训练数据则是设备传感器日志、生产工艺参数、质量检测记录、工程师数十年积累的经验判断。

这类数据的核心特征只有三个字：非公开、强绑定、高成本。

美国AI产业选择了一条与其资源禀赋相匹配的路线：以基础模型的前沿突破为核心，以软硬件生态锁定为护城河。

英伟达GPU加CUDA软件栈加PyTorch框架构成的三位一体生态，形成了余晓晖所描述的"越用越优"的正循环。

其结果，用他的原话说——

"后来者即便单点硬件性能超越，也极难动摇其整体优势。"

这条路线的内在假设是，通用智能突破之后，工业应用是水到渠成的下游延伸。

但这个假设存在一个结构性缺陷。

美国制造业外迁持续了近半个世纪，本土工业场景日益稀疏。基础模型可以凭借互联网文本达到极高的基准测试分数，但当它面对一条具体产线的工艺优化问题时，所需要的不再是通用语料。

它需要的是：该产线上每一台设备的历史运行数据、每一次质量异常的标注记录、每一位工程师在特定工况下的参数调整经验。

这些数据不在互联网上，也不在任何公开数据集中。它们存在于工厂的本地服务器、设备PLC、质检台账和工程师的隐性知识之中。

基础模型能力再强，在缺乏这些训练数据的条件下，面对工业场景时的表现并不会自动提升。

工业AI的竞争，本质上是工业数据的竞争。

而工业数据的竞争，本质上是制度能力的竞争。

一、自由竞争的神话与数学优化的回应

在进入具体分析之前，有必要先处理一个更深层的理论问题。

两百年来，资本主义的自由竞争一直被赋予一种近乎先验的合理性：竞争带来效率，效率带来进步，进步带来繁荣。这一叙事已经内化为某种常识，以至于任何质疑竞争逻辑的尝试都会被本能地驳回。

但如果我们认真对待这个命题——自由竞争是否真的是推动技术进步的最优组织方式——就会发现它既没有哲学上的必然性，也没有数学上的最优性。

哈耶克的"知识问题"与它的技术解

自由竞争最精致的辩护来自哈耶克。

他在《知识在社会中的运用》一文中论证，经济体系所需的知识是分散的、局部的、默会的，任何中央计划者都不可能获取和处理这些知识，因此价格信号和市场竞争是唯一可行的协调机制。

这个论证在二十世纪是强有力的——在计算能力有限、通信成本高昂的条件下，市场确实是聚合分散信息的最有效装置。

但哈耶克的论证有一个隐含前提：信息聚合的技术条件是不变的。

当大规模数据采集成为可能，当深度学习可以从海量非结构化数据中提取模式，当算力成本在过去三年下降99%——余晓晖文中引用的这个数字值得认真对待——"知识问题"的性质就发生了根本变化。

它不再是一个不可解的信息问题，而变成了一个可解的计算问题。

这意味着，价格信号不再是在经济系统中传递信息的唯一方式。数据可以直接传递信息，模型可以直接从数据中学习规律，优化算法可以直接求解资源分配问题。

价格信号的优越性在于它的去中心化和低摩擦——你不需要知道一个商品为什么稀缺，你只需要知道它变贵了。

但它也付出了巨大的代价：价格只能传递稀缺性这一个维度的信息。

一个零件的材料构成、一道工艺的温度曲线、一台设备的振动频谱中蕴含的物理世界知识——价格信号完全无法承载。

当我们需要组织的不再是简单的商品交换，而是将几十万个工厂中的隐性工业知识汇聚成可训练的AI模型时，价格信号的局限性就暴露无遗了。

纳什均衡与全局最优之间的鸿沟

从数学上看，自由竞争的效率主张面对着一个无法回避的困难。

在一个由n个独立决策者组成的竞争性系统中，每个参与者选择自己的策略以最大化自身收益，给定其他人的选择。这样形成的纳什均衡满足：每个人都做了对自己最优的选择。

但计算机科学中有一个概念叫**"无政府代价"**——当每个人都只追求自身最优时，整个系统相比于可能达到的最佳状态，损失了多少效率。

在工业数据领域，这个无政府代价是惊人的。

每个企业将自身数据封锁在内部，虽然从单个企业的角度看这是在保护竞争优势，但从全局看，几十万个企业各自为战的分散数据无法汇聚成足以训练高质量工业模型的训练集。

每一个参与者做出的局部最优决策，加总之后是一个全局次优的结果。

这本质上是一个n人囚徒困境：合作——共享数据——对整体而言是最优的；但对每一个个体而言，背叛——封锁数据、搭便车——是占优策略。

自由竞争的拥趸此时通常会说：竞争本身就是一种发现过程，那些因为数据封锁而效率受损的企业会被市场淘汰，最终幸存者的效率会提升。

但这个论证回避了一个关键事实。

被熊彼特称为"创造性破坏"的过程——企业被淘汰、投资失败、重复研发、专利竞赛中的资源消耗——本身就是一种巨大的社会浪费。

它是一种通过随机变异加选择来逼近最优解的进化算法，而进化算法在任何有梯度信息的条件下，都远不如基于梯度的优化方法高效。

自由竞争的本质，是在信息极度匮乏的条件下，用大规模的试错和淘汰来替代计算。

它之所以在两百年间显得无可替代，不是因为它最优，而是因为在没有足够算力和数据的时代，它是唯一可行的搜索策略。

用优化的语言来说：当目标函数的梯度不可得时，随机搜索是无奈的理性选择。

梯度降临的时刻

但梯度正在变得可得。

今天，一个协调性的数据汇聚和模型训练体系，可以同时从几千条产线的运行数据中学习工艺优化规律，而不是让每一条产线各自从零开始摸索。

这正是余晓晖所讲的"模数共振"——

"场景落地沉淀数据—数据训练优化模型—模型升级拓展场景—场景扩容富集数据"

——的数学本质。它是一个在全系统尺度上运行的梯度下降过程，每一次模型迭代都吸收了来自整个工业体系的反馈信号，而不是某个孤立企业的局部信号。

这个过程的收敛速度，与自由竞争框架下每个企业单打独斗的收敛速度之间的差距，不是量的差距，而是质的不同。

在一个分布式的竞争体系中，知识积累是以每个企业为独立单位的。企业A的失败教训不会自动成为企业B的知识。

在一个协调性的优化体系中，任何一次实验的成败都同时更新全局模型的参数。知识积累是以整个系统为单位的。

那些认为自由竞争唯一能推动快速技术进步的人，本质上是在主张：n个独立智能体各自做随机梯度下降，比一个统一系统做全局梯度下降更高效。

这个主张在数学上是没有依据的。

随机梯度下降确实有助于逃离局部最优，但其效率优势建立在参数共享的基础上——每一个mini-batch的梯度都是对全局梯度的无偏估计。而竞争性市场中的"梯度"是不共享的。企业各自计算自己的梯度，但并不汇总。

这不是随机梯度下降。这是n次独立的随机搜索。

因此，数学优化主义对自由竞争的替代，不是浪漫主义的空想，而是一个严格的工程命题：

当计算能力、数据采集能力和优化算法的水平达到某个阈值之后，协调性的全局优化将比分散的局部竞争更高效。

这个阈值是否已经被跨越，是一个可以通过实践来回答的问题。工业AI的发展，正在以前所未有的速度和规模为这个命题提供检验的场域。

二、热力学视角：SEV框架下的两种经济秩序

将数学优化的论证再推进一步，便进入热力学的领域。

经济系统的本质是一个能量转换装置：输入能量E，产生价值V，同时不可避免地产生熵S。

任何经济制度——无论是市场驱动的还是计划协调的——都在执行相同的热力学功能：将低熵的能量资源转化为高熵的废弃物，同时在其间创造出结构、信息和价值这些局部的负熵。

用SEV三元组来描述这个过程的效率：

S（熵）——衡量系统的无序程度和资源浪费程度。失败的创业企业、过剩的产能、重复的研发投入、信息不对称造成的错配、投机泡沫的起灭，都是系统的熵产生。在一个完全竞争的市场中，这些熵的产生被视为不可避免的"发现成本"——你需要一百家公司破产，才知道哪一种商业模式是对的。

E（能）——衡量系统可调动的总能量和总资源。它包括物理能源的供给、算力的规模、人力资源的储备、数据的总量。E决定了一个经济系统的上限。

V（价值）——衡量系统产出的有效结果。技术进步、生产力提升、物质财富的增长、社会福祉的改善。V是E和S的函数：对于给定的能量输入E，熵产生S越低，有效价值V越高。

经济效率等于V/E的比值。任何增加S的因素，都是在消耗系统的潜力。

在这个框架下观察自由竞争的资本主义，其特征就非常清晰了：

它是一个高E、高S的耗散结构。

普里高津的耗散结构理论指出，一个远离热力学平衡的开放系统可以通过消耗能量来维持有序结构。市场经济的竞争机制本质上就是这样一种耗散结构。

通过持续输入大量能量——资本、劳动力、自然资源、注意力——在个体层面产生秩序（企业、产品、技术），同时在整个系统层面产生巨大的熵——淘汰、浪费、失业、危机。

资本主义的辩护逻辑在于：高熵产生是维持系统活力的必要代价——你想要创造力，就必须容忍混乱；你想要创新，就必须接受大量失败；你想要竞争带来的价格下降，就必须接受竞争带来的产能毁灭。

但热力学的基本原理同时也指出：一个系统的效率取决于它在多大程度上能够以更少的熵产生来获得同等或更多的秩序。

这正是数学优化主义的社会主义所瞄准的方向。

在一个以全局优化取代局部竞争的经济系统中，信息对称性的提高使得市场发现过程中的浪费性试错可以被大幅压缩。当数据和模型可以揭示不同工艺路线、不同技术方案的优劣，而不必等待市场通过企业的生死来"投票"时，熵产生就下降了。

这不仅仅是经济效率的改进。一个低S的经济系统可以在给定资源约束下创造更多的价值V，或者在创造同等价值的同时消耗更少的资源、产生更少的环境压力和更少的社会动荡。

数学优化主义不仅是更高效的，而且是更可持续的。

中美在SEV框架下的轮廓

中美两国在工业AI领域的竞争，在SEV框架下呈现出清晰的轮廓。

美国的路径遵循了经典的高E高S逻辑。它在基础模型研发上投入极其巨大的能量——资本密集度、人才集中度、算力消耗量都处于全球最高水平——产生了一批能力惊艳的模型。

但在工业应用这一端，由于制造业空心化和数据碎片化，S居高不下：缺乏工业场景导致模型训练缺乏真实反馈，数据分散在不同行业和企业的私有数据库中无法汇聚，基础研究的突破向下游转化的链条在工业领域尤其薄弱。

美国押注的是，E足够大，即使效率比值V/E不高，绝对产出V仍然领先。

但这不是一个可持续的结构——边际收益递减将比预期更早到来。

中国的路径在理论上具备向低S模式转型的条件。

统一的工业数据基础设施可以在系统层面降低信息熵——当几十万条产线的运行数据汇聚在同一个训练管道中，而不是分散在互不往来的企业数据库里时，模型的泛化能力和优化精度将获得质变性的提升。

全局性的算力调度和模型开发协调，可以避免多个企业在相同方向上重复投入而产生的"生态割裂"——余晓晖在文中明确指出了这个问题。

完整工业门类提供的场景多样性是天然的熵减器：模型在钢铁行业学到的热力学规律可以迁移到化工行业，在电子制造中优化的精密控制策略可以迁移到汽车装配——知识的跨行业复用本身就是一种降低系统熵的机制。

但必须强调的是，低S模式目前还停留在理论可能性层面。

数据孤岛的破解、生态割裂的弥合、隐性经验到显性知识的转化——这些都不是有了方向就自然能实现的。

热力学的启示在于：从高熵状态向低熵状态的跃迁需要外部做功。这个"功"，就是制度建设和组织创新。

没有这个做功过程，系统会自然地滑向高熵状态，而不是自动地向低熵收敛。

三、两条分岔路与一个共同的瓶颈

回到现实层面。

美国拥有当前最强的AI基础模型和最成熟的软硬件生态，但它的工业AI发展受制于一个刚性约束：没有足够多的工厂来产生训练数据和检验模型。

这不是一个可以通过加大研发投入来解决的问题。制造业的产业链一旦迁出，重新回流的成本远远超出任何财政补贴或税收优惠所能覆盖的范围。更深层的问题在于，制造业所需要的技能传承、供应商网络和产业文化，其形成周期以几十年计，不是资本注入就能在短期内催生的。

美国在工业AI上正在滑向一个局面：高投入、强模型、弱场景、数据源持续枯竭。

中国拥有全世界最完整的工业体系和最丰富的应用场景，但工业数据的碎片化状态使其无法发挥系统性的优势。

余晓晖在文中给出的数据是清晰的两面。

一面是能量E——

"智能算力规模达每秒1882百亿亿次浮点运算"，万卡以上智算集群42个，"人工智能企业数量超6200家，核心产业规模突破1.2万亿元"。

另一面是熵S——

"场景落地沉淀数据—数据训练优化模型—模型升级拓展场景—场景扩容富集数据"的闭环迭代尚未实现。"数据孤岛"问题未根本破解。"多家芯片厂商各守一套软件栈，形成了'生态割裂'"。

中国的E足够大，但S同样很高。如果不能系统性地降低S，再大的E也将在内部摩擦中消耗殆尽。

降低S的路径，在技术上需要三样东西：

统一的数据治理标准

互操作的软件生态

可规模化的知识转化机制

在制度上需要一个更根本的转变：从"竞争驱动进步"的思维惯性中走出来，接受"协调驱动效率"的组织逻辑。

这不是否定市场和企业竞争在激励创新方面的作用——竞争在探索性阶段的价值是无可替代的。而是，在技术方向已经清晰、最优路径已经可计算的领域，用优化替代试错，用共享替代封锁，用全局最优替代局部最优。

毛泽东在《论持久战》中分析过一个逻辑：战争的胜负，不决定于一两件新式武器，而决定于谁能更好地组织和动员手中的资源。

美国AI是那件"新式武器"。

中国需要构建的，是一套能将全部工业数据、全部算力资源、全部应用场景组织成一个有机整体的系统。

前者是"器"的优势。后者是"势"的优势。

器可以追赶。势难以复制。

四、飞轮启动之后

如果数据飞轮真正开始转动，中国的工业AI将进入一个自我加速的阶段。

第一重效应：泛化能力的质的飞跃。

当一个工业模型同时在钢铁冶炼、化工流程、电子制造、汽车装配、航空航天等几十个行业中接受训练时，它学到的不是某个特定行业的模式，而是物理世界运行的一般规律——热传导、流体力学、振动分析、材料疲劳、控制回路的稳定性原理。

这种跨行业训练产生的物理直觉，是任何一个只接触过少数行业的模型所无法企及的。

用SEV框架的语言来说：跨行业的多样性直接降低了系统熵S，不同行业的共性物理规律在训练中相互加强，而非共性部分则各自构成独特的知识增量。

第二重效应：迭代速度的代际差距。

在一个协调性的优化体系中，任何一家工厂的技术突破、任何一个工艺的改进数据，都在回流到全局模型之后立即惠及所有其他使用该模型的工厂。

这与自由竞争市场中一项工艺突破需要数年才能通过人员流动、逆向工程或专利过期等渠道扩散到全行业，有着本质区别。

信息流动的速度差距，在模型能力以"周"为单位迭代的时代，将直接转化为竞争力的差距。

第三重效应：生态锁定。

当中国输出的工业AI工具链——从数据采集标准、模型训练框架到场景部署方案——在全球范围内被广泛采用时，就会形成与英伟达CUDA生态类似的锁定效应。

后发国家在建设自己的工业体系时，选择这套工具链不仅是选择了一种技术方案，更是接入了一个覆盖几十个行业的数据网络和知识库。

网络效应的强度，随着网络中节点数量的增加而呈超线性增长。

余晓晖在文章结尾提出，要将"用得不放心"转化为"用得放心"。

这句话放在整个工业AI竞争的大背景下，含义更为深远：它不仅是技术可靠性问题，更是整个制度体系的可信度问题。

当中国构建的工业AI体系能够持续稳定地输出高于自由竞争效率的生产力时，关于"哪种制度更能推动技术进步"这个争论，就将从理论辨析进入事实检验的阶段。

五、余论：从价格到数据，从分散到收敛

人类的经济组织方式经历过几次根本性的跃迁。

从血缘部落的互惠交换到城邦市场的货币定价，从封建庄园的劳役分配到资本主义的价格信号——每一次跃迁的本质，都是信息处理方式的升级。

价格机制是工业时代的伟大发明。它在信息极度匮乏的条件下，用最简单的一维信号——价格——完成了极其复杂的多维度资源协调。

但它终究是一维的。

一维信号能够告诉你有某种稀缺性存在，却无法告诉你稀缺性的原因、结构和可能的解决方案。

数据是迄今为止人类拥有的维度最高的经济信息介质。

一个设备传感器的多维时间序列、一份包含了上百个参数的质检记录、一套完整工艺流程中的所有中间状态——这些数据的维度远超价格信号所能表达的范围。

当这些高维数据开始在工业AI的训练管道中流动时，经济系统的信息处理能力就发生了一次质变。

价格信号协调的是交换，数据信号协调的是生产。前者回答"这个东西值多少钱"，后者回答"这个东西应该怎么做"。一个是交易效率，一个是知识效率。

自由竞争在提升交易效率上的成就是毋庸置疑的。但在提升知识效率上——尤其是在需要将分散的隐性知识汇聚成系统性的显性知识的领域——它的局限性正在被AI时代的实践所揭示。

中国的实践机会，在于三件事的结合：

它拥有全球最大规模的工业数据生成场景。它拥有正在快速成熟的AI技术和算力基础设施。它拥有可以统筹公共数据资源、打破自由竞争壁垒的制度可能性。

这三者结合，如果能够实现从"大水漫灌"到精准优化的跃迁——余晓晖在文中用了这个经济学隐喻——那么它所证明的，不仅是一种技术路线的胜利，更是一种文明组织逻辑的升级。

这是人类第一次有可能将"全局最优"从一个数学概念变成经济运行的实际准则。

它的难度和它的价值一样巨大。

但正是因为难，才值得做。

参考：余晓晖，《准确把握人工智能发展前沿与竞争格局》，《求是》2026年第10期