乐于分享
好东西不私藏

AI 硬件军备竞赛上半场或将落幕,软件架构与算力调度开启 AI 产业下半场

AI 硬件军备竞赛上半场或将落幕,软件架构与算力调度开启 AI 产业下半场

一、一个沉默的数据

全球AI整体支出2026年预计突破2.52万亿美元,其中AI基础设施支出预计达1.366万亿美元。

Meta、谷歌、微软、亚马逊四家科技巨头,2026年计划投入约7250亿美元用于AI资本开支,较2025年的4100亿美元增长77%。OpenAI计算资源投入预计达数百亿美元级别,较2017年增长数十倍至百倍。

但这串令人眩晕的数字背后,藏着一个让整个行业尴尬的事实—— 据Cast AI《2026年Kubernetes优化现状报告》对数千家企业的实测数据,生产环境中GPU集群平均利用率仅5%。

花了几万亿买的显卡,95%的时间都在原地空转。

这不是个例。马斯克旗下xAI拥有约55万块英伟达GPU,但模型算力利用率(MFU)只有11%——换算下来,真正干活的有效算力只相当于6万块。中国的智算中心同样如此,据行业2025-2026年独立调研披露,数十亿建成的万卡GPU集群,实际算力利用率普遍在30%-40%,部分新建集群甚至更低。

万亿投卡,大半在晒太阳。这就是AI行业现在的真实情况。

二、结构性低效的三重根源

为什么利用率如此之低?原因并不复杂,但根深蒂固。

第一,规模越大,协调越难。 1000到10000块GPU的集群,多节点协调压力可控。但一旦扩展到数十万块,设备空闲时间迅速累积,软件栈内部的各种不一致性问题集中爆发。分布式训练中,只要有一个GPU慢半拍,整个集群就得停下来等它。

第二,数据跟不上。 这就是著名的“内存墙”问题。过去 20 年,AI 专用训练算力增长超百万倍,而 HBM 内存带宽仅增长约 100 倍,算力与内存带宽的 “剪刀差” 持续扩大。GPU算得飞快,但HBM的数据读写速度和服务器之间的网络传输完全跟不上。只要数据传输出现微小延迟,整个集群的GPU就被迫原地等待。就像雇了10000个顶尖工人,但原材料永远供不上,只能集体干瞪眼。

第三,训练本身是间歇性的。 GPU在计算时满载运转,但研究人员分析结果、调参、处理数据管道时,大量设备就闲置了。更荒诞的是,有些大厂的研究人员为了避免被管理层批评,或者害怕闲置的GPU配额被其他团队抢走,会故意重复运行无意义的训练任务来“刷高”利用率数据。

买卡容易,用卡难。瓶颈不在硬件本身,而在系统级工程能力。


三、为什么硬件不能解决根本问题

面对“内存墙”,资本市场热炒的解决方案是光通信、光模块和CPO(共封装光学)。这些技术的逻辑很直接:既然数据搬运是瓶颈,那就把搬运的通道修得更宽更快。

CPO确实有效。它将光引擎与GPU芯片直接在封装层面集成,使电信号传输距离从十几厘米缩短至毫米级。据英伟达在GTC 2026上公布的数据,Feynman架构传输带宽密度提升10倍,传输能耗降低70%以上。英伟达下一代Feynman架构已全面拥抱CPO,台积电COUPE平台在2026年正式进入量产。

但这里有三个必须正视的物理死结:

第一,CPO只解决互联瓶颈,不解决内存带宽瓶颈。 GPU与HBM内存之间的超短距超高并行带宽需求将持续攀升。在GPU与HBM互联的毫米级距离上,光子链路永远无法匹配HBM的数千个并行数据通道,这是基础物理的约束,不是工程能力的约束。

第二,已部署的GPU不能改造加装CPO。 CPO是芯片制造层面的物理重构,需要在晶圆级重新植入光子集成电路,通过CoWoS等先进封装技术与GPU硅中介层统一整合。这个物理过程不可逆,相当于给完工的大厦更换地基。今天部署的每一张GPU,在其整个生命周期内,都只能停留在当前的互联方案中。

第三,光子无法替代电子进行计算。 将数据搬运到计算单元再搬回来,这一“冯·诺依曼瓶颈”本身,无法靠任何互联技术来解决。唯一的出路是改变计算的发生位置,即在数据存放处直接完成计算,也即“存内计算”或“光计算”。但这仍处于实验室阶段,距离商业化尚远。

CPO是革命性的治标方案,但不是治本之策。它将互联这条高速公路修到了极致,但计算与内存之间的“最后一毫米”鸿沟,依然横亘在那里。


四、范式转移:从“有多少卡”到“出多少Token”

当硬件堆叠的边际收益急剧递减,一场静悄悄的范式转移已经开始。

过去,AI基础设施的竞争逻辑是“谁卡多谁牛”。现在,竞争逻辑正在转向“谁的Token性价比高”。

国家数据局局长刘烈宏在国新办举行的数字中国建设峰会新闻发布会上披露了一组关键官方数据:到2026年3月,中国日均Token调用量已超过140万亿,相比2024年年初,两年增长超千倍。词元正在成为智能经济时代的交易计量单位。

中国移动也在2026年5月发布了MoMA平台,接入超300款AI模型,首创Token集约化运营模式,声称单位Token成本压降30%以上。这不是通过买更多GPU实现的,而是通过对300多个模型的统一调度和集约化运营实现的。

当衡量标准从“卡的数量”变成“Token的产出”,整个游戏规则都变了。

这意味着:谁能用同样一张卡产出更多Token,谁就能赢。而实现这一点的关键,不在硬件,在软件。


五、软件架构与调度设计:真正的下半场

为什么软件层面能释放如此巨大的价值?因为当前的低利用率,本质上是调度和架构问题,而非算力不足。

分布式.训练的效率革命。 当集群规模从千卡扩展到十万卡,通信模式变得极其复杂。如果软件框架的通信算法设计不佳,GPU就会因数据没到齐而“空转”。更智能的流水线并行策略、动态优先级调度、细粒度的GPU切片,每一个软件层面的优化,都可能带来数倍于硬件升级的效率提升。

“用计算换存储”的算法智慧。 面对内存带宽瓶颈,算法工程师们发明了重计算技术——与其等待从显存中读取数据,不如让GPU重新计算一遍。这看似浪费算力,但在数据搬运远比计算昂贵的现实下,恰恰是最优解。类似地,模型量化、稀疏化、知识蒸馏等技术,都是在不显著损失精度的情况下,大幅降低对内存带宽的需求。

组织层面的调度革新。 “为防止配额被回收而跑空任务”这类组织内耗,暴露的是粗放的资源分配模式。新一代MLOps平台和AI基础设施管理平台,正在实现任务混合调度、动态优先级、抢占式调度和细粒度的资源计量——让每一张GPU都能被精确分配到最需要它的任务上。

在顶级AI实验室中,情况则不同。Meta顶级AI训练集群的模型算力利用率(MFU)达到约43%,谷歌则达到约46%。这些数字说明,高效运行是可能的,只是需要极其深厚的基础设施优化能力,而这些能力,几乎全部来自软件层面。


六、下半场的赢家

AI竞赛的上半场,比的是谁敢砸钱、谁买得到卡。

下半场不一样了。比的是谁能把一张卡的产出做到极致

当xAI的55万块GPU只有11%的模型算力利用率,当数千家企业生产环境中GPU平均利用率仅5%,当万亿投资的算力大部分在空转,我们不得不承认买了不会用成为了AI行业最大的浪费。

这是个工程问题,更是一个认知问题。(搞工程优势在东方)

那些猛堆硬件、不去优化调度算力的玩家,终将被淘汰。真正能在软件架构和调度设计上构建壁垒的公司,包括:提供端到端MLOps平台的厂商,深耕分布式训练框架的团队,在Token集约化运营上走在前列的云服务商 将会是下一个十年的赢家。

CPO的光模块再快,也解决不了代码层面的调度失效。HBM的带宽再高,也救不了一个没有设计好流水线并行的训练任务。

硬件提供了理论性能的上限,但软件架构与分布式调度设计,决定了实际能从这个上限中压榨出多少生产力。当前行业最大的浪费和最大的机会,都源于后者的不足。

谁先想明白这一点,谁就赢了。

硬件军备竞赛的上半场已经结束。软件架构与调度设计的下半场,才刚刚开始。

欢迎大家评论区分享看法