#40期:AI认知地图 | 算力硬件:AI的“体力”从哪来?

你问AI一个问题，在它给出答案那几秒背后，是一场算力硬件的接力：

芯片在运算，内存在输送数据，多个芯片在协作，散热系统在拼命带走热量。

最弱的一环，决定整条链的速度。任何一个环节卡住，AI就会“喘不上气”。

我们今天沿着这条“瓶颈转移”的链条，看看算力短板是怎么像打地鼠一样，一个按下去，下一个又冒出来。

然后就会明白：为什么你的免费额度会变少？为什么AI公司都在抢液冷？以及“芯片断供”背后，真正的命门在哪里。

00 路标

在AI的四层生态中，这一站我们进入基础设施层。

基础设施层是AI的“土地与发电厂”——芯片、内存、互联、散热。

它们共同决定了AI能跑多快、能处理多复杂的问题、以及你的免费额度能用多久。它们不直接出现在你的对话里，但每一次提问，都在它们身上跑过一圈。

看看过去几年，这四个核心硬件的技术此消彼长，每次我们补上一个短板，下一个短板就会立刻暴露出来。算力的“最短板”从芯片转移到内存、从内存转移到互连、从互连转移到散热。

本文的核心视角不仅仅是介绍这四个硬件支撑，而是追踪算力瓶颈的转移，以及未来几年，它还会往哪走？

01 第一块短板：芯片规模——“摩尔定律”累了

定义：单位面积内能容纳多少晶体管。晶体管越多，算力峰值越高。

为什么它曾是瓶颈？

2010年代，深度学习的爆发让GPU走上舞台中央。但很快，芯片制程就跟不上了——你想训练更大的模型，芯片上却塞不下更多晶体管。

当前水平：3nm/2nm制程已量产，但摩尔定律已明显放缓。晶体管密度每两年的提升幅度，从过去的翻倍降至约1.3倍。

瓶颈：光刻极限逼近物理天花板，功耗密度过高。一颗顶级AI芯片的热设计功耗（TDP）已经超过1000W，比一个电吹风还高。

突破方向：Chiplet（芯粒）异构集成成为延续性能增长的主流方案——不把全部功能做在一个大芯片上，而是把多个小芯片拼在一起。1nm节点预计2028年前后量产；存算一体等新范式也在探索中。

承上启下：

芯片总算能塞下更多晶体管了，但新问题来了——数据运不过来。

芯片在高速计算，内存却像个慢吞吞的搬运工。这就是下一块短板。

02 第二块短板：内存带宽——芯片在“饿肚子”

定义：数据从内存运送到计算单元的速度。带宽越高，GPU越不容易“空转”。

为什么它成了新瓶颈？

芯片算力翻倍，内存带宽的增速却远远落后。就像一个超级厨师，灶台火力猛，但配菜员一次只能递一根葱。GPU大部分时间在“等菜”。

当前水平：HBM3E（高带宽内存）带宽约1.2TB/s；HBM4（带宽2TB/s）已量产但产能有限。HBM是近两年最紧缺的环节——谁抢到HBM，谁就能训练更大的模型。

瓶颈：产能不足曾是主要矛盾。但随着三星、SK海力士、美光扩产，HBM的紧缺正在缓解。于是，下一个短板开始露头。

这里有个关键概念：算力瓶颈遵循“Leontief式互补约束”——解决一个，下一个立即暴露，缺一不可。就像木桶，你补上最短的那块板，新的短板就会出现。

突破方向：HBM4加速上量，HBF（高带宽闪存）预计2027年出样片。

承上启下：

内存带宽终于快追上芯片了，但新的问题来了——几十颗芯片放在一起时，怎么让它们高效协作？

单颗芯片再强，如果芯片之间通信像“拨号上网”，集群效率照样上不去。

03 第三块短板：互联效率——团队协作的“语言障碍”

定义：多芯片之间通信的带宽和延迟。互联越快，多芯片协同越接近“1+1=2”。

为什么它正在成为新瓶颈？

当你把上千颗GPU连成一个集群，数据需要在芯片之间频繁交换。如果互联太慢，一颗芯片算完的结果要等半天才能传给下一颗，整个集群的效率就会被拉低。

当前水平：英伟达的NVLink 6.0能实现单GPU 3.6TB/s的双向带宽，但铜缆有两个硬伤：传输距离短（几米），信号损耗大。跨机柜通信时，延迟会急剧上升。

突破方向：光互连已从可选项变为必选项。CPO（共封装光学）技术在2026年已规模化量产——将光通信模块直接和芯片封装在一起。台积电的COUPE方案能效提升4倍、延迟降低10倍。预计2027年混合使用，2028年成为主流。

承上启下：

芯片算得快、内存送得快、芯片之间聊得快——但所有芯片跑起来之后，热量怎么排出去？

下一个瓶颈，是“散热墙”。

04 第四块短板：功耗散热——算力的“耐力极限”

定义：芯片单位时间产生的热量及被带走的能力。散热越好，芯片越能长时间满速运行。

为什么它是最终的“天花板”？

单颗AI芯片功耗已超1000W，一个机柜的功耗可以超过100kW——相当于一个小型工厂。风冷（风扇吹）已经压不住了，因为空气带走热量的能力有限。

当前水平：液冷成为主流。2026年液冷渗透率预计达47%，微流体冷却将在2027年普及。浸没式液冷（把芯片直接泡在冷却液里）也开始进入数据中心。

瓶颈：电力成本、散热极限。一个超大规模AI数据中心的年耗电量，已经堪比一座中型城市。这也是为什么科技公司纷纷买核电站、建光伏——不是噱头，是真的不够用。

突破方向：微流体冷却、浸没式液冷逐步成熟。更远的未来，甚至要考虑在靠近北极的地方建数据中心，用自然冷空气降温。

05 短中长期未来：瓶颈还在移动

四大支点相互嵌套，单一突破无法解决整体瓶颈。未来几年，瓶颈会沿着这个链条继续移动：

短期（1-2年）：

HBM产能仍是“紧箍咒”，供需矛盾最紧张，涨价可能持续。你的免费额度可能更紧张。

液冷加速普及，让高功耗芯片得以堆叠。

光互连成为必选项，CPO规模化落地。

中期（3-5年）：

Chiplet和先进封装使得千核级AI芯片成为可能。

新晶圆厂投产、CPO成熟，算力将迎来结构性过剩，单位成本有望回落。

光互联打破机柜瓶颈，万卡集群效率跃升。

存算一体开始从实验室走向工程，能效比有望翻倍。

长期（5年以上）：

算力像电力一样成为公共基础设施。

端侧AI（手机、PC、眼镜）分流大量任务，云端算力成本降到几乎可以忽略。

06 领跑者与世界格局

海外：英伟达（GPU+NVLink+CUDA生态）、AMD、Intel、Google（TPU）

国内：华为（昇腾）、寒武纪、海光、壁仞，以及Chiplet领域的通富微电、长电科技

美国在高端AI芯片和生态系统上领先；中国在成熟制程产能、Chiplet封测、液冷技术上进展迅速，差距正在缩小。

但地缘政治风险深刻影响供应链：美国2026年6月将出口管制扩大至境外子公司，英伟达承认“已将中国市场拱手让给中国公司”。算力不仅是技术问题，也是供应链的“两条腿走路”。

07 与你我有关

使用成本：短期内免费额度可能更紧张；长期看，随着新产能释放，单位算力成本将持续下降。

一个冷知识：一次典型的AI对话（约1000个token）消耗的电量，可以让一支LED灯泡亮1分钟——你每次提问，背后都在烧电。

设备能力：你的手机、PC会越来越“独立”。端侧AI不联网也能完成很多任务，既快又保护隐私。未来你换手机时，“NPU（神经网络处理器）算力”可能会像“内存大小”一样成为关键指标。

选择参考：当你看到“芯片涨价”“HBM缺货”“液冷普及”“CPO量产”这些新闻时，你就知道——不是炒作，是算力链条上某个齿轮真的绷紧了。

看到“HBM缺货” → 短期内AI免费额度收紧，你的使用成本可能上升。

看到“液冷普及” → 云端算力成本下降，但个人设备散热瓶颈依然存在。

看到“CPO量产” → 万卡集群效率跃升，AI能力上限被再次推高。

08 溯源与结语

2010年代：GPU意外适合AI并行计算，算力第一次大爆发。

2020年后：单芯片性能遇物理瓶颈，Chiplet成主流。

2024-2025年：HBM供不应求，算力涨价潮开始。

2026年：液冷普及，国产芯片份额首破四成，算力供应链开始多元化。

算力不是玄学，它就是AI时代的电费账单。

算力成本是上层技术（模型、平台、应用）的“硬约束”。芯片贵一分，模型训练就贵一分，你的免费额度就可能少一分。

看懂算力，你就看懂了AI这辆车跑多快、跑多远，也看懂了车票为什么涨跌。

技术进步从不是一条直线，但每一次突破，最终都体现在你与AI对话的那几秒里。

而那个“几秒”，背后是一条永不停歇的、打地鼠般的瓶颈追击战。

[关于本文]

本文是“AI认知地图”系列中关于基础设施层的一篇。本系列不堆砌术语，不制造焦虑，只帮你抓住AI技术背后的核心逻辑。

（作者声明：本文由作者与DeepSeek协作完成。作者负责选题、框架构建、核心观点构思与提炼、数据交叉验证、逻辑调整与最终定稿；AI协助资料整理、信息检索与验证、初稿生成与结构优化。技术信息截止到2026年6月。）

文中图片由作者构思，千问AI协助生成。所有插图为山水国画的不同流派画法，你能分辨出来吗？）