你问AI一个问题,在它给出答案那几秒背后,是一场算力硬件的接力:
芯片在运算,内存在输送数据,多个芯片在协作,散热系统在拼命带走热量。
最弱的一环,决定整条链的速度。任何一个环节卡住,AI就会“喘不上气”。
我们今天沿着这条“瓶颈转移”的链条,看看算力短板是怎么像打地鼠一样,一个按下去,下一个又冒出来。
然后就会明白:为什么你的免费额度会变少?为什么AI公司都在抢液冷?以及“芯片断供”背后,真正的命门在哪里。

00 路标
在AI的四层生态中,这一站我们进入基础设施层。
基础设施层是AI的“土地与发电厂”——芯片、内存、互联、散热。
它们共同决定了AI能跑多快、能处理多复杂的问题、以及你的免费额度能用多久。它们不直接出现在你的对话里,但每一次提问,都在它们身上跑过一圈。
看看过去几年,这四个核心硬件的技术此消彼长,每次我们补上一个短板,下一个短板就会立刻暴露出来。算力的“最短板”从芯片转移到内存、从内存转移到互连、从互连转移到散热。
本文的核心视角不仅仅是介绍这四个硬件支撑,而是追踪算力瓶颈的转移,以及未来几年,它还会往哪走?

01 第一块短板:芯片规模——“摩尔定律”累了
定义:单位面积内能容纳多少晶体管。晶体管越多,算力峰值越高。
为什么它曾是瓶颈?
2010年代,深度学习的爆发让GPU走上舞台中央。但很快,芯片制程就跟不上了——你想训练更大的模型,芯片上却塞不下更多晶体管。
当前水平:3nm/2nm制程已量产,但摩尔定律已明显放缓。晶体管密度每两年的提升幅度,从过去的翻倍降至约1.3倍。
瓶颈:光刻极限逼近物理天花板,功耗密度过高。一颗顶级AI芯片的热设计功耗(TDP)已经超过1000W,比一个电吹风还高。
突破方向:Chiplet(芯粒)异构集成成为延续性能增长的主流方案——不把全部功能做在一个大芯片上,而是把多个小芯片拼在一起。1nm节点预计2028年前后量产;存算一体等新范式也在探索中。
承上启下:
芯片总算能塞下更多晶体管了,但新问题来了——数据运不过来。
芯片在高速计算,内存却像个慢吞吞的搬运工。这就是下一块短板。

02 第二块短板:内存带宽——芯片在“饿肚子”
定义:数据从内存运送到计算单元的速度。带宽越高,GPU越不容易“空转”。
为什么它成了新瓶颈?
芯片算力翻倍,内存带宽的增速却远远落后。就像一个超级厨师,灶台火力猛,但配菜员一次只能递一根葱。GPU大部分时间在“等菜”。
当前水平:HBM3E(高带宽内存)带宽约1.2TB/s;HBM4(带宽2TB/s)已量产但产能有限。HBM是近两年最紧缺的环节——谁抢到HBM,谁就能训练更大的模型。
瓶颈:产能不足曾是主要矛盾。但随着三星、SK海力士、美光扩产,HBM的紧缺正在缓解。于是,下一个短板开始露头。
这里有个关键概念:算力瓶颈遵循“Leontief式互补约束”——解决一个,下一个立即暴露,缺一不可。就像木桶,你补上最短的那块板,新的短板就会出现。
突破方向:HBM4加速上量,HBF(高带宽闪存)预计2027年出样片。
承上启下:
内存带宽终于快追上芯片了,但新的问题来了——几十颗芯片放在一起时,怎么让它们高效协作?
单颗芯片再强,如果芯片之间通信像“拨号上网”,集群效率照样上不去。

03 第三块短板:互联效率——团队协作的“语言障碍”
定义:多芯片之间通信的带宽和延迟。互联越快,多芯片协同越接近“1+1=2”。
为什么它正在成为新瓶颈?
当你把上千颗GPU连成一个集群,数据需要在芯片之间频繁交换。如果互联太慢,一颗芯片算完的结果要等半天才能传给下一颗,整个集群的效率就会被拉低。
当前水平:英伟达的NVLink 6.0能实现单GPU 3.6TB/s的双向带宽,但铜缆有两个硬伤:传输距离短(几米),信号损耗大。跨机柜通信时,延迟会急剧上升。
突破方向:光互连已从可选项变为必选项。CPO(共封装光学) 技术在2026年已规模化量产——将光通信模块直接和芯片封装在一起。台积电的COUPE方案能效提升4倍、延迟降低10倍。预计2027年混合使用,2028年成为主流。
承上启下:
芯片算得快、内存送得快、芯片之间聊得快——但所有芯片跑起来之后,热量怎么排出去?
下一个瓶颈,是“散热墙”。

04 第四块短板:功耗散热——算力的“耐力极限”
定义:芯片单位时间产生的热量及被带走的能力。散热越好,芯片越能长时间满速运行。
为什么它是最终的“天花板”?
单颗AI芯片功耗已超1000W,一个机柜的功耗可以超过100kW——相当于一个小型工厂。风冷(风扇吹)已经压不住了,因为空气带走热量的能力有限。
当前水平:液冷成为主流。2026年液冷渗透率预计达47%,微流体冷却将在2027年普及。浸没式液冷(把芯片直接泡在冷却液里)也开始进入数据中心。
瓶颈:电力成本、散热极限。一个超大规模AI数据中心的年耗电量,已经堪比一座中型城市。这也是为什么科技公司纷纷买核电站、建光伏——不是噱头,是真的不够用。
突破方向:微流体冷却、浸没式液冷逐步成熟。更远的未来,甚至要考虑在靠近北极的地方建数据中心,用自然冷空气降温。

05 短中长期未来:瓶颈还在移动
四大支点相互嵌套,单一突破无法解决整体瓶颈。未来几年,瓶颈会沿着这个链条继续移动:
短期(1-2年):
HBM产能仍是“紧箍咒”,供需矛盾最紧张,涨价可能持续。你的免费额度可能更紧张。
液冷加速普及,让高功耗芯片得以堆叠。
光互连成为必选项,CPO规模化落地。
中期(3-5年):
Chiplet和先进封装使得千核级AI芯片成为可能。
新晶圆厂投产、CPO成熟,算力将迎来结构性过剩,单位成本有望回落。
光互联打破机柜瓶颈,万卡集群效率跃升。
存算一体开始从实验室走向工程,能效比有望翻倍。
长期(5年以上):
算力像电力一样成为公共基础设施。
端侧AI(手机、PC、眼镜)分流大量任务,云端算力成本降到几乎可以忽略。

06 领跑者与世界格局
海外:英伟达(GPU+NVLink+CUDA生态)、AMD、Intel、Google(TPU)
国内:华为(昇腾)、寒武纪、海光、壁仞,以及Chiplet领域的通富微电、长电科技
美国在高端AI芯片和生态系统上领先;中国在成熟制程产能、Chiplet封测、液冷技术上进展迅速,差距正在缩小。
但地缘政治风险深刻影响供应链:美国2026年6月将出口管制扩大至境外子公司,英伟达承认“已将中国市场拱手让给中国公司”。算力不仅是技术问题,也是供应链的“两条腿走路”。

07 与你我有关
使用成本:短期内免费额度可能更紧张;长期看,随着新产能释放,单位算力成本将持续下降。
一个冷知识:一次典型的AI对话(约1000个token)消耗的电量,可以让一支LED灯泡亮1分钟——你每次提问,背后都在烧电。
设备能力:你的手机、PC会越来越“独立”。端侧AI不联网也能完成很多任务,既快又保护隐私。未来你换手机时,“NPU(神经网络处理器)算力”可能会像“内存大小”一样成为关键指标。
选择参考:当你看到“芯片涨价”“HBM缺货”“液冷普及”“CPO量产”这些新闻时,你就知道——不是炒作,是算力链条上某个齿轮真的绷紧了。
看到“HBM缺货” → 短期内AI免费额度收紧,你的使用成本可能上升。
看到“液冷普及” → 云端算力成本下降,但个人设备散热瓶颈依然存在。
看到“CPO量产” → 万卡集群效率跃升,AI能力上限被再次推高。
08 溯源与结语
2010年代:GPU意外适合AI并行计算,算力第一次大爆发。
2020年后:单芯片性能遇物理瓶颈,Chiplet成主流。
2024-2025年:HBM供不应求,算力涨价潮开始。
2026年:液冷普及,国产芯片份额首破四成,算力供应链开始多元化。

算力不是玄学,它就是AI时代的电费账单。
算力成本是上层技术(模型、平台、应用)的“硬约束”。芯片贵一分,模型训练就贵一分,你的免费额度就可能少一分。
看懂算力,你就看懂了AI这辆车跑多快、跑多远,也看懂了车票为什么涨跌。
技术进步从不是一条直线,但每一次突破,最终都体现在你与AI对话的那几秒里。
而那个“几秒”,背后是一条永不停歇的、打地鼠般的瓶颈追击战。
[关于本文]
本文是“AI认知地图”系列中关于基础设施层的一篇。本系列不堆砌术语,不制造焦虑,只帮你抓住AI技术背后的核心逻辑。

(作者声明:本文由作者与DeepSeek协作完成。作者负责选题、框架构建、核心观点构思与提炼、数据交叉验证、逻辑调整与最终定稿;AI协助资料整理、信息检索与验证、初稿生成与结构优化。技术信息截止到2026年6月。)
文中图片由作者构思,千问AI协助生成。所有插图为山水国画的不同流派画法,你能分辨出来吗?
)
夜雨聆风