AI芯片层:GPU、算力芯片、高带宽内存、高速互联、算力物理核心
AI时代的算力系统,早已不是一颗芯片的单打独斗,而是一个由GPU、HBM、高速互联等软硬件共同构建的高效能集群。这些组件只有协同作战,才能真正释放算力的潜能。
这里是这几个核心组件的作用,以及目前的一些主流技术趋势:
🧠 算力物理核心:GPU (图形处理器)
GPU是负责并行计算的大脑,其特点是把绝大部分晶体管用在运算单元上(占比高达90%),专为大规模并行计算优化。
-
核心思想:不同于CPU(中央处理器)处理多种任务,GPU更像一个庞大的工人团队(包含数千个计算核心),将复杂任务拆解成成千上万个小任务,同时处理,以实现高吞吐量。
-
发展趋势:性能持续飞跃。英特尔计划2028年量产的Feynman GPU,面向物理AI,推理性能可达前代Blackwell的5倍;英伟达的Rubin GPU将采用台积电3nm工艺,集成3360亿个晶体管,单卡FP4推理算力达到了惊人的50 PFLOPS。
⚡️ 算力物理核心:NPU/TPU等专用芯片
针对特定领域(如AI)设计的专用集成电路(ASIC),通过为特定算法优化硬件,实现远超通用芯片的能效比。
-
华为昇腾 (NPU):基于“达芬奇”架构,专为神经网络计算设计。其路线图以“一年一代、算力翻倍”的速度推进。下一代昇腾950DT单芯片FP8算力预计达1 PFLOPS。
-
LPU (语言处理单元):英伟达通过收购Groq后推出的推理专用芯片,为追求极致低延迟而创新性地采用500MB超大片上SRAM替代HBM。在AI代理时代,其首Token延迟低于0.1毫秒,适合需要快速响应的交互式应用。
⚡️ 高带宽内存 (HBM)
HBM是为高性能GPU“喂数据”的关键通道。它通过3D堆叠技术将多个DRAM芯片垂直封装,创造了惊人的带宽,是突破“内存墙”瓶颈的核心技术。
-
演进路线:技术演进迅速,满足AI对带宽的渴求。英伟达新一代Rubin GPU已率先搭载HBM4,单卡带宽高达22 TB/s;华为则采用自研HBM,即将量产的昇腾950DT内存带宽计划达到4 TB/s**。
-
技术规格:从HBM3到HBM4,接口宽度翻倍至2048位,单堆栈理论带宽提升至2 TB/s,支持最多16层堆叠,单堆栈最大容量可达64GB。
🔗 高速互联:Scale-Up 纵向扩展
这是将少量GPU(通常在同一机柜内)以极高带宽、极低延迟的方式连接成一个“巨型GPU”的技术,主要用于处理通信最密集的张量并行(TP)任务。
-
英伟达 NVLink:长期领先的私有协议。其第六代NVLink Switch可实现单GPU到GPU带宽高达3.6 TB/s,并支持构建72个GPU的统一NVLink域。2025年起,为应对竞争,NVLink宣布采用开放策略,允许第三方芯片接入。
-
开放协议:AMD、博通等厂商主导的UALink、SUE等,均基于成熟的以太网技术,通过与网内计算等技术结合弥补延迟短板。
🌐 高速互联:Scale-Out 横向扩展与超节点
当单个超节点的算力不足时,需要通过Scale-Out技术将成千上万个节点连接成一个超级集群,用于处理通信密集度相对较低的数据并行(DP)和流水线并行(PP)任务。
-
英伟达方案:通过ConnectX-9 SuperNIC(800Gb/s RDMA网卡)和Spectrum-6以太网交换机(单个交换容量102.4 Tb/s)实现高效横向扩展。
-
超节点(SuperPod):超节点整合了Scale-Up和Scale-Out技术,将成百上千的GPU打包成一个统一的计算单元,以集群化弥补单卡性能。英伟达的Rubin NVL144超节点计划下半年推出,总算力达3.6 EFLOPS (FP4);华为的Atlas 950超节点(搭载8192张芯片)已在FP4精度下实现高达16 EFLOPS的集群算力。
💎 总结
随着模型向万亿参数演进,单一芯片的算力提升已无法满足需求。因此,算力系统的核心竞赛已转向“芯片-内存-互联”三位一体的高效协同:
-
纵向扩展 (Scale-Up):HBM为 GPU 提供“数据燃料”,NVLink等超高速互联技术则将这些专用芯片紧密绑定,形成强大的超节点。
-
横向扩展 (Scale-Out):通过以太网等标准网络技术,将成百上千的超节点连接起来,构建起庞大的AI算力集群。
AI芯片层正从一个“单点性能”的游戏,转变为一场“系统协同”的竞赛。算力的发挥不再只依赖GPU,而是由芯片、内存、互联这“三驾马车”协同决定。我们不妨就从这三个关键环节,梳理一下当前的核心玩家、技术命脉,以及它们各自的瓶颈。
🎯 AI芯片:GPU与ASIC的两极分化与协同
GPU(图形处理器)和ASIC(专用集成电路)是AI计算芯片的两大路径。前者走通用路线,后者靠专用致胜。
| 领域 |
|
技术核心 |
|
📍 中国力量 |
|---|---|---|---|---|
| GPU
|
英伟达
|
CUDA生态
|
全球产能荒
|
华为 (昇腾)
|
| ASIC
|
谷歌 (TPU)
|
架构定制化
|
开发灵活性差
|
字节/阿里/腾讯等
|
总的来看,行业发展路径正变得越来越清晰:昂贵的GPU将继续主导前沿模型训练;而追求规模和低成本的推理场景,将成为高性价比ASIC加速渗透的主战场。
🧠 算力物理核心:演进中的通用架构
传统的“中央处理器”正从配角转变为智能体的“运营中枢”。
-
核心企业:英特尔 (Intel) 与 AMD 双雄并立。
-
技术核心:单核性能、多核心调度、内置AI加速单元。在智能体时代,它不仅负责数据分流和任务调度,更要高效处理工具调用、API交互等关键步骤。
-
当前瓶颈:新的“CPU供应危机”。在AI智能体驱动的需求下,ARM架构的服务器CPU正迅速崛起,向传统x86巨头发起挑战。此外,随着存储板块和EUV光刻机成为焦点,高性能CPU的供应也面临潜在的产线排挤压力。
⚡️ 高带宽内存 (HBM):从“运粮官”到“粮草总长”
HBM的地位已今非昔比,它曾是GPU配件的“运粮官”,如今是决定系统算力上限的“粮草总长”。
-
核心企业:SK海力士(市场领导者)、三星 (技术追赶者)、美光 (市场搅局者) 三分天下,并积极与台积电等厂商深度绑定合作。
-
技术核心:3D堆叠技术与高带宽。通过TSV (硅通孔) 垂直堆叠DRAM层,实现超大位宽和超高带宽。HBM4将进一步带来翻倍的I/O通道数和飙升的带宽(预计超2TB/s)。
-
当前瓶颈:产能就是“命门”。其严重依赖台积电等厂商的CoWoS等先进封装工艺。此外,更高层数的堆叠(如16层)带来了复杂的散热、良率和翘曲难题,并严重挤压传统DRAM产能,已影响消费电子市场。
🔗 高速互联:打破“巴别塔”的AI超级高速公路
互联技术正通过多种方式将海量AI芯片连接成超大规模集群,目标是打造一条打破“芯片巴别塔”的AI超级高速公路。
-
核心企业及技术路径:
-
英伟达 (NVIDIA) NVLink / InfiniBand:封闭的自有生态,以超高性能实现纵向扩展(Scale Up),构建“巨型GPU”。
-
CXL联盟:开放式标准,以较低延迟实现横向扩展(Scale Out / Pooling),构建灵活的内存资源池,改善资源利用率。
-
开放以太网联盟 (UEC):开放生态,被视作打破英伟达垄断的核心力量,成本低且多厂商兼容。
-
光互联 (CPO):“全光时代”的曙光技术,旨在用光信号代替电信号,突破物理瓶颈,但成熟度和成本是挑战。
-
UCIe:行业“通用语言”,旨在标准化芯粒(Chiplet)之间的互联接口,让不同厂商的芯片像乐高一样组合,实现“开放硬件”生态。
-
当前瓶颈:成本高昂且迭代滞后。理想的硬件设计受限于可用互联技术,形成发展鸿沟。在万卡甚至十万卡集群中,芯片间的通信瓶颈可能导致训练效率锐减。
💎 总结
总的来说,当前AI计算的发展瓶颈已不局限于单一芯片,而是延展至先进封装、高带宽内存(HBM)产能、超高速互联等多个维度。可以说,决胜的关键,已从比拼算力峰值,转向了能否构建一个软硬件高度协同、开放融合的系统级解决方案。
这场竞赛,考验的不再是单一的产品,而是一个完整、高效、协同的生态系统。
夜雨聆风