乐于分享
好东西不私藏

AI芯片层:GPU、算力芯片、高带宽内存、高速互联、算力物理核心

AI芯片层:GPU、算力芯片、高带宽内存、高速互联、算力物理核心

AI时代的算力系统,早已不是一颗芯片的单打独斗,而是一个由GPU、HBM、高速互联等软硬件共同构建的高效能集群。这些组件只有协同作战,才能真正释放算力的潜能。

这里是这几个核心组件的作用,以及目前的一些主流技术趋势:

🧠 算力物理核心:GPU (图形处理器)

GPU是负责并行计算的大脑,其特点是把绝大部分晶体管用在运算单元上(占比高达90%),专为大规模并行计算优化。

  • 核心思想:不同于CPU(中央处理器)处理多种任务,GPU更像一个庞大的工人团队(包含数千个计算核心),将复杂任务拆解成成千上万个小任务,同时处理,以实现高吞吐量。

  • 发展趋势:性能持续飞跃。英特尔计划2028年量产的Feynman GPU,面向物理AI,推理性能可达前代Blackwell的5倍;英伟达的Rubin GPU将采用台积电3nm工艺,集成3360亿个晶体管,单卡FP4推理算力达到了惊人的50 PFLOPS

⚡️ 算力物理核心:NPU/TPU等专用芯片

针对特定领域(如AI)设计的专用集成电路(ASIC),通过为特定算法优化硬件,实现远超通用芯片的能效比。

  • 华为昇腾 (NPU):基于“达芬奇”架构,专为神经网络计算设计。其路线图以“一年一代、算力翻倍”的速度推进。下一代昇腾950DT单芯片FP8算力预计达1 PFLOPS

  • LPU (语言处理单元):英伟达通过收购Groq后推出的推理专用芯片,为追求极致低延迟而创新性地采用500MB超大片上SRAM替代HBM。在AI代理时代,其首Token延迟低于0.1毫秒,适合需要快速响应的交互式应用。

⚡️ 高带宽内存 (HBM)

HBM是为高性能GPU“喂数据”的关键通道。它通过3D堆叠技术将多个DRAM芯片垂直封装,创造了惊人的带宽,是突破“内存墙”瓶颈的核心技术。

  • 演进路线:技术演进迅速,满足AI对带宽的渴求。英伟达新一代Rubin GPU已率先搭载HBM4,单卡带宽高达22 TB/s;华为则采用自研HBM,即将量产的昇腾950DT内存带宽计划达到4 TB/s**。

  • 技术规格:从HBM3到HBM4,接口宽度翻倍至2048位,单堆栈理论带宽提升至2 TB/s,支持最多16层堆叠,单堆栈最大容量可达64GB

🔗 高速互联:Scale-Up 纵向扩展

这是将少量GPU(通常在同一机柜内)以极高带宽、极低延迟的方式连接成一个“巨型GPU”的技术,主要用于处理通信最密集的张量并行(TP)任务。

  • 英伟达 NVLink:长期领先的私有协议。其第六代NVLink Switch可实现单GPU到GPU带宽高达3.6 TB/s,并支持构建72个GPU的统一NVLink域。2025年起,为应对竞争,NVLink宣布采用开放策略,允许第三方芯片接入。

  • 开放协议:AMD、博通等厂商主导的UALink、SUE等,均基于成熟的以太网技术,通过与网内计算等技术结合弥补延迟短板。

🌐 高速互联:Scale-Out 横向扩展与超节点

当单个超节点的算力不足时,需要通过Scale-Out技术将成千上万个节点连接成一个超级集群,用于处理通信密集度相对较低的数据并行(DP)和流水线并行(PP)任务。

  • 英伟达方案:通过ConnectX-9 SuperNIC800Gb/s RDMA网卡)和Spectrum-6以太网交换机(单个交换容量102.4 Tb/s)实现高效横向扩展。

  • 超节点(SuperPod):超节点整合了Scale-Up和Scale-Out技术,将成百上千的GPU打包成一个统一的计算单元,以集群化弥补单卡性能。英伟达的Rubin NVL144超节点计划下半年推出,总算力达3.6 EFLOPS (FP4);华为的Atlas 950超节点(搭载8192张芯片)已在FP4精度下实现高达16 EFLOPS的集群算力。

💎 总结

随着模型向万亿参数演进,单一芯片的算力提升已无法满足需求。因此,算力系统的核心竞赛已转向“芯片-内存-互联”三位一体的高效协同:

  1. 纵向扩展 (Scale-Up)HBM为 GPU 提供“数据燃料”,NVLink等超高速互联技术则将这些专用芯片紧密绑定,形成强大的超节点。

  2. 横向扩展 (Scale-Out):通过以太网等标准网络技术,将成百上千的超节点连接起来,构建起庞大的AI算力集群。

AI芯片层正从一个“单点性能”的游戏,转变为一场“系统协同”的竞赛。算力的发挥不再只依赖GPU,而是由芯片、内存、互联这“三驾马车”协同决定。我们不妨就从这三个关键环节,梳理一下当前的核心玩家、技术命脉,以及它们各自的瓶颈。

🎯 AI芯片:GPU与ASIC的两极分化与协同

GPU(图形处理器)和ASIC(专用集成电路)是AI计算芯片的两大路径。前者走通用路线,后者靠专用致胜。

领域
🌍 核心企业
技术核心
⚠️ 当前瓶颈
📍 中国力量
GPU

 (高精度、高灵活度)
英伟达

:绝对霸主(市占率超80%AMD:奋力追赶
CUDA生态

:几乎无法逾越的开发者生态壁垒Tensor Core:专为AI运算优化的加速核心
全球产能荒

先进制程和先进封装产能高度紧张性价比下降:成本高昂,对于固化后的推理任务性价比偏低“内存墙”+生态依赖:算力再强也受限于数据供给,且训练环节存在对CUDA生态的依赖
华为 (昇腾)

:国产AI芯片领头羊海光信息寒武纪:在特定领域实现追赶
ASIC

 (高能效、高性价比)
谷歌 (TPU)

:自研自用,技术领先博通/联发科/Marvell:为云巨头提供设计服务亚马逊 (Trainium/Inferentia)
架构定制化

:为Transformer等特定算法生“算力”,能效比惊人推理性能:在成本和功耗上远优于通用GPU,适用于已成熟的AI应用
开发灵活性差

:设计周期长,一旦AI算法范式改变,芯片可能失效泛化能力:通用性差,无法灵活应对多种任务另类垄断:CSP (云服务商) 自研形成新一代技术壁垒
字节/阿里/腾讯等

:纷纷自研ASIC,力图降低成本并获取供应自主权

总的来看,行业发展路径正变得越来越清晰:昂贵的GPU将继续主导前沿模型训练;而追求规模和低成本的推理场景,将成为高性价比ASIC加速渗透的主战场。

🧠 算力物理核心:演进中的通用架构

传统的“中央处理器”正从配角转变为智能体的“运营中枢”。

  • 核心企业英特尔 (Intel) 与 AMD 双雄并立。

  • 技术核心单核性能、多核心调度、内置AI加速单元。在智能体时代,它不仅负责数据分流和任务调度,更要高效处理工具调用、API交互等关键步骤。

  • 当前瓶颈新的“CPU供应危机”。在AI智能体驱动的需求下,ARM架构的服务器CPU正迅速崛起,向传统x86巨头发起挑战。此外,随着存储板块和EUV光刻机成为焦点,高性能CPU的供应也面临潜在的产线排挤压力。

⚡️ 高带宽内存 (HBM):从“运粮官”到“粮草总长”

HBM的地位已今非昔比,它曾是GPU配件的“运粮官”,如今是决定系统算力上限的“粮草总长”。

  • 核心企业SK海力士(市场领导者)、三星 (技术追赶者)、美光 (市场搅局者) 三分天下,并积极与台积电等厂商深度绑定合作。

  • 技术核心3D堆叠技术与高带宽。通过TSV (硅通孔) 垂直堆叠DRAM层,实现超大位宽和超高带宽。HBM4将进一步带来翻倍的I/O通道数飙升的带宽(预计超2TB/s)。

  • 当前瓶颈产能就是“命门”。其严重依赖台积电等厂商的CoWoS等先进封装工艺。此外,更高层数的堆叠(如16层)带来了复杂的散热、良率和翘曲难题,并严重挤压传统DRAM产能,已影响消费电子市场。

🔗 高速互联:打破“巴别塔”的AI超级高速公路

互联技术正通过多种方式将海量AI芯片连接成超大规模集群,目标是打造一条打破“芯片巴别塔”的AI超级高速公路。

  • 核心企业及技术路径

    • 英伟达 (NVIDIA) NVLink / InfiniBand:封闭的自有生态,以超高性能实现纵向扩展(Scale Up),构建“巨型GPU”。

    • CXL联盟:开放式标准,以较低延迟实现横向扩展(Scale Out / Pooling),构建灵活的内存资源池,改善资源利用率。

    • 开放以太网联盟 (UEC):开放生态,被视作打破英伟达垄断的核心力量,成本低且多厂商兼容。

    • 光互联 (CPO)“全光时代”的曙光技术,旨在用光信号代替电信号,突破物理瓶颈,但成熟度和成本是挑战。

    • UCIe行业“通用语言”,旨在标准化芯粒(Chiplet)之间的互联接口,让不同厂商的芯片像乐高一样组合,实现“开放硬件”生态。

  • 当前瓶颈成本高昂且迭代滞后。理想的硬件设计受限于可用互联技术,形成发展鸿沟。在万卡甚至十万卡集群中,芯片间的通信瓶颈可能导致训练效率锐减

💎 总结

总的来说,当前AI计算的发展瓶颈已不局限于单一芯片,而是延展至先进封装、高带宽内存(HBM)产能、超高速互联等多个维度。可以说,决胜的关键,已从比拼算力峰值,转向了能否构建一个软硬件高度协同、开放融合的系统级解决方案

这场竞赛,考验的不再是单一的产品,而是一个完整、高效、协同的生态系统。