乐于分享
好东西不私藏

AI:谷歌新推出的TPU集群架构&内存墙概念科普

AI:谷歌新推出的TPU集群架构&内存墙概念科普

突破存储与内存墙瓶颈

  • TPU直连技术
    :引入了TPU Direct RDMA和TPU Direct Storage。前者允许TPU的HBM与网卡直接通信,绕过主机CPU;后者实现TPU与10T级Lustre高速存储的直接内存访问。两者共同消除了主机瓶颈,使海量数据传输带宽翻倍,存储访问速度相较前代提升10倍

华为昇腾系列:全栈自研,训练与推理架构分离的实践者

华为的昇腾AI芯片是国内在技术体系完整度上最接近谷歌路线的代表。其最新昇腾950系列已明确采用训练与推理分离的架构思路,与谷歌TPU 8t/8i的拆分逻辑相通

国内可以对标的产品

  • 架构对标
    :昇腾950系列采用 “Prefill(预填充)/Decode(解码)分离” 架构。其中,950PR主打推理中的Prefill阶段,强调低成本和经济性;950DT则主打Decode阶段和训练,拥有更高的内存带宽。这种针对推理流程的精细化硬件设计,与TPU 8i为优化智能体等高并发推理任务而强化内存与通信效率的目标异曲同工。
  • 集群能力
    :华为计划发布的Atlas 950超节点,支持8192颗昇腾950DT芯片互联,旨在通过超节点互联技术在集群层面实现世界领先的算力规模,直接对标谷歌TPU超级集群的构建能力。

综合对比与总结

能力维度
沐曦股份 摩尔线程
训练能力核心 大规模集群商业化落地

(千卡向万卡推进),CUDA生态高兼容性,支持MOE大模型训练
原生FP8低精度训练

优势显著,“AI工厂”系统级工程,万卡集群高效能(MFU 60%)
推理能力核心 产品线分明

,有专为AIGC场景设计的推理芯片系列(N260/N300),注重缓存与带宽优化
单卡推理性能突出

(DeepSeek R1实测数据领先),全栈软件深度优化,追求训练与推理的无缝衔接
技术路径
训推一体与推理专用芯片并行发展。
全功能GPU

统一架构(MUSA),单芯片覆盖训练、推理、图形等多场景。
商业化与生态
累计销量超2.5万颗,在手订单金额高,客户生态(“1+6+X”)明确
开发者社区活跃(约20万开发者),消费级显卡与AI产品并进,通过开源和开发者大会构建生态

总结来说,两家公司均已在AI训练和推理领域展现出强大的国产替代实力。沐曦股份大规模训练集群的工程化落地和商业闭环上更为突出,产品策略稳健。而摩尔线程则在前沿低精度训练技术(FP8)和极致单卡推理性能上展现了更强的突破性,其“全功能GPU”路线和统一的软件栈生态更具前瞻性和灵活性。两者共同推动了国产GPU在高端AI算力领域的技术进步与应用普及。

将AI芯片架构明确划分为训练推理两种模式,并非简单的技术分类,而是由两者在任务本质、性能需求、经济成本和未来趋势上的根本性差异所决定的。这种分化是AI技术从实验室走向规模化、商业化应用的必然结果。

特性维度
训练芯片 (Training)
推理芯片 (Inference)
核心目标
缩短模型收敛时间
降低延迟、提高吞吐量、控制成本
计算精度
高精度 (FP16/BF16/FP8)
低精度 (INT8/INT4/FP8) 为主
内存访问
权重更新主导,需存储参数、梯度、优化器状态(总计是推理的3-4倍)
权重读取主导

,需高效处理KV Cache等机制
计算模式
规则、可预测的密集矩阵运算
多变,尤其在MoE(混合专家模型)中不规则
关键瓶颈
算力规模、集群互联带宽、高精度计算效率
“内存墙”

、片外访问延迟、请求并发调度

这种差异使得“一刀切”的通用设计效率低下。例如,谷歌在2026年发布的第八代TPU就首次将训练(TPU 8t)与推理(TPU 8i)拆分为两款独立芯片。TPU 8t专注于为超大规模预训练提供极致吞吐量;而TPU 8i则专门优化推理,通过大幅增加片上SRAM缓存(384MB)来保留更多KV Cache,并采用低跳转的全新互联拓扑,将长上下文解码的延迟降低了50%。

三、经济性与市场趋势的驱动

市场的需求变化和成本考量进一步推动了这种架构分化。

  1. 成本结构差异
    :训练虽是一次性投入,但单次成本极高(如万卡集群);推理则是持续发生的,其累积总成本可能远超训练。因此,降低推理的单位算力成本至关重要。
  2. 市场重心转移
    :随着大模型逐渐成熟并开始大规模部署,产业重心正从“训练”转向“推理”。麦肯锡预计,到21世纪20年代末,推理将占据AI数据中心算力需求的五分之三。推理需求的爆炸式、碎片化增长(从云端到边缘),催生了更多样化、更注重性价比的专用推理芯片
  3. 专业化带来的性价比优势
    :专用架构能在特定任务上实现更高的性能和更低的成本。例如,一些初创公司的推理芯片在特定模型上的速度可达传统GPU的20倍,同时能耗和成本大幅降低。谷歌也宣称,其专为推理设计的TPU 8i能在同等价格下,比前代多用途芯片性能提升80%,每瓦性能提升117%

结论

总而言之,将芯片架构分为训练和推理两种模式,是AI产业向深水区发展的关键标志。这背后是任务本质差异技术瓶颈分化经济规律驱动共同作用的结果。

tips:什么是内存墙 memory wall

一、内存墙的成因:发展失衡与物理极限

内存墙的形成是多重因素长期累积的结果:

  1. 处理器与内存发展速度失衡
    :过去二十多年,处理器性能以每年约55% 的速度提升,而内存性能的提升速度仅为每年10% 左右。长期的不均衡发展,使得内存存取速度严重滞后于处理器的计算速度
  2. “冯·诺依曼架构”的固有缺陷
    :传统计算机将存储与计算分离,任何计算都需要在存储器和处理器之间来回搬运数据。当计算需求爆炸式增长时,数据搬运就成为主要瓶颈
  3. 物理与成本的限制
    • 速度极限
      :DRAM(动态随机存取存储器)依赖电容充放电的物理机制,其速度存在天花板,无法与处理器内部的SRAM缓存或逻辑电路匹敌。
    • 带宽限制
      :增加内存通道和位宽会受到芯片引脚数量、功耗和成本的严重制约。
    • 距离与能耗
      :独立的内存芯片与计算芯片之间存在物理距离,数据在PCB板上的传输会产生巨大的时间延迟和能耗开销。