乐于分享
好东西不私藏

华为昇腾 Ascend 950白皮书下载和 昇腾950PR、 950DT的主要区别

华为昇腾 Ascend 950白皮书下载和 昇腾950PR、 950DT的主要区别

1、昇腾950DT 8月将上市

华为昇腾Ascend 950包括两款芯片一款是Ascend 950PR,一款是Ascend 950DT。 

今年3月份,Ascend 950PR已经上市。

6月5日,华为中国云业务部部长陈林发言“昇腾芯片正以‘一年一代、算力翻倍’的速度演进,全新一代昇腾950DT芯片也将在8月份正式上线华为云。”

也就是说原计划2026年四季度发布的昇腾950DT芯片,已提前至2026年8月在华为云上线。

昇腾950 PR和昇腾950 DT 的主要区别在于内存带宽大幅度增加:

  •  昇腾950 DT采用了自研的HiZQ 2.0内存技术,对标HBM 4.0。

  • 单芯片内存总带宽从950PR1.6TB/s大幅度提升到950 DT的4TB/s

  • 内存配置容量由950 RP的最高128GB 容量提高到144G

  •  昇腾Ascend 950PRPR代表Prefill&Recommendation

(预填充和推荐)配备128GB、1.6TB/s 高速片上内存,主要面向高性能推荐系统、大模型 Prefill(预填充)阶段及多模态推理场景,兼顾高吞吐与低延迟。 

  • 昇腾 Ascend 950DTDT代表Decode&Training(解码和模型训练),配备144GB、4TB/s 高速片上内存,专为大模型全生命周期打造, 覆盖预训练、后训练及推理(含 Decode 与 Prefill)全流程,尤其适用于生成式大模型的训练与推理任务。

2、昇腾950的基本架构、相比上代昇腾的提升

昇腾950 芯片是一个多Die 合封的芯片,整芯片里合封了AI DieIO Die 个(昇腾950PR)或者个(昇腾950DT)高速片上内存模块。

这些Die 和片上内存模块通过高速的D2D Clink Memory Interface 连接在一起,整个Chiplet 芯片构成一个内存统一访问(UMA)的整体

相比上一代昇腾芯片的提升:

  • AICORE子系统,采用华为自研的第三代Davinci架构,在前代架构基础上,针对当前Transformer为核心、同时兼顾推荐、多模态等多种算法趋势,从低精度算力、计算效率、易用性等方面进行了全面的提升。

  • 新增支持业界标准FP8/MXFP8/MXFP4

  • 等低数值精度数据格式,并特别支持自研的HiF8,提升训练效率和推理吞吐。
  • 增加Cube-Vector融合通路,极大地提升了Cube-Vector融合算子性能

  • 大幅度提升了Vector算力,Cube:Vector算力配比达到8:1

  • 采用创新的SIMD/SIMT新同构设计,提升编程易用性

  • 支持128字节的Sector-Cache,提升离散且不连续的内存访问性能

  • 支持NDDMA高效数据访问,提升内存访问效率

  • 存储子系统:950芯片的存储子系统,支持两种类型的Memory,包括高容量、低成本的HiBL 1.0,以及高访存带宽的HiZQ 2.0。采用统一的接口实现不同Memory的对接。

  • IO子系统:950芯片支持UB灵衢互联,可以实现超节点系统的超高带宽、超低时延、超大规模组网需求。

  • 整芯片支持18400Gbps端口,支持超大互联带宽

  • 支持硬化的集合通信加速单元,降低通信对访问带宽的占用,提升通信性能,并降低通信对计算的影响

  • 创新的支持UB&UBOE互联协议;同时兼容PCIE互联

  • 同时支持Load/Store的同步通信语义,和URMA异步消息通信语义

 详细白皮书内容可以后台消息:“昇腾950”下载。

【本文内容参考于网络公开信息,如有侵权请指出将及时修正或删除。】

【如本文对您有用,请转发并点亮大拇指和小红心,谢谢!】