华为昇腾 Ascend 950白皮书下载和 昇腾950PR、 950DT的主要区别
1、昇腾950DT 8月将上市
华为昇腾Ascend 950包括两款芯片,一款是Ascend 950PR,一款是Ascend 950DT。
今年3月份,Ascend 950PR已经上市。
6月5日,华为中国云业务部部长陈林发言:“昇腾芯片正以‘一年一代、算力翻倍’的速度演进,全新一代昇腾950DT芯片也将在8月份正式上线华为云。”
也就是说原计划2026年四季度发布的昇腾950DT芯片,已提前至2026年8月在华为云上线。
昇腾950 PR和昇腾950 DT 的主要区别在于内存带宽大幅度增加:
-
昇腾950 DT采用了自研的HiZQ 2.0内存技术,对标HBM 4.0。
-
单芯片内存总带宽从950PR的1.6TB/s大幅度提升到950 DT的4TB/s
-
内存配置容量由950 RP的最高128GB 容量提高到144G
-
昇腾Ascend 950PR,PR代表Prefill&Recommendation
(预填充和推荐),配备128GB、1.6TB/s 高速片上内存,主要面向高性能推荐系统、大模型 Prefill(预填充)阶段及多模态推理场景,兼顾高吞吐与低延迟。
-
昇腾 Ascend 950DT,DT代表Decode&Training(解码和模型训练),配备144GB、4TB/s 高速片上内存,专为大模型全生命周期打造, 覆盖预训练、后训练及推理(含 Decode 与 Prefill)全流程,尤其适用于生成式大模型的训练与推理任务。
2、昇腾950的基本架构、相比上代昇腾的提升
昇腾950 芯片是一个多Die 合封的芯片,整芯片里合封了2 个AI Die、2 个IO Die 和8 个(昇腾950PR)或者4 个(昇腾950DT)高速片上内存模块。
这些Die 和片上内存模块通过高速的D2D Clink 和Memory Interface 连接在一起,整个Chiplet 芯片构成一个内存统一访问(UMA)的整体。

相比上一代昇腾芯片的提升:

-
AICORE子系统,采用华为自研的第三代Davinci架构,在前代架构基础上,针对当前Transformer为核心、同时兼顾推荐、多模态等多种算法趋势,从低精度算力、计算效率、易用性等方面进行了全面的提升。
-
新增支持业界标准FP8/MXFP8/MXFP4
-
等低数值精度数据格式,并特别支持自研的HiF8,提升训练效率和推理吞吐。 -
增加Cube-Vector融合通路,极大地提升了Cube-Vector融合算子性能
-
大幅度提升了Vector算力,Cube:Vector算力配比达到8:1
-
采用创新的SIMD/SIMT新同构设计,提升编程易用性
-
支持128字节的Sector-Cache,提升离散且不连续的内存访问性能
-
支持NDDMA高效数据访问,提升内存访问效率
-
存储子系统:950芯片的存储子系统,支持两种类型的Memory,包括高容量、低成本的HiBL 1.0,以及高访存带宽的HiZQ 2.0。采用统一的接口实现不同Memory的对接。
-
IO子系统:950芯片支持UB灵衢互联,可以实现超节点系统的超高带宽、超低时延、超大规模组网需求。
-
整芯片支持18个400Gbps端口,支持超大互联带宽
-
支持硬化的集合通信加速单元,降低通信对访问带宽的占用,提升通信性能,并降低通信对计算的影响
-
创新的支持UB&UBOE互联协议;同时兼容PCIE互联
-
同时支持Load/Store的同步通信语义,和URMA异步消息通信语义
详细白皮书内容可以后台消息:“昇腾950”下载。
【本文内容参考于网络公开信息,如有侵权请指出将及时修正或删除。】
【如本文对您有用,请转发并点亮大拇指和小红心,谢谢!】
夜雨聆风