全球主流 AI 芯片厂商架构全维度对比

全球主流 AI 芯片厂商架构全维度对比（NVIDIA/AMD/ 华为昇腾 / 寒武纪 / 壁仞 / 谷歌 TPU）

整体分为通用 GPU 路线（NVIDIA、AMD、壁仞）、专用 NPU/ASIC 路线（华为达芬奇、寒武纪 MLU、谷歌 TPU）两大技术路线，从架构内核、精度支持、显存、软件生态、适用场景逐项拆解。

一、NVIDIA（通用 GPU 标杆，CUDA 生态垄断）

架构	核心架构设计	AI 单元	精度支持	代表显卡
Ampere(8nm)	SM 流式多处理器，CUDA Core + 第三代 Tensor Core 分离设计，NVLink4	第三代 Tensor Core，稀疏加速	FP16/BF16/TF32/INT8，无原生 FP8	A100/A40/T4/RTX A6000
Ada(5nm AD102)	SM 重构，张量单元扩容，原生 FP8 硬件，RTX5880/6000 Ada	四代 Tensor Core + 四代 RT Core，Transformer 引擎初代	原生 FP8/FP16/BF16/INT4，LLM 原生优化	RTX5880、RTX6000 Ada、4090
Blackwell(4NP)	双芯粒 Chiplet、第五代 Tensor Core、二代 Transformer Engine	第五代 Tensor，硬件 FP4/FP6，稀疏 3 倍加速	FP4/FP8/FP16/BF16/TF32 全规格	H200/B200、RTX PRO Blackwell

CUDA+TensorCore 双核心：通用 CUDA 负责通用浮点计算，TensorCore 专职矩阵（AI 卷积 / LLM 矩阵乘），是当前大模型训练 / 推理最优硬件架构；
分层产品线：消费 RDNA 对标游戏、RTX 专业卡（5880/A6000）兼顾

图形渲染 + AI 训练 + 推理、数据中心 H/H100/B200 纯超大模型训练；

生态：CUDA、cuBLAS、TensorRT-LLM 全栈，Pytorch/Tensorflow 原厂深度适配，全球 90% 大模型基于 CUDA 开发。

AMD图形、计算架构彻底分家：RDNA 做游戏 / 消费级显卡，CDNA 专攻 AI 超算，ROCm 对标 CUDA。

5nm+6nm Chiplet 小芯片（GCD 计算芯粒 + MCD 显存芯粒），统一 CU 计算单元、第二代无限缓存 Infinity Cache、内置小型 Matrix AI 单元；
AI 仅辅助加速，无专用大模型张量引擎，主打游戏渲染、工业 CAD；代表：RX7900XTX、W7900（48G 专业卡）。

RDNA = 图形优先、AI 附带；CDNA=AI/HPC 优先、舍弃冗余图形单元。

自研 MLUarch 专用神经网络处理器，存算一体优化，不走 GPU 通用路线

厂商	架构路线	是否兼容 CUDA	核心计算单元	最优场景	显存特征
NVIDIA	通用 GPU	原生兼容	CUDA Core+TensorCore	全场景：游戏 / 渲染 / LLM 训推	GDDR6/HBM，ECC 工业可选
AMD	RDNA (图形)/CDNA (AI)	不兼容，ROCm 替代	CU/MatrixCore	RDNA 游戏；CDNA 超大模型训练	CDNA 超大 HBM (192GB)
华为昇腾	专用 NPU (ASIC)	不兼容	3D Cube 立方体单元	国产化智算、政企大模型	自研 HBM，集群优化
寒武纪	专用 MLU ASIC	不兼容	MLU 张量核	云端海量推理	GDDR5/GDDR6，低功耗
壁仞	通用 GPGPU	软兼容 CUDA	Biren 流多处理器	国产替代 A100 训推	HBM3 大容量显存