全球主流 AI 芯片厂商架构全维度对比(NVIDIA/AMD/ 华为昇腾 / 寒武纪 / 壁仞 / 谷歌 TPU)
整体分为 通用 GPU 路线(NVIDIA、AMD、壁仞)、专用 NPU/ASIC 路线(华为达芬奇、寒武纪 MLU、谷歌 TPU)两大技术路线,从架构内核、精度支持、显存、软件生态、适用场景逐项拆解。
一、NVIDIA(通用 GPU 标杆,CUDA 生态垄断)
1. 三代主力架构:Ampere→Ada Lovelace→Blackwell
架构特点
- CUDA+TensorCore 双核心:通用 CUDA 负责通用浮点计算,TensorCore 专职矩阵(AI 卷积 / LLM 矩阵乘),是当前大模型训练 / 推理最优硬件架构;
- 分层产品线:消费 RDNA 对标游戏、RTX 专业卡(5880/A6000)兼顾
- 生态:CUDA、cuBLAS、TensorRT-LLM 全栈,Pytorch/Tensorflow 原厂深度适配,全球 90% 大模型基于 CUDA 开发。
二、AMD(双架构拆分:RDNA 消费图形 / CDNA 数据中心 AI)
AMD图形、计算架构彻底分家:RDNA 做游戏 / 消费级显卡,CDNA 专攻 AI 超算,ROCm 对标 CUDA。
1. RDNA3(消费 / 专业图形,对标 RTX40 系)
5nm+6nm Chiplet 小芯片(GCD 计算芯粒 + MCD 显存芯粒),统一 CU 计算单元、第二代无限缓存 Infinity Cache、内置小型 Matrix AI 单元; AI 仅辅助加速,无专用大模型张量引擎,主打游戏渲染、工业 CAD;代表:RX7900XTX、W7900(48G 专业卡)。
2. CDNA3(AI 数据中心,对标 H100/B200,MI300 系列)
全芯片面向矩阵计算,全规格 Matrix Core 替代 TensorCore,Chiplet 异构封装(CPU+GPU+HBM 集成 APU); 显存超大:MI300X 192GB HBM3E,带宽 8TB/s,原生 FP8/MXFP4 稀疏计算; 软件:ROCm 开源计算框架,兼容 PyTorch,无 CUDA,OpenAI 主力训练卡之一AMD。
架构总结
RDNA = 图形优先、AI 附带;CDNA=AI/HPC 优先、舍弃冗余图形单元。
三、华为昇腾:达芬奇架构(国产自研 NPU,专用 AI 架构,非 GPU)
核心:3D Cube 立方体计算单元(区别 GPU 二维 CUDA 阵列)
- 架构原理:计算单元是三维矩阵阵列,卷积 / Transformer 矩阵运算天然适配,数据原地计算、减少显存搬运,AI 能效优于通用 GPU;
产品分层: 昇腾 310/510:边缘推理,低功耗; 昇腾 910B/C、950PR:云端训练,7nm,FP16=256TFLOPS、INT8=1024TOPS,HBM 大容量显存; - 软件栈:CANN 底层算子库 + MindSpore 自研深度学习框架,完全不兼容 CUDA,需要模型迁移编译;
优势:千卡集群互联成熟,国内政务、智算中心国产化首选;短板:海外开源模型适配少,迁移成本高。
四、寒武纪:MLU 思元架构(ASIC 专用 AI,推理能效标杆)
自研 MLUarch 专用神经网络处理器,存算一体优化,不走 GPU 通用路线
架构:MLU 多核集群 + 专用 Supercharger 张量加速单元,硬件算子融合,减少内存读写; 产品线: 思元 370:云端推理,对标 T4; 思元 590/790:训推一体,对标 A100; 软件:Neware+MagicMind 编译器,一键转换 PyTorch/Tensorflow 模型,不用改源码; 强项:云端大规模推理(智能客服、图像识别)能效远超同价位 GPU;短板:超大 70B + 模型原生训练性能弱于 NVIDIA/AMD。
五、壁仞 BR100/B200(国产通用 GPU,兼容 CUDA 路线)
Biren 通用 GPU 架构(对标 CDNA/Blackwell)
路线:类 NVIDIA 通用 GPU 架构,指令集兼容 CUDA,国产唯一通用 GPGPU;7nm Chiplet 多芯粒封装,超大 HBM 显存; BR100:FP16≈1024TFLOPS、80GB HBM3,对标 A100;BR200 对标 H100; 生态:自研 BRCC 编译器,原生跑 CUDA 程序,大模型不用重构代码; 定位:国产化替代 A100/H100,兼顾训练 + 推理,兼顾少量图形渲染。
六、谷歌 TPU(ASIC 专用架构,云端自研闭环)
TPUv5e/v6:脉动阵列 Systolic Array 架构,全定制 ASIC,专为谷歌自研 JAX 框架优化; 特点:硬件锁死谷歌生态(Gemini、JAX),不兼容 PyTorch 原生,外部厂商难落地;云端自研算力自用,能效极高,不对外零售板卡。
夜雨聆风