一文读懂AI时代的主流处理器

随着大语言模型参数规模从十亿级跃升至万亿级，AI计算需求呈现出爆发式增长。在这个背景下，计算架构不再由单一品类主导，而是形成了GPU、TPU、APU、NPU等多种架构并存的局面。

GPU：通用计算的基石与生态霸主

图形处理器（GPU）最初为图形渲染设计，但凭借其大规模并行计算能力，已成为当前AI领域的事实标准。

技术核心：GPU采用SIMT（单指令多线程）执行模型，以NVIDIA的Streaming Multiprocessor（SM）为基本计算单元。每个SM包含CUDA Core（基础计算单元）和Tensor Core（矩阵加速单元）。以最新Blackwell架构为例，其Tensor Core已演进至第五代，支持FP4精度计算，并在Hopper架构中引入了Transformer Engine，可动态管理混合精度计算。

内存架构：现代AI GPU采用分层存储体系。以H100为例，寄存器提供数十TB/s的极限带宽但容量仅256KB/SM；L1缓存/共享内存容量256KB/SM，带宽约10TB/s；L2缓存60MB，带宽5TB/s；外部HBM3容量80GB，带宽3.35TB/s。这种层次结构通过数据局部性优化，缓解了"内存墙"问题。

生态壁垒：CUDA生态经过20年积累，形成了深厚的软件护城河。PyTorch、TensorFlow等主流框架对CUDA支持最为完善，这也是其他架构难以撼动GPU地位的核心原因。

技术实现细节

核心架构：Streaming Multiprocessor (SM)

CUDA Core：基础FP32/INT32计算单元，每个SM含128-256个
Tensor Core：专用矩阵乘加单元（4×4×4 FMA），支持FP16/BF16/INT8/FP8/FP4
RT Core：光追加速单元（Turing及以后），处理BVH遍历和光线-三角形相交测试
Warp调度器：32线程为一组（Warp），单指令多线程（SIMT）执行

内存层次（以H100为例）

层级	容量	带宽	延迟	用途
寄存器	256KB/SM	数十TB/s	~1 cycle	线程私有数据
L1 Cache/Shared Memory	256KB/SM	~10TB/s	~10 cycles	线程块共享数据
L2 Cache	60MB（H100）	~5TB/s	~100 cycles	全局缓存
HBM3	80GB	3.35TB/s	~500 cycles	大模型参数存储

关键技术

NVLink：芯片间高速互联（Hopper达900GB/s双向）
Transformer Engine：Hopper引入，动态管理FP8精度
MIG（Multi-Instance GPU）：Ampere起支持，单卡虚拟化成7个独立实例

技术发展迭代

架构	年份	制程	关键创新	代表产品
Tesla	2006	90nm	统一着色器架构，CUDA诞生	G80/GTX 8800
Fermi	2010	40nm	完整GPU计算架构，L1/L2 Cache体系	GTX 480/M2090
Kepler	2012	28nm	GPU Boost动态超频，GK110	GTX 680/Titan
Maxwell	2014	28nm	每瓦性能大幅提升，SMM redesign	GTX 980
Pascal	2016	16nm	NVLink 1.0，HBM2，第一代统一内存	P100/GTX 1080
Volta	2017	12nm	第一代Tensor Core ，NVLink 2.0	V100
Turing	2018	12nm	RT Core光追，Tensor Core V2，GDDR6	RTX 2080/T4
Ampere	2020	7nm	Tensor Core V3（稀疏加速），MIG，第三代NVLink	A100/RTX 3090
Hopper	2022	4nm	Tensor Core V4，Transformer Engine，DPX指令	H100/H200
Blackwell	2024	4nm	Tensor Core V5，第二代Transformer Engine，FP4精度，NVLink 6.0	B100/B200/GB10

TPU：谷歌的云端AI专用武器

张量处理器（TPU）由谷歌自研，代表了ASIC（专用集成电路）路线在AI领域的成功实践。

架构特色：TPU的核心是脉动阵列（Systolic Array）——一种二维矩阵计算结构，数据从阵列一端流入，在流动过程中完成乘加运算，结果从另一端流出。这种设计最大化数据复用，减少了内存访问次数。TPU v4包含65536个MAC（乘加单元），峰值算力达275 TFLOPS（BF16）。

内存与扩展：TPU采用HBM2/3作为外部存储，配合28MB片上SRAM。其最大优势在于集群扩展能力，TPU Pod可通过3D Torus网络连接数千颗芯片，形成超大规模训练集群（v5p Pod可达8960芯片）。

适用边界：TPU与TensorFlow/JAX深度绑定，仅通过谷歌云提供服务。其架构针对Transformer类模型优化，但对于非规则计算或需要频繁分支的场景效率较低。

技术实现细节

架构设计

脉动阵列（Systolic Array）：核心计算单元是65536个8-bit乘加单元，排列成256×256的二维阵列
数据流驱动：数据从一端流入，在阵列中流动计算，结果从另一端流出，最大化数据复用
专用矩阵乘法器：针对Transformer中的矩阵运算优化，不追求通用性

内存层次

层级	容量	带宽	用途
片上SRAM	28MB（TPU v3）	数TB/s	存储激活值和权重
HBM2	32GB（TPU v3）	900GB/s	大模型参数存储
片间互联	-	数百GB/s	TPU Pod集群通信

关键参数（TPU v4）

BF16精度为主，支持INT8
峰值算力：约275 TFLOPS（BF16）
功耗：约200W
制程：7nm（v4）、5nm（v5）

技术发展迭代

版本	年份	关键改进
TPU v1	2016	初代，仅推理，65536 MAC单元，28nm
TPU v2	2017	加入训练支持，引入bfloat16，HBM2
TPU v3	2018	算力翻倍，HBM2容量翻倍，液冷散热
TPU v4	2021	7nm工艺，稀疏计算加速，3D Torus互联
TPU v5e/v5p	2023	5nm，支持更大集群（TPU v5p Pod达8960芯片）

APU：异构融合的统一内存实践

加速处理器（APU）将CPU与GPU集成于单一芯片，代表了异构计算架构的重要分支。AMD的Ryzen AI系列与Apple的M系列是这一路线的代表。

统一内存架构：APU的核心创新在于统一内存架构（Unified Memory Architecture）。传统架构中，CPU使用DDR内存，GPU使用GDDR/HBM显存，数据需通过PCIe总线拷贝。而APU让CPU与GPU共享同一物理内存池（通常为LPDDR5X），实现零拷贝数据共享。以AMD Strix Halo为例，其提供128GB统一内存，带宽256GB/s；Apple M3 Ultra更达到819GB/s的惊人带宽。

技术权衡：统一内存消除了数据搬运开销，且容量可做得很大（最高512GB），适合大模型推理。但其带宽（256-819GB/s）仍低于高端独立GPU的HBM（3TB/s+），且CPU与GPU存在带宽竞争。此外，APU的GPU部分通常采用集成显卡架构（如RDNA 3.5），图形性能弱于独立显卡。

生态现状：APU需依赖ROCm（AMD）或Metal（Apple）生态，CUDA兼容性仍是短板。

技术实现细节

架构本质

CPU + GPU 异构集成：在同一硅片上集成通用处理器和图形处理器
共享内存控制器：CPU和GPU通过同一内存控制器访问系统内存
统一地址空间：CPU和GPU看到相同的虚拟地址，零拷贝数据共享

AMD Strix Halo（最新一代）细节

组件	规格
CPU	16核Zen 5，32线程
GPU	40 CU RDNA 3.5
NPU	XDNA 2，50 TOPS
内存控制器	256-bit LPDDR5X-8000
总带宽	256GB/s（共享）

关键技术

Infinity Fabric：AMD的片内/片间互联总线，连接CPU、GPU、NPU
Smart Access Memory（SAM）：CPU直接访问全部GPU内存，突破传统限制
Chiplet设计：CPU、GPU、I/O分别制造，通过先进封装集成

技术发展迭代

阶段	年份	代表产品	关键特征
初代APU	2011	AMD Llano	CPU+GPU首次融合，32nm
GCN架构	2013-2017	Kaveri、Bristol Ridge	图形核心升级，HSA异构系统架构
Zen+Vega	2017-2020	Raven Ridge、Renoir	Zen CPU+Vega GPU，12nm/7nm
RDNA时代	2020-2023	Cezanne、Rembrandt	RDNA2图形核心，DDR5支持
AI增强	2023-2025	Phoenix、Strix Point、Strix Halo	加入XDNA NPU，统一内存带宽大幅提升

NPU：端侧AI的能效比之王

神经网络处理器（NPU）专为低功耗AI推理设计，广泛部署于智能手机、轻薄笔记本及IoT设备。

架构特点：NPU通常包含专门的MAC阵列，针对INT8/INT4低精度计算优化，并支持稀疏计算（跳过零值运算）。以Apple Neural Engine为例，其采用16核设计，M4系列提供38 TOPS算力；高通Hexagon NPU则采用标量+向量+张量三单元异构设计。

技术演进：早期NPU（2017年左右）仅支持简单CNN推理；随着Transformer普及，现代NPU增加了对Attention机制的硬件支持，并引入KV Cache管理单元。Intel、AMD在PC处理器中集成的NPU（如Intel NPU 4.0、AMD XDNA 2）算力已突破40 TOPS，支撑本地大模型运行。

定位清晰：NPU追求极致能效比（每瓦算力），但绝对算力有限，且仅适合推理（Inference），无法承担训练（Training）任务。

技术实现细节

架构特点

专用MAC阵列：大量低精度（INT8/INT4）乘加单元
数据流优化：针对神经网络层间数据流动优化，减少内存访问
稀疏计算支持：跳过零值计算，提升效率

Apple Neural Engine（代表设计）

参数	M3系列	M4系列
核心数	16核	16核
算力	18 TOPS	38 TOPS
精度支持	INT8、FP16	INT8、FP16、BF16
内存访问	统一内存架构	统一内存架构
专用功能	支持Transformer	支持更大的模型

高通Hexagon NPU

标量+向量+张量三单元设计
标量单元：控制流、激活函数
向量单元：SIMD并行
张量单元：矩阵乘法加速

技术发展迭代

阶段	时间	特征
早期DSP	2010-2015	用数字信号处理器跑简单神经网络
专用NPU诞生	2016-2018	苹果A11 Bionic（首款手机NPU），华为麒麟970
算力竞赛	2019-2022	从几TOPS到几十TOPS，精度从INT8到FP16
Transformer优化	2023-2025	针对大模型注意力机制优化，支持KV Cache管理
PC级NPU	2024-2025	Intel NPU 4.0、AMD XDNA 2、高通Hexagon，40+ TOPS

IPU与LPU：SRAM-only的极端路线

Graphcore的IPU和Groq的LPU代表了另一种架构哲学：摒弃外部DRAM，仅用片上SRAM。

技术实现：Groq LPU包含230MB片上SRAM，提供80TB/s的极端带宽和确定性延迟（无抖动）。其采用时序编译器（Temporal Compiler），在编译阶段即确定所有指令的执行时序，运行时无需缓存未命中等待。IPU则采用1216个独立核心（MIMD架构）和900MB片上SRAM，针对图计算优化。

能力边界：SRAM-only架构的致命限制在于容量——230MB仅能容纳小模型（如7B-13B参数）。对于大模型，需通过模型并行（Model Parallelism）将参数分布到多芯片，增加了系统复杂度。因此，这类架构目前主要服务于对延迟极度敏感的场景（如高频交易、实时对话）。

市场命运：Graphcore已于2024年被收购并停产，表明纯SRAM路线在商业上难以与GPU竞争；Groq则通过云服务模式（GroqCloud）继续探索LLM推理市场。

技术实现细节（Groq）

极致架构

张量流式处理器（TSP）：不是传统SIMD，而是VLIW+数据流
SRAM-only设计：230MB片上SRAM，零外部DRAM
确定性执行：编译时确定所有时序，运行时无延迟波动
时序编译器：将模型编译成精确的指令时间表

关键参数（GroqChip）

参数	数值
制程	14nm GlobalFoundries
芯片面积	725mm²
SRAM容量	230MB
算力	750 TOPS（INT8）
片内带宽	80 TB/s
功耗	300W
延迟	可预测，无抖动

系统级设计

GroqNode：4芯片，1TB/s互联
GroqRack：64芯片，支持70B模型
GroqCloud：云端API服务

技术发展迭代

阶段	时间	进展
初代芯片	2019-2020	14nm TSP，证明架构可行性
GroqChip	2021-2022	规模化部署，主打低延迟推理
大模型支持	2023-2024	支持Llama 2 70B，每秒几百tokens
下一代	计划2025	4nm工艺，更大SRAM，支持更大模型

FPGA与ASIC：灵活性与专用性的光谱两端

现场可编程门阵列（FPGA）和专用集成电路（ASIC）位于灵活性与效率的两个极端。

FPGA：通过可编程逻辑单元（LUT）和可配置互联，FPGA可在硬件层面实现任意数字电路。Xilinx Versal系列甚至集成了AI引擎（AIE），提供512个VLIW SIMD处理器。FPGA适合算法快速迭代期或小批量部署，但单位算力成本高于ASIC。

ASIC：当算法固化且需求量极大时，全定制ASIC可实现最优能效比。除TPU外，AWS的Inferentia/Trainium、阿里巴巴的含光800均属于此类。ASIC开发周期长（1-2年）、流片成本高昂（数千万美元），但一旦量产，单位成本极低。

FPGA（Field Programmable Gate Array）

技术实现

可编程逻辑单元：LUT（查找表）+ 触发器，实现任意组合逻辑
可编程互联：可配置的路由资源连接逻辑单元
硬核IP：嵌入DSP slice、Block RAM、高速收发器

Xilinx Versal（代表产品）

组件	功能
Scalar Engines	ARM Cortex-A72，通用控制
Adaptable Engines	FPGA可编程逻辑
AI Engines	512个VLIW SIMD处理器，针对AI优化
DSP Engines	专用浮点/定点计算
NoC	片上网络互联

ASIC（Application Specific Integrated Circuit）

全定制设计

逻辑综合：RTL代码→门级网表
物理设计：布局、布线、时序优化
制造：流片（Tape-out），不可修改
Google TPU就是ASIC的典型成功案例

技术发展迭代

阶段	FPGA	ASIC
早期	1980s：简单可编程逻辑	1970s：全定制，手工布局
成熟期	2000s：百万门级，嵌入处理器	1990s：标准单元库，EDA工具成熟
AI时代	2015-2020：嵌入DSP、AI引擎（Xilinx ACAP、Intel Agilex）	2016-至今：TPU、Inferentia等专用AI芯片爆发
现状	用于原型验证、小批量、灵活场景	大批量、固定算法、极致性能

结语：从通用到专用的架构分化

AI处理器的发展呈现出明显的专业化分化趋势：GPU守住通用计算的中央阵地，TPU、NPU、LPU等专用架构在特定场景建立优势，APU则在个人计算设备中推动异构融合。

GPU之所以成为AI领域事实标准，不是因为某一项技术最强，而是平衡性最好：

比TPU灵活，能跑任意算法
比APU/NPU性能高，能训练大模型
比IPU/LPU容量大，能处理大模型
比FPGA/ASIC易用，CUDA生态成熟

但随着AI计算场景分化（云端训练 vs 端侧推理 vs 低延迟服务），专用芯片（TPU、NPU、LPU）正在蚕食GPU的领地，形成"GPU守中央，专用芯片占四方"的格局。

综合对比表

特性	GPU	TPU	APU	NPU	IPU	LPU	FPGA	ASIC
定位	通用AI计算+图形	云端训练/推理	个人AI PC	端侧推理	图计算/AI（已停）	LLM推理	原型/灵活部署	量产极致性能
架构	SIMT+Tensor Core	脉动阵列	CPU+GPU融合	专用MAC阵列	MIMD+大SRAM	VLIW+SRAM-only	可编程逻辑	全定制电路
计算单元	CUDA Core+Tensor Core	65K MAC阵列	Zen CPU+RDNA GPU	AI Engine	1216 IPU-Core	TSP	LUT+DSP	定制数据通路
内存类型	HBM3/GDDR6X	HBM2/3	统一LPDDR5X	片上SRAM/统一内存	大SRAM（900MB）	纯SRAM（230MB）	灵活	定制
带宽	3.35TB/s（H100）	1.2TB/s（TPU v5）	256-819GB/s	数十GB/s	80TB/s（片内）	80TB/s（片内）	可变	定制
灵活性	高（CUDA生态）	低	中	低	低	极低	极高	无
编程难度	中（CUDA）	高（XLA/JAX）	低（标准API）	中（CoreML/NNAPI）	高（Poplar）	高（Groq Compiler）	高（Verilog/VHDL）	极高
生态	最完善（CUDA 20年积累）	TensorFlow/JAX绑定	ROCm/DirectML	各厂商独立生态	已消亡	初创生态	工业/通信传统	绑定特定场景
代表厂商	NVIDIA、AMD、Intel	Google	AMD、Intel、Apple	Apple、高通、联发科	Graphcore（已停）	Groq	Xilinx、Intel	Google、Amazon、Cerebras

GPU：通用计算的基石与生态霸主

技术实现细节

内存层次（以H100为例）

关键技术

技术发展迭代

TPU：谷歌的云端AI专用武器

技术实现细节

架构设计

内存层次

关键参数（TPU v4）

技术发展迭代

APU：异构融合的统一内存实践

技术实现细节

架构本质

AMD Strix Halo（最新一代）细节

关键技术

技术发展迭代

NPU：端侧AI的能效比之王

技术实现细节

架构特点

Apple Neural Engine（代表设计）

高通Hexagon NPU

技术发展迭代

IPU与LPU：SRAM-only的极端路线

技术实现细节（Groq）

极致架构

关键参数（GroqChip）

系统级设计

技术发展迭代

FPGA与ASIC：灵活性与专用性的光谱两端

FPGA（Field Programmable Gate Array）

技术实现

Xilinx Versal（代表产品）

ASIC（Application Specific Integrated Circuit）

全定制设计

技术发展迭代

结语：从通用到专用的架构分化

综合对比表

选择决策树