AI芯片(上)——从通用到专用:AI芯片的架构革命与大国博弈AI芯片 ——从通用到专用: AI芯片的架构革命与大国博弈 摘要 AI芯片是人工智能时代的核心底层硬件,决定了算力的供给能力与产业话语权。2023年以来,以ChatGPT为标志的生成式AI浪潮引爆全球算力需求,AI芯片市场进入爆发式增长阶段。2025年全球AI加速芯片市场规模预计突破千亿美元,其中中国占据约40%份额。 面对美国的出口管制持续升级,中国AI芯片产业正经历从"替代"到"并跑"的深刻蜕变,华为昇腾、寒武纪、海光信息、壁仞科技等本土力量快速崛起,同时在HBM内存、先进制程、先进封装等关键环节仍面临外部依赖。 本报告从技术类型与产业链结构、中美企业竞争态势、中国产业现状、未来趋势与投资机会四大维度,对AI芯片行业进行全面深入分析。 一、行业概述与研究背景 1.1 AI芯片的定义与核心地位 AI芯片(Artificial Intelligence Chip) 是专门用于加速人工智能算法计算的集成电路,是算力基础设施的核心硬件载体。与传统通用CPU不同,AI芯片针对神经网络的大规模并行计算进行了架构优化,能够在训练(Training)和推理(Inference)场景中实现数量级的性能提升。AI芯片处于半导体产业链的最顶端,是数字经济时代最重要的战略资源之一。其技术先进性和产业规模直接决定了一个国家在人工智能全球竞争中的战略地位。 2023年被视为AI芯片产业的爆发元年。ChatGPT上线两个月内用户突破1亿,刷新互联网应用增长记录,引领全球进入生成式AI时代。大模型的参数规模从GPT-3的1750亿跳跃至GPT-4的约1.8万亿,Google PaLM-E达到5620亿参数,OpenAI GPT-5预计超过10万亿参数,参数量的指数级膨胀对底层算力芯片形成了巨大的需求拉动。 与此同时,美国对华芯片出口管制持续升级。2022年10月美国商务部BIS发布全面芯片出口管制新规,2023年10月进一步收紧,2025年持续加码。这一外部压力深刻重塑了中国AI芯片产业的发展路径与战略重心。 1.2 AI芯片在人工智能产业链中的位置 从产业链视角看,AI芯片位于整个人工智能产业链的最上游。具体结构如下: 产业链层级
核心环节
代表企业 / 产品
最上游:材料与设备
光刻机、刻蚀机、沉积设备、 EUV 光源等
ASML 、应用材料、东京威力科创、北方华创
上游:芯片设计 /IP
EDA 工具、芯片架构 IP 、芯片设计服务
Cadence 、 Synopsys 、 ARM 、新思科技
核心: AI 芯片制造
晶圆代工、先进制程、封装测试
台积电、三星、中芯国际、华虹半导体
中游:服务器与系统
AI 服务器、存储设备、网络设备
浪潮信息、超聚变、新华三、 HPE 、 Dell
下游:算力基础设施
数据中心、超算中心、边缘计算节点
阿里云、腾讯云、华为云、 AWS 、 Google Cloud
应用层: AI 应用
大模型训练与推理、 AI 应用软件
OpenAI 、 Google 、百度、字节跳动
配套:散热与供电
液冷散热、电源管理系统
英维克、维谛技术、强瑞技术
二、 AI芯片类型深度解析 AI芯片根据架构特性和应用场景可分为多种类型,主要包括GPU、FPGA、ASIC(含NPU/TPU等)、CPU四大类别,以及DPU等新兴品类 。不同类型的AI芯片在算力、灵活性、功耗和应用场景上各有优劣,共同构成完整的AI计算生态。 2.1 GPU——AI训练的主导力量 GPU(Graphics Processing Unit)是目前全球AI芯片市场中规模最大、应用最广的品类,最初为图形渲染设计,后因矩阵运算的并行计算优势成为AI深度学习训练的首选硬件。 ·成百上千个小型计算核心,可并行处理海量矩阵运算(CUDA Cores) ·Tensor Core专为深度学习矩阵乘法优化,支持FP16/BF16/FP8精度 ·HBM高带宽内存:H100配置80GB HBM3,带宽达3.35TB/s ·NVLink高速互联:多GPU间点对点通信带宽达900GB/s ·2024年全球GPU芯片市场规模约500亿美元,其中AI用GPU占比超过85% ·据JPR数据,2024年全球GPU市场出货量同比增长约40% ·英伟达占据全球AI用GPU市场约80%~95%的绝对主导地位 NVIDIA H100 SXM
NVIDIA H200
NVIDIA B200/GB200
AMD MI300X
制程
4nm (TSMC)
4nm (TSMC)
4nm (TSMC)
6nm (TSMC)
FP16 算力
989 TFLOPS
1,979 TFLOPS
~2,500 TFLOPS
1,307 TFLOPS
HBM
80GB HBM3
141GB HBM3e
192GB HBM3e
192GB HBM3
TDP
700W
700W
~1,000W
750W
主要应用
大模型训练
大模型训练 / 推理
超大规模推理
大模型训练
2.2 FPGA——边缘推理的灵活之选 FPGA(Field Programmable Gate Array) 是一种可由用户编程配置的逻辑阵列芯片,可在制造后根据特定算法需求重新配置硬件逻辑,为AI推理提供高度灵活的加速能力。·可编程性:可根据不同AI模型重配置硬件,适配性强,支持算法快速迭代 ·低延迟:硬件级并行计算,推理延迟可低于GPU,适合实时推理场景 ·低功耗:相较GPU在推理场景功耗更低,适合边缘设备部署 ·确定性:硬件延迟可精确预测,适合工业控制、自动驾驶等安全关键场景 ·全球FPGA市场呈现"双Xilinx+双Altera"格局,Xilinx(已被AMD收购)与Altera(已被Intel收购)合计占据约80%市场份额 ·Lattice和Microsemi占据约10%份额,国内安路科技、紫光同创等处于中端水平 ·2024年全球AI用FPGA市场规模约40亿美元 2.3 ASIC——异构计算的专用力量 ASIC(Application Specific Integrated Circuit)是针对特定AI算法定制设计的专用芯片,量产成本高但单位算力成本和功耗远优于GPU和FPGA,是AI芯片未来的重要发展方向。 ·NPU是ASIC中占比最大的品类,专门针对神经网络运算优化,典型代表包括华为昇腾系列(含Ascend 310/910)、苹果A/M系列芯片Neural Engine、谷歌TPU等 ·NPU通过在芯片上集成大量乘加器阵列(MAC Array),实现神经网络推理的高效加速 ·在功耗效率上,NPU通常比GPU高出5~10倍,非常适合移动端和边缘端部署 ·谷歌自2016年起自研TPU,目前迭代至第五代(TPU v5),专用于大模型训练和推理 ·TPU采用脉动阵列(Systolic Array)架构,矩阵运算效率极高 ·TPU仅供谷歌内部使用,通过Google Cloud对外出租算力,不对外销售芯片 ·特斯拉自研AI训练超级计算机芯片Dojo D1,采用7nm制程,集成354个训练核心,单芯片BF16算力达362 TFLOPS ·25个D1芯片组成一个训练Tile,120个Tile组成完整的Dojo集群,算力达1.8 EFLOPS 2.4 CPU——AI时代的通用基石 CPU虽然并非AI训练的最佳选择,但在AI推理的调度控制、预处理、后处理等环节仍不可或缺。 2023年英特尔发布的第五代至强可扩展处理器(Emerald Rapids)和2024年的Sierra Forest,通过集成AMX(高级矩阵扩展)AI加速单元,使CPU在AI推理场景的性能提升达4倍。 CPU作为通用计算平台,在AI服务器中承担系统调度、存储控制和网络通信等关键角色,AI服务器通常以CPU+GPU异构架构为主流。 2.5 DPU——数据中心的新支柱 DPU(Data Processing Unit)是近年来快速崛起的新型芯片品类,主要负责数据中心的数据传输、存储虚拟化、安全加密等任务,从而释放CPU和GPU算力。 ·英伟达BlueField 3 DPU:集成ARM核心+NVIDIA ConnectX网络+可编程数据路径,支持400Gbps网络加速 ·英特尔IPU:Mount Evans IPU将DPU功能集成至基础设施处理单元 ·根据中国信通院预测,全球DPU市场将保持30%的复合增长,2025年全球DPU市场规模将接近150亿美元 2.6 AI芯片类型综合对比 类型
算力 / 效率
灵活性
功耗
成本
适用场景
GPU
★★★★★
★★★★
★★
★★★★★
大模型训练 / 推理
FPGA
★★★
★★★★★
★★★
★★★
边缘推理 / 实时计算
ASIC(NPU/TPU)
★★★★★
★★
★★★★★
★★★★
特定场景推理 / 云端推理
CPU(+AMX)
★★
★★★★★
★★★
★★★
调度 / 小规模推理
DPU
★★★
★★★
★★★★
★★★
数据中心基础设施
异构 SoC
★★★★★
★★★
★★★★
★★★★
移动 / 边缘 AI
三、AI芯片产业链深度解析 3.1 产业链全景图 AI芯片产业链涵盖从上游材料设备到中游芯片制造再到下游应用的全链条,每个环节都存在极高的技术壁垒和关键卡位。 ·光刻机:ASML垄断EUV光刻机(用于7nm及以下制程),单台价格超3亿美元,交付周期长达2~3年,2023年ASML EUV营收占整体营收约55% ·刻蚀机:应用材料(Applied Materials)、东京威力科创(TEL)主导,国内北方华创、中微公司逐步替代 ·硅片:信越化学、SUMCO、环球晶圆占据全球约80%市场 ·光刻胶:日本JSR、信越化学、杜邦垄断高端ArF/EUV光刻胶 ·EDA设计软件:新思科技(Synopsys)、Cadence、Siemens EDA三巨头垄断约90%市场,中国华大九天、芯愿景等正在突破 ·晶圆代工:台积电占据全球约60% AI芯片代工份额(按先进制程),三星、Intel Foundry紧随其后。中芯国际14nm及以下制程已量产,受美国出口管制影响难以获取EUV设备 ·封装测试:台积电CoWoS、日月光、通富微电、长电科技等承担先进封装 ·AI服务器:浪潮信息、超聚变、新华三(H3C)、联想等为国内主要AI服务器厂商 ·数据中心:阿里云、腾讯云、华为云、AWS、Google Cloud等运营超大规模数据中心 ·边缘设备:手机、智能汽车、IoT设备中NPU SoC的规模化应用 3.2 先进封装——AI芯片性能提升的关键 在摩尔定律接近物理极限的背景下,先进封装技术成为延续AI芯片算力提升的核心路径。 ▶ CoWoS(Chip on Wafer on Substrate): ·台积电的核心先进封装技术,通过硅中介层将GPU与HBM高带宽内存互联 ·英伟达H100/A100/H200/GB200均采用CoWoS封装,台积电2025年70%以上的CoWoS产能已分配给英伟达 ·CoWoS封装良率问题是当前制约全球AI芯片供给的最大瓶颈之一,H100在2023年长期缺货 ·HBM通过3D堆叠和硅通孔(TSV)技术实现远高于传统GDDR的内存带宽,成为AI芯片的"标准配置" ·SK海力士是HBM的技术先驱和量产领导者,HBM3已量产并供货给英伟达;三星、美光紧随其后 ·HBM4预计2025-2026年量产,带宽将再提升40%以上,堆叠层数从8层提升至12~16层 ·完全放弃中介层,直接通过TSV进行芯片垂直堆叠,实现最高密度的片上互连 ·英特尔Foveros、三星X-Cube、台积电SoIC均属于3D封装技术路线 3.3 制造环节——中国AI芯片的卡脖子困境 中国AI芯片产业链中最关键、也最脆弱的环节是芯片制造。虽然华为昇腾910B等国产AI芯片已在部分场景实现性能对标英伟达A100,但制造环节的设备限制仍是最大瓶颈。 ·2022年10月:BIS将先进制程芯片制造设备(特别是EUV光刻机)纳入出口管制,限制中国获取14nm及以下制程制造能力 ·2023年10月:进一步限制中国获取先进AI芯片和制造设备 ·2024-2025年:持续加码,试图拉拢荷兰、日本、韩国盟友形成"芯片联盟" ·美国拟将AI芯片出口管制扩展至全球,要求企业向美国政府申请许可后方可出口几乎所有英伟达和AMD生产的AI加速器 ·中芯国际已实现14nm制程量产(N+1/N+2工艺节点相当于7nm),为华为代工昇腾910B等芯片 ·在缺乏EUV光刻机的情况下,中芯国际通过多重曝光(DUV多重曝光)实现等效7nm制程,但良率和成本是主要挑战 ·中芯国际N+2工艺(等效7nm)的良率约60%~70%,与台积电5nm的90%以上良率仍有差距 四、美国AI芯片企业深度分析 4.1 英伟达(NVIDIA)——AI芯片时代的绝对霸主 ·市值:约3万亿美元(2025年),成为全球市值最高公司之一 ·AI加速芯片市场份额:全球约80%~95%(Training市场约90%+,Inference市场约70%+) ·数据中心业务营收占比:从2022年的约37%跃升至2025年的约87% ·H100 SXM(Hopper架构):2022年发布,4nm制程,FP16算力989 TFLOPS,HBM3 80GB,是大模型训练的事实标准。H100在2023年长期处于缺货状态,二级市场价格曾溢价50%以上 ·H200 SXM:2023年底发布,升级至141GB HBM3e,BF16算力提升至1,979 TFLOPS,是当前大模型训练最主流选择 ·GB200(Blackwell架构):2024年发布,采用台积电4nm工艺,FP4精度算力达11.5 PFLOPS,GB200 NVL72集群功耗达130kW/rack ·下一代Vera Rubin(2026年):全面采用液冷散热,配备HBM4内存,预计算力是Blackwell的3倍以上 ·CUDA是英伟达2006年推出的并行计算平台和编程模型,经过近20年的生态建设,已成为AI框架(Pytorch、TensorFlow)和AI模型的"操作系统" ·全球超过400万开发者基于CUDA开发AI应用,形成了无法在短期内被打破的开发者生态锁定效应 ·AMD ROCm尽管已开源多年,但生态成熟度与CUDA仍有3~5年代差 4.2 超威半导体(AMD)——挑战者的追赶之路 ·AI GPU市场份额:全球约10%~15%(2024年),较2022年的约5%大幅提升 ·2024年AI芯片营收:约$45亿,同比增长100% ·MI300X已获得微软、甲骨文、亚马逊等大客户订单 ·MI300X(CDNA3架构):8颗GPU晶粒 + 128GB HBM3,适合大模型推理场景 ·MI350X(CDNA4架构):2025年发布,对标H200,推理性能比MI300X提升30% ·ROCm软件生态:AMD开源的并行计算平台,兼容CUDA生态,降低从英伟达迁移的成本 4.3 谷歌(Google)——TPU与云端AI生态 ·TPU演进:TPU v1(2016年,45 TFLOPS)→TPU v2(2017年,180 TFLOPS)→TPU v3(2018年,420 TFLOPS)→TPU v4(2021年,1.1 EFLOPS/pod)→TPU v5/v5e(2024年,针对大语言模型和Gemini优化) ·TPU通过Google Cloud对外提供租用服务,不对外销售芯片,形成独特的"算力即服务"商业模式 ·谷歌还通过张量处理单元自主掌握了AGI时代最核心的算力基础设施之一 4.4 英特尔(Intel)——困境中的转型探索 ·制程落后:Intel 7(10nm)量产进度延后,Intel 4(7nm)仍在爬坡阶段,相较台积电5nm/3nm明显落后 ·Gaudi 3(2024年):BF16算力1832 TFLOPS,价格约为H100的约40%,走性价比路线 ·IDM 2.0战略:将代工业务独立为Intel Foundry Services,争取AI芯片代工订单 4.5 博通(Broadcom)——定制ASIC的黑马 ·博通通过为谷歌、Meta、微软、亚马逊等定制ASIC加速器,悄然成为AI芯片领域的重要力量 ·2024年博通AI ASIC营收约40亿美元,2025年预计翻倍至80亿美元 分析师预计,2025年谷歌和Meta的ASIC芯片出货量将达英伟达GPU出货量的约40%,将对英伟达形成替代威胁 【免责声明】本报告仅供行业研究参考,不构成任何投资建议。报告中的数据来源于公开信息,本公众号不对数据的准确性和完整性承担责任。投资者应根据自身风险承受能力独立判断。 [AI | 机器人] 美独角兽三巨头:OpenAI 美独角兽三巨头:Anthropic
人工智能五层架构(一)
AI大模型行业分析 AI算力(边缘算力)
[半导 体] 光模块全球产业链
半导体上游特种气体
[医药 | 器械] 过敏原免疫治疗
IBD(炎症性肠病)
抑郁症(Depression) 癫痫
[先进制造]
五轴联动摆头设备
摩托车行业
燃气轮机(上) 燃气轮机(下)
商业航天
SpaceX发展史
[能源]
核能风云录(上) 核能风云录(下)