AI芯片(下)——从通用到专用:AI芯片的架构革命与大国博弈AI芯片
——从通用到专用:AI芯片的架构革命与大国博弈
五、中国AI芯片产业深度分析
5.1 中国AI芯片产业发展背景与政策环境
- 2019年:科创板开板,为AI芯片等硬科技企业打开融资通道
- 2021年:"十四五"规划将AI芯片列为优先发展的前沿领域
- 2023年:国产替代专项政策,要求党政机关、国有企业优先采购国产芯片
- 2024年:国家集成电路产业投资基金(大基金)第三期成立,规模达3440亿元,重点投向AI芯片、先进制程和封装测试
- 管制加速了中国AI芯片的国产化进程,2019年前中国AI训练芯片几乎100%依赖英伟达
- 2024年中国AI芯片市场规模约270万卡,预计2025年进一步增长
- 英伟达在中国的AI芯片市场份额从2023年的约95%快速下降至2025年的约55%
5.2 主要中国AI芯片企业深度分析
▶ 华为(昇腾Ascend)——中国AI芯片第一品牌- 昇腾910B:采用达芬奇3D Cube矩阵运算单元,FP16算力320 TFLOPS,对标英伟达A100,7nm制程(中芯国际代工)
- 昇腾910C(新一代):进一步缩小与H100的性能差距,部分指标已接近A100 80GB水平
- 全栈自研:覆盖芯片(Ascend 310/910)→异构计算架构(CANN)→AI框架(MindSpore)→应用开发平台(ModelArts),全栈自主可控
- 生态建设:基于CANN和MindSpore,已吸引超过100万开发者,拥有3000+AI应用伙伴
- 2024年中国AI加速芯片市场份额约21.4%(IDC数据),仅次于英伟达;2025年动态:昇腾910C制程从7nm升级至5nm等效,性能进一步逼近A100
▶ 寒武纪(688256.SH)——AI芯片设计第一股- 产品线:思元系列(MLU),包括MLU290(云端训练)、MLU370(云端推理)、MLU220(边缘推理)
- 技术路线:专注于AI芯片的通用性设计,支持主流AI框架(PyTorch、TensorFlow、MindSpore),在算法兼容性上具有优势
- 营收情况:2024年营收约10亿元,研发投入占营收比例超100%
- 受美国实体清单限制影响,部分代工渠道受限,产能存在不确定性
▶ 海光信息(688041.SH)——兼容路线的主力军- 产品线:深算系列(DCU),包括DCU Z100、DCU Z200,对标英伟达CUDA生态,兼容AMD ROCm框架
- 技术路线:海光DCU采用AMD授权的ROCm生态,大模型训练代码几乎无缝迁移
- 2024年营收约60亿元,同比增长约60%,是国内AI芯片营收规模最大的企业之一
- 主要面向金融、电信、政府等对安全性要求高的行业,以及高校和研究机构
- 产品线:BR100系列,2022年发布,7nm制程,FP16算力512 TFLOPS,曾创下单芯片算力纪录
- 受美国出口管制影响,芯片代工受阻,BR100量产受限
- 战略转向:壁仞转向联合海光信息等企业共建生态,探索国产替代路径
- 产品线:苏堤系列(春晓)、曲 natal系列(风起),全功能GPU,支持AI训练+渲染+视频编解码
- 差异化路线:不做专用AI加速器,做"通用+AI"全功能GPU,兼容CUDA生态(通过MUSA平台)
- 产品线:邃思系列(DTU),邃思1.0/2.0云端AI训练芯片,对标英伟达V100/A100
- 背靠腾讯:腾讯是燧原科技的主要投资方和客户,腾讯AI Lab的自研大模型基于燧原芯片训练
- 天数智芯:GPGPU芯片天垓100/200,在科学计算场景表现突出
- 登临科技:GOLDwasser系列,专注于AI推理场景,已实现规模化部署
- 鲲云科技:数据流AI芯片,CAISA架构,在特定AI推理场景能效比领先
- 爱芯元智:NPU芯片,面向智慧城市、智能驾驶等边缘AI场景
- 昆仑芯:百度自研AI芯片,已迭代至第二代,用于百度搜索和文心一言推理
5.3 中美AI芯片产业核心差距对比
维度 | 美国(英伟达等) | 中国(代表企业) | 差距/现状 |
制程工艺 | 3nm~4nm量产(台积电) | 等效7nm量产(中芯国际N+2) | 约2~3代差距 |
HBM内存 | SK海力士/三星自供 | 尚无国产HBM量产能力 | 完全依赖进口 |
算力峰值 | H100: 989 TFLOPS(FP16) | 昇腾910B: 320 TFLOPS(FP16) | 约3倍差距 |
内存带宽 | H100: 3.35TB/s | 昇腾910B: ~1TB/s | 约3倍差距 |
先进封装 | CoWoS/L/inFO成熟量产 | CoWoS受限,长电等追赶中 | 约3~5年代差 |
软件生态 | CUDA生态完善,20年积累 | MindSpore/ROCm兼容中 | 生态差距显著 |
量产能力 | 台积电代工,良率90%+ | 中芯国际代工,良率~70% | 成本和产能差距 |
大模型验证 | GPT4/Claude全面验证 | 文心/通义局部验证 | 性能差距缩小但仍存在 |
市场份额 | 英伟达AI加速卡~90% | 昇腾~21%,海光~15% | 国内替代快速推进 |
六、 AI芯片技术发展趋势
6.1 算力密度持续突破
摩尔定律的放缓并不妨碍AI芯片算力的持续提升,业界通过以下三条路径实现算力倍增:·台积电3nm(N3E)已量产,2nm(N2)将于2025年量产,1.6nm(A16)计划2026年量产·中国方向:在EUV受限环境下,通过N+2多重曝光、等效设计、Chiplet拼接等方式逼近物理极限·HBM从HBM3(6层)→HBM3e(8~12层)→HBM4(12~16层)持续升级·HBM4带宽将超过2TB/s,较H100提升约5倍·CXL(Compute Express Link)内存扩展协议:允许CPU/GPU共享高速内存池·Chiplet+异构集成成为主流:AMD MI300X通过8颗GPU芯片 + 4颗IO芯片的Chilet设计实现更高算力密度·英伟达GB200 NVL72通过CoWoS将72颗B200 GPU互联,构建机架级AI算力集群6.2 异构计算成为主流范式
未来的AI计算将告别单一芯片架构,转向CPU+GPU+NPU+DPU的异构计算协同:·英伟达Grace Hopper:集成Grace CPU + Hopper GPU + HBM3,通过NVLink-C2C实现芯片间高速互联·苹果M3系列:统一内存架构(Unified Memory),CPU、GPU、Neural Engine共享内存池·特斯拉Dojo:将354个训练核心异构集成,实现1.8 EFLOPS的超级算力6.3 大模型时代的新需求与架构演进
Transformer架构主导大模型时代,对AI芯片提出了新的架构需求:·Transformer引擎:英伟达Hopper/Blackwell集成Transformer引擎,专门加速Self-Attention计算·FP8精度支持:Blackwell支持FP4/FP8混合精度,大幅减少内存占用而不显著损失精度·长上下文处理:大模型上下文窗口从2K Token扩展至1M Token,对芯片内存容量和带宽提出更高要求6.4 存算一体——后摩尔时代的颠覆性技术
存算一体(Processing-in-Memory,PIM)是指在内存芯片内部集成计算能力,从根本上消除"内存墙"问题。·三星HBM-PIM:在HBM内存中集成AI处理单元(PCAM),能效提升2~4倍·阿里巴巴含光800:存算一体架构,INT8算力达820 TOPS·存算一体预计在2027-2028年进入规模化应用阶段七、市场规模与竞争格局
7.1 全球AI芯片市场规模
·2024年全球AI芯片市场规模:约650亿美元(AI加速芯片口径),同比增长约75%·2025年全球AI芯片市场规模预测:约900~1100亿美元,首次突破千亿美元大关·2030年全球AI芯片市场规模预测:约3000~3500亿美元,2024-2030年CAGR约28%~32%·2025年中国AI芯片市场份额:占全球约40%,约360~440亿美元(约合2600~3200亿元人民币)·大模型参数规模扩张:GPT-5等万亿参数模型的训练算力需求是GPT-4的约10~50倍·推理需求爆发:据红杉资本测算,2024年全球AI推理算力消耗首次超过训练,预计2025年推理算力需求是训练的3~5倍·Agent时代算力需求:AI Agent需要7×24小时运行推理,单Agent实例日均推理token量远超Chatbot7.2 全球AI芯片竞争格局
·Training市场:英伟达约95%+份额,AMD MI系列占据约5%~8%·Inference市场:英伟达约70%+份额,AMD、谷歌TPU、AWS Inferentia分食其余市场·定制ASIC崛起:据野村证券测算,2025年谷歌和Meta的ASIC芯片出货量将达英伟达GPU出货量的约40%·云厂商自研芯片加速:AWS(Trainium/Inferentia)、谷歌(TPU)、微软(Maia 100)、Meta(MTIA)均已推出自研AI芯片·推理芯片市场细分:推理场景对功耗效率和性价比更敏感,AMD、博通、AWS等在推理市场形成更有效的竞争·端侧AI芯片爆发:手机SoC(NPU)、PC NPU(骁龙X Elite、苹果M4)快速渗透7.3 中国AI芯片竞争格局
▶ 2024年中国AI加速芯片市场份额(IDC数据):·英伟达:约54.4%(含高端A100/H100和受限后的A800/H800)·华为昇腾:约21.4%(快速放量,昇腾910B成为国产大模型训练首选)·AMD:约15.3%(MI系列在中国高校和研究机构中广泛应用)·推理场景:壁仞BR100、华为昇腾910B在推理场景的性能已基本满足国内大模型需求·云端推理:华为昇腾310、寒武纪思元370在云端推理市场形成规模商用·边缘AI:爱芯元智、昆仑芯等在边缘推理市场已实现较高市占率八、投资机会与风险分析
8.1 国内核心企业
·寒武纪(688256.SH):A股AI芯片设计稀缺标的,MindSpore生态逐步成熟·海光信息(688041.SH):兼容ROCm生态,规模营收支撑研发投入,业绩确定性高·通富微电(002156.SZ):国内先进封装龙头,已实现CoWoS封装能力突破·长电科技(600584.SH):2.5D/3D封装布局完善,是AI芯片国产化封装的核心供应商·长江存储(IPO筹备中):HBM领域正在突破,国产替代空间巨大·北方华创(002371.SZ):刻蚀机、沉积设备龙头,国产替代核心标的·中微公司(688012.SH):5nm等离子刻蚀机已通过客户验证·华大九天(301269.SZ):EDA工具国产化龙头,逐步突破28nm及以上制程·浪潮信息(000977.SZ):国内AI服务器龙头,已批量部署华为昇腾和英伟达芯片·超聚变:华为x86服务器业务独立后成立,与华为昇腾深度协同·拓维信息(002261.SZ):基于华为昇腾的AI服务器制造商8.2 主要风险提示
·美国出口管制升级风险:美国可能进一步限制中国获取AI芯片制造设备和关键材料·大模型投资周期风险:若AI投资热潮降温,数据中心建设放缓,AI芯片需求增速可能回调·技术替代风险:若存算一体、量子计算等新技术取得突破,可能颠覆现有AI芯片格局·生态锁定风险:中国AI芯片在软件生态(CUDA迁移成本)上仍存在依赖·产能与良率风险:中芯国际等国内代工厂的制程良率问题可能导致国产芯片产能受限·估值泡沫风险:部分AI芯片概念股估值过高,需关注基本面与估值的匹配程度九、未来展望与结论
9.1 2025-2030年AI芯片产业六大趋势预判
·AGI竞赛将推动参数规模从万亿向百万亿跃升,2030年单次大模型训练的算力需求可能是GPT-4的100倍以上·AI推理需求增速将超过训练需求,推理芯片市场规模将于2027年前后超过训练芯片·Chiplet+异构集成将成为下一代AI芯片的标准架构·存算一体将从实验室走向量产,预计2028年前后进入规模化商用·在管制压力下,中国AI芯片产业通过Chiplet、先进封装、架构创新等路径逼近先进制程性能·2027年前后,国产AI芯片在推理场景的性能差距将缩小至1.5倍以内·云厂商自研芯片将从"备选"变为"必选",谷歌TPU、AWS Trainium、微软Maia将持续迭代·预计2027年定制ASIC市场份额将超过AI芯片市场的20%·当前AI芯片赛道涌入大量资本和企业,预计2027-2028年将迎来一轮深度整合·最终将形成3~5家全球AI芯片巨头(英伟达、AMD、谷歌、华为等)和若干细分领域龙头的格局·AI芯片将成为大国博弈的焦点,美国出口管制将持续加码·台积电在先进制程的垄断地位将使其成为全球地缘政治争夺的核心资产9.2 结论
AI芯片是人工智能时代最核心的战略资源,也是大国科技博弈的关键战场。当前全球AI芯片产业呈现"美国主导、中国追赶"的二元格局:英伟达凭借CUDA生态和台积电先进制程,在全球AI训练市场占据约90%+的绝对份额;中国在华为昇腾等龙头企业带领下,国产AI芯片正在加速追赶,推理场景已基本实现替代,训练场景差距正在缩小。展望未来,AI芯片产业将经历算力需求爆发、架构深度重构、竞争格局大洗牌的深刻变革。存算一体、Chiplet异构集成、先进封装将是后摩尔时代的技术主线;英伟达的CUDA生态壁垒将被逐步侵蚀,异构计算和定制化将成为新趋势;中国AI芯片产业在外部压力下将加速自主可控进程,但制造环节的设备限制仍是最大挑战。【免责声明】本报告仅供行业研究参考,不构成任何投资建议。报告中的数据来源于公开信息,本公众号不对数据的准确性和完整性承担责任。投资者应根据自身风险承受能力独立判断。[AI | 机器人]
美独角兽三巨头:OpenAI 美独角兽三巨头:Anthropic
人工智能五层架构(一)
AI芯片(上)
AI大模型行业分析 AI算力(边缘算力)
[半导体]
光模块全球产业链
半导体上游特种气体
[医药 | 器械]
过敏原免疫治疗
IBD(炎症性肠病)
抑郁症(Depression) 癫痫
[先进制造]
五轴联动摆头设备
摩托车
燃气轮机(上) 燃气轮机(下)
商业航天
SpaceX发展史
[能源]
核能风云录(上) 核能风云录(下)