摩根士丹利:切勿低估中国 AI 算力芯片;谁将脱颖而出?超配寒武纪、天数智芯!
-
在中国峰会中,MiniMax、智谱 AI 等主流大模型厂商表示,只要代币经济性具备竞争力,愿意采用国产 AI 芯片。 -
近期实地调研显示,受超微电脑(SMCI)相关事件影响,英伟达 GPU 在华供应收紧,增量需求转向国产替代方案。 -
英伟达 RTX 5090 在华现货需求旺盛,表明 AI 推理需求依然强劲。 -
代币价格与 GPU 租赁价格上涨,亦反映算力市场仍处于紧缺状态。主要负面信号:价格竞争来得比预期更早,部分厂商已开始降价以抢占份额。 -
2026 年 7 月世界人工智能大会(WAIC)将在上海举办,预计届时将亮相中国新一代 AI 加速芯片产品,天数智芯的新品尤为值得关注。
-
寒武纪(超配;目标价 1588 元人民币):本土领先的 AI 推理芯片厂商,绑定头部云服务商客户、软硬件协同优化能力突出,在大规模云端推理部署中占据优势。 -
天数智芯(超配;目标价 600 港元):供应链布局多元化、供应可见度更强,云端客户覆盖持续拓展。 -
沐曦股份(标配;目标价 758 元人民币):具备差异化的本土通用 GPU(GPGPU)厂商,类 CUDA 软件兼容性较强,短期量产路径更具扩展性。但估值吸引力弱于同业。
-
消费端与企业端应用的商业化,正推动 AI 推理需求快速增长; -
持续的出口管制,使本土化成为中国 AI 算力市场的长期特征,而非一项临时政策应对。
-
乐观情景:国产 AI 芯片的应用场景从推理拓展至部分训练负载,软件生态的改善速度快于预期,部分厂商实现海外市场的采用或间接出口机会。 -
悲观情景:产品差异化优势消失,价格竞争压力提前加剧,行业走向同质化与整合。
谁将在中国 AI GPU 领域胜出?
中国 AI 加速芯片生态涵盖独立芯片厂商、国资背景企业、与头部云服务商深度绑定的自研芯片团队。我们在全球 GPU/ASIC 格局下评估该生态竞争者,对比性能、成本、执行力的相对定位,并采用统一估值框架筛选风险收益比最优的标的。对云服务商的实地调研显示,尽管单代币成本是最重要的单一指标,但软件优化与战略客户合作的重要性超出预期。
基于近期出货趋势、客户份额、市占率演变及提前到来的价格下滑,我们认为下一阶段的核心不再是理论峰值性能,而是商业落地能力、软件就绪度与客户获取能力。
从竞争角度,市场应按客户类型划分:
-
头部云服务商与主流大模型厂商:核心决策指标为单代币成本,但仅靠该指标不足够。软件成熟度、框架兼容性、集群级优化、战略合作深度决定订单分配。 -
政务 AI、电信、国企及政府相关需求:供应安全、自主可控、政策契合度权重更高。
-
寒武纪:在ASIC/DSA技术路线上表现突出,凭借优异的推理性能、深度的客户绑定以及软硬件协同优化能力,实现了出色的部署经济性,尤其在大规模云端应用场景中优势明显。 -
天数智芯:的核心差异在于多元化晶圆厂策略、更高的供应可见度,以及凭借软件兼容性为客户提供务实便捷的迁移方案。 -
沐曦股份:是我们认为国内最具竞争力的GPGPU厂商之一,得益于其相对更强的类 CUDA 软件兼容性,以及短期更具规模化潜力的生产制造路径。
简而言之,寒武纪在当前云端推理场景的落地进展最为突出(仅次于华为昇腾);天数智芯的核心优势在于供应链韧性与商业拓展弹性;沐曦股份则凭借其可规模化的通用 GPU定位,具备长期成长潜力。
中国 AI GPU 需求短期市场跟踪
同时,行业短期环境对国产厂商更有利。近期实地调研显示,英伟达 GPU 在华供应收紧,为国产替代创造更大空间。英伟达 5090 现货需求旺盛、代币价格与 GPU 租赁价格上涨,均印证下游推理需求韧性。这些数据强化我们的判断:需求环境依然强劲,尤其对需快速部署、不愿等待供应恢复的客户。警示:竞争加剧快于预期,市场已出现降价,行业或提前进入份额争夺期。因此,执行力愈发关键 —— 尤其在软件优化、客户支持与核心客户渗透方面。
2026 年 7 月世界人工智能大会将在上海举办,预计天数智芯等厂商将发布新一代 AI 加速芯片。
用我们的框架筛选赢家:首选寒武纪与天数智芯
基于性能与成本分析,我们采用结构化框架评估国产 AI 芯片厂商的相对定位,聚焦量化经济性与定性执行力两大维度。
我们的评估框架:经济性 × 执行力
我们从两大核心维度评估厂商:
-
推理经济性(量化):包括总拥有成本、单代币成本、每秒代币处理量(TPS)性能、每瓦 / 每美元性能
-
执行能力(定性):包括先进工艺产能获取、软件生态成熟度、与云服务商的合作深度、产品路线图的可靠性
我们认为,要实现持续领先,厂商必须在这两方面均具备优势。仅在某一方面表现突出(例如硬件性能强劲但生态薄弱)的厂商,难以实现稳固的市场份额。
寒武纪:推理性能与客户绑定领先
我们认为寒武纪是 ASIC(DSA)路线上最具优势的厂商之一。
-
量化层面:最新一代产品(如思元 590)推理性能具备竞争力,TPS 分析显示在部分 DeepSeek R1 场景中显著优于英伟达 H20。叠加定价优势,支撑优秀的单代币经济性(云服务商核心决策指标)。
-
定性层面:客户深度协同。与字节跳动多年合作实现持续软硬件优化与实际部署验证,在应用层调优与商业化落地中具备优势。
综上,寒武纪是推理驱动部署的短期领先者,尤其在效率与客户定制化优化至关重要的场景。
天数智芯:依托供应链韧性,订单可见度高
我们认为天数智芯凭借供应链韧性、软件兼容性与持续提升的商业落地能力,将充分受益于中国 AI 芯片国产替代进程的加速。
根据行业调研,国内头部云服务商已对天数智芯的天盖 150(TianGai-150)AI 芯片下达大额预订单,预计 2026 年下半年开始出货。重要的是,天数智芯的多元化晶圆厂策略(包括在台积电进行合规生产),相比仅依赖本土晶圆厂或海外不合规产能的同业,拥有更高的产能可见度,降低了供应中断风险。
软件层面,天数智芯的通用 GPU(GPGPU)架构具备高 CUDA 兼容性,降低了迁移成本。公司已协助客户将大模型栈从英伟达平台迁移至天盖 150。我们认为,这使其在企业寻求英伟达务实替代方案时占据优势地位。
沐曦股份:依托软件与供应实现规模化定位
在通用 GPU(GPGPU)赛道中,我们认为沐曦股份是具备竞争力的本土参与者,其核心优势在于聚焦提升 CUDA 生态兼容性。尽管 CUDA 仍是英伟达的核心护城河 —— 其深度整合了编译器、cuDNN 与 NCCL 等库,以及庞大的开发者生态 —— 这也形成了难以复制的结构性切换成本。
在此背景下,沐曦构建类 CUDA 软件栈与兼容层的策略,为本土客户提供了一条合理的采用路径。根据我们的行业调研,公司在编译器适配、PyTorch 等框架兼容性及运行时优化方面均取得了稳步进展,但整体生态的成熟度与稳定性仍落后于全球领先者。
此外,沐曦采用了务实的制造策略,依托 N+1/12nm 等相对成熟的工艺节点,保障良率稳定性与供应连续性。这一策略虽然限制了其与尖端产品相比的峰值性能,但在性能、成本与可制造性之间实现了更均衡的取舍。整体而言,我们认为沐曦的执行力与规模化潜力正在提升,但大规模商业部署的进一步验证仍是需要关注的关键因素。
性能与成本:哪些国产 AI 芯片脱颖而出?
对中国 AI GPU 市场而言,推理经济性比基础模型训练更重要
在此前中国 AI 洞察报告中,我们已对国产 AI 加速芯片在关键性能与经济指标(含 TCO、总处理性能 TPP、DeepSeek R1 推理 TPS、每瓦性能)进行全面对比。
1. TPS—— 营收核心指标
我们认为 TPS(每秒代币处理量)是中国推理主导市场的另一关键指标。与峰值 FLOPS 不同,TPS 反映端到端系统性能,体现实际负载下的硬件能力(计算吞吐量、内存与互联带宽)与软件效率。以 DeepSeek R1 为基准,对标英伟达 2025 年 2 月披露的 H200 结果(5899 TPS),我们发现华为昇腾 950PR/DT、寒武纪思元 690等头部国产加速芯片,在我们的测试场景中性能比英伟达 H20 高 50%-150%。这反映计算能力与系统级优化、计算 – 网络平衡的提升。
国产厂商通过内存、互联、系统架构改进取得显著进展,即便工艺节点劣势,仍实现有竞争力的推理性能。这强化我们的判断:性能领先愈发取决于负载场景,国产芯片在推理场景已具备竞争力,尽管英伟达在技术前沿仍占优势。
TPS 测算方法论
我们的 TPS 框架采用决定推理代币吞吐量的核心硬件与负载变量:
-
硬件输入:有效计算吞吐量(FP8,无则 FP16)、内存带宽、互联带宽、芯片利用率(UTR)
-
负载输入:模型大小(671GB)、层数(61)、激活专家(MoE 架构下 9/257)、输入 / 输出代币长度(1024/1024)、批次大小
选择 DeepSeek R1 作为基准模型,因其在中国当前大模型生态中具代表性且采用 MoE 架构。为校准框架,我们以 2025 年一季度英伟达 H200 公开数据为基准:2025 年 2 月,英伟达 H200 运行 DeepSeek R1 推理实现 5899 TPS。
局限性
我们的 TPS 预测主要基于硬件规格(计算吞吐量、内存带宽、网络带宽)。模型关键变量为芯片利用率(UTR),反映理论硬件吞吐量转化为实际持续性能的效率。我们微调 UTR 假设,使模型 TPS 接近英伟达公开结果,确保模型基于可观测市场数据,而非纯理论峰值规格。
需注意,英伟达公开结果或包含多层软件优化(内核调优、TensorRT 图优化、内存调度改进、通信库优化、MoE 模型专家路由优化)。因此,我们采用的英伟达基准(2025 年 2 月结果)可视为时间点参考,后续驱动、框架或固件更新或进一步提升性能。
因此,尽管我们的框架为跨厂商推理性能对比提供结构化、基于硬件的依据,实际 TPS 或因软件成熟度、负载组合、集群配置而异。我们的分析假设固定推理负载(输入 / 输出代币 1024/1024,批次大小 1),未必覆盖所有部署场景。
值得注意的是,评估英伟达下一代平台(如 GB300)时,性能差距显著扩大。英伟达最新发布显示,GB300 凭借更高计算吞吐量、增强网络带宽、新一代 HBM 性能与 FP4 等低精度格式支持,在 DeepSeek R1 场景下每瓦代币性能较 H200 提升最高 50 倍。
重要提示:本报告对比分析仅限于中国当前可采购或短期可合理获取的产品,未纳入英伟达最新前沿平台。绝对而言,英伟达最先进系统仍显著领先于我们模型中的产品。因此,我们的结论应基于中国可获取供应而非全球前沿技术领导力解读。
2. TCO—— 成本核心指标
TCO 仍是国产 AI 芯片最具吸引力的优势之一。全口径(芯片采购、电力、配套基础设施) 测算,我们估计国产加速芯片 TCO 可比英伟达当前在华解决方案低 30%-60%。优势源于更低的芯片初始定价、中国结构性更低的电力与基础设施成本。在大规模、高利用率的推理主导部署中,运营成本占生命周期成本主导,该优势更为显著。
将系统性能转化为单代币成本,差距收窄。尽管英伟达仍保持绝对性能领先(尤其高端),但头部国产加速芯片已实现与英伟达 A100/H20 系列单代币成本全面对标,部分配置下实现超越。我们认为,这是关键拐点 —— 云服务商从追求峰值芯片性能转向商业化变现与利用率优化 。
3. 能效 —— 功耗指标
能效方面,国产芯片已基本追平英伟达 A100 与 H20,仍落后 H100、H200 等新平台。同时,每美元性能上,国产加速芯片凭借更低定价与实际性能提升,已展现明确优势。
叠加采购成本,国产芯片因定价显著更低,每美元性能更强。头部国产加速芯片已超越 A100,缩小与 H200 差距,强化其在推理主导部署中的吸引力。
4. 通用 GPU vs. 专用集成电路:差异是否关键?
评估国产 AI 芯片竞争力时,我们认为架构选择(GPGPU vs. ASIC/DSA) 是中国 AI 生态的核心战略取舍。与可获取先进工艺与成熟软件的全球同业不同,国产厂商需在量产限制、软件成熟度、需求结构演变间优化。
GPGPU:可编程性与灵活性更强,适配快速迭代的模型生态与 PyTorch 等主流框架。在中国软件生态仍在收敛、模型架构持续迭代的背景下,灵活性价值突出。但功耗与面积效率更低,通常需更先进工艺实现有竞争力的性能。
ASIC:软硬件协同优化更紧密,可部分弥补工艺劣势,在目标负载中实现更高效率,适合推理主导或相对稳定的场景。取舍在于通用性降低、软件移植成本更高、对模型架构变化更敏感。(完)
免责声明:在任何情况下,本文中的信息或表述的意见,均不构成对任何人的投资建议。
想要获取外面看不到的信息和来自主流机构的投资逻辑,可扫描下方二维码,加入稀缺资源报告群:

夜雨聆风