乐于分享
好东西不私藏

摩根士丹利:切勿低估中国 AI 算力芯片;谁将脱颖而出?超配寒武纪、天数智芯!

摩根士丹利:切勿低估中国 AI 算力芯片;谁将脱颖而出?超配寒武纪、天数智芯!

我们即摩根士丹利首次覆盖并给予寒武纪天数智芯超配评级,沐曦股份评级。
中国 AI 加速芯片的乐观与悲观情景:谁能抓住中国推理端替代周期?在近期报告中我们提出,中国正缩小与美国在 AI 算力领域的差距,这不仅体现在芯片层面,更源于系统级创新、供应链本土化以及日益具备吸引力的推理经济性。我们维持判断:这一路径将推动2030 年中国本土 AI 加速芯片自给率提升至 86%,未来十年重塑全球 AI 半导体竞争格局。
过去一个月,我们的渠道调研对中国 AI 加速芯片行业态度愈发积极:
  1. 在中国峰会中,MiniMax、智谱 AI 等主流大模型厂商表示,只要代币经济性具备竞争力,愿意采用国产 AI 芯片。
  2. 近期实地调研显示,受超微电脑(SMCI)相关事件影响,英伟达 GPU 在华供应收紧,增量需求转向国产替代方案。
  3. 英伟达 RTX 5090 在华现货需求旺盛,表明 AI 推理需求依然强劲。
  4. 代币价格与 GPU 租赁价格上涨,亦反映算力市场仍处于紧缺状态。主要负面信号:价格竞争来得比预期更早,部分厂商已开始降价以抢占份额。
  5. 2026 年 7 月世界人工智能大会(WAIC)将在上海举办,预计届时将亮相中国新一代 AI 加速芯片产品,天数智芯的新品尤为值得关注。
股票评级
我们首次覆盖并给予寒武纪、天数智芯超配评级沐曦股份标配评级我们认为三家公司均将充分受益于中国 AI 芯片本土化加速趋势,且各自具备差异化投资逻辑。
  • 寒武纪(超配;目标价 1588 元人民币):本土领先的 AI 推理芯片厂商,绑定头部云服务商客户、软硬件协同优化能力突出,在大规模云端推理部署中占据优势。
  • 天数智芯(超配;目标价 600 港元):供应链布局多元化、供应可见度更强,云端客户覆盖持续拓展。
  • 沐曦股份(标配;目标价 758 元人民币):具备差异化的本土通用 GPU(GPGPU)厂商,类 CUDA 软件兼容性较强,短期量产路径更具扩展性。但估值吸引力弱于同业。
切勿低估中国的人工智能算力生态系统
蓬勃发展的中国 AI GPU 市场
中国 AI GPU 市场正进入一个更注重商业落地的阶段,行业讨论的焦点已从 “国产芯片能否参与竞争”,转向 “随着推理需求规模扩大,哪些厂商将赢得可观的市场份额”。我们认为,两大结构性力量正在塑造这一市场:
  1. 消费端与企业端应用的商业化,正推动 AI 推理需求快速增长;
  2. 持续的出口管制,使本土化成为中国 AI 算力市场的长期特征,而非一项临时政策应对。
这两大因素共同扩大了国产 AI 加速器的可触达市场,并提升了国产替代持续推进的可能性。这与我们的分析框架一致:到 2030 年,中国 AI 芯片的潜在市场规模有望达到 670 亿美元,本土自给率将提升至 86%。
我们的核心观点不变:中国的本土化战略正在取得成效 —— 通过扩大本土芯片、晶圆制造、封装与设备的产能,来部分弥补工艺节点上的劣势。
  • 乐观情景:国产 AI 芯片的应用场景从推理拓展至部分训练负载,软件生态的改善速度快于预期,部分厂商实现海外市场的采用或间接出口机会。
  • 悲观情景:产品差异化优势消失,价格竞争压力提前加剧,行业走向同质化与整合。
中国 AI 算力产业凭借强大的系统设计与基础设施,具备全球竞争力
更广泛而言,我们认为中国 AI GPU 领域的竞争已不再只是芯片参数的比拼。尽管本土芯片在工艺层面仍落后美国约两代,但通过多芯粒设计、先进封装、机架级系统架构、光网络及软硬件协同优化,实际差距正在缩小。这也是我们认为系统级竞争力比以往任何时候都更为重要的原因。在一个日益由推理和利用率主导的市场中,即便没有最先进的工艺技术,能够以可接受的软件迁移成本提供最优实际代币经济性的厂商,也更有可能赢得客户预算。
从投资角度,这指向一个简单的结论:该板块不应被视为单一的政策主题估值。相反,投资者需要区分两类厂商:一类具备规模化出货的可行路径、可信的生态体系与定价纪律;另一类则可能难以将技术潜力转化为可持续的收入与利润。因此,我们采用 “经济性 × 执行力” 的二维框架来评估这一板块,综合了总拥有成本、单代币成本、每秒代币处理量(TPS)、每美元性能等量化指标,以及晶圆厂产能获取、软件生态成熟度、云服务商合作关系、产品路线图可信度等定性因素。我们认为,在行业整合过程中,这一框架仍是区分潜在赢家与可能被边缘化厂商的最有效方式。
通过近期的渠道调研,我们愈发清晰地发现:推动产品落地的是经济性,而非意识形态。在我们的中国峰会上,主流大模型开发商表示,只要代币成本具备竞争力,他们就愿意部署国产 GPU。这与我们的核心发现一致:国产加速器的总拥有成本已显著低于英伟达在华在售产品,且头部国产芯片在推理负载中可实现广泛的单代币成本对标。换言之,采购决策正越来越多地基于可落地的经济性,而非绝对的峰值芯片性能。这一点至关重要,因为中国的 AI 需求正变得更侧重推理、更具持续性、更由利用率驱动,这在结构上利好围绕成本效率、软件适配和供应稳定性优化的方案,而非纸面跑分领先的产品。

谁将在中国 AI GPU 领域胜出?

中国 AI 加速芯片生态涵盖独立芯片厂商、国资背景企业、与头部云服务商深度绑定的自研芯片团队。我们在全球 GPU/ASIC 格局下评估该生态竞争者,对比性能、成本、执行力的相对定位,并采用统一估值框架筛选风险收益比最优的标的。对云服务商的实地调研显示,尽管单代币成本是最重要的单一指标,但软件优化与战略客户合作的重要性超出预期。

基于近期出货趋势、客户份额、市占率演变及提前到来的价格下滑,我们认为下一阶段的核心不再是理论峰值性能,而是商业落地能力、软件就绪度与客户获取能力

从竞争角度,市场应按客户类型划分:

  • 头部云服务商与主流大模型厂商:核心决策指标为单代币成本,但仅靠该指标不足够。软件成熟度、框架兼容性、集群级优化、战略合作深度决定订单分配。
  • 政务 AI、电信、国企及政府相关需求:供应安全、自主可控、政策契合度权重更高。
这将催生不同细分市场的赢家。我们认为,与云服务商深度协同开发、软件栈可信的厂商,更易赢得大规模云端推理订单;供应链可见度或政府资源更强的厂商,更受益于政务与公共领域项目。
在这一分析框架下,我们认为寒武纪、沐曦股份、天数智芯三家公司存在显著的差异化优势:
  • 寒武纪:ASIC/DSA技术路线上表现突出,凭借优异的推理性能、深度的客户绑定以及软硬件协同优化能力,实现了出色的部署经济性,尤其在大规模云端应用场景中优势明显。
  • 天数智芯的核心差异在于多元化晶圆厂策略、更高的供应可见度,以及凭借软件兼容性为客户提供务实便捷的迁移方案。
  • 沐曦股份:是我们认为国内最具竞争力的GPGPU厂商之一,得益于其相对更强的类 CUDA 软件兼容性,以及短期更具规模化潜力的生产制造路径。

简而言之,寒武纪在当前云端推理场景的落地进展最为突出(仅次于华为昇腾)天数智芯的核心优势在于供应链韧性与商业拓展弹性;沐曦股份则凭借其可规模化的通用 GPU定位,具备长期成长潜力。

中国 AI GPU 需求短期市场跟踪

同时,行业短期环境对国产厂商更有利。近期实地调研显示,英伟达 GPU 在华供应收紧,为国产替代创造更大空间。英伟达 5090 现货需求旺盛、代币价格与 GPU 租赁价格上涨,均印证下游推理需求韧性。这些数据强化我们的判断:需求环境依然强劲,尤其对需快速部署、不愿等待供应恢复的客户。警示:竞争加剧快于预期,市场已出现降价,行业或提前进入份额争夺期。因此,执行力愈发关键 —— 尤其在软件优化、客户支持与核心客户渗透方面。

2026 年 7 月世界人工智能大会将在上海举办,预计天数智芯等厂商将发布新一代 AI 加速芯片。

用我们的框架筛选赢家:首选寒武纪与天数智芯

基于性能与成本分析,我们采用结构化框架评估国产 AI 芯片厂商的相对定位,聚焦量化经济性定性执行力两大维度。

我们的评估框架:经济性 × 执行力

我们从两大核心维度评估厂商:

  • 推理经济性(量化):包括总拥有成本、单代币成本、每秒代币处理量(TPS)性能、每瓦 / 每美元性能

  • 执行能力(定性):包括先进工艺产能获取、软件生态成熟度、与云服务商的合作深度、产品路线图的可靠性

我们认为,要实现持续领先,厂商必须在这两方面均具备优势。仅在某一方面表现突出(例如硬件性能强劲但生态薄弱)的厂商,难以实现稳固的市场份额。

寒武纪:推理性能与客户绑定领先

我们认为寒武纪是 ASIC(DSA)路线上最具优势的厂商之一。

  • 量化层面:最新一代产品(如思元 590)推理性能具备竞争力,TPS 分析显示在部分 DeepSeek R1 场景中显著优于英伟达 H20。叠加定价优势,支撑优秀的单代币经济性(云服务商核心决策指标)。

  • 定性层面:客户深度协同。与字节跳动多年合作实现持续软硬件优化与实际部署验证,在应用层调优与商业化落地中具备优势。

综上,寒武纪是推理驱动部署的短期领先者,尤其在效率与客户定制化优化至关重要的场景。

天数智芯:依托供应链韧性,订单可见度高

我们认为天数智芯凭借供应链韧性、软件兼容性与持续提升的商业落地能力,将充分受益于中国 AI 芯片国产替代进程的加速。

根据行业调研,国内头部云服务商已对天数智芯的天盖 150(TianGai-150)AI 芯片下达大额预订单,预计 2026 年下半年开始出货。重要的是,天数智芯多元化晶圆厂策略(包括在台积电进行合规生产),相比仅依赖本土晶圆厂或海外不合规产能的同业,拥有更高的产能可见度,降低了供应中断风险。

软件层面,天数智芯的通用 GPU(GPGPU)架构具备高 CUDA 兼容性,降低了迁移成本。公司已协助客户将大模型栈从英伟达平台迁移至天盖 150。我们认为,这使其在企业寻求英伟达务实替代方案时占据优势地位。

沐曦股份:依托软件与供应实现规模化定位

在通用 GPU(GPGPU)赛道中,我们认为沐曦股份是具备竞争力的本土参与者,其核心优势在于聚焦提升 CUDA 生态兼容性。尽管 CUDA 仍是英伟达的核心护城河 —— 其深度整合了编译器、cuDNN 与 NCCL 等库,以及庞大的开发者生态 —— 这也形成了难以复制的结构性切换成本。

在此背景下,沐曦构建类 CUDA 软件栈与兼容层的策略,为本土客户提供了一条合理的采用路径。根据我们的行业调研,公司在编译器适配、PyTorch 等框架兼容性及运行时优化方面均取得了稳步进展,但整体生态的成熟度与稳定性仍落后于全球领先者。

此外,沐曦采用了务实的制造策略,依托 N+1/12nm 等相对成熟的工艺节点,保障良率稳定性与供应连续性。这一策略虽然限制了其与尖端产品相比的峰值性能,但在性能、成本与可制造性之间实现了更均衡的取舍。整体而言,我们认为沐曦的执行力与规模化潜力正在提升,但大规模商业部署的进一步验证仍是需要关注的关键因素。

性能与成本:哪些国产 AI 芯片脱颖而出?

对中国 AI GPU 市场而言,推理经济性比基础模型训练更重要

在此前中国 AI 洞察报告中,我们已对国产 AI 加速芯片在关键性能与经济指标(含 TCO、总处理性能 TPP、DeepSeek R1 推理 TPS、每瓦性能)进行全面对比。

1. TPS—— 营收核心指标

我们认为 TPS(每秒代币处理量)是中国推理主导市场的另一关键指标。与峰值 FLOPS 不同,TPS 反映端到端系统性能,体现实际负载下的硬件能力(计算吞吐量、内存与互联带宽)与软件效率。以 DeepSeek R1 为基准,对标英伟达 2025 年 2 月披露的 H200 结果(5899 TPS),我们发现华为昇腾 950PR/DT、寒武纪思元 690等头部国产加速芯片,在我们的测试场景中性能比英伟达 H20 高 50%-150%。这反映计算能力与系统级优化、计算 – 网络平衡的提升。

国产厂商通过内存、互联、系统架构改进取得显著进展,即便工艺节点劣势,仍实现有竞争力的推理性能。这强化我们的判断:性能领先愈发取决于负载场景,国产芯片在推理场景已具备竞争力,尽管英伟达在技术前沿仍占优势。

TPS 测算方法论

我们的 TPS 框架采用决定推理代币吞吐量的核心硬件与负载变量:

  • 硬件输入:有效计算吞吐量(FP8,无则 FP16)、内存带宽、互联带宽、芯片利用率(UTR)

  • 负载输入:模型大小(671GB)、层数(61)、激活专家(MoE 架构下 9/257)、输入 / 输出代币长度(1024/1024)、批次大小

选择 DeepSeek R1 作为基准模型,因其在中国当前大模型生态中具代表性且采用 MoE 架构。为校准框架,我们以 2025 年一季度英伟达 H200 公开数据为基准:2025 年 2 月,英伟达 H200 运行 DeepSeek R1 推理实现 5899 TPS。

局限性

我们的 TPS 预测主要基于硬件规格(计算吞吐量、内存带宽、网络带宽)。模型关键变量为芯片利用率(UTR),反映理论硬件吞吐量转化为实际持续性能的效率。我们微调 UTR 假设,使模型 TPS 接近英伟达公开结果,确保模型基于可观测市场数据,而非纯理论峰值规格。

需注意,英伟达公开结果或包含多层软件优化(内核调优、TensorRT 图优化、内存调度改进、通信库优化、MoE 模型专家路由优化)。因此,我们采用的英伟达基准(2025 年 2 月结果)可视为时间点参考,后续驱动、框架或固件更新或进一步提升性能。

因此,尽管我们的框架为跨厂商推理性能对比提供结构化、基于硬件的依据,实际 TPS 或因软件成熟度、负载组合、集群配置而异。我们的分析假设固定推理负载(输入 / 输出代币 1024/1024,批次大小 1),未必覆盖所有部署场景。

值得注意的是,评估英伟达下一代平台(如 GB300)时,性能差距显著扩大。英伟达最新发布显示,GB300 凭借更高计算吞吐量、增强网络带宽、新一代 HBM 性能与 FP4 等低精度格式支持,在 DeepSeek R1 场景下每瓦代币性能较 H200 提升最高 50 倍。

重要提示:本报告对比分析仅限于中国当前可采购或短期可合理获取的产品,未纳入英伟达最新前沿平台。绝对而言,英伟达最先进系统仍显著领先于我们模型中的产品。因此,我们的结论应基于中国可获取供应而非全球前沿技术领导力解读。

2. TCO—— 成本核心指标

TCO 仍是国产 AI 芯片最具吸引力的优势之一。全口径(芯片采购、电力、配套基础设施) 测算,我们估计国产加速芯片 TCO 可比英伟达当前在华解决方案低 30%-60%。优势源于更低的芯片初始定价、中国结构性更低的电力与基础设施成本。在大规模、高利用率的推理主导部署中,运营成本占生命周期成本主导,该优势更为显著。

将系统性能转化为单代币成本,差距收窄。尽管英伟达仍保持绝对性能领先(尤其高端),但头部国产加速芯片已实现与英伟达 A100/H20 系列单代币成本全面对标,部分配置下实现超越。我们认为,这是关键拐点 —— 云服务商从追求峰值芯片性能转向商业化变现与利用率优化 。

3. 能效 —— 功耗指标

能效方面,国产芯片已基本追平英伟达 A100 与 H20,仍落后 H100、H200 等新平台。同时,每美元性能上,国产加速芯片凭借更低定价与实际性能提升,已展现明确优势。

叠加采购成本,国产芯片因定价显著更低,每美元性能更强。头部国产加速芯片已超越 A100,缩小与 H200 差距,强化其在推理主导部署中的吸引力。

4. 通用 GPU vs. 专用集成电路:差异是否关键?

评估国产 AI 芯片竞争力时,我们认为架构选择(GPGPU vs. ASIC/DSA) 是中国 AI 生态的核心战略取舍。与可获取先进工艺与成熟软件的全球同业不同,国产厂商需在量产限制、软件成熟度、需求结构演变间优化。

GPGPU:可编程性与灵活性更强,适配快速迭代的模型生态与 PyTorch 等主流框架。在中国软件生态仍在收敛、模型架构持续迭代的背景下,灵活性价值突出。但功耗与面积效率更低,通常需更先进工艺实现有竞争力的性能。

ASIC:软硬件协同优化更紧密,可部分弥补工艺劣势,在目标负载中实现更高效率,适合推理主导或相对稳定的场景。取舍在于通用性降低、软件移植成本更高、对模型架构变化更敏感。(完)

免责声明:在任何情况下,本文中的信息或表述的意见,均不构成对任何人的投资建议。

想要获取外面看不到的信息和来自主流机构的投资逻辑,可扫描下方二维码,加入稀缺资源报告群: