切勿低估国产 AI 算力芯片;业绩兑现期,谁将脱颖而出?
更多一手调研纪要和海外投行研报数据,点击上面图片小程序
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
一、寒武纪:业绩持续高增,盈利能力稳固
核心结论
寒武纪2026Q1延续了2025年扭亏为盈后的强劲势头,营收同比增长159.6%至28.85亿元,基本EPS达2.40元(去年同期0.85元),单季度盈利能力十分强劲。
关键亮点
-
营收爆发式增长验证需求韧性:Q1营收28.85亿元,占2025全年64.97亿元的44.4%,增长明显提速
-
毛利率保持稳定:约54.3%,与2025全年55.15%基本持平,未因放量而下滑
-
现金回款强劲:Q1销售商品收到现金31.59亿元,同比增长317%(去年同期7.57亿),回款能力远超收入增速
-
首次分红 + 转增:拟每10股派现金红利15元、转增4.9股,彰显盈利信心
特别值得关注的点
-
库存持续攀升:截至2025年末存货已达49.44亿元,需关注是否存在备货压力或潜在减值风险
-
客户集中度:云端产品线占营收99.7%,互联网和运营商为核心客户群,客户集中度较高
-
估值分歧:券商对2026年营收预测分歧较大,华泰预测169亿,华创142亿,反映市场对下半年增速存在不同预期
-
研发投入占比大幅下降:从2024年91.3%降至2025年17.99%,主要是营收基数大幅增长导致,绝对额仍在增加
-
定增资金到位:2025年10月完成39.85亿元定增,为下一代芯片研发提供充足弹药
二、芯原股份:营收翻倍但亏损扩大,订单才是核心逻辑
核心结论
芯原Q1营收同比翻倍至8.36亿元,但归母净利润亏损从-2.20亿扩大至-3.41亿元。看似矛盾的核心原因在于:高速增长的研发投入(+53.4%)为未来天量订单的转化做准备。
关键亮点
-
一站式芯片定制业务爆发:同比增长145.9%,量产业务收入4.67亿元(+219.9%),规模效应开始显现
-
新签订单大超预期:2026年1月1日至4月29日新签订单82.40亿元,AI算力相关占比91.37%
-
在手订单持续高位:51.33亿元,连续十个季度保持高位,初步测算含新签后总在手订单可能达125亿元
-
先进制程占比领先:28nm及以下收入占比97.05%,7nm及以下占比37.92%,技术壁垒显著
特别值得关注的点
-
“亏损扩大”需正确理解:本质是为82.40亿元天量新签订单投入研发和产能,属于前置性投入,量产业务订单超30亿且预计一年内转化超90%
-
从IP公司到ASIC龙头的转型:新签订单中绝大部分为一站式芯片定制(ASIC)业务,AI算力订单占比从2025年的73%提升到91.37%,转型加速
-
盈亏平衡临近:华泰预测2026年归母净利润-0.11亿元(接近盈亏平衡),申万预测-1.7亿元,分歧点在于订单转化节奏
-
收购逐点半导体:以9.3亿元收购逐点半导体97.89%股权,一季报中并购的公允价值评估尚未完成
-
经营现金流承压:Q1经营现金流-3.08亿元,主要因为大量研发项目前置投入
三、沐曦股份:GPU出货放量,减亏路径清晰
核心结论
沐曦Q1营收5.62亿元(+75.4%),归母净利润-0.99亿元,较去年同期-2.33亿大幅减亏57.5%。毛利率从55.3%提升至60.1%,验证产品竞争力和规模效应。
关键亮点
-
毛利率显著提升:从2025Q1的55.3%跃升至60.1%,GPU产品溢价能力增强
-
管理费用大幅下降:从去年同期1.53亿降至5835万,主要因股份支付费用减少,利润端正向贡献明确
-
预付款项环比大增4亿元至12.33亿:按10%-30%预付比例推算,对应40-120亿元未来营收潜力
-
全栈国产化供应链:采用国内N+1工艺+双芯粒结构,供应链安全可控
特别值得关注的点
-
预付款杠杆效应:12.33亿元预付款是最值得关注的前瞻指标,意味着公司正在大规模锁定产能,为下半年放量做准备
-
C600系列已回片点亮:采用国产先进工艺,性能超300TOPS/FP16,预计2026年下半年开始大规模发货
-
客户拓展突破:正从教科研/政府智算中心向互联网/运营商大客户拓展,一旦突破将大幅提升营收天花板
-
盈亏平衡在即:东北证券预测2026年归母+1.69亿(扭亏),JP Morgan预测2026年盈亏平衡,但经营现金流-5.50亿仍显著为负
-
研发投入占比从62.49%(2025全年)降至45%(Q1):营收增速快于研发增速,费用结构持续优化
-
估值争议较大:JP Morgan首次覆盖给予”中性”,认为当前2027年40倍PS估值偏高;高盛首次覆盖给予”买入”,目标价811元
四、国产算力产业链走访反馈:国产AI算力发展进入正循环
近期机构在上海走访了澜起、兆易、沐曦、天数、豪威、小米、龙旗、舜宇等国产AI算力和消费电子产业链头部公司。主要结论:
感受1: Agent AI驱动国产算力发展进入正循环
2H25以来,“小龙虾”等应用推动算力需求快速增长,但英伟达GPU仍无法在国内充分流通,国内算力芯片供不应求,为国产AI芯片在CSP推理市场提供了机会。5家已上市AI芯片公司2026年收入保持120%高增长,先进代工(中芯、华虹),先进封装(盛合晶微、长电),封装设备(华峰测控、光力科技、ASMPT),存储和连接(兆易、澜起)等有望受益。
观点2: “要站在光里,不要光站着”:关注消费电子板块重估机会
我们注意到,CIS厂商(豪威、思特威)、精密光学厂商(舜宇)、射频IDM(卓胜微)等传统消费电子企业正积极布局光互连,还在探索Micro LED等新方向。我们认为从消费电子(板块约18x 2027E PE)切入光通信(约41x 2027E PE)有望带动相关公司估值提升。
观点3: 苹果份额提升趋势明显,关注 1Q26毛利指引
上周我们上调苹果目标价到320美元,保持推荐。大部分投资人认同我们份额提升的推荐逻辑,但对苹果毛利率趋势存在较大分歧。关注4/30指引。
2026是极度缺卡的一年,目前各家卡都逐渐从可用进入好用的阶段,瓶颈还是在于供给能力
– 沐曦股份:目前在供给能力上排在前列,P客户放量的一年,目前头部三家P进展顺利。
– 天数智芯:2026年是P客户放量元年,头部P进展顺利。
– 壁仞科技:BR20X性能很好,今年7-8月有望回片,进入P客户。
– 摩尔线程:目前产能可以支持在手订单,25年年底开始做互联网的布局,目前已经有小批量。
此外,switch方面,2026年阿里磐久128卡超节点、昆仑芯64卡超节点等均有望批量出货数千台量级,且scale-up国内主流的比例为switch:AI芯片=1:2,叠加国产化需求下,份额提升将非常快,看好盛科卡位优势。
摩根士丹利:切勿低估中国 AI 算力芯片;谁将脱颖而出?超配寒武纪、天数智芯!
-
在中国峰会中,MiniMax、智谱 AI 等主流大模型厂商表示,只要代币经济性具备竞争力,愿意采用国产 AI 芯片。 -
近期实地调研显示,受超微电脑(SMCI)相关事件影响,英伟达 GPU 在华供应收紧,增量需求转向国产替代方案。 -
英伟达 RTX 5090 在华现货需求旺盛,表明 AI 推理需求依然强劲。 -
代币价格与 GPU 租赁价格上涨,亦反映算力市场仍处于紧缺状态。主要负面信号:价格竞争来得比预期更早,部分厂商已开始降价以抢占份额。 -
2026 年 7 月世界人工智能大会(WAIC)将在上海举办,预计届时将亮相中国新一代 AI 加速芯片产品,天数智芯的新品尤为值得关注。
-
寒武纪(超配;目标价 1588 元人民币):本土领先的 AI 推理芯片厂商,绑定头部云服务商客户、软硬件协同优化能力突出,在大规模云端推理部署中占据优势。 -
天数智芯(超配;目标价 600 港元):供应链布局多元化、供应可见度更强,云端客户覆盖持续拓展。 -
沐曦股份(标配;目标价 758 元人民币):具备差异化的本土通用 GPU(GPGPU)厂商,类 CUDA 软件兼容性较强,短期量产路径更具扩展性。但估值吸引力弱于同业。
-
消费端与企业端应用的商业化,正推动 AI 推理需求快速增长; -
持续的出口管制,使本土化成为中国 AI 算力市场的长期特征,而非一项临时政策应对。
-
乐观情景:国产 AI 芯片的应用场景从推理拓展至部分训练负载,软件生态的改善速度快于预期,部分厂商实现海外市场的采用或间接出口机会。 -
悲观情景:产品差异化优势消失,价格竞争压力提前加剧,行业走向同质化与整合。

更多一手调研会议纪要和海外投行研报数据,扫码咨询


图表 4:中美 AI 产业相对优势对比

图表 5:国产芯片与英伟达在华处理器相比,TCO 更低、AI 大模型推理单代币成本相当

谁将在中国 AI GPU 领域胜出?
中国 AI 加速芯片生态涵盖独立芯片厂商、国资背景企业、与头部云服务商深度绑定的自研芯片团队。我们在全球 GPU/ASIC 格局下评估该生态竞争者,对比性能、成本、执行力的相对定位,并采用统一估值框架筛选风险收益比最优的标的。对云服务商的实地调研显示,尽管单代币成本是最重要的单一指标,但软件优化与战略客户合作的重要性超出预期。
基于近期出货趋势、客户份额、市占率演变及提前到来的价格下滑,我们认为下一阶段的核心不再是理论峰值性能,而是商业落地能力、软件就绪度与客户获取能力。
从竞争角度,市场应按客户类型划分:
-
头部云服务商与主流大模型厂商:核心决策指标为单代币成本,但仅靠该指标不足够。软件成熟度、框架兼容性、集群级优化、战略合作深度决定订单分配。 -
政务 AI、电信、国企及政府相关需求:供应安全、自主可控、政策契合度权重更高。

-
寒武纪:在ASIC/DSA技术路线上表现突出,凭借优异的推理性能、深度的客户绑定以及软硬件协同优化能力,实现了出色的部署经济性,尤其在大规模云端应用场景中优势明显。 -
天数智芯:的核心差异在于多元化晶圆厂策略、更高的供应可见度,以及凭借软件兼容性为客户提供务实便捷的迁移方案。 -
沐曦股份:是我们认为国内最具竞争力的GPGPU厂商之一,得益于其相对更强的类 CUDA 软件兼容性,以及短期更具规模化潜力的生产制造路径。
简而言之,寒武纪在当前云端推理场景的落地进展最为突出(仅次于华为昇腾);天数智芯的核心优势在于供应链韧性与商业拓展弹性;沐曦股份则凭借其可规模化的通用 GPU定位,具备长期成长潜力。
中国 AI GPU 需求短期市场跟踪
同时,行业短期环境对国产厂商更有利。近期实地调研显示,英伟达 GPU 在华供应收紧,为国产替代创造更大空间。英伟达 5090 现货需求旺盛、代币价格与 GPU 租赁价格上涨,均印证下游推理需求韧性。这些数据强化我们的判断:需求环境依然强劲,尤其对需快速部署、不愿等待供应恢复的客户。警示:竞争加剧快于预期,市场已出现降价,行业或提前进入份额争夺期。因此,执行力愈发关键 —— 尤其在软件优化、客户支持与核心客户渗透方面。
2026 年 7 月世界人工智能大会将在上海举办,预计天数智芯等厂商将发布新一代 AI 加速芯片。
图表 7:英伟达 5090 在中国价格持续上涨
图表 8:中国主流大模型平均代币价格

图表 9:字节跳动(火山引擎 / 豆包)代币量激增,显示 AI 需求旺盛
图表 10:中国云服务商资本开支将是 AI GPU 需求核心驱动力(十亿美元)

用我们的框架筛选赢家:首选寒武纪与天数智芯
基于性能与成本分析,我们采用结构化框架评估国产 AI 芯片厂商的相对定位,聚焦量化经济性与定性执行力两大维度。
我们的评估框架:经济性 × 执行力
我们从两大核心维度评估厂商:
-
推理经济性(量化):包括总拥有成本、单代币成本、每秒代币处理量(TPS)性能、每瓦 / 每美元性能
-
执行能力(定性):包括先进工艺产能获取、软件生态成熟度、与云服务商的合作深度、产品路线图的可靠性
我们认为,要实现持续领先,厂商必须在这两方面均具备优势。仅在某一方面表现突出(例如硬件性能强劲但生态薄弱)的厂商,难以实现稳固的市场份额。
图表 11:寒武纪、沐曦股份、天数智芯对比

寒武纪:推理性能与客户绑定领先
我们认为寒武纪是 ASIC(DSA)路线上最具优势的厂商之一。
-
量化层面:最新一代产品(如思元 590)推理性能具备竞争力,TPS 分析显示在部分 DeepSeek R1 场景中显著优于英伟达 H20。叠加定价优势,支撑优秀的单代币经济性(云服务商核心决策指标)。
-
定性层面:客户深度协同。与字节跳动多年合作实现持续软硬件优化与实际部署验证,在应用层调优与商业化落地中具备优势。
综上,寒武纪是推理驱动部署的短期领先者,尤其在效率与客户定制化优化至关重要的场景。
天数智芯:依托供应链韧性,订单可见度高
我们认为天数智芯凭借供应链韧性、软件兼容性与持续提升的商业落地能力,将充分受益于中国 AI 芯片国产替代进程的加速。
根据行业调研,国内头部云服务商已对天数智芯的天盖 150(TianGai-150)AI 芯片下达大额预订单,预计 2026 年下半年开始出货。重要的是,天数智芯的多元化晶圆厂策略(包括在台积电进行合规生产),相比仅依赖本土晶圆厂或海外不合规产能的同业,拥有更高的产能可见度,降低了供应中断风险。
软件层面,天数智芯的通用 GPU(GPGPU)架构具备高 CUDA 兼容性,降低了迁移成本。公司已协助客户将大模型栈从英伟达平台迁移至天盖 150。我们认为,这使其在企业寻求英伟达务实替代方案时占据优势地位。
沐曦股份:依托软件与供应实现规模化定位
在通用 GPU(GPGPU)赛道中,我们认为沐曦股份是具备竞争力的本土参与者,其核心优势在于聚焦提升 CUDA 生态兼容性。尽管 CUDA 仍是英伟达的核心护城河 —— 其深度整合了编译器、cuDNN 与 NCCL 等库,以及庞大的开发者生态 —— 这也形成了难以复制的结构性切换成本。
在此背景下,沐曦构建类 CUDA 软件栈与兼容层的策略,为本土客户提供了一条合理的采用路径。根据我们的行业调研,公司在编译器适配、PyTorch 等框架兼容性及运行时优化方面均取得了稳步进展,但整体生态的成熟度与稳定性仍落后于全球领先者。
此外,沐曦采用了务实的制造策略,依托 N+1/12nm 等相对成熟的工艺节点,保障良率稳定性与供应连续性。这一策略虽然限制了其与尖端产品相比的峰值性能,但在性能、成本与可制造性之间实现了更均衡的取舍。整体而言,我们认为沐曦的执行力与规模化潜力正在提升,但大规模商业部署的进一步验证仍是需要关注的关键因素。
性能与成本:哪些国产 AI 芯片脱颖而出?
对中国 AI GPU 市场而言,推理经济性比基础模型训练更重要
在此前中国 AI 洞察报告中,我们已对国产 AI 加速芯片在关键性能与经济指标(含 TCO、总处理性能 TPP、DeepSeek R1 推理 TPS、每瓦性能)进行全面对比。
1. TPS—— 营收核心指标
我们认为 TPS(每秒代币处理量)是中国推理主导市场的另一关键指标。与峰值 FLOPS 不同,TPS 反映端到端系统性能,体现实际负载下的硬件能力(计算吞吐量、内存与互联带宽)与软件效率。以 DeepSeek R1 为基准,对标英伟达 2025 年 2 月披露的 H200 结果(5899 TPS),我们发现华为昇腾 950PR/DT、寒武纪思元 690等头部国产加速芯片,在我们的测试场景中性能比英伟达 H20 高 50%-150%。这反映计算能力与系统级优化、计算 – 网络平衡的提升。
国产厂商通过内存、互联、系统架构改进取得显著进展,即便工艺节点劣势,仍实现有竞争力的推理性能。这强化我们的判断:性能领先愈发取决于负载场景,国产芯片在推理场景已具备竞争力,尽管英伟达在技术前沿仍占优势。
图表 12:中国 AI 加速芯片 AI 推理 TPS 分析(DeepSeek R1,代币 / 秒)

图表 13:我们的 TPS 结果与英伟达 2025 年 2 月发布的 H200 数据一致(代币长度与数据格式假设相同)
图表 14:GB300 在 DeepSeek R1 场景下,每瓦代币性能可达 H200 的 50 倍

TPS 测算方法论
我们的 TPS 框架采用决定推理代币吞吐量的核心硬件与负载变量:
-
硬件输入:有效计算吞吐量(FP8,无则 FP16)、内存带宽、互联带宽、芯片利用率(UTR)
-
负载输入:模型大小(671GB)、层数(61)、激活专家(MoE 架构下 9/257)、输入 / 输出代币长度(1024/1024)、批次大小
选择 DeepSeek R1 作为基准模型,因其在中国当前大模型生态中具代表性且采用 MoE 架构。为校准框架,我们以 2025 年一季度英伟达 H200 公开数据为基准:2025 年 2 月,英伟达 H200 运行 DeepSeek R1 推理实现 5899 TPS。
图表 15:核心 TPS 计算公式

局限性
我们的 TPS 预测主要基于硬件规格(计算吞吐量、内存带宽、网络带宽)。模型关键变量为芯片利用率(UTR),反映理论硬件吞吐量转化为实际持续性能的效率。我们微调 UTR 假设,使模型 TPS 接近英伟达公开结果,确保模型基于可观测市场数据,而非纯理论峰值规格。
需注意,英伟达公开结果或包含多层软件优化(内核调优、TensorRT 图优化、内存调度改进、通信库优化、MoE 模型专家路由优化)。因此,我们采用的英伟达基准(2025 年 2 月结果)可视为时间点参考,后续驱动、框架或固件更新或进一步提升性能。
因此,尽管我们的框架为跨厂商推理性能对比提供结构化、基于硬件的依据,实际 TPS 或因软件成熟度、负载组合、集群配置而异。我们的分析假设固定推理负载(输入 / 输出代币 1024/1024,批次大小 1),未必覆盖所有部署场景。
值得注意的是,评估英伟达下一代平台(如 GB300)时,性能差距显著扩大。英伟达最新发布显示,GB300 凭借更高计算吞吐量、增强网络带宽、新一代 HBM 性能与 FP4 等低精度格式支持,在 DeepSeek R1 场景下每瓦代币性能较 H200 提升最高 50 倍。
重要提示:本报告对比分析仅限于中国当前可采购或短期可合理获取的产品,未纳入英伟达最新前沿平台。绝对而言,英伟达最先进系统仍显著领先于我们模型中的产品。因此,我们的结论应基于中国可获取供应而非全球前沿技术领导力解读。
2. TCO—— 成本核心指标
TCO 仍是国产 AI 芯片最具吸引力的优势之一。全口径(芯片采购、电力、配套基础设施) 测算,我们估计国产加速芯片 TCO 可比英伟达当前在华解决方案低 30%-60%。优势源于更低的芯片初始定价、中国结构性更低的电力与基础设施成本。在大规模、高利用率的推理主导部署中,运营成本占生命周期成本主导,该优势更为显著。
将系统性能转化为单代币成本,差距收窄。尽管英伟达仍保持绝对性能领先(尤其高端),但头部国产加速芯片已实现与英伟达 A100/H20 系列单代币成本全面对标,部分配置下实现超越。我们认为,这是关键拐点 —— 云服务商从追求峰值芯片性能转向商业化变现与利用率优化 。
图表 16:AI GPU 中美售价 —— 中国因利润率要求更低,售价普遍更低

图表 17:电力成本 —— 中国电价远低于其他经济体

图表 18:国产芯片与英伟达在华处理器相比,TCO 更低、AI 大模型推理单代币成本相当

3. 能效 —— 功耗指标
能效方面,国产芯片已基本追平英伟达 A100 与 H20,仍落后 H100、H200 等新平台。同时,每美元性能上,国产加速芯片凭借更低定价与实际性能提升,已展现明确优势。
叠加采购成本,国产芯片因定价显著更低,每美元性能更强。头部国产加速芯片已超越 A100,缩小与 H200 差距,强化其在推理主导部署中的吸引力。
图表 19:每瓦性能对比

图表 20:每美元性能对比

图表 21:成本效率与功耗效率对比

4. 通用 GPU vs. 专用集成电路:差异是否关键?
评估国产 AI 芯片竞争力时,我们认为架构选择(GPGPU vs. ASIC/DSA) 是中国 AI 生态的核心战略取舍。与可获取先进工艺与成熟软件的全球同业不同,国产厂商需在量产限制、软件成熟度、需求结构演变间优化。
GPGPU:可编程性与灵活性更强,适配快速迭代的模型生态与 PyTorch 等主流框架。在中国软件生态仍在收敛、模型架构持续迭代的背景下,灵活性价值突出。但功耗与面积效率更低,通常需更先进工艺实现有竞争力的性能。
ASIC:软硬件协同优化更紧密,可部分弥补工艺劣势,在目标负载中实现更高效率,适合推理主导或相对稳定的场景。取舍在于通用性降低、软件移植成本更高、对模型架构变化更敏感。
图表 22:通用 GPU vs. 专用集成电路:差异何在?


更多一手调研会议纪要和海外投行研报数据,扫码咨询
整理不易,希望各位能够多多支持,支持水木纪要!你的一个点赞、一次转发、 随手分享,都是我们前进的最大动力~~~~
夜雨聆风
