国产AI芯片行业交流核心观点

1、国产AI芯片基础属性与采购动态

·国产AI芯片评估指标与分类：国产AI芯片的核心评估维度包含四项：计算、显存、显存带宽、卡间互联，其中计算单元是国内不卡脖子的环节，因此国内多数芯片厂商甚至初创企业的算力指标普遍较高，部分厂商宣称其算力可达H100的数倍，2027-2028年性能将超过英伟达B系列，但该类表述仅指计算单项指标，其余三项指标普遍存在短板。目前可用于通用大模型推理的国产芯片仅包括昇腾910系列、寒武纪690、海光深算3，昇腾950核心适配PD分离场景，无法负担全面推理；天数及多数初创企业的芯片，无法支撑通用大模型推理，部分产品甚至连DeepSeek V4 Flash版的推理需求都无法满足，仅可适配OCR识别、语音转文字等简单场景。当前昇腾、寒武纪、海光等主流国产芯片普遍受限于产能，市场供不应求。

·大厂国产芯片采购动态：zj采购天数芯片的体量约5-6万片，其中推理卡占比50%-60%，训练卡占比较低，因训练卡卡间互联能力弱于昇腾、寒武纪产品，无法支持大语言模型训练，仅旗舰推理卡可适配拍题解题OCR、NLP处理、离线语音转文字等简单场景，该采购是基于场景匹配的合理选择，可避免高性能芯片大材小用。寒武纪690当前市价约13万/片，公开渠道基本无折扣，仅大客户可享受框架协议折扣：zj与寒武纪的长期协议显示，2025年折扣低于8折，2026年折扣为8-8.5折，2027年折扣将进一步收窄甚至全价。寒武纪690出现市场溢价的核心原因是zj2027年预订量极大，一方面其自身采购量触及协议量阈值后将面临全价采购，另一方面将挤压其他企业的可采购额度，导致市场供给紧张，其余企业采购仅能享受2%-5%的微小优惠甚至出现溢价。

2、国内AI算力供需格局

·英伟达芯片消耗情况：当前国内进口英伟达芯片已全部用尽，仍无法满足推理需求，各型号消耗及缺口如下：

a. A100：C端算力场景包括豆包、千问、AI支付等，叠加简单Agent、图片处理需求后，总需求约相当于30-40万片A100，已超过国内A100总进口量，存量已全部耗尽；

b. H20：国内H20进口量约150万片，2026年底预计50%将被云计算场景消耗，云计算需求主要来自豆包、千问、智谱等闭源模型，以及优先适配H架构、最低要求使用H20的DeepSeek V3/V4版本，剩余50%H20供给企业内部研发，分摊到各家后供给并不充裕；

c. H100/H800：生成视频场景下H100/H800供不应求，受C站32.0相关需求拉动，客户仍处于排队状态。

·国产算力供给与置换需求：当前国产算力供给紧张，叠加老款英伟达卡置换需求，缺口将持续扩大：

a. 现有国产供给：仅昆仑芯、平头哥、寒武纪690、昇腾910可支撑通用大模型推理，寒武纪590无法支持激活参数大于32B的通用大语言模型推理，仅可用于国央企简单办公分析场景；上述可用国产卡过去一两年总交货量不高，当前已基本被全部使用，预计2026年三四季度将出现明显算力短缺；

b. 置换需求：到期下架的1柜英伟达卡需要3-5柜国产卡才能实现算力替代，2027年将迎来V100、A100、A30等老款英伟达卡的置换高峰，置换需要更多IDC空间及光通讯等耗材投入，建设周期长、成本更高；

c. 缺口预判：除今年下半年缺二三十万片国产卡、明年缺一两百万片国产卡的预期外，明年还将有大量禁售的高性能老款英伟达卡下架，进一步加大国产算力缺口，因此国内头部公司已提前预订国产旗舰芯片，同时采购多厂商产品形成“全家桶”布局。

3、云厂商AI战略与应用算力需求

·DeepSeek迭代的行业影响：DeepSeek V4技术进步明显，是重新预训练版本，技术复杂度较此前版本大幅提升，多数企业难以轻易启动重新预训练，因此扩散性、复用性较V3、R1下降。V3、R1属于大模型发展早期的技术，结构相对简单易复用，其中R1还打破了O3推理模型的闭源封闭属性，因此普及速度较快。DeepSeek V3/V4优先适配H架构，最低需H20芯片支持，若明年DeepSeek V5发布后表现优异且开源，将对云服务商（CSP）的大模型布局产生两方面影响：一是动摇CSP高投入自研大模型的意愿，二是推动CSP优先适配支持V5的芯片，类似当前H20向云服务倾斜的趋势，大概率会被多数头部CSP接入，如同此前云服务接入MySQL、Oracle等PaaS服务的模式。

·下游应用算力需求特点：国内下游应用算力需求可分为三类场景，对应不同的芯片适配要求：a. 浅层Agent应用场景：国内浅层Agent应用（如自媒体营销智能体等）数量多，任务思考复杂度低，该需求将从今年延续到明年，会带动柜外CPU需求上涨，适配寒武纪690、昇腾950、昇腾910C等芯片即可满足需求，前提是解决公有云推理的虚拟化问题；b. 云厂商行业解决方案场景：国内CSP偏好布局手机、汽车、生产制造、物联网等行业解决方案，这类场景任务简单、覆盖行业广量级大，天枢之心、壁仞木兮、燧原等中低端国产卡均可适配，缺卡背景下多品牌芯片混用是必然趋势；c. 限定场景C端应用：微信Agent、AI支付等限定场景应用不会出现通用类问题，推理复杂度大幅下降，也可适配低算力国产卡。目前国产卡的短板为卡间互联能力不足，解决后虽效率有限但可使用，国产卡上云可满足CSP主流模型场景需求，但需较长建设周期，2026年下半年相关建设已启动，应对英伟达芯片短缺、明年英伟达供给衰减的趋势。

·编程场景算力分层：编程场景算力需求分为三个层级，不同层级对应模型参数与适配芯片差异明显：a. 简单编程场景：仅处理代码找bug等简单需求，仅需10B左右参数的编程模型即可满足；b. 复杂编程场景：承接长项目新功能开发等需求，仅需20B左右参数的编程模型即可满足；c. 全功能开发场景：依据含图片、网页的复杂设计文档开发APP等需求，才需要调用全参基模。前两类场景均可适配二档、三档国产卡，但受芯片算力效率限制，相关业务盈利空间较低。

4、国产AI芯片迭代与上游配套成本

·国产AI芯片迭代进度：2026年下半年专业芯片公司产品迭代节奏偏保守，产能约束问题突出，尤以昇腾系列为代表，网传昇腾950PR年产能75万片的说法不符合实际。各厂商新品进度如下：a. 昇腾950DT最早2026年11-12月推出样片，或推迟至2027年；384超节点涉及封装等工序，产能远低于950系列芯片；b. 寒武纪790 2026年不会推出，预计2027年下半年面市；c. 海光深算4 2026年下半年仅能推出样片；d. 沐曦、燧原等厂商新一代芯片2026年下半年推出概率极低。

·上游配套需求与成本：国产GPU普及将带动光通信类组网需求双向增长：一方面新增算力供应以国产卡为主，另一方面英伟达老旧卡需提前替换为国产卡，机柜、机房用量随之增加，叠加国产GPU需配套高速互联设施保障利用率，直接拉动光模块、光通讯、光路由需求显著上升。其次GPU相关核心元件价格呈持续上涨趋势，2026年初已发生一轮涨价，预计2027年仍将延续涨价态势，HBM等GPU直接元件涨价将带动国产GPU及CSP端IC价格整体上调。此外AI应用落地拉动通用存储及CPU需求增长：ChatBot日活、Agent应用、AI支付等各类AI应用运行时，每个DAU都需锁定固定DRAM、SSD空间，Agent使用量越大，DRAM、SSD需求增长越明确，CPU需求也与应用规模呈正比例增长。

5、国产AI芯片软件栈适配情况

·软件栈适配模式分类：主流国产AI芯片均适配PyTorch，PyTorch是模型训练写代码时的辅助框架，通常与CUDA搭配运行，CUDA负责调度GPU运行逻辑与数据流转，二者封装形成的kernel为整体代码运行单元。当前国产芯片的软件栈适配可分为三类：

a. 完全不兼容CUDA路线，代表厂商为昇腾、寒武纪：昇腾采用自有CANN生态，适配需对接售后联调、不同场景参数调优，人力成本较高；寒武纪无类似CANN或CUDA的配套体系，投入人力自主编写kernel后可实现一劳永逸，字节在寒武纪适配投入较大、适配速度最快，对其他企业而言适配昇腾与寒武纪的成本相近，选择时优先考虑产能因素，昇腾在字节以外的企业中接受度更高。

b. 部分兼容CUDA路线，代表为木犀、燧原等中游旗舰芯片，这类产品不改写代码存在性能损耗，改写代码又因部分不兼容导致性能回报较低，不是头部企业的首选。

c. 完全兼容CUDA路线，这类产品适配成本低但无法完全发挥芯片性能，适合中小企业、青云、UCloud等中部云平台，这类客户没有过高的并发与任务量需求，可节省前期投入，直接适配即可满足需求。

6、细分芯片厂商发展与海外布局

·非旗舰国产芯片应用前景：国内B端市场第一大类为国央企私有化部署项目，要求全自主可控，模型优先选用国内公司自研闭源模型如DeepSeek，推理卡要求使用国产产品，涵盖昇腾、寒武纪、昆仑芯、平头哥等厂商：a. 昆仑芯单柜效果好、机动性强，适配私有化部署场景；b. 平头哥结合阿里云生态，含光、玄铁系列整合后的推理方案效果较好。当国产芯片可支持60B左右参数模型推理时，将对市场产生质的影响：一方面可优化当前多卡适配的"大杂烩"现状，帮助云服务商找到服务质量与价格的更好平衡点；另一方面可拓展B端大规模应用、更大规模模型私有化部署、端侧应用等多个市场，降低商业场景拓展的成本与风险，加速国内AI应用市场拓展。

·海外芯片厂商前沿布局：英伟达收购LPU是出于长期模型推理布局的考量，今年GPT-5后续推出的Flash版本可实现几十到几百毫秒级的推理速度，Token价值分为两个分支：一是高复杂度推理场景算力消耗大，二是超快响应场景用户感知近乎无感，是AI能力的质的突破。英伟达布局R系列（适配复杂推理场景）与DPU（适配快速响应场景）两条产品线，覆盖全场景推理需求，其布局更侧重长期用户体验优化，与国内芯片厂商的布局存在差异。

7、英伟达芯片生命周期与相关动态

·英伟达卡生命周期与回报：英伟达V100及以上型号芯片官方建议5年进入维护期，6-7年故障率上升，使用寿命上限为8年，企业需提前做好数据备份准备。芯片投资回报节奏取决于模型与商业化落地情况，不同场景回本速度存在差异：

a. 推荐模型训练场景下，A100较V100可将模型训练周期缩短7-10倍，小模型场景仅需部署数百卡A100即可达到良好训练效果，2-3年即可收回硬件投入成本；

b. 高毛利类AI模型（如C-Dense类模型）毛利水平可达50%-60%，前期研发成本约1年即可完成回收，第2-3年可覆盖硬件投资成本，3-4年即可进入净利阶段。

·高通相关芯片性质说明：高通相关合作芯片不属于严格意义上的AI GPU或类GPU产品，定位为数据中心服务器内的信号信息处理辅助芯片，并非独立CPU或GPU产品，不归属AI芯片范畴。

8、国产芯片渗透与算力租赁现状

·国产AI芯片渗透率情况：不同统计口径下国产AI芯片渗透率存在差异：严格口径下，通用大语言模型预训练对算力要求极高，仅昇腾、海光等万芯超节点可满足200B、400B参数模型训练需求，国内该类超节点落地数量极少，当前仅昇腾950DT搭配384超节点集群可支撑相关训练，目前该产品尚未量产仍处纸面阶段，因此严格口径下国产卡用于通用大模型训练的占比极低。若放宽统计口径至小参数模型训练、搜广推训练等场景，寒武纪590等国产卡已有落地应用，渗透率符合今年30%左右的预期。

·存算一体技术应用前景：存算一体、可重构新框架应用场景存在局限性，主要适配端侧算力、边缘计算、私有化离线场景（如银行未联网的厅堂服务机器人节点等），无法成为BC端通用模型服务的主力算力支撑。大厂仅在匹配的特定边缘业务线有采购可能，主流通用大模型相关应用与该类技术无直接关联。

·算力租赁行业现状：国内算力租赁行业呈现两大特征：一是进货端，英伟达芯片是算力租赁市场主流选择，单位算力成本低于国产卡，当前进货渠道持续收窄，产能极不稳定，今年年初供应偏紧，年中有所宽松。二是商业模式存在明显痛点：a. 风险成本转嫁，出租方仅提供网络互联、通电等基础服务，合规风险全部由承租方承担，导致租赁价格偏高，B200算力为H100的5倍，租赁价格已达H100的4-5倍，承租方价差收益空间极低；b. 集群利用率偏低，出租方无动力投入虚拟化、软件适配、模态适配等运维成本，承租方也不会为短期租赁的算力投入优化成本，国内租赁算力集群利用率仅20%-30%，远低于海外本土使用的40%-50%水平，整体买卖双方利润空间均较薄，仅能满足缺算力的刚性需求。

9、算力需求与云厂商经营展望

·Agent对CPU需求的拉动：当前Agent尚未带动CPU需求大幅增长，可从两类消耗场景拆解需求特点：

a. 调度类需求：消耗极低，1个物理核可支持上万个Agent任务调度，C端国内基本无直接Agent市场，现有产品仅付费用户可使用Agent功能，规模极小，即使是几亿日活的调度需求，最多仅需数千到一两万颗CPU即可覆盖；B端Agent多为企业内部独立任务调度，仅需给每个企业分配少量线程，十万级GPU仅需配套数千颗CPU即可满足B端Agent调度需求。

b. 执行类需求：仅开网页、做PPT、检索数据库等场景产生CPU消耗，C端免费用户仅分配少量CPU资源、排队执行，仅付费用户可优先满足高消耗需求，整体CPU消耗完全可控；B端Agent仅需内部数据库检索，无Office类高消耗需求，执行端CPU需求极低。整体当前CPU需求尚未进入爆发阶段。

·2026-2027年算力瓶颈：2026-2027年算力瓶颈仍在先进制程，先进制程仍是算力密度提升的核心支撑，不能因当前5nm、3nm等先进制程攻关存在难度就否定其必要性。非先进制程的立体堆叠方案可行性低于先进制程路线，核心难点包括：一是立体堆叠模组内部、成品卡之间的互联均存在明显传输损耗，算传比问题难以解决；二是当前国产芯片单位算力成本已高于英伟达，立体堆叠会进一步推高成本，同时降低产品良率，正推、倒推均显示非先进制程路线可行性不足。

·云厂商AI盈利与资本开支：国内云厂商AI业务盈利水平偏低，核心制约因素包括：一是算法、算力共同导致推理成本偏高，海外OpenAI早期模型毛利率至少70%，而国内自研闭源模型乐观毛利率仅30%左右，新客户折扣会进一步压缩毛利；二是国内头部CSP均布局自研闭源模型，同质化竞争程度远高于海外，将持续压低行业毛利，仅同时具备流量、模型、算力三重优势的头部厂商可获得更高毛利，其余通用大模型厂商毛利维持低位。

资本开支层面，头部云厂商资本开支将持续增长，但投入方向和增速存在明显差异：火山引擎布局覆盖Data Agent、Tree AI、手机汽车行业解决方案、AI操作系统等多场景，同时需采购核心基建与国产芯片，开支增速最高；阿里云传统云服务成熟，当前重点推进传统云到AI云的客户转化，资本开支上调比例相对较低；腾讯云仍处于模型投入阶段，需先投入算力搭建模型再对外提供AI服务。

10、国产化进度与行业相关前瞻

·国产化各环节进度对比：当前国产化三大核心环节进度差异明显：

a.GPU环节：整体进步较慢，受商业化驱动明显，国内厂商优先匹配国内市场需求，今明两年高性能推理芯片缺口较大，因此优先推出匹配需求的950P产品，将950DT研发延后，间接放缓了对标英伟达综合能力的技术追赶节奏；旗舰厂商寒武纪790虽稳步提升综合能力，但整体进步速度偏慢，英伟达技术门槛较高。

b.光模块环节：是国产化进度最快的领域，国内厂商技术水平仅比海外龙头博通落后一代，发展前景显著优于GPU环节。

c.CPU环节：分两条路线发展，ARM路线适合定制核心数少、能耗低的产品解决agent调度问题，性价比更高，10万甚至大几万GPU仅需配备几千核CPU即可完成调度任务，且大厂具备虚拟化能力，可实现一颗物理CPU配多个虚拟系统；x86路线方面，当前市面多数应用围绕英特尔、AMD的x86生态开发，适配性更好且服务器价格不高，采购方若非受限于价格或供货周期，短期内仍倾向选择海外x86产品，国产x86应用场景有限。

·智谱模型能力与商业模式：智谱模型能力可拆分为三个层级对比海外头部模型，同时国内编程模型市场与海外存在明显结构差异：

a.模型能力差异：标准化编程场景属于标准化结构化领域，能力上限较低，预计明年初智谱在该领域的能力可与海外头部持平甚至更高；Agent场景差距明显，智谱5.2版本在国内编程相关Agent领域表现较好，但对比OpenAI 4.6已有差距，明年能否超过OpenAI相关模型仍无法确定，更难追平Fable Five，核心差距在于海外模型推理已实现工程化，单任务可分多步激活不同子模块完成最优流程规划，国内模型多为点对点简单推理，仅依靠基础知识输出规划；通用大语言模型场景下，智谱在国内本身不属于顶尖水平，DeepSeek、千问3.7标准尺寸版与其能力不相上下。

b.商业模式差异：国内编程模型市场健康度低于美国，商业化存在不确定性：海外有全球AI创业公司构成的庞大B端付费市场，国内多数创业公司仍使用海外模型，本土B端市场尚未形成；国内头部互联网厂商倾向自研内部所需工具，外部厂商难切入大B客户，具备此前SaaS产品难进入大公司的典型市场特点；面向软通动力、宇信易诚等服务国央企的软件外包商的下沉市场，需求多为低难度标准化代码，市场竞争侧重性价比，头部模型性能优势难以体现。

·国内大厂二季度AI业绩前瞻：收入统计口径为以MaaS为主的AI相关收入，当前仅可对国内头部两家AI云服务商业绩做出预测：

a.阿里云：2026年一季度AI收入约82亿元，二季度预计保持乐观增长，增速约20%，对应收入规模约100亿元。

b.火山引擎：2026年一季度AI收入约20亿元（不含IaaS），二季度AI相关收入预计增长15%-20%，叠加二季度C端贡献的约40亿元收入，总规模接近阿里云一季度水平。