大模型狂飙席卷全球,AI 算力需求呈指数级井喷。AI 超节点强势登场,将数千颗 AI 芯片高效聚合,打造出超级算力集群,成为国产算力撕破海外垄断、实现全栈自主可控的关键王牌。
赛道竞速全面开启,国产超节点规模化商用按下加速键。昆仑芯、沐曦股份、清微智能、中科曙光、华为五大龙头企业重磅亮剑,国产算力新格局已然成型。今天,我们就来深度盘点国产AI超节点五大硬核玩家。

昆仑芯:全栈自研XPU,万卡级智算集群主力
技术定位:百度旗下AI芯片企业,走通用XPU+自研互联+整机液冷的全栈自研路线,强调规模化、高可靠、易扩展,是国产超节点量产部署派标杆。
核心方案:昆仑芯P800超节点
核心技术与优势
1. 超高密度集成
突破传统8卡限制,单机柜支持32/64张昆仑芯P800加速卡,算力相当于8台传统8卡服务器。
2. 自研XPU Link高速互联
卡间全互联通信带宽提升8倍,支持IB/RoCE跨柜扩展,可构建万卡—十万卡级智算集群。
3. 液冷与高可靠设计
冷板式液冷,整柜功率支持120kW,大幅降低PUE;具备水电网三盲插,部署运维效率提升。
性能与落地
MoE大模型:单节点训练性能提升5-10倍、单卡推理效率提升13倍
DeepSeek优化:单卡性能+95%、单实例推理+8倍
规模化部署:已全面接入百度百舸5.0平台,支撑文心一言等万亿参数模型,几分钟内完成推理

沐曦股份:通用GPU先锋,兼容CUDA生态的高密度方案
技术定位:国产通用GPU龙头,正面攻坚CUDA生态,以高兼容性、强互联、高密度服务大模型训练,是生态兼容派代表。
核心方案:耀龙S8000 G2、Shanghai Cube、曦云C500X光链
核心技术与优势
1. 首创3D Mesh互联(耀龙S8000 G2)
单柜最高128张曦云C550 GPU,3D Mesh拓扑让卡间通信带宽提升8倍,小数据场景性能+400%,专为MoE大模型优化。
2. 极致密度(Shanghai Cube)
128卡液冷整机柜,8机柜组成千卡集群,算力密度行业领先,支持从超节点到大规模集群完整交付。
3. 光互连灵活扩展(C500X光链)
光电混合+DragonFly拓扑,单节点64卡光互连,适配大规模分布式训练,兼容传统PCIe服务器与风冷机房。
4. 生态壁垒突破
自研MXMACA软件栈,兼容6000+CUDA应用,原生适配1000+主流模型,开发者迁移成本极低。
应用与落地
全面支持Qwen、DeepSeek、Kimi-K2等大模型;2025年营收同比+121.26%,累计出货5.5万颗,金融、能源、医疗等行业规模化落地。
清微智能:可重构“变形金刚”,极致能效比颠覆超节点生态
技术定位:彻底跳出GPU/ASIC传统框架,以可重构数据流架构(RPU)实现“软件定义硬件”,是国产超节点中原创架构派的代表。
核心方案:4K可重构智算超节点
核心技术与优势
1. 架构级创新:可重构计算架构
基于清华大学20年技术积累,独创可重构数据流架构,芯片硬件可随AI任务动态重构,兼顾GPU通用性与ASIC高能效;依托国产 FlagOS 软件生态,高效集成 4096 颗可重构计算芯片,构建起单集群算力突破每秒 500 千万亿次的智算超节点系统。
2. 无交换机互联:TSM-Link+2D-Torus拓扑
自研TSM-Link芯片直连与片上智能路由,4096颗RPU通过2D-Torus拓扑全局互联,彻底摆脱对高端交换机依赖。
互联成本:较国外方案降低90%
通信效率:跨芯片传输提升50%
单集群算力:>500 PFLOPS(FP8)
3. 极致性价比
整体方案成本降低50%、能效比提升3倍。
应用与落地
已在国家 “东数西算” 工程、区域智算中心等场景实现规模化落地,为 AI 计算、政务服务、矿山数字化等提供稳定、高效、自主可控的算力支撑,

华为:国产超节点生态巨头
技术定位:依托昇腾NPU与鲲鹏CPU的全栈自研优势,走矩阵级互联+全液冷+生态开放路线,主打大规模集群与适配千行百业。
核心方案:CloudMatrix 384超节点
核心技术与优势
1. 矩阵级全对等互联:首创将384颗昇腾9100 NPU与192颗鲲鹏CPU通过自研MatrixLink高速网络全对等互联,形成单一超级“AI服务器”,算力规模达300 PFLOPS(FP8),相当于NVL72的1.7倍,通信带宽较传统方案提升15倍,打破跨机通信瓶颈。
2. 全液冷与资源池化:采用全液冷设计,单机柜散热功率达80kW,PUE低至1.1,在贵州、内蒙古、安徽等数据中心规模化部署;创新实现算力、内存、显存资源全面池化,通过EMS弹性内存存储服务扩展显存,大幅降低大模型多轮对话时延,同时将计算、存储、AI专家系统解耦,提升资源利用率。
3. 高性能与易落地:单卡推理吞吐量高达2300Tokens/s,算力有效使用率MFU提升50%以上,平均单卡推理性能是业界同类产品的3-4倍;推出Token推理服务,屏蔽底层技术复杂度,降低企业使用门槛,同时支持“一卡一专家”并行推理,适配MoE大模型场景。
4. 开放生态布局:昇腾CANN软件栈全面开源,适配160+第三方主流模型,汇聚400万开发者、420+算子、3000+ISV,兼容600+客户需求,形成从芯片到应用的完整生态闭环。
应用与落地
已在芜湖、贵安、乌兰察布等数据中心规模上线,累计售出300+套,服务运营商、政企智算中心及千行百业;助力新浪“智慧小浪”推理交付效率提升50%以上,支撑硅基流动每天为600万用户提供推理服务,为中科院100多个院所的科研工作提供算力支撑,同时适配360、科大讯飞、面壁智能等企业的大模型训推需求,覆盖互联网、科研、金融、制造等30多个行业、500多个场景。
中科曙光:全球密度冠军
技术定位:依托大型计算机系统研制经验,走极致密度+工程优化+开放兼容路线,以物理层创新解决部署痛点,是国产超节点中工程优化派的标杆,主打普惠算力与超大集群扩展。
核心方案:scaleX640超节点
核心技术与优势
1. 全球首创极致密度:作为全球首个单机柜640卡超节点,采用“一拖二”高密架构与超高密度刀片设计,单机柜算力密度较传统方案提升20倍,可通过双节点组成千卡级计算单元,16个节点可构建10240卡的万卡超集群,总算力规模超5EFlops,性能全面超越同类384超节点。
2. 自主高速互联与硬件创新:自研scaleFabric原生RDMA高速网络,基于国内首款400G类InfiniBand网卡与交换芯片,实现400Gb/s超高带宽,端侧通信延迟低于1微秒,较传统IB网络性能提升2.33倍,同时网络成本降低30%;采用正交无线缆架构,计算与交换节点直接对插,消除全部线缆与光模块,运维效率大幅提升。
3. 液冷与长稳设计:采用浸没相变液冷与高压直流供电技术,PUE低至1.04,实现算、存、网、电、冷一体化紧耦合优化;通过30天+长稳运行验证,集群长期可用性达99.99%,支持10万卡级超大规模扩展,MoE万亿参数大模型训推性能提升30%-40%。
4. 开放兼容与智能调度:遵循“AI计算开放架构”,硬件层面支持多品牌加速卡,软件层面兼容主流计算生态,适配400+主流大模型;搭载物理集群数字孪生系统与智能调度引擎,可管理万级节点、服务十万级用户,实现故障定位可视化与每秒万级作业调度。
应用与落地
在2025世界互联网大会乌镇峰会正式发布并实现规模化部署,覆盖大模型训练、金融风控、地质能源勘探、科学智能(AI4S)等多元场景;同时推出scaleX40入门级超节点,集成40卡,部署成本与5台8卡服务器持平,瞄准中小企业AI推理、高校科研等普惠场景,让高端算力从“奢侈品”变为大众化产品。

写在最后
国产超节点已从单点技术创新,迈向系统级、生态化、规模化的全面突破。昆仑芯的全栈自研、沐曦的生态兼容、清微智能的低能耗可重构、中科曙光的极致密度等各自独特优势,共同构成了国产AI算力的钢铁长城。2026年,随着众多新一代方案的大规模交付,国产超节点将加速改写全球算力格局,为中国大模型与人工智能产业提供更硬、更稳、更自主的底层支撑。
夜雨聆风