当前时间: 1970-01-01 08:00:00
分类:办公文件
评论(0)
AI超节点服务器行业交流观点国内超节点当前以HW为主要出货厂商,其Cloud Matrix 384已在银行(工商银行、招商银行,各十余台)、央国企(国网)及政务机构(2-3台)批量部署,预计2026年出货量50-60台。互联网客户需求呈现分化:字节仅小规模测试HW超节点(3套),已转向自研并委托华三、中兴等8家ODM厂商设计,计划2027年超节点占比提升至80%;腾讯委托华勤设计超节点,2027年目标部署规模占算力总量50%,预计数量达数百台;阿里(盘古)、百度均推进自研超节点,2027年下半年需求将全面转向超节点。华三、浪潮等OEM厂商暂未实现大规模部署。国产超节点核心价值在于推理场景的性价比优势,较分立式八卡机集群性能提升20%以上,尤其适用于超大体量模型的并发推理。训练场景暂不具备可行性:国产卡算力较弱且定制化效率不足,即便构建超节点也难以承担大规模模型训练任务,当前训练仍依赖传统解决方案。阿里:自研“盘久”超节点,支持第三方卡,2026年开始对外销售,内部阿里云暂未大规模使用。百度:2026年内部超节点需求量对应近6万片卡,具体规模需结合单卡配置测算。字节:“大禹”项目委托ODM厂商按规范设计,2027年将公开招标确定入围厂商及卡类型,全年超节点需求占比80%。腾讯:仅向华勤开放超节点设计规范,2027年计划50%算力部署超节点,具体数量待整体算力规划确定。四、国产超节点与海外高端超节点的性能差异及应用场景对比国内超节点性能显著落后于海外,华为Cloud Matrix 384仅略优于NV172,与GT300差距达4-5倍,整体性能为海外产品的几分之一。应用场景分化:海外超节点聚焦大规模训练及训推一体,国内则专注推理场景的性价比优化,两者追求指标及业务场景差异显著。核心差异体现在两点:一是算力卡类型,二是scale up解决方案。ODM厂商超节点设计雷同性高,均强调对国产算力卡的兼容性,实际性能差异主要由单卡性能决定,超节点本身技术特性对性能影响有限。Decoding:依赖HBM容量及带宽,国产卡普遍发力此方向,通过采用HBM2E/HBM3/HBM3E提升竞争力,部分卡容量达120-140G(类H200/H20水平)。Prefill:依赖算力(FP8支持及TOPS值),受制于制程工艺(台积7nm/5nm算力上限400-500T,国产制程300-400T),各家差异较小。国产卡功能划分需结合产品特性,部分厂商已推出分场景优化产品,但整体性能参差不齐。国内超节点设计雷同性强,主流形态为64卡/128卡,PCB(M9/Q路板材)、液冷(国内供应商组合方案)、机架(第三方ODM)等环节供应趋同,价值量主要集中于算力卡。差异仅存在于网络解决方案(PCIe/OAM接口、网络交换机类型)及CPU/GPU配比。寒武纪、天数等厂商通过向ODM提供设计建议参与超节点方案,差异体现在compute tray与switch tray架构(如PCIe/OAM接口数量、网络接口方式),但机型近似性高,可互相套用。标准配置为16个计算节点(每节点4卡,共64卡)及16个交换节点,单卡对应1个网络接口(共64接口),需配128口交换机。51.2T带宽场景下需68颗交换芯片,GPU与交换芯片配比约1:2。GPU数量提升(如80卡、128卡)需增加compute tray数量(如3个tray,每tray含8模组)及采用双机柜拼接。互联方式从铜缆改为光纤,液冷需增加冷板数量及管路复杂度,供电功率提升,但无技术改良(国内未采用英伟达微循环方案)。64卡超节点:BOM成本300-330万元(含卡),售价470-600万元,包含计算节点、交换节点及PDU供电。华为384超节点:BOM成本8800万元,售价超1亿元。十二、整机厂商超节点与八卡机的盈利能力对比超节点利润空间更高:系统设计及制造成本高于八卡机,可通过技术溢价提升盈利;八卡机同质化强、成本透明,技术元素少(如6U板、OAM模组为标准件),溢价能力弱。十三、超节点用于训练的中长期展望及集群规模对架构的影响短期内超节点无法用于训练:国产卡性能不足,分立式八卡机尚不能完成训练任务,超节点更无意义。国内万卡集群均用于推理,超节点因性价比优势(1.2倍提升)替代分立式方案。集群规模扩大(如10万卡)需突破交换解决方案,国内当前最大支持128卡,进一步扩展受限于交换芯片能力。国产交换芯片渗透率低:中兴微电子在自研超节点中使用自有芯片,云和智网处于评测阶段,盛科暂未应用;光交换以西质方案为主(OEM硬件+自研协议系统),整体仍以博通方案为主。需平衡网络带宽、CPU内核数与算力卡性能:每100G网络占用1个CPU核(至强六代),单卡需20核CPU支持,如A100配400G网络为平衡点,避免“大马拉小车”(网络/CPU过强而算力卡弱)。2026Q4多家厂商将推出对标H100/H200的产品,包括寒武纪690、华为950、沐曦C600、壁仞B220、天数天垓300、摩尔线程S6000及阿里PPU。技术路线分IC架构与GPU架构(类AMD),性能接近(制程、HBM带宽/容量趋同),竞争焦点为软件优化及供应链稳定性。当前1.2倍性价比提升来自scale up方案(芯片直连带宽优化),规模超128卡后需依赖scale out,性能损失显著。国内交换芯片能力不足(51.2T vs 海外1024T),进一步放大效果有限。短期内差距难以弥合:国内短板在单卡算力及网络互联(SerDes 112G vs 海外400G,交换能力51.2T vs 海外1024T),纯性能差距或持续拉大。国内聚焦推理场景性价比优势,GB300等海外产品在推理端不具备优势。互联网企业:2027年以超节点为主(字节80%、腾讯50%),追求推理性价比。其他用户:以八卡、十六卡为主,因管理维护便利。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-04-20 03:08:11 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/548963.html
- 运行时间 : 0.200701s [ 吞吐率:4.98req/s ] 内存消耗:4,740.23kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=75c9e6cf39a04203ff1de0e8dba6fd8a
- CONNECT:[ UseTime:0.001098s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.001592s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000695s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000782s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.001310s ]
- SELECT * FROM `set` [ RunTime:0.000538s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.001400s ]
- SELECT * FROM `article` WHERE `id` = 548963 LIMIT 1 [ RunTime:0.001007s ]
- UPDATE `article` SET `lasttime` = 1776625692 WHERE `id` = 548963 [ RunTime:0.005209s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000600s ]
- SELECT * FROM `article` WHERE `id` < 548963 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.001090s ]
- SELECT * FROM `article` WHERE `id` > 548963 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.000926s ]
- SELECT * FROM `article` WHERE `id` < 548963 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.001933s ]
- SELECT * FROM `article` WHERE `id` < 548963 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.002774s ]
- SELECT * FROM `article` WHERE `id` < 548963 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.008077s ]
0.202293s