最牛推理AI芯样板:马斯克AI5和昇腾950PR

特斯拉 AI5 单die版

特斯拉也有双 die 版本对标 Blackwell

950 双 die 版

特斯拉CEO马斯克在社交平台上正式宣布AI5芯片完成流片，并首次公开实物照片。这标志着特斯拉自研AI芯片进入全新阶段。

与此同时，另一款备受关注的推理AI芯片950PR也开启交付。

这两个来自不同阵营的芯片，在技术路线上呈现出惊人的一致性——它们都选择了ASIC架构、MCM封装、LPDDR5X内存、双Die设计、芯片互联等共同路线，不约而同地为下一代推理AI芯片指明了方向。

都选择ASIC架构，走GPNPU路线，

主打推理，能效比比GPU高得多

在AI芯片领域，GPU长期以来占据主导地位，但推理场景有其独特需求——追求极致效率与低成本。AI5和950PR都放弃了通用GPU的复杂架构，转向ASIC专用集成电路设计，走GPNPU（通用神经网络处理单元）路线。

GPNPU通过自定义指令集和专用计算单元，在单位硅面积上实现远高于通用GPU的计算密度和能效比，专注于推理场景所追求的极致效率与极低成本。

马斯克在回复留言时直言，AI5芯片虽然不一定是“最好的汽车AI芯片”，但很可能是目前市面上针对参数规模约2500亿以下模型的最佳推理芯片，其芯片成本及能效比（性能/瓦特）都远超同类产品。

据马斯克透露，AI5的功耗仅为250W，而英伟达Blackwell芯片功耗高达1kW以上，成本不到后者的十分之一。950PR同样专注于推理场景，特别是Prefill预填充阶段，通过自研达芬奇架构和低精度数据格式支持，在推理吞吐量和能效上实现显著提升。两者都选择了ASIC+GPNPU路线，以能效比碾压传统GPU。

都选择MCM封装，放弃CoWoS，成熟产能才是王道

在封装技术选择上，AI5和950PR都选择了MCM（多芯片模块）封装，而非当前炙手可热的CoWoS先进封装。这一选择背后有着清晰的产业逻辑。

MCM封装技术已有30年发展历史，技术成熟度高，产能充足，成本可控。相比之下，CoWoS作为先进封装技术的代表，虽然性能优异，但产能严重受限。台积电的CoWoS产能在2026年预计达到65万片，但英伟达一家就预订了超过一半的产能，全球产能缺口高达20%—30%。CoWoS不仅产能不足，成本也极高。

对于主打“低成本、高效率”的推理芯片而言，追求尖端封装技术反而不如选择成熟的MCM封装来得务实。

MCM方案既能满足双Die和多Die互联的基本需求，又能确保大规模量产不受封装产能制约，与两款芯片“产量最高、成本最低”的目标高度契合。

都选择LPDDR5X，低功耗低成本，HBM太贵供应还不足

内存选择是推理芯片的关键决策点。AI5和950PR都选择了LPDDR5X内存方案，而非高成本的HBM。

特斯拉AI5芯片配备144GB至192GB LPDDR5X内存，功耗控制在300W以内。

LPDDR5X的工作电压极低（约0.5V至1.05V），相比DDR5功耗可降低75%—77%。对于AI推理任务，尤其是大语言模型推理，其对内存容量的敏感度远高于带宽，LPDDR5X的低功耗特性直接转化为更低的运营成本、更少的散热需求和更小的碳足迹。

在数据中心和边缘服务器中，LPDDR5X完美契合了全球数据中心对“绿色计算”的迫切需求。

未来AI服务器内不会再用 DDR5/6,都会用 lpddr5x/6 取代，省点才是未来！

反观HBM，虽然带宽极高，但价格昂贵且全球产能高度集中在少数厂商手中，供应量极为有限。推理场景对内存带宽的要求远不如训练场景苛刻，选择LPDDR5X是在性能、成本和功耗之间找到的最佳平衡点。

两款芯片的趋同选择，说明“推理用LPDDR5X、训练用HBM”的分工格局正在形成。

都规划双Die版本，小Die面积兼顾良率与场景适配

AI5和950PR都采用了小面积Die设计，并规划了单Die和双Die两种版本，这一设计策略非常精妙。

特斯拉AI5提供单die和双die两种配置方案，分别对标英伟达Hopper和Blackwell架构。

单Die版本主打成本敏感场景，双Die版本则面向高性能需求场景。小面积Die的设计能显著提升晶圆良率——使用多个较小的Die可以提升整体良率，每个Die在集成前都经过已知良品测试，进一步保证最终产品的可靠性。

950PR同样采用双Die UMA架构，双Die之间通过高速的Die-to-Die通道连接，使用户可以无感使用两个Die的算力，极大提升了用户易用性。

这种模块化设计不仅降低了单Die的制造难度和成本，还赋予芯片更强的场景适应能力——低端场景用单Die，高端场景用双Die，资源利用效率最大化。

都支持Chip互联，为超节点和集群时代做好准备

面向未来的AI算力需求，单颗芯片再强也难以独当一面，芯片互联能力成为衡量AI芯片竞争力的重要维度。

AI5和950PR都支持芯片间的互联，并规划了超节点大集群方案。

950PR支持UB灵衢互联，整芯片支持18个400Gbps端口，可以实现超节点系统的超高带宽、超低时延、超大规模组网需求。华为基于昇腾芯片推出的CloudMatrix 384超节点，成功实现384颗NPU的全对等互联，算力规模达300 PFlops，在多项关键指标上实现了对英伟达GB200 NVL72的超越。

特斯拉方面，AI5的设计同样考虑了芯片互联能力，为未来Robotaxi车队和人形机器人大规模部署后的协同计算预留了扩展空间。通过芯片互联实现算力的线性扩展，是满足未来超大规模AI推理需求的必由之路。

一种die打云和边两种市场，一箭双雕

AI5和950PR最令人称道的策略，莫过于用一颗芯片同时覆盖云端和边缘端两大市场。

特斯拉AI5的定位是“全能型”芯片——单Die版本用于边缘推理场景（如车载FSD、Robotaxi、Optimus机器人），双Die版本则可用于云端数据中心推理。

950PR同样如此，标卡形态面向单卡推理场景，超节点形态则面向云端大规模集群推理。

这种“一芯两用”的设计思路极大降低了研发和制造成本。

传统上，边缘端芯片和云端芯片需要分别设计、分别流片、分别验证，而单Die/双Die的模块化设计让同一款芯片裸片可以在不同场景中灵活配置，研发资源复用、生产规模放大、边际成本降低，可谓“一箭双雕”。

一条清晰的推理AI芯片技术路线图

马斯克AI5和950PR在架构、封装、内存、芯片设计、互联能力和市场定位六个维度上的高度一致，绝非巧合，而是反映了业界对推理AI芯片技术方向的高度共识：

ASIC+GPNPU架构实现极致能效比，MCM封装避开CoWoS产能瓶颈，LPDDR5X内存平衡性能与成本，双Die设计兼顾良率与场景适应性，芯片互联为集群计算铺路，一芯两用覆盖云边两端。

这是一条务实、高效、可持续的技术路线。在全球AI计算重心从训练向推理迁移的大趋势下，这条路线为整个行业指明了方向——不是一味堆砌算力、比拼晶体管数量，而是在性能、功耗、成本和产能之间找到最优解。正如马斯克所言，AI5将“成为有史以来产量最高的AI芯片之一”。

当推理成为AI计算的主战场，谁能以最低成本提供最高的推理效率，谁就能赢得下一轮竞争的入场券。

全国首个算力和大模型工程专属服务IP

“算力百科”是全国首个算力和大模型工程专属服务 IP品牌，专注于国内AI算力行研；团队来自顶级芯片设计、算力中心构建及大模型开发一线，贯通“芯·算·模”，从实战角度出发，构建国产AI算力新范式，深耕算力和大模型行业！

国内顶尖的算力Semi产业链行研团队
算力普惠倡导者，高性价比算力设备和算力租赁
卡修师，专注高端GPU卡后服务市场（回收、维修、循环）
专注
欢迎加入社群↓