如今,算力已成为驱动时代变革的核心引擎。在这场激烈的角逐中,华为以惊人的韧性和前瞻的战略布局,构建了一个强大而自主的AI计算体系。从最初在手机SoC中集成的NPU,到如今震撼业界的昇腾(Ascend)系列,华为的AI芯片之路,可以说是一部波澜壮阔的技术史诗。
今天,我们详细回顾一下华为AI芯片从萌芽到参天的全过程。
麒麟之芯,端侧AI的初啼
华为对AI算力的探索,最早可以追溯到其旗舰手机芯片——麒麟(Kirin)系列。在智能手机成为个人计算中心的大趋势下,华为敏锐地捕捉到端侧AI的巨大潜力。
2017年:开创先河的麒麟970
全球首款内置独立神经网络处理单元(NPU)的手机SoC,即麒麟970采用10nm制程工艺,其集成的NPU源于寒武纪1A IP核,其提供了约1.92 TFLOPS的FP16算力。这款产品,使得手机能够高效处理图像识别、语音交互等AI任务,正式开启了移动AI的时代。
2018-2020年:从自研架构到性能巅峰
华为这期间发布的麒麟980采用了更先进的7nm工艺和算力更强的双核NPU。
而到了麒麟990系列,华为迎来了关键的转折点——首次搭载自研的达芬奇(Da Vinci)架构NPU。这款7nm+ EUV工艺的芯片,其NPU采用了创新的“2大核+1微核”设计,实现了性能与能效的完美平衡 。
在2020年发布的麒麟9000上,华为将端侧AI算力推向了新的高峰。这款采用5nm制程的芯片集成了更为强大的达芬奇架构NPU 其AI性能遥遥领先于同时代的竞争对手。
麒麟NPU的演进,不仅为华为终端产品带来了极致的智慧体验,更重要的是,为后续昇腾系列的全面爆发,完成了至关重要的达芬奇架构的研发、验证与迭代。
昇腾出世,云边协同的全场景布局
当端侧AI的星星之火被点燃后,华为将目光投向了更广阔的星辰大海——云端训练和边缘计算。
2018年10月,华为发布了其全栈全场景AI解决方案,昇腾(Ascend)系列芯片横空出世,标志着华为正式进军AI计算的核心领域。
昇腾310:边缘计算的普惠先锋
昇腾310是华为专为边缘计算场景设计的低功耗AI芯片。它采用12nm制程工艺,最大功耗仅为8W,能提供高达16 TOPS的INT8算力和8 TFLOPS的FP16算力。它能以极高的能效比执行推理任务,其成为部署在智能摄像头、机器人、无人机等边缘设备的理想选择,
昇腾910:云端训练的算力巨兽
与昇腾310一同发布的,还有一款用于云端数据中心的训练芯片——昇腾910。
这款芯片在发布之初便号称“全球单芯片计算密度最大” 。它仍然基于达芬奇架构,采用先进的7nm工艺,半精度(FP16)算力高达256 TFLOPS,整数(INT8)算力达到512 TOPS,最大功耗控制在310W 。
昇腾910的问世,直接对标业界顶级训练芯片,为AI模型训练提供了英伟达之外的解决方案。
昇腾310和910的“双子星”组合,清晰地展示了华为的雄心:用统一的、可扩展的达芬奇架构,覆盖从边缘到云端(Cloud, Edge, Device)的全场景AI应用。
迭代与突破 - 在磨砺中进化的910家族
在初代昇腾910取得成功后,华为并未停下脚步。面对复杂的外部环境和飞速发展的技术需求,昇腾910系列进入了一个持续迭代和自我超越的快车道。
昇腾910A/910B:承压前行的中坚力量
在初代910之后,华为陆续推出了改进型号,如昇腾910A和910B。尽管公开资料对910A的细节着墨不多,但昇腾910B被普遍认为是华为在特定时期下的关键迭代产品。它可能采用了“1+1+4”的多核架构,并使用了7nm或更先进的制程工艺在性能和能效上进行了优化,确保了在供应链挑战下的算力供给。这一阶段,是华为AI芯片展示其产业韧性的重要时期。
昇腾910C:王者归来的性能飞跃
2025年第一季度,华为正式量产了昇腾910C 这标志着昇腾系列的一次重大进化。昇腾910C不仅是对前代产品的简单升级,更在核心架构上做出了革新,采用了先进的SIMD架构。其性能指标堪称惊艳:
内存带宽:达到3.2 TB/s 。 内存容量:高达128GB 。 峰值算力:据披露的数据,其算力高达800 TFLOPS。 互联带宽:支持高达784 GB/s的互联速度,为大规模集群扩展奠定了基础。
昇腾910C的发布,不仅让华为在高性能AI训练芯片领域重回世界之巅,其架构的演进也为后续产品的爆发铺平了道路。
未来展望 - 迈向PFLOPS时代的宏伟蓝图
站在2026年的今天,华为AI芯片的未来路线图已经清晰可见,这是一个遵循“一年一代、算力翻倍”宏伟战略的演进路径。
2026年:双子星闪耀 - 昇腾950PR & 950DT
就在2026年第一季度,华为如期推出了昇腾950PR。而根据路线图,我们将在今年第四季度迎来其兄弟型号昇腾950DT。这两款芯片将继续沿用并优化SIMD/SIMT混合架构,在算力、内存和互联带宽上实现对910C的翻倍式超越,进一步巩固其在大模型训练和推理时代的领先地位。
2027-2028年及以后:冲击算力之巅的960与970
展望未来,华为的脚步坚定而有力。昇腾960计划于2027年第四季度发布,而终极旗舰昇腾970则定于2028年第四季度问世。这两代产品将是华为冲击AI算力金字塔尖的利器。根据已披露的目标:
昇腾970的峰值算力将达到8 PFLOPS。 其内存容量将增至288GB,互联带宽更是跃升至4 TB/s 。
这一系列规划,展示了华为在AI芯片领域持续投入、引领技术发展的决心和实力。
生态为王 - 软硬件协同的“黑土地”
如果说强大的昇腾芯片是华为AI帝国的“钢筋铁骨”,那么其围绕芯片打造的全栈软件生态,则是让这副骨架充满生命力的“血肉与灵魂”。华为深知,没有软件生态的硬件是无源之水。
CANN(异构计算架构):这是昇腾的灵魂,对标NVIDIA的CUDA。
CANN是连接硬件和上层AI框架的桥梁,它提供了编译器、算子库、驱动和工具链,能最大化地释放昇腾芯片的潜力。
从最初的1.0版本到如今的CANN 8.0及后续版本,CANN通过开放Ascend C语言、支持大模型训练的MoE架构、优化通信协议(NB2.0)等一系列关键升级,变得越来越强大和开放 。
MindSpore(AI计算框架):这是华为自研的、对标TensorFlow和PyTorch的深度学习框架。
MindSpore与CANN深度协同,实现了软硬件联合优化,支持端、边、云全场景的统一训练和推理。其全自动并行等特性,极大地降低了AI开发的门槛。
MindStudio(全流程开发工具链):这是一站式的AI开发平台,为开发者提供了从算子开发、模型训练、应用开发到部署的全流程支持。
Atlas(硬件平台):基于昇腾芯片,华为打造了Atlas系列硬件产品,包括用于边缘的Atlas 200/500系列,用于推理和训练的Atlas 300系列加速卡,以及由数千颗昇腾910组成的、用于超大规模训练的Atlas 900 AI集群。这使得昇腾的算力能以标准化的产品形态,服务于千行百业。
这四大支柱共同构筑了一片肥沃的“黑土地”,让开发者能够在这片土地上,高效、便捷地进行AI创新,从而形成了一个强大、自主、正向循环的AI生态系统。
结语
从麒麟NPU的首次尝试,到昇腾910的石破天惊,再到910C的强势回归和未来970的宏伟蓝图,华为AI芯片的进化之路,是一条从“端”到“云”、从“可用”到“领先”、从“硬件”到“生态”的全面进击之路。
截至2026年4月,华为不仅拥有了能够与世界顶级玩家一较高下的AI芯片产品,更重要的是,它构建了一个足以支撑其长远发展的、自主可控的全栈AI生态。这不仅是华为一家企业的胜利,更是全球计算产业格局中一股不可忽视的东方力量的崛起。未来的AI世界,必将有华为昇腾浓墨重彩的一笔。
夜雨聆风