高通AI250架构的核心,在于围绕“近存计算”(Near-Memory Computing)进行的一场根本性变革。其架构精髓可以概括为:以突破性的近存计算内存架构为基石,通过机架级的系统整合与配套的软件生态,系统性地打破了长期制约AI性能的内存瓶颈。
具体来看,它的核心设计思路可以拆解为以下几个层面。
🧱 架构革命:从“近存计算”到“内存墙”的终结
这是高通AI250与前代产品及市场上主流AI芯片(如NVIDIA GPU)最根本的区别。其采用的“近存计算”,顾名思义,核心思想就是将计算单元尽可能地贴近内存,旨在根源上解决“内存墙”瓶颈。
· 颠覆传统的内存访问模式:在传统冯·诺依曼架构中,CPU/GPU与内存分离,数据需经带宽有限的“内存总线”搬运,这会消耗大量时间和能量,即“内存墙”问题。而AI250的近存计算架构,在处理大语言模型推理中常见的、需反复访问KV Cache的场景时表现尤为出色。它的设计使得数据在存储位置附近即可完成计算,从而大幅减少数据的长距离搬移。
· 革命性的性能飞跃:官方数据显示,这一革新带来了超过10倍的有效内存带宽提升,同时显著降低了功耗。为支撑这一带宽提升,AI250被认为将采用三星最先进的LPDDR6X内存,速率远超现有产品,其内存带宽效能被认为可媲美昂贵的HBM3e(如NVIDIA B200系列所采用的)。
· 支持解耦式AI推理:AI250还支持“解耦式AI推理”。可将大模型的不同部分(如预填充和解码)调度到不同硬件资源上,让集群整体利用率逼近理论峰值。
🔗 系统整合:构建无缝扩展的数据中心基石
一个强大的AI芯片,其威力必须通过整个数据中心才能最大化释放。
· 机架级系统与散热:AI250以整机架系统方案交付,并采用直接液冷技术高效散热。整机架功耗控制在160千瓦,在高性能与数据中心可承载的热设计功耗之间取得了重要平衡。
· 多维度扩展能力:系统支持PCIe纵向扩展(Scale-up)与以太网横向扩展(Scale-out),能灵活构建从单机到大规模集群的系统。通过收购Alphawave获得的SerDes高速连接IP,也确保了其数据吞吐能力。
· 企业级的安全保障:系统提供机密计算功能,保障AI模型和数据在计算过程中的安全隔离。
💡 能效之源:NPU优势的延伸与精进的软实力
能效是衡量现代AI芯片的核心标尺,而高通的NPU(神经网络处理单元)设计能力是其根基。
· NPU技术基因:AI250延续了高通在NPU领域长期的技术领先,其前代Hexagon NPU已支持INT2和FP8等低精度量化技术,AI250无疑会在这个方向上走得更远。
· 高效的软件栈:配套的Efficient Transformers Library和高通AI推理套件,能让开发者像使用NVIDIA的CUDA一样快速迁移和优化模型。尤其支持从Hugging Face生态一键导入和部署模型,大大降低了开发者的上手门槛。
💎 总结
高通AI250的架构核心,并非在单一指标上“堆料”,而是通过一场精心设计的系统架构“手术”——即“近存计算”——击中了当前AI推理中最痛的“内存墙”瓶颈。它将高通在移动端积累的能效优势、在互连技术上的战略收购,以及对软件生态的深刻理解融为一体,构成了一个环环相扣的有机整体。
夜雨聆风