
现在,越来越多的开发者和系统架构师想要让不同版本的大语言模型(LLM)直接在终端设备上运行。在资源受限的设备上支持基于Transformer的模型,可以更好地保护数据隐私,避免云端API成本,同时保证设备在离线状态下依然稳定可用。随着欧盟《网络弹性法案》(CRA)等安全法规的推进,边缘运行也逐渐成为满足合规要求的重要方式。对交互式AI助手来说,本地运行能带来更快的响应速度和更低的延迟。
但是,大多数边缘硬件并不是围绕大语言模型的运行特性设计的。大语言模型对动态执行、激活处理,以及内存数据传输都有较高要求,这些往往也是系统性能的主要瓶颈。对拥有数亿参数的Transformer模型来说,直接运行在通用CPU上,效率并不高。
当AI工作负载占用主控核心(Arm®/RISC-V/x86),就会占用应用本身需要的计算资源。开发者就不得不在AI推理性能和系统整体功能之间做取舍。因此,将这些模型从主CPU卸载到高效、可扩展的NPU上运行,是必然的选择。
普通的NPU很难处理这些工作负载,主要有以下几个原因:
动态执行问题:Gemma 3 270M这样的Transformer模型本质上是动态的,其序列长度和注意力掩码会在对话过程中不断增长。但大多数普通的边缘NPU仅支持静态运行环境,无法有效处理这种动态的张量维度。
激活函数瓶颈:大模型需要频繁调用GELU和Softmax等复杂的激活函数。这些函数涉及大量的迭代数学计算,在通用加速器上运行会导致延迟变长、功耗飙升。
内存带宽限制:制约性能的根本不是算力不够,而是数据传输太慢。由于内存带宽有限,在等待庞大的权重矩阵从内存写入时,NPU往往会处于闲置状态。
现代边缘设备需要采用异构边缘AI架构,通过组合不同的子系统,加速推理过程中的各个环节。
这种设计将AI推理负载完整交给专用加速引擎处理,把主CPU释放出来,专用于执行常规应用任务。异构架构带来了更灵活的实现方式。开发者可以根据不同的需求组合配置,并在需要时实现平滑切换,不再依赖单一、固定的硬件方案,而是走向更具扩展性、更便于开发的新一代硬件架构。
为突破这些长期存在的硬件和软件限制,Synaptics与Google Research合作,推出了一个可扩展的前沿边缘智能解决方案。这一合作基于新一代边缘AI芯片平台,专门针对现代Transformer模型的运行需求而设计。
整个方案主要围绕三项核心优化展开。
Synaptics与谷歌的强强联手
Synaptics的Astra™ SL2610产品线,是业内首个集成Coral NPU的IoT边缘AI处理器系列。
其中,Torq NPU体现了异构计算架构的设计理念,将Synaptics自研、支持Transformer的T1核心,与Google开发的标量RISC-V核心(Coral NPU)结合在一起,共同实现高效的设备端多模态AI处理。
Gemma 3的架构与运行需求
本地算力让设备具备了“自然语言调用工具”的能力。模型可以化身为智能交互界面,理解用户意图并直接调用设备上的相应功能。通过平台的实时文本生成功能,设备无需依赖云端API,避免了高昂的云端成本和网络延迟,在离线状态下轻松实现语言翻译、自然语言工具调用、高效信息摘要以及文档处理。
不过,要在资源受限的边缘硬件上高效实现这些能力,仍需突破大语言模型推理中的几个关键瓶颈。针对这些挑战,Torq NPU工具链从三个核心支柱出发,进行了优化:
支柱一:模型静态化转换,实现可预测的稳定运行
与云端复杂的动态运行环境不同,Torq NPU等边缘加速器需要固定张量维度的静态运行环境。为此,我们的编译器工具链将动态计算图转换成了静态计算图,确保系统的稳定性。
在转换过程中,工具链用预先分配好的静态张量,取代了原本会不断膨胀的KV缓存,并采用静态的注意力掩码和位置编码。复杂计算图会被简化为标准运算,实现硬件利用率最大化,并让大模型的运行时间更加可控、可预测。
支柱二:硬件加速激活函数计算
在通用硬件上,GELU和Softmax带来的大量迭代数学计算功耗较高。为解决这一问题,Torq采用了近似计算的方法:它将输入区域进行分段,利用硬件优化的查找表(LUT)和线性插值进行处理,避免重复进行指数、除法等复杂运算。
GELU提升10倍:我们用精简的查找表取代了复杂的数学公式,将GELU的运行速度提升了10倍。
Softmax提升12.5倍:将运算拆解为指数和倒数查表,实现无需除法的attention计算。最新实验数据表明,这种查找表方法将Softmax的推理速度提升了12.5倍。
支柱三:混合精度权重量化
在Astra平台上,内存带宽是大模型推理的主要瓶颈。为此,我们采用了“基于敏感度的引导压缩技术”,根据每一层的具体耐受度来进行针对性量化。具体策略是:将84%的网络层压缩至4位精度;将语言模型头(lm_head)等16%的敏感层保留在8位精度,确保模型的准确度。
通过这种方法,我们在几乎不损失模型保真度的情况下,将权重从16位精度平均压缩到了仅4.3位。系统以压缩格式存储这些权重,并在它们流入计算单元时,通过“实时动态反量化”将其恢复到bf16精度,使有效吞吐量提升了2.7倍。此外,我们还通过精简词表和优化运行时DMA效率,进一步提升推理速度。
最终效果:面向真实应用的边缘AI
结合以上三项优化后,Torq NPU将推理速度提升了3.5倍。它还消除了动态分配产生的性能损耗,让激活函数运行速度提升了10倍,并显著改善了内存带宽瓶颈。这充分发挥了边缘设备本地运行的优势:数据更隐私、离线更可靠、延迟极低,大幅降低了云端成本。
开发者可以访问Torq GitHub:https://github.com/synaptics-torq,查看具体的实现代码和技术文档。
如需进行硬件评估,现可联系销售,购买Synaptics Astra SL2610(Machina)开发套件。
全新Synaptics Coralboard开发板也将正式发布,敬请关注!
关注我们
FOLLOW US

微信公众号

视频号

Bilibili

微博

点击“阅读原文”,联系销售
夜雨聆风