边缘大语言模型如何实现高效卸载与推理?看Synaptics Torq赋能Gemma的技术实践

现在，越来越多的开发者和系统架构师想要让不同版本的大语言模型（LLM）直接在终端设备上运行。在资源受限的设备上支持基于Transformer的模型，可以更好地保护数据隐私，避免云端API成本，同时保证设备在离线状态下依然稳定可用。随着欧盟《网络弹性法案》(CRA)等安全法规的推进，边缘运行也逐渐成为满足合规要求的重要方式。对交互式AI助手来说，本地运行能带来更快的响应速度和更低的延迟。

但是，大多数边缘硬件并不是围绕大语言模型的运行特性设计的。大语言模型对动态执行、激活处理，以及内存数据传输都有较高要求，这些往往也是系统性能的主要瓶颈。对拥有数亿参数的Transformer模型来说，直接运行在通用CPU上，效率并不高。

当AI工作负载占用主控核心（Arm®/RISC-V/x86），就会占用应用本身需要的计算资源。开发者就不得不在AI推理性能和系统整体功能之间做取舍。因此，将这些模型从主CPU卸载到高效、可扩展的NPU上运行，是必然的选择。

普通的NPU很难处理这些工作负载，主要有以下几个原因：

动态执行问题：Gemma 3 270M这样的Transformer模型本质上是动态的，其序列长度和注意力掩码会在对话过程中不断增长。但大多数普通的边缘NPU仅支持静态运行环境，无法有效处理这种动态的张量维度。
激活函数瓶颈：大模型需要频繁调用GELU和Softmax等复杂的激活函数。这些函数涉及大量的迭代数学计算，在通用加速器上运行会导致延迟变长、功耗飙升。
内存带宽限制：制约性能的根本不是算力不够，而是数据传输太慢。由于内存带宽有限，在等待庞大的权重矩阵从内存写入时，NPU往往会处于闲置状态。

现代边缘设备需要采用异构边缘AI架构，通过组合不同的子系统，加速推理过程中的各个环节。

这种设计将AI推理负载完整交给专用加速引擎处理，把主CPU释放出来，专用于执行常规应用任务。异构架构带来了更灵活的实现方式。开发者可以根据不同的需求组合配置，并在需要时实现平滑切换，不再依赖单一、固定的硬件方案，而是走向更具扩展性、更便于开发的新一代硬件架构。

为突破这些长期存在的硬件和软件限制，Synaptics与Google Research合作，推出了一个可扩展的前沿边缘智能解决方案。这一合作基于新一代边缘AI芯片平台，专门针对现代Transformer模型的运行需求而设计。

整个方案主要围绕三项核心优化展开。

Synaptics与谷歌的强强联手

Synaptics的Astra™ SL2610产品线，是业内首个集成Coral NPU的IoT边缘AI处理器系列。

其中，Torq NPU体现了异构计算架构的设计理念，将Synaptics自研、支持Transformer的T1核心，与Google开发的标量RISC-V核心（Coral NPU）结合在一起，共同实现高效的设备端多模态AI处理。

Gemma 3的架构与运行需求

Gemma 3 270M是Google的一款紧凑型instruction-tuned大语言模型。它由18层Transformer构成，运行过程中会用到GELU、Softmax，以及大量矩阵计算。这些计算会带来较大的内存和算力压力，所以需要针对性的优化。

得益于紧凑的模型设计和instruction-tuned架构，Gemma 3 270M让Coralboard能够作为高性能设备端对话助手运行。通过将Transformer相关工作负载卸载到Torq NPU处理，系统能够满足先进边缘应用对数据隐私保护和离线可靠性的要求。

本地算力让设备具备了“自然语言调用工具”的能力。模型可以化身为智能交互界面，理解用户意图并直接调用设备上的相应功能。通过平台的实时文本生成功能，设备无需依赖云端API，避免了高昂的云端成本和网络延迟，在离线状态下轻松实现语言翻译、自然语言工具调用、高效信息摘要以及文档处理。

不过，要在资源受限的边缘硬件上高效实现这些能力，仍需突破大语言模型推理中的几个关键瓶颈。针对这些挑战，Torq NPU工具链从三个核心支柱出发，进行了优化：

支柱一：模型静态化转换，实现可预测的稳定运行

与云端复杂的动态运行环境不同，Torq NPU等边缘加速器需要固定张量维度的静态运行环境。为此，我们的编译器工具链将动态计算图转换成了静态计算图，确保系统的稳定性。

在转换过程中，工具链用预先分配好的静态张量，取代了原本会不断膨胀的KV缓存，并采用静态的注意力掩码和位置编码。复杂计算图会被简化为标准运算，实现硬件利用率最大化，并让大模型的运行时间更加可控、可预测。

支柱二：硬件加速激活函数计算

在通用硬件上，GELU和Softmax带来的大量迭代数学计算功耗较高。为解决这一问题，Torq采用了近似计算的方法：它将输入区域进行分段，利用硬件优化的查找表（LUT）和线性插值进行处理，避免重复进行指数、除法等复杂运算。

GELU提升10倍：我们用精简的查找表取代了复杂的数学公式，将GELU的运行速度提升了10倍。
Softmax提升12.5倍：将运算拆解为指数和倒数查表，实现无需除法的attention计算。最新实验数据表明，这种查找表方法将Softmax的推理速度提升了12.5倍。

支柱三：混合精度权重量化

在Astra平台上，内存带宽是大模型推理的主要瓶颈。为此，我们采用了“基于敏感度的引导压缩技术”，根据每一层的具体耐受度来进行针对性量化。具体策略是：将84%的网络层压缩至4位精度；将语言模型头（lm_head）等16%的敏感层保留在8位精度，确保模型的准确度。

通过这种方法，我们在几乎不损失模型保真度的情况下，将权重从16位精度平均压缩到了仅4.3位。系统以压缩格式存储这些权重，并在它们流入计算单元时，通过“实时动态反量化”将其恢复到bf16精度，使有效吞吐量提升了2.7倍。此外，我们还通过精简词表和优化运行时DMA效率，进一步提升推理速度。

最终效果：面向真实应用的边缘AI

结合以上三项优化后，Torq NPU将推理速度提升了3.5倍。它还消除了动态分配产生的性能损耗，让激活函数运行速度提升了10倍，并显著改善了内存带宽瓶颈。这充分发挥了边缘设备本地运行的优势：数据更隐私、离线更可靠、延迟极低，大幅降低了云端成本。

开发者可以访问Torq GitHub：https://github.com/synaptics-torq，查看具体的实现代码和技术文档。

如需进行硬件评估，现可联系销售，购买Synaptics Astra SL2610（Machina）开发套件。

全新Synaptics Coralboard开发板也将正式发布，敬请关注！

关注我们

FOLLOW US

微信公众号

视频号

Bilibili

微博

点击“阅读原文”，联系销售