十大边缘AI芯片-夜雨聆风

十大边缘AI芯片

承接业务👇扫码关注

随着边缘设备的AI赋能程度不断提升，各类芯片层出不穷，全面覆盖各应用细分场景。从极致低功耗场景来看，语音识别等应用可在始终在线的功耗范围内运行，而如今即便是更大规模的生成式AI模型，数十瓦的功耗也足以支撑其运行。

EDN评选出了十款适用于各类边缘AI应用的芯片，排名不分先后。这些芯片覆盖范围广泛，既有可在边缘设备中运行多模态大语言模型的产品，也有专为视觉处理打造、能将始终在线类应用的功耗降至最低的解决方案。

多摄像头流处理

在视觉应用领域，Ambarella Inc. 最新推出的CV7边缘AI视觉SoC，可通过卷积神经网络或 Transformer 网络同时处理多路高清摄像头流。该芯片搭载Ambarella最新一代自研AI加速器，以及一款集成传统图像信号处理算法与AI驱动功能的自研图像信号处理器。此外，该芯片系列还配备四核 Arm Cortex-A73 处理器、片上硬件视频编解码器，以及全新的 64 位动态随机存取存储器接口。

Ambarella 这款芯片系列的目标应用为基于AI的8K消费级产品，包括运动相机、多摄像头安防系统、机器人与无人机、工业自动化设备以及视频会议终端，同时也适用于远程信息处理、高级驾驶辅助系统等汽车领域应用。

Fallback CPU

SiMa Technologies Inc. 的 Modalix 机器学习SoC现已量产，配套的 Llima 软件框架可实现大语言模型与生成式AI模型在该芯片上的部署。Modalix 是 SiMa 的第二代架构产品，为一套可承载完整应用的SoC系列。

Modalix 芯片在片上集成八核 Arm A 系列CPU核心与加速器，这一设计不仅能支撑应用层代码的运行，还能在加速器不支持特定数学运算时，让程序切换至CPU运行。芯片同时集成片上图像信号处理器与数字信号处理器。Modalix 芯片将推出 INT8 精度下 25、50、100、200TOPS 四个版本，其中 50TOPS 版本将率先上市，可在 8-10 瓦的功耗下，以每秒超 10 个令牌的速度运行 Llama2-7B 模型。

开源NPU

Synaptics Inc. 推出的 Astra 系列AI物联网SoC，覆盖应用处理器至微控制器全品类，是专为物联网场景打造的产品系列。

该系列中率先上市的 SL2610 多模态边缘AI处理器，适用于智能家电、零售收银终端、无人机等应用场景。全系列产品均配备双核 Arm Cortex-A55 处理器，部分型号还搭载神经网络处理器子系统。其集成的 Coral 神经网络处理器由谷歌研发，是一款支持标量指令的开源精简指令集第五代处理器，与 Synaptics 自研的T1 AI加速器搭配使用；T1加速器在Transformer网络与卷积神经网络场景下，可实现INT8精度1TOPS的算力。

兼容树莓派

Hailo Technologies Ltd. 的 Hailo-10H 边缘AI加速器凭借兼容树莓派创客平台的硬件形态，积累了庞大的开发者群体。同时，该产品也被惠普应用于收银系统的扩展卡中，且已通过车规级认证。

Hailo-10H 与 Hailo-10 采用相同的芯片设计，功耗与算力表现更为低阶：可在约 2.5 瓦的功耗下，运行 20 亿参数的大语言模型。这款AI协处理器基于 Hailo 第二代架构打造，对 Transformer 架构的支持性进一步提升，数字表示方式也更灵活，可实现多模型并行推理。

模拟加速器

初创企业 EnCharge AI 发布了首款产品 EN100。这款加速器芯片在 INT8 精度下的算力可达 200TOPS，专为AI个人电脑打造，能效比高达 40TOPS / 瓦，表现亮眼。该芯片基于 EnCharge 自研的电容式存内模拟计算技术，据介绍，该技术相比电阻式方案，对温度的敏感度更低。加速器的输出形式为电压而非电流，无需跨阻放大器，进一步降低了功耗。

芯片在集成模拟加速器的同时，还配备了数字核心，可在需要更高精度运算或浮点运算时启用。EN100 将推出搭载 32GB 低功耗双倍数据率存储器的单芯片 M.2 卡版本，功耗为 8.25 瓦；此外还有四芯片半高半长 PCIe 卡版本，在 40 瓦功耗下可实现 INT8 精度 1PTOPS 的算力，配备 128GB 低功耗双倍数据率存储器。

脉冲神经网络

针对微瓦级功耗应用场景，Innatera Nanosystems B.V. 研发了一款搭载AI功能的微控制器，可在极低功耗下实现推理运算。这款 Pulsar 神经形态微控制器专为始终在线的传感器应用打造，例如基于雷达的人体存在检测场景功耗仅 600 微瓦，音频场景分类场景功耗仅 400 微瓦。

该芯片的神经处理器搭载 Innatera 自研的脉冲神经网络加速器，片上同时集成模拟与数字脉冲加速器，可适配不同类型的应用与工作负载。据介绍，其配套的 Talamo 软件栈让开发者无需具备脉冲神经网络专业知识即可使用该产品；该软件栈可直接与 PyTorch 及基于 PyTorch 的仿真器对接，还能在开发的任一阶段实现功耗预估。

生成式AI

Axelera AI 的第二代芯片 Europa，可在终端设备或边缘服务器中支撑多用户生成式AI与计算机视觉应用。这款八核芯片在 INT8 精度下的算力可达 629TOPS，其加速器配备大尺寸向量引擎，用于AI运算，同时集成两组八核精简指令集第五代处理器核心，负责数据的预处理与后处理。

芯片内置 H.264/H.265 解码器，可释放主CPU资源，使其专注于应用层软件的运行。为保障计算核心能从存储器中快速获取数据，Europa AI处理单元配备了 128MB 的二级静态随机存取存储器，以及 256 位低功耗双倍数据率第五代接口。

Axelera 推出的 Voyager 软件开发工具包同时支持 Europa 与该企业第一代芯片 Metis，后者主要适用于传统卷积神经网络与视觉任务。Europa 既提供芯片形态，也推出 PCIe 卡版本，其中 PCIe 卡专为需要处理多路 4K 视频流的边缘服务器应用打造。

超低发热表现

韩国芯片企业 DeepX Co. Ltd. 推出的 DX-M1 系列芯片，多数型号可在 2-5 瓦的功耗下实现 INT8 精度 25TOPS 的算力（DX-M1M-L 型号为特例，算力 13TOPS）。该企业曾进行过一项令人印象深刻的演示：在芯片运行推理运算时，直接将一块黄油置于芯片表面，以此证明芯片的发热量极低，不足以将黄油融化。

这款协处理器芯片的25TOPS 算力，足以支撑无人机、机器人及其他摄像系统中的姿态估计、人脸识别等视觉任务。DeepX 目前正研发 DX-M2 芯片，可在边缘端运行生成式AI工作负载。该企业的核心技术之一在于其量化方案，能让 INT8 量化后的网络模型保持与原 FP32 模型相近的精度。DeepX 基于自研技术，为各类边缘应用提供芯片、模组 / 扩展卡以及小型多芯片系统产品。

语音交互

Syntiant Corp. 最新推出的 NDP250 超低功耗边缘AI加速器，张量吞吐量较前代产品提升 5 倍，专为计算机视觉、语音识别与传感器数据处理打造。该芯片的功耗可低至微瓦级，而在全功能始终在线的视觉处理场景下，功耗约为几十毫瓦。

与Syntiant旗下其他产品一致，NDP250集成该企业自研的AI加速器核心（INT8 精度 30GOPS）、Arm Cortex-M0 微控制器核心以及片上 Tensilica HiFi 3 数字信号处理器，片上存储器可存储最高 600 万位的模型参数。NDP250 的数字信号处理器是 Syntiant 系列产品中首款支持浮点运算的型号。据介绍，该芯片可同时运行自动语音识别与语音合成模型，这一特性使其尤为适用于语音交互场景。

多功耗模式

英伟达 Jetson Orin Nano 专为各类边缘设备的AI应用打造，重点面向机器人领域。该产品是安培架构的GPU模组，提供 8GB 与 4GB 低功耗双倍数据率第五代存储器两个版本，其中 8GB 版本可实现 INT8 稠密精度 33TOPS 或 FP16 精度 17TFLOPS 的算力。该模组配备 7 瓦、15 瓦以及全新的 25 瓦三种功耗模式，25 瓦模式下可通过提升GPU、存储器与CPU的时钟频率，将存储器带宽从 15 瓦模式下的 65GB/s 提升至 102GB/s。模组的CPU配备六核 64 位 Arm Cortex-A78AE 核心，非常适合边缘端的多模态与生成式AI应用，包括视觉 Transformer 模型及各类小参数量语言模型（通常指参数少于 70 亿的模型）。

*本文转自媒体报道或网络平台，系作者个人立场或观点。我方转载仅为分享，不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益，请及时联系客服，我们作为中立的平台服务者将及时更正、删除或依法处理。

项目评估请扫码加微信：备注评估项目