乐于分享
好东西不私藏

十大边缘AI芯片

十大边缘AI芯片

承接业务👇扫码关注

随着边缘设备的AI赋能程度不断提升,各类芯片层出不穷,全面覆盖各应用细分场景。从极致低功耗场景来看,语音识别等应用可在始终在线的功耗范围内运行,而如今即便是更大规模的生成式AI模型,数十瓦的功耗也足以支撑其运行。

EDN评选出了十款适用于各类边缘AI应用的芯片,排名不分先后。这些芯片覆盖范围广泛,既有可在边缘设备中运行多模态大语言模型的产品,也有专为视觉处理打造、能将始终在线类应用的功耗降至最低的解决方案。

多摄像头流处理

在视觉应用领域,Ambarella Inc. 最新推出的CV7边缘AI视觉SoC,可通过卷积神经网络或 Transformer 网络同时处理多路高清摄像头流。该芯片搭载Ambarella最新一代自研AI加速器,以及一款集成传统图像信号处理算法与AI驱动功能的自研图像信号处理器。此外,该芯片系列还配备四核 Arm Cortex-A73 处理器、片上硬件视频编解码器,以及全新的 64 位动态随机存取存储器接口。

Ambarella 这款芯片系列的目标应用为基于AI的8K消费级产品,包括运动相机、多摄像头安防系统、机器人与无人机、工业自动化设备以及视频会议终端,同时也适用于远程信息处理、高级驾驶辅助系统等汽车领域应用。

Fallback CPU

SiMa Technologies Inc. 的 Modalix 机器学习SoC现已量产,配套的 Llima 软件框架可实现大语言模型与生成式AI模型在该芯片上的部署。Modalix 是 SiMa 的第二代架构产品,为一套可承载完整应用的SoC系列。

Modalix 芯片在片上集成八核 Arm A 系列CPU核心与加速器,这一设计不仅能支撑应用层代码的运行,还能在加速器不支持特定数学运算时,让程序切换至CPU运行。芯片同时集成片上图像信号处理器与数字信号处理器。Modalix 芯片将推出 INT8 精度下 25、50、100、200TOPS 四个版本,其中 50TOPS 版本将率先上市,可在 8-10 瓦的功耗下,以每秒超 10 个令牌的速度运行 Llama2-7B 模型。

开源NPU

Synaptics Inc. 推出的 Astra 系列AI物联网SoC,覆盖应用处理器至微控制器全品类,是专为物联网场景打造的产品系列。

该系列中率先上市的 SL2610 多模态边缘AI处理器,适用于智能家电、零售收银终端、无人机等应用场景。全系列产品均配备双核 Arm Cortex-A55 处理器,部分型号还搭载神经网络处理器子系统。其集成的 Coral 神经网络处理器由谷歌研发,是一款支持标量指令的开源精简指令集第五代处理器,与 Synaptics 自研的T1 AI加速器搭配使用;T1加速器在Transformer网络与卷积神经网络场景下,可实现INT8精度1TOPS的算力。

兼容树莓派

Hailo Technologies Ltd. 的 Hailo-10H 边缘AI加速器凭借兼容树莓派创客平台的硬件形态,积累了庞大的开发者群体。同时,该产品也被惠普应用于收银系统的扩展卡中,且已通过车规级认证。

Hailo-10H 与 Hailo-10 采用相同的芯片设计,功耗与算力表现更为低阶:可在约 2.5 瓦的功耗下,运行 20 亿参数的大语言模型。这款AI协处理器基于 Hailo 第二代架构打造,对 Transformer 架构的支持性进一步提升,数字表示方式也更灵活,可实现多模型并行推理。

模拟加速器

初创企业 EnCharge AI 发布了首款产品 EN100。这款加速器芯片在 INT8 精度下的算力可达 200TOPS,专为AI个人电脑打造,能效比高达 40TOPS / 瓦,表现亮眼。该芯片基于 EnCharge 自研的电容式存内模拟计算技术,据介绍,该技术相比电阻式方案,对温度的敏感度更低。加速器的输出形式为电压而非电流,无需跨阻放大器,进一步降低了功耗。

芯片在集成模拟加速器的同时,还配备了数字核心,可在需要更高精度运算或浮点运算时启用。EN100 将推出搭载 32GB 低功耗双倍数据率存储器的单芯片 M.2 卡版本,功耗为 8.25 瓦;此外还有四芯片半高半长 PCIe 卡版本,在 40 瓦功耗下可实现 INT8 精度 1PTOPS 的算力,配备 128GB 低功耗双倍数据率存储器。

脉冲神经网络

针对微瓦级功耗应用场景,Innatera Nanosystems B.V. 研发了一款搭载AI功能的微控制器,可在极低功耗下实现推理运算。这款 Pulsar 神经形态微控制器专为始终在线的传感器应用打造,例如基于雷达的人体存在检测场景功耗仅 600 微瓦,音频场景分类场景功耗仅 400 微瓦。

该芯片的神经处理器搭载 Innatera 自研的脉冲神经网络加速器,片上同时集成模拟与数字脉冲加速器,可适配不同类型的应用与工作负载。据介绍,其配套的 Talamo 软件栈让开发者无需具备脉冲神经网络专业知识即可使用该产品;该软件栈可直接与 PyTorch 及基于 PyTorch 的仿真器对接,还能在开发的任一阶段实现功耗预估。

生成式AI

Axelera AI 的第二代芯片 Europa,可在终端设备或边缘服务器中支撑多用户生成式AI与计算机视觉应用。这款八核芯片在 INT8 精度下的算力可达 629TOPS,其加速器配备大尺寸向量引擎,用于AI运算,同时集成两组八核精简指令集第五代处理器核心,负责数据的预处理与后处理。

芯片内置 H.264/H.265 解码器,可释放主CPU资源,使其专注于应用层软件的运行。为保障计算核心能从存储器中快速获取数据,Europa AI处理单元配备了 128MB 的二级静态随机存取存储器,以及 256 位低功耗双倍数据率第五代接口。

Axelera 推出的 Voyager 软件开发工具包同时支持 Europa 与该企业第一代芯片 Metis,后者主要适用于传统卷积神经网络与视觉任务。Europa 既提供芯片形态,也推出 PCIe 卡版本,其中 PCIe 卡专为需要处理多路 4K 视频流的边缘服务器应用打造。

超低发热表现

韩国芯片企业 DeepX Co. Ltd. 推出的 DX-M1 系列芯片,多数型号可在 2-5 瓦的功耗下实现 INT8 精度 25TOPS 的算力(DX-M1M-L 型号为特例,算力 13TOPS)。该企业曾进行过一项令人印象深刻的演示:在芯片运行推理运算时,直接将一块黄油置于芯片表面,以此证明芯片的发热量极低,不足以将黄油融化。

这款协处理器芯片的25TOPS 算力,足以支撑无人机、机器人及其他摄像系统中的姿态估计、人脸识别等视觉任务。DeepX 目前正研发 DX-M2 芯片,可在边缘端运行生成式AI工作负载。该企业的核心技术之一在于其量化方案,能让 INT8 量化后的网络模型保持与原 FP32 模型相近的精度。DeepX 基于自研技术,为各类边缘应用提供芯片、模组 / 扩展卡以及小型多芯片系统产品。

语音交互

Syntiant Corp. 最新推出的 NDP250 超低功耗边缘AI加速器,张量吞吐量较前代产品提升 5 倍,专为计算机视觉、语音识别与传感器数据处理打造。该芯片的功耗可低至微瓦级,而在全功能始终在线的视觉处理场景下,功耗约为几十毫瓦。

与Syntiant旗下其他产品一致,NDP250集成该企业自研的AI加速器核心(INT8 精度 30GOPS)、Arm Cortex-M0 微控制器核心以及片上 Tensilica HiFi 3 数字信号处理器,片上存储器可存储最高 600 万位的模型参数。NDP250 的数字信号处理器是 Syntiant 系列产品中首款支持浮点运算的型号。据介绍,该芯片可同时运行自动语音识别与语音合成模型,这一特性使其尤为适用于语音交互场景。

多功耗模式

英伟达 Jetson Orin Nano 专为各类边缘设备的AI应用打造,重点面向机器人领域。该产品是安培架构的GPU模组,提供 8GB 与 4GB 低功耗双倍数据率第五代存储器两个版本,其中 8GB 版本可实现 INT8 稠密精度 33TOPS 或 FP16 精度 17TFLOPS 的算力。该模组配备 7 瓦、15 瓦以及全新的 25 瓦三种功耗模式,25 瓦模式下可通过提升GPU、存储器与CPU的时钟频率,将存储器带宽从 15 瓦模式下的 65GB/s 提升至 102GB/s。模组的CPU配备六核 64 位 Arm Cortex-A78AE 核心,非常适合边缘端的多模态与生成式AI应用,包括视觉 Transformer 模型及各类小参数量语言模型(通常指参数少于 70 亿的模型)。

*本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

项目评估请扫码加微信:备注评估项目

热门文章推荐:点击直接进入相关文章:

001:从业五年,浅谈如何搞定机器视觉

002:干货PPT分享 | 3D机器视觉技术在智能制造中的应用!

003:工业相机的主要参数【机器视觉硬件】

004:资深视觉工程师整理工业相机39问(下)点赞收藏!

005:机器视觉加速从2D走向3D

006:工业相机丢帧现象,常见的几种解决办法

007:人工智能十大流行算法,通俗易懂讲明白

008:日本光源专家的8个打光技巧(深度好文)

009:常见机器视觉误判原因分析

010:机器视觉三维成像方法及应用