乐于分享
好东西不私藏

国内端侧AI SoC 个人洞察&分析

国内端侧AI SoC 个人洞察&分析

端侧AI SoC全景解析

算力、能效与未来趋势

这里整理了下当前国内主流端侧AI SoC的玩家、算力指标TOPS的意义及局限,分享五大洞察和主流厂商盘点,揭示决定Ai芯片体验的五大关键因素,希望能和大家一起探讨端侧AI芯片的现状与未来发展方向。

端侧AI SoC现状与TOPS解析

大家好,今天咱们聊个很实在的话题:现在全球主流的端侧AI SoC,到底都有哪些玩家?它们的算力和特点是什么? 

 先提前说明一下:英伟达、寒武纪这类主打云端的AI芯片,今天就不展开了,咱们聚焦在「端侧」场景里的主流方案。

最近看端侧AI SoC芯片,发现基本绕不开一个指标:TOPS。

TOPS(Tera Operations Per Second),AI算力的硬指标,说人话就是「每秒能完成多少万亿次运算」,数字越大,理论上跑模型的速度就越快。

举个很直观的例子:

1B参数的模型,用200 TOPS的NPU来跑,单次推理速度大概就是 1B ÷ 200 TOPS ≈ 10ms ,基本能做到实时交互。

下面自己根据理解,也整理了几点的洞察,大家有不同的观点和意见,欢迎相互交流~

1. 关于端侧AI SoC的五个洞察

🫵洞察一:“端侧AI SoC进入爆发期”——成立

手机、车载、机器人、AIoT都在往本地推理走的背后驱动力:

– 隐私(不上传云)

– 延迟(实时响应)

– 成本(减少云算力消耗)

🫵洞察二:真实的AI性能=TOPS × 内存带宽 × 软件优化 × 算子支持

现在的很多人会有两个误区:

1.“模型参数/TOPS = 处理速度”——不对👋

2.“高算力” = “高速度” ——不对👋

为啥?因为处理速度快慢,不仅跟算力有关,内存带宽,访存延迟、软件优化、算子支持等同样重要!

用TOPS衡量算力,是行业通用简化表达适合做横向对比的第一层筛选,但“只是一个简化估算方法”。

例如:同样是6 TOPS,瑞芯微RK3588的实际推理速度远低于英伟达Orin Nano,核心瓶颈是内存带宽和架构优化,而非单纯算力。

你看苹果的A系列芯片,TOPS不是最高的,但为什么跑大模型比安卓快?因为它把内存带宽做到了极致,数据不用来回“跑腿”,自然就快了。

就像英伟达的GPU,不是光靠CUDA核心堆出来的,是Tensor Core、NVLink、CUDA生态一起撑起来的。没有好的“数据通道”,再强的算力也只是一堆闲置的引擎。

👉虽然现在大家都在卷TOPS、卷参数,但我认为TOPS会像当年的CPU主频一样,早晚会失效。

🫵洞察三:“能效比比算力更重要”——非常对,端侧AI的本质不是算力,而是“约束下的最优解”

端侧AI和云端最大的区别,就是受限于电量和散热。对手机、手表、扫地机器人这类设备来说,“能在低功耗下跑出好效果”,比单纯的高算力更重要。

同样是10 TOPS,有的芯片跑起来发热严重,用半小时就降频;有的却能在不烫手的情况下稳定输出,后者才是真正的好方案。

👉 谁在约束下做得最好,谁的赢面就越大。实际拼的是:

– TOPS/W

– sustained performance(持续性能)

洞察四:AI SoC竞争正在从“硬件”转向“系统能力”

芯片 + OS + SDK + 模型

👉 类似当年: Apple vs Qualcomm

🫵洞察五:未来3年,AI SoC会分裂成三条路线

1)手机轻量化(低功耗)

2)车载安全冗余(高可靠)

3)机器人泛化智能(高灵活)

2. 主流端侧AI SoC厂商 × TOPS的局限

自己简单整理了一下国内AISoC的主要厂商,如果这里数据有问题的话欢迎指正

我自己现在看这类表,会默认加一个前提:不同芯片的TOPS口径、精度、甚至任务类型都不一样,即便TOPS一样,但也没办法完全等价,这个表更多只能看“趋势”,不能直接当结论。

为什么“100 TOPS ≠ 100 TOPS”,为什么不同设备的TOPS基本不能直接对比?

很多人默认一个前提:TOPS越高,AI越强。这个在今天已经不成立了。

原因主要有三个。

1)精度口径不同(这是最大变量)同样标100 TOPS,可能来自:

– INT8(主流)

– INT4(压缩计算)

– 稀疏计算(sparsity)

行业里一个比较常见的换算经验:

INT4 TOPS ≈ INT8 TOPS × 1.5~2(“虚高”)

稀疏TOPS:实际任务中未必能跑满

👉 也就是说:标称200 TOPS的芯片,真实有效算力可能只相当于80~120 TOPS。2)

2)峰值算力 vs 可用算力

绝大多数芯片厂给的是:

👉 theoretical peak

但真实情况取决于:

– 算子是否支持(Transformer / Attention / Conv)

– 编译器调度能力

– 内存带宽是否跟得上

行业里一个比较真实的数据区间:

👉 实际可用算力 ≈ 峰值的 30% ~ 70%能稳定跑到60%,已经算很优秀的了。

3)任务类型

完全不同不同设备不同平台,其实是完全不同的负载:

手机,典型任务主要是多模态、大语言模型跟影像,上面运行的主要是轻量化跟强实时的模型。

汽车,典型任务主要是BEV感知和规划,利用的是多传感器跟高安全性的模型

机器人,侧重SLAM + 控制,所以讲究的是持续运行 + 强鲁棒,以及安全冗余。

👉 同样是100 TOPS:

– 手机要低功耗(<5W)

– 车可以到几十甚至上百W

– 机器人更看长期稳定

所以不能放在一条线上比。

决定端侧AI体验的5大关键因素

真正决定体验的,不是算力,是这5个东西如果你只记一件事,可以记这个:

👉 AI SoC = 算力 ×(能效 × 内存 × 软件 × 延迟)

下面稍微展开一下

1)能效(TOPS/W)——第一优先级

在端侧,功耗就是天花板。几个参考区间(行业大致水平):

– 手机SoC:

👉 3~8 TOPS/W(峰值)

👉 持续运行更低

– 车载SoC:

👉 1~3 TOPS/W(但总功耗高)- 边缘AI盒子:

👉 2~6 TOPS/W

👉 结论很简单:能效决定你能不能“长期跑AI”,而不是跑一次benchmark。

2)内存系统(被严重低估)

这是很多非芯片背景的人最容易忽略的点。AI推理里一个常见现象:

👉 算得动,但喂不饱。

关键指标:

– DRAM带宽(GB/s)

– 片上SRAM(MB级)

– 数据搬运效率

一个经验判断:

👉 大模型推理里,带宽瓶颈占到性能损失的50%以上。

这也是为什么很多芯片:TOPS很高实际推理却很慢

3)软件栈(差距最大但最隐性)

同一颗芯片,不同厂商能跑出完全不同效果。高通Hexagon、苹果Core ML、华为昇思……编译器、算子库、生态优化,决定了你有再好的芯片,能不能真正跑稳大模型。没有生态,再高TOPS也只是纸面参数。

这里头要总结的话,差异主要在:

– 编译器(graph optimization)

– Kernel优化(算子实现)

– 模型适配(量化 / 切图 / 融合等)

一般软件优化能带来 2~5倍性能差距,这点在手机SoC上尤其明显。

4)延迟(Latency,而不是吞吐)

很多宣传强调吞吐(throughput),但用户感知的是:

👉 响应时间

比如:

– 拍照AI处理:<50ms 才算“实时”

– 语音助手:<200ms 才算自然

– 端侧大模型:首token延迟决定体验

👉 很多芯片TOPS很高,但延迟不稳定。

5)模型适配能力

未来不是拼“能不能跑AI”,而是:

👉 能不能跑主流模型

关键点:

– Transformer支持是否完善

– Attention优化

– 是否支持混合精度(FP16 + INT8)

写在最后

现在的端侧AI,很像十年前的手机行业:人人都在拼参数、堆数字,但普通用户根本分不清好坏。真正懂行的人,从来不只盯着TOPS。而是看精度、看带宽、看能效、看生态。

你觉得接下来端侧AI最先爆发的,是手机、自动驾驶,还是机器人?

欢迎评论区一起交流。

END

@江应玺