国内端侧AI SoC 个人洞察&分析-夜雨聆风

国内端侧AI SoC 个人洞察&分析

端侧AI SoC全景解析

算力、能效与未来趋势

这里整理了下当前国内主流端侧AI SoC的玩家、算力指标TOPS的意义及局限，分享五大洞察和主流厂商盘点，揭示决定Ai芯片体验的五大关键因素，希望能和大家一起探讨端侧AI芯片的现状与未来发展方向。

端侧AI SoC现状与TOPS解析

大家好，今天咱们聊个很实在的话题：现在全球主流的端侧AI SoC，到底都有哪些玩家？它们的算力和特点是什么？

先提前说明一下：英伟达、寒武纪这类主打云端的AI芯片，今天就不展开了，咱们聚焦在「端侧」场景里的主流方案。

最近看端侧AI SoC芯片，发现基本绕不开一个指标：TOPS。

TOPS（Tera Operations Per Second），AI算力的硬指标，说人话就是「每秒能完成多少万亿次运算」，数字越大，理论上跑模型的速度就越快。

举个很直观的例子：

1B参数的模型，用200 TOPS的NPU来跑，单次推理速度大概就是 1B ÷ 200 TOPS ≈ 10ms ，基本能做到实时交互。

下面自己根据理解，也整理了几点的洞察，大家有不同的观点和意见，欢迎相互交流~

1. 关于端侧AI SoC的五个洞察

🫵洞察一：“端侧AI SoC进入爆发期”——成立

手机、车载、机器人、AIoT都在往本地推理走的背后驱动力：

– 隐私（不上传云）

– 延迟（实时响应）

– 成本（减少云算力消耗）

🫵洞察二：真实的AI性能=TOPS × 内存带宽 × 软件优化 × 算子支持

现在的很多人会有两个误区：

1.“模型参数/TOPS = 处理速度”——不对👋

2.“高算力” = “高速度” ——不对👋

为啥？因为处理速度快慢，不仅跟算力有关，内存带宽，访存延迟、软件优化、算子支持等同样重要！

用TOPS衡量算力，是行业通用简化表达适合做横向对比的第一层筛选，但“只是一个简化估算方法”。

例如：同样是6 TOPS，瑞芯微RK3588的实际推理速度远低于英伟达Orin Nano，核心瓶颈是内存带宽和架构优化，而非单纯算力。

你看苹果的A系列芯片，TOPS不是最高的，但为什么跑大模型比安卓快？因为它把内存带宽做到了极致，数据不用来回“跑腿”，自然就快了。

就像英伟达的GPU，不是光靠CUDA核心堆出来的，是Tensor Core、NVLink、CUDA生态一起撑起来的。没有好的“数据通道”，再强的算力也只是一堆闲置的引擎。

👉虽然现在大家都在卷TOPS、卷参数，但我认为TOPS会像当年的CPU主频一样，早晚会失效。

🫵洞察三：“能效比比算力更重要”——非常对，端侧AI的本质不是算力，而是“约束下的最优解”

端侧AI和云端最大的区别，就是受限于电量和散热。对手机、手表、扫地机器人这类设备来说，“能在低功耗下跑出好效果”，比单纯的高算力更重要。

同样是10 TOPS，有的芯片跑起来发热严重，用半小时就降频；有的却能在不烫手的情况下稳定输出，后者才是真正的好方案。

👉 谁在约束下做得最好，谁的赢面就越大。实际拼的是：

– TOPS/W

– sustained performance（持续性能）

洞察四：AI SoC竞争正在从“硬件”转向“系统能力”

芯片 + OS + SDK + 模型

👉 类似当年： Apple vs Qualcomm

🫵洞察五：未来3年，AI SoC会分裂成三条路线

1）手机轻量化（低功耗）

2）车载安全冗余（高可靠）

3）机器人泛化智能（高灵活）

2. 主流端侧AI SoC厂商 × TOPS的局限

自己简单整理了一下国内AISoC的主要厂商，如果这里数据有问题的话欢迎指正

我自己现在看这类表，会默认加一个前提：不同芯片的TOPS口径、精度、甚至任务类型都不一样，即便TOPS一样，但也没办法完全等价，这个表更多只能看“趋势”，不能直接当结论。

为什么“100 TOPS ≠ 100 TOPS”，为什么不同设备的TOPS基本不能直接对比？

很多人默认一个前提：TOPS越高，AI越强。这个在今天已经不成立了。

原因主要有三个。

1）精度口径不同（这是最大变量）同样标100 TOPS，可能来自：

– INT8（主流）

– INT4（压缩计算）

– 稀疏计算（sparsity）

行业里一个比较常见的换算经验：

INT4 TOPS ≈ INT8 TOPS × 1.5~2（“虚高”）

稀疏TOPS：实际任务中未必能跑满

👉 也就是说：标称200 TOPS的芯片，真实有效算力可能只相当于80~120 TOPS。2）

2）峰值算力 vs 可用算力

绝大多数芯片厂给的是：

👉 theoretical peak

但真实情况取决于：

– 算子是否支持（Transformer / Attention / Conv）

– 编译器调度能力

– 内存带宽是否跟得上

行业里一个比较真实的数据区间：

👉 实际可用算力 ≈ 峰值的 30% ~ 70%能稳定跑到60%，已经算很优秀的了。

3）任务类型

完全不同不同设备不同平台，其实是完全不同的负载：

– 手机，典型任务主要是多模态、大语言模型跟影像，上面运行的主要是轻量化跟强实时的模型。

– 汽车，典型任务主要是BEV感知和规划，利用的是多传感器跟高安全性的模型

– 机器人，侧重SLAM + 控制，所以讲究的是持续运行 + 强鲁棒，以及安全冗余。

👉 同样是100 TOPS：

– 手机要低功耗（<5W）

– 车可以到几十甚至上百W

– 机器人更看长期稳定

所以不能放在一条线上比。

决定端侧AI体验的5大关键因素

真正决定体验的，不是算力，是这5个东西如果你只记一件事，可以记这个：

👉 AI SoC = 算力 ×（能效 × 内存 × 软件 × 延迟）

下面稍微展开一下

1）能效（TOPS/W）——第一优先级

在端侧，功耗就是天花板。几个参考区间（行业大致水平）：

– 手机SoC：

👉 3~8 TOPS/W（峰值）

👉 持续运行更低

– 车载SoC：

👉 1~3 TOPS/W（但总功耗高）- 边缘AI盒子：

👉 2~6 TOPS/W

👉 结论很简单：能效决定你能不能“长期跑AI”，而不是跑一次benchmark。

2）内存系统（被严重低估）

这是很多非芯片背景的人最容易忽略的点。AI推理里一个常见现象：

👉 算得动，但喂不饱。

关键指标：

– DRAM带宽（GB/s）

– 片上SRAM（MB级）

– 数据搬运效率

一个经验判断：

👉 大模型推理里，带宽瓶颈占到性能损失的50%以上。

这也是为什么很多芯片：TOPS很高实际推理却很慢

3）软件栈（差距最大但最隐性）

同一颗芯片，不同厂商能跑出完全不同效果。高通Hexagon、苹果Core ML、华为昇思……编译器、算子库、生态优化，决定了你有再好的芯片，能不能真正跑稳大模型。没有生态，再高TOPS也只是纸面参数。

这里头要总结的话，差异主要在：

– 编译器（graph optimization）

– Kernel优化（算子实现）

– 模型适配（量化 / 切图 / 融合等）

一般软件优化能带来 2~5倍性能差距，这点在手机SoC上尤其明显。

4）延迟（Latency，而不是吞吐）

很多宣传强调吞吐（throughput），但用户感知的是：

👉 响应时间

比如：

– 拍照AI处理：<50ms 才算“实时”

– 语音助手：<200ms 才算自然

– 端侧大模型：首token延迟决定体验

👉 很多芯片TOPS很高，但延迟不稳定。

5）模型适配能力

未来不是拼“能不能跑AI”，而是：

👉 能不能跑主流模型

关键点：

– Transformer支持是否完善

– Attention优化

– 是否支持混合精度（FP16 + INT8）

写在最后

现在的端侧AI，很像十年前的手机行业：人人都在拼参数、堆数字，但普通用户根本分不清好坏。真正懂行的人，从来不只盯着TOPS。而是看精度、看带宽、看能效、看生态。

你觉得接下来端侧AI最先爆发的，是手机、自动驾驶，还是机器人？

欢迎评论区一起交流。

END

@江应玺