上一篇我们聊了AI芯片的全景框架:传统芯片扛不住AI,核心瓶颈是"内存墙"——数据搬运跟不上计算速度。
今天我们深入第一条线:计算芯片。GPU、TPU、LPU、神经形态芯片……名字一大堆,到底谁干什么的?谁是现在的主力,谁可能是未来的颠覆者?
CPU:全能教授,但不适合AI
CPU(中央处理器)是计算机的"大脑",已经统治了整个计算行业几十年。它的特点是什么都能干,而且每一件都干得很精。
但CPU通常只有几个到几十个核心,一次只能处理少量任务。面对AI训练动辄几十万亿次的简单重复计算,CPU就像让一个大学教授去批改一亿份选择题——能力完全够,但效率太低了。
核心数量:通常4-64个,每个都很强大
擅长:复杂逻辑、分支判断、操作系统调度
不擅长:大规模并行的简单重复计算
代表:Intel、AMD
GPU:AI时代的绝对主力
GPU(图形处理器)原本是为游戏画面设计的。渲染3D图形需要同时计算屏幕上几百万个像素点的颜色——每个像素的计算很简单,但必须同时处理。
巧的是,AI训练需要的矩阵运算也是这种模式:大量简单计算,同时并行。所以GPU天然适合AI。
核心数量:上万个小核心,每个都很简单
擅长:大规模并行计算,AI训练和推理
不擅长:复杂逻辑判断、串行任务
代表:英伟达(垄断级别)
但英伟达的护城河不只是硬件。它真正的杀手锏是CUDA——一个让开发者在GPU上写程序的软件平台。经过十几年的积累,全球几乎所有AI框架(PyTorch、TensorFlow)都深度绑定了CUDA。
这意味着什么?即使别家的芯片性能追上来了,开发者要迁移过去,代价也极其高昂。硬件可以追赶,生态很难复制。这就是英伟达市值超过德国GDP的底气。
TPU:谷歌的"自研武器"
TPU(张量处理器)是谷歌专门为AI设计的芯片。"张量"是AI计算中最核心的数据结构,可以简单理解为多维矩阵。
和GPU的区别在哪?GPU是"通用并行计算器",什么并行任务都能干;而TPU是"AI专项考试机器"——只做矩阵运算,但做得更高效、功耗更低。
定位:谷歌内部专用,也通过Google Cloud对外提供
优势:针对AI优化,能效比高于GPU
局限:不是通用芯片,主要服务谷歌生态
投资角度:TPU不单独卖,利好体现在谷歌(Alphabet)的云业务竞争力上
但要注意:TPU本质上还是在冯·诺依曼架构内优化,数据还是要在存储和计算之间搬运,只是搬运效率提升了一些。
LPU:推理赛道的颠覆者
LPU(语言处理器)是Groq公司提出的全新架构,专门为AI推理设计。
先解释一下"训练"和"推理"的区别:
训练:读海量数据,反复调整模型参数——相当于"学生备考刷题"
推理:用户提问,模型给出回答——相当于"考试时答题"
GPU训练很强,但做推理时效率不高。为什么?因为大语言模型生成文本是一个字一个字往外蹦的——生成第5个字之前,必须等第4个字出来。这是严格的串行过程。
GPU有上万个核心,但推理时每一步只有少数核心在干活,其余的都在干等。更要命的是,每生成一个字,都要去显存里重新读取整个模型的参数(几十GB),大部分时间花在了等数据上,而不是计算上。
LPU的解决思路非常激进:
第一,用SRAM替代HBM。把模型参数直接放在芯片内部的高速缓存里,不需要去外部显存搬数据。
第二,确定性执行。在编译阶段就把整个计算流程规划好,运行时每个时钟周期干什么都提前确定,不需要临时调度。
结果:推理速度达到500-800 token/s,远超GPU的几十到一两百。
英伟达显然感受到了威胁——2025年底斥资200亿美元收购Groq的技术授权。这说明连英伟达自己都承认,纯GPU架构在推理场景下不是最优解。
LPU的局限是不能做训练,因为训练需要灵活的数据流动和动态调度,而LPU把路径"写死"了。但在推理市场——随着AI应用普及,这将是一个比训练更大的市场——LPU有巨大的潜力。
神经形态芯片:模仿人脑的未来
前面讲的GPU、TPU、LPU,本质上都还是"传统计算"的思路——用时钟驱动,一个周期接一个周期地执行指令。
神经形态芯片走的是一条完全不同的路:模仿人脑的工作方式。
人脑有860亿个神经元,它们不是同时工作的,而是"事件驱动"——有信号来了才激活,没信号就休眠。这使得人脑功耗极低(仅约20瓦),却能完成极其复杂的认知任务。
代表:Intel Loihi、IBM TrueNorth
优势:功耗极低(可能比GPU低1000倍),适合边缘设备
应用场景:手机、机器人、自动驾驶、物联网
现状:仍在实验室阶段,离大规模商用还有距离
神经形态芯片不太可能取代GPU去做大模型训练,但在边缘AI(不联网、低功耗、实时响应)场景下,它是目前最有前景的方向。想象一下:手机上直接跑大模型,不需要联网,不烧电——这就是神经形态芯片的愿景。
还有一个隐藏选手:光子计算
除了上面四种用"电"的芯片,还有一个更前沿的方向——用光来计算。
光子计算芯片用光信号代替电信号来传输和处理数据。理论上,光的传输速度是电子的几十倍,而且几乎不产生热量。这意味着既快又省电。
代表:Lightmatter、Luminous Computing
优势:速度极快、功耗极低
挑战:如何与现有的电子芯片生态兼容,目前还没完全解决
总结:一张表看清全局
CPU → 全能但慢 → 传统计算主力,AI时代退居二线
GPU → 暴力并行 → AI训练+推理当前主力(英伟达垄断)
TPU → AI专用优化 → 谷歌内部武器,利好Alphabet
LPU → 推理极致 → 颠覆GPU推理场景,英伟达已布防
神经形态 → 模仿人脑 → 边缘AI的未来,目前仍在实验室
光子计算 → 用光代替电 → 最前沿的"科幻级"方向
投资启示:
短期确定性最高的还是英伟达(GPU + CUDA生态),但估值已经充分反映
中期值得关注的是LPU方向——推理市场会比训练市场更大
长期布局的是存内计算和神经形态芯片——一旦突破就是范式转换
下一篇我们进入第二条线:存储芯片。DRAM、SRAM、HBM、NAND……这些让人头大的缩写,一篇全部理清。
本文为AI芯片科普系列第二篇。提及的所有公司和产品仅作为案例分析,不构成任何投资建议。投资有风险,请始终保持独立思考。
夜雨聆风