AI芯片科普·计算篇

上一篇我们聊了AI芯片的全景框架：传统芯片扛不住AI，核心瓶颈是"内存墙"——数据搬运跟不上计算速度。

今天我们深入第一条线：计算芯片。GPU、TPU、LPU、神经形态芯片……名字一大堆，到底谁干什么的？谁是现在的主力，谁可能是未来的颠覆者？

CPU：全能教授，但不适合AI

CPU（中央处理器）是计算机的"大脑"，已经统治了整个计算行业几十年。它的特点是什么都能干，而且每一件都干得很精。

但CPU通常只有几个到几十个核心，一次只能处理少量任务。面对AI训练动辄几十万亿次的简单重复计算，CPU就像让一个大学教授去批改一亿份选择题——能力完全够，但效率太低了。

核心数量：通常4-64个，每个都很强大

擅长：复杂逻辑、分支判断、操作系统调度

不擅长：大规模并行的简单重复计算

代表：Intel、AMD

GPU：AI时代的绝对主力

GPU（图形处理器）原本是为游戏画面设计的。渲染3D图形需要同时计算屏幕上几百万个像素点的颜色——每个像素的计算很简单，但必须同时处理。

巧的是，AI训练需要的矩阵运算也是这种模式：大量简单计算，同时并行。所以GPU天然适合AI。

核心数量：上万个小核心，每个都很简单

擅长：大规模并行计算，AI训练和推理

不擅长：复杂逻辑判断、串行任务

代表：英伟达（垄断级别）

但英伟达的护城河不只是硬件。它真正的杀手锏是CUDA——一个让开发者在GPU上写程序的软件平台。经过十几年的积累，全球几乎所有AI框架（PyTorch、TensorFlow）都深度绑定了CUDA。

这意味着什么？即使别家的芯片性能追上来了，开发者要迁移过去，代价也极其高昂。硬件可以追赶，生态很难复制。这就是英伟达市值超过德国GDP的底气。

TPU：谷歌的"自研武器"

TPU（张量处理器）是谷歌专门为AI设计的芯片。"张量"是AI计算中最核心的数据结构，可以简单理解为多维矩阵。

和GPU的区别在哪？GPU是"通用并行计算器"，什么并行任务都能干；而TPU是"AI专项考试机器"——只做矩阵运算，但做得更高效、功耗更低。

定位：谷歌内部专用，也通过Google Cloud对外提供

优势：针对AI优化，能效比高于GPU

局限：不是通用芯片，主要服务谷歌生态

投资角度：TPU不单独卖，利好体现在谷歌（Alphabet）的云业务竞争力上

但要注意：TPU本质上还是在冯·诺依曼架构内优化，数据还是要在存储和计算之间搬运，只是搬运效率提升了一些。

LPU：推理赛道的颠覆者

LPU（语言处理器）是Groq公司提出的全新架构，专门为AI推理设计。

先解释一下"训练"和"推理"的区别：

训练：读海量数据，反复调整模型参数——相当于"学生备考刷题"

推理：用户提问，模型给出回答——相当于"考试时答题"

GPU训练很强，但做推理时效率不高。为什么？因为大语言模型生成文本是一个字一个字往外蹦的——生成第5个字之前，必须等第4个字出来。这是严格的串行过程。

GPU有上万个核心，但推理时每一步只有少数核心在干活，其余的都在干等。更要命的是，每生成一个字，都要去显存里重新读取整个模型的参数（几十GB），大部分时间花在了等数据上，而不是计算上。

LPU的解决思路非常激进：

第一，用SRAM替代HBM。把模型参数直接放在芯片内部的高速缓存里，不需要去外部显存搬数据。

第二，确定性执行。在编译阶段就把整个计算流程规划好，运行时每个时钟周期干什么都提前确定，不需要临时调度。

结果：推理速度达到500-800 token/s，远超GPU的几十到一两百。

英伟达显然感受到了威胁——2025年底斥资200亿美元收购Groq的技术授权。这说明连英伟达自己都承认，纯GPU架构在推理场景下不是最优解。

LPU的局限是不能做训练，因为训练需要灵活的数据流动和动态调度，而LPU把路径"写死"了。但在推理市场——随着AI应用普及，这将是一个比训练更大的市场——LPU有巨大的潜力。

神经形态芯片：模仿人脑的未来

前面讲的GPU、TPU、LPU，本质上都还是"传统计算"的思路——用时钟驱动，一个周期接一个周期地执行指令。

神经形态芯片走的是一条完全不同的路：模仿人脑的工作方式。

人脑有860亿个神经元，它们不是同时工作的，而是"事件驱动"——有信号来了才激活，没信号就休眠。这使得人脑功耗极低（仅约20瓦），却能完成极其复杂的认知任务。

代表：Intel Loihi、IBM TrueNorth

优势：功耗极低（可能比GPU低1000倍），适合边缘设备

应用场景：手机、机器人、自动驾驶、物联网

现状：仍在实验室阶段，离大规模商用还有距离

神经形态芯片不太可能取代GPU去做大模型训练，但在边缘AI（不联网、低功耗、实时响应）场景下，它是目前最有前景的方向。想象一下：手机上直接跑大模型，不需要联网，不烧电——这就是神经形态芯片的愿景。

还有一个隐藏选手：光子计算

除了上面四种用"电"的芯片，还有一个更前沿的方向——用光来计算。

光子计算芯片用光信号代替电信号来传输和处理数据。理论上，光的传输速度是电子的几十倍，而且几乎不产生热量。这意味着既快又省电。

代表：Lightmatter、Luminous Computing

优势：速度极快、功耗极低

挑战：如何与现有的电子芯片生态兼容，目前还没完全解决

总结：一张表看清全局

CPU → 全能但慢 → 传统计算主力，AI时代退居二线

GPU → 暴力并行 → AI训练+推理当前主力（英伟达垄断）

TPU → AI专用优化 → 谷歌内部武器，利好Alphabet

LPU → 推理极致 → 颠覆GPU推理场景，英伟达已布防

神经形态 → 模仿人脑 → 边缘AI的未来，目前仍在实验室

光子计算 → 用光代替电 → 最前沿的"科幻级"方向

投资启示：

短期确定性最高的还是英伟达（GPU + CUDA生态），但估值已经充分反映

中期值得关注的是LPU方向——推理市场会比训练市场更大

长期布局的是存内计算和神经形态芯片——一旦突破就是范式转换

下一篇我们进入第二条线：存储芯片。DRAM、SRAM、HBM、NAND……这些让人头大的缩写，一篇全部理清。

本文为AI芯片科普系列第二篇。提及的所有公司和产品仅作为案例分析，不构成任何投资建议。投资有风险，请始终保持独立思考。