AI不是一次软件升级。而是一次计算革命。
AI芯片不是"更强的CPU"—— 是为了适应AI计算,重新设计的计算体系。 |
|
第一章 为什么AI突然需要新芯片? |
互联网时代,计算机在做逻辑计算 + 顺序执行——打开浏览器、发微信、查数据库,CPU的几个核心按部就班,完全够用。 但AI的本质是海量概率计算。你问ChatGPT一句话,它回答的那一瞬间,背后进行了万亿次矩阵乘法。CPU聪明,但"人手"不够。 |
👨🏫 传统计算 CPU = 数学教授 聪明,能解微积分。 但——同时干活的人少。 | 👦👧👦👧 AI 计算 GPU = 一万个小学生 不聪明,不会解方程。 但——能同时做大量重复计算。 |
|
AI最需要的,恰恰是"一万个人同时做简单数学题"。不是比谁更聪明,是比谁同时干活的人更多。 |
|
第二章 AI芯片到底是什么? |
"AI芯片不就是GPU吗?"——一开始是。但随着AI任务越来越复杂,芯片开始分化:训练追求极限性能,推理追求极限成本,手机AI追求极限功耗,实时AI追求极限延迟。不同任务需要完全不同的芯片。 |
C | CPU · 中央处理器 "总指挥"——什么都能干,但干不了海量并行 4-64个高性能核心,擅长复杂逻辑。在AI系统里当调度员——指挥GPU/TPU干活,自己不上前线做矩阵乘法。 |
|
G | GPU · 图形处理器 "并行工厂"——几千个小兵同时干活 本为游戏渲染而生,意外发现大规模矩阵乘法正是AI训练所需——成千上万个核心同时并行,完美命中。 |
|
T | TPU / ASIC · 专用处理器 "专用流水线"——只为一种AI任务,极致性价比 Google TPU的脉动阵列架构在MoE推理中4倍单位成本性能于通用GPU。博通为OpenAI定制的ASIC,TCO降40-60%。 |
|
N | NPU · 神经网络处理器 "端侧管家"——功耗极低,不联网也能跑AI 设计哲学和GPU相反:不以算力为目标,以最低功耗完成推理。让手机、耳机、手表不联网也能跑AI。 |
|
L | LPU · 语言处理单元 "极速翻译官"——专为对话而生,延迟毫秒级 全片上SRAM + 确定性流水线。每次推理延迟完全可预测。2025年12月NVIDIA被迫与Groq签署技术授权——创业公司在延迟维度上逼巨头认了输。 |
|
|
越通用 → 越灵活 → 越贵 越专用 → 越高效 → 越便宜 |
|
整个AI芯片的故事,本质就是不同玩家在这条谱系上选择位置,然后拼命往"更高效、更便宜"的方向推。 |
|
第三章 训练 vs 推理:同一个AI,两个完全不同的战场 |
这是整个AI芯片产业最底层、也最容易被忽视的结构性矛盾。 |
AI大模型爆发 → 计算量指数级增长 ↓ CPU无法承载 → GPU成为核心算力 ↓ 推理需求暴涨 → GPU开始不经济 ↓ ASIC 崛起 → 分工越来越细 ↓ 异构计算时代 |
|
这条因果链里最关键的一步:GPU开始不经济。为什么? |
训 练 建工厂 一次性大工程,追求算力峰值 最佳芯片:GPU(CUDA生态) 成本容忍度:高(一次性投入) = 重型起重机——贵,但只用一次 | 推 理 开便利店 千万人同时用,追求单位成本最低 最佳芯片:ASIC(极致能效比) 成本容忍度:极低(每省1分钱 × 亿次 = 天价) = 扫码收银机——便宜、快、每店都要 |
|
用数万美元一张的H100做AI推理,就是给每个便利店配一台起重机——不是做不到,是结构性不划算。AI芯片最大的蛋糕正在从训练转向推理——推理负载已占2/3,推理硬件市场是训练的2-3倍。训练和推理的分化,把AI芯片从一个统一市场劈成了两个独立战场。 |
|
第四章 终极格局:各司其职 |
01 训练认GPU NVIDIA生态壁垒在训练端仍然牢固。 | | 02 推理看ASIC 训练市场2-3倍体量,TCO优势40-60%。 | | 03 异构计算是终局 GPU训练 + ASIC推理 + NPU端侧 + LPU低延迟——不是谁赢,是各干各的。 |
|
|
|
四个认知升级 |
01 AI不是"智能",是"超大规模数学计算" ChatGPT回答一句话,背后是万亿次矩阵乘法。AI的"智能感"来自算力堆叠。 | | 02 GPU不是更聪明,是"同时干活的人更多" CPU = 数学教授,GPU = 一万个小学生。AI拼的不是单挑,是群殴。 | | 03 AI芯片本质:为模拟神经网络重新设计的计算体系 从CPU→GPU→ASIC→NPU→LPU,唯一方向:通用计算→专用计算。 | | 04 未来像工厂一样分工 CPU调度、GPU训练、ASIC推理、NPU终端——异构计算是唯一解。 |
|
AI芯片的本质,不是"芯片升级"。 而是AI推着使用者, 从"通用计算时代", 进入"专用计算时代"。 |
|