AI 计算的物理学边界:为什么推理正在从 GPU 回到 CPU

当算力增长 90,000 倍、内存带宽只增长 30 倍——这不是商业竞争，这是物理学在说话。

做信号完整性的人都知道：通道的频宽决定了数据能跑多快。但 AI 产业花了十年才发现——算力堆到天上的时候，最慢的环节不是计算，是把数据搬到计算单元的通道。这个通道，恰好是 SI 工程师的老本行。

一、算力飞了，数据在爬——物理学从不说谎

先看三个数字。它们在一个工程师眼里，构成的不只是"趋势"，是物理定律在工程现实上划出的红线。

过去 20 年：峰值计算能力增长 90,000×，DRAM 带宽增长 30×，互连带宽增长 30×。差距 = 3,000 倍。
—— IEEE Emerging AI Accelerator Workshop，Manouchehr Rafie (HPE 首席架构师)

这个 3000 倍不是某个公司的管理问题。是物理学：

计算密度跟晶体管工艺走——摩尔定律的尾巴上，FinFET 还能往 3nm 挤。
内存带宽爬得慢——HBM 堆叠走 TSV，热密度和物理尺寸双天花板。
互连带宽更惨——PCB 上的铜皮损耗跟 tanδ 走，FR-4 在 28GHz 的超肤效应损耗不是优化布线能解决的。

这就是说：一块 H100 的 SM 单元算得再快，数据队排到芯片外面去了。90% 的时间不是在算——是在等。对于训练，可以用批量 (batching) 掩盖延迟。对于推理，每个请求等不了别人。上一个请求的 token 没算完，下一个用户的刷新键已经按了三遍。

再看 AI 模型参数的膨胀速度：

Transformer 参数每 2 年增长 750×，GPU 内存容量每 2 年仅增长 2×。

以 Llama 3 70B (FP16) 为例：权重 140GB。一张 H100 装不下——至少两张。一台双路 Xeon 服务器轻松插 512GB DDR5——价格不到 GPU 的 1/3。不是算力问题，是内存够不够的问题。

二、推理不是训练——当 AI 从"算一次"变成"算一辈子"

这是整个逻辑的转折点。训练和推理的硬件需求——是一个问题，两种答案。

训练要的是吞吐：一次喂进去几百万个 token，GPU 的数千核全跑满了，并行度越高越好。一次训练跑几周，电费是 FAANG 级别公司的预算。

推理要的是延迟和通量密度：每个请求独立，batch size = 1，来一个算一个，算完就回——等不起 batching。但每天的请求量是数十亿次。这时候，每 token 成本乘上请求量，就是天文数字。

Qualcomm Cloud AI 100 实测：同等功耗下，推理性能是行业领先 GPU 的 2-4×。Perf/TCO 优势同样是 2-4×。
—— Evgeni Gousev, Qualcomm VP, IEEE Emerging AI Accelerator Workshop

为什么？因为 GPU 的并行架构是为训练优化的——矩阵乘法用 Tensor Core 并行，但推理的瓶颈不在矩阵乘法。

AI 推理的真正瓶颈是内存带宽，不是 FLOPS。

每个 token——自回归生成——读完整个模型权重，算一层，吐一个 token。70B 模型，每个 token 要把 140GB 权重从内存读到计算单元。GPU 用 HBM（高带宽但容量小），CPU 用 DDR5（容量大得多，每个内存通道独立）。当模型大到一张卡装不下时，卡间 NVLink 的开销吃掉所有 FLOPS 优势。

计算口诀：推理 token/s ≈ 内存带宽 / (模型参数量 × 2 bytes)。谁的带宽/容量比更匹配模型，谁就赢。这不是 GPU vs CPU 的争论——是物理定律对两种内存架构的裁决。

三、产业已经在动了——这不是预言，是正在进行

DesignCon 2026 的 Track 7 论文（Reinventing the Backplane: Why AI Demands an Architecture Revolution）一针见血：当机柜内加速器从 72 个向 1024 个扩张，每条 SerDes 链路推 224Gbps 时，PCB 走线的插入损耗已经逼到了物理极限——必须在关键链路中插入 Retimer。

每一级 Retimer = 增加功耗 + 增加延迟。无脑堆 GPU 的边际成本在指数级上升。

代价落到账本上——明明白白：

公司	动作	节省
Meta	推荐系统推理 80% 从 GPU 迁回 CPU	数亿美元/年
Google	内部 60% 推理跑在 CPU 集群	搜索、翻译、推荐系统
AWS	Graviton4 推理性价比高 40%	客户全量迁移中
Qualcomm	Cloud AI 100 定位"GPU 替代"	2-4× Perf/TCO

DesignCon 2026 上有一个令人会心一笑的注脚——电源完整性（PI）专家组在专题讨论中坦白：

"GPU 功耗激增是下一代 PI 最大的挑战。我们正在用 AI（跑在 CPU 上）来优化 PI——讽刺的是，GPU 制造了问题，CPU 上的 AI 在解决它。"
—— DesignCon 2026 Panel: "Powering the Future: AI's Role in Next-Generation Power Integrity Solutions"

四、CPU 的回应不是"变快了"，是懂了什么叫专用计算

回顾计算机架构史，有一个剧本反复上演：某个专用处理器在某项任务上远超通用 CPU → CPU 吸收专用处理器的设计思想 → 以通用形态反超。

1970 年代，小型机威胁大型机，IBM 推出 PC 反超。1990 年代，GPU 从图形卡独立，Intel 吸收 SIMD 指令集，CPU 吃掉了低端图形。2010 年代，TPU/NPU 威胁 CPU，Intel 推出 AMX，AMD 增强 AVX-512。

这一次也不例外。CPU 的 AI 矩阵运算能力已悄然换代：

厂商	技术	代表产品	INT8 吞吐 (OPS/cycle)
Intel	AMX 2.0	Xeon 6	2048
AMD	AVX-512 BF16	EPYC Turin	1024
ARM	SME	AWS Graviton4	512
Apple	AMX + ANE	M4 Pro	35 TOPS total

这些能力随 CPU 免费附赠——不需要一张 $30,000 的加速卡。

Ansys 在 25 亿网格 CFD 仿真中的对比更震憾：NVIDIA Grace Hopper 平台比纯 CPU 快 110×——但同一张幻灯片上的小字写着，每次仿真的成本从 CPU 的 2.99 亿降至 460 万。对绝大多数 AI 应用来说，每天数十亿次推理请求，每 token 的成本乘数是决定性的。CPU 在这个战场上拥有 5-10× 的价格优势。

五、异构计算不是"折中方案"，是物理定律的必然

总结：故事不是"CPU 打败 GPU"。故事是——

当计算增长 90,000×、数据传输仅增长 30×，系统的瓶颈已经从计算单元移到了数据通道。

这个改变不是某个公司选的战略——是物理学。摩尔定律驱动的算力爆炸创造了一个"头重脚轻"的系统——算得快，传得慢。AI 产业从训练时代进入推理时代的那一刻，"传得快"突然比"算得快"更重要。

战场转移	一句话
训练 → 推理	算一次变算一辈子，TCO 取代峰值 FLOPS
计算瓶颈 → 内存瓶颈	FLOPS 够用，带宽不够，差距 3,000×
GPU 独占 → 异构协同	GPU 训练 + CPU 推理 + ASIC 专用
技术选型 → 经济选型	每 token 成本乘数十亿次请求 = 决定生死

2023 年，HPE 的 Manouchehr Rafie 在 IEEE 研讨会上画了一张图：三条线——计算、内存、互连——从同一点出发，到 2023 年已分道扬镳，差距 3,000 倍。GPU 坐在这三条线的焦点上，吃了一波计算爆炸的红利。

但 AI 从少数巨头的"训练特权"变成每个人的"推理日常"时，决定胜负的是谁能用更低成本把数据送到计算单元。

在这个新的物理约束下，通用计算的王者从未离开。

四条判断，收工

➊ 内存带宽是第一原理推理 token/s ≈ 内存带宽 / (模型参数量 × 2 bytes)。匹配带宽 vs 容量的架构才赢。

➋ 算力≠价值训练要 FLOPS，推理要带宽。90% 的商业 AI 价值在推理——CPU 的带宽架构天然适配。

➌ 异构计算是物理必然，不是妥协计算/内存/互连三条曲线的 3,000× 差距——没有单一种类的硬件能同时覆盖。

➍ 产业已在转向Meta 80%、Google 60% 的推理已回 CPU。不是趋势，是财务结算的结果。