AI时代需要什么样的CPU?CPU的时代机遇-夜雨聆风

AI时代需要什么样的CPU?CPU的时代机遇

上周五Intel、AMD和ARM同时大涨。CPU的紧缺，一个催化剂是AI的需求，另一个催化剂其实是晶圆。晶圆产能奇缺，GPU实在挤占了过多晶圆产能了。一颗B300的芯片面积就要750多mm2，AMD EPYC 9XX5也就85mm2左右，基本就差了10倍了。

过去市场一直不相信Intel的业绩，这次是实打实看到缺货导致CPU供不应求，而且确实传导到价格上了。这种供需反转体现在股价上的爆发力会非常恐怖。周五资金几乎是FOMO抢筹，但实际上对CPU的需求没有深入的认知。

老罗最近一直在研究CPU，周末CPU讨论热度很高，所以也想把研究成果拿和大家分享讨论。本文将从分为5个章节：

一、CPU已经成为现代AI数据中心的瓶颈

二、Nvdia Grace问世，重新定义AI CPU

三、AMD EPYC在8卡机市场的统治

四、ARM CPU历史性的机遇

五、到底需要多少CPU？从1:8到8:1

全文4000字，阅读大约需要10分钟，欢迎各位留言讨论。

一、CPU已经成为现代AI数据中心的瓶颈

2021年Nvdia GTC大会上，老黄首次提出，CPU已经成为现在AI数据中心的瓶颈。

要理解传统x86 CPU在AI数据中心的致命瓶颈，那么必须要理解一个核心概念：通信墙。

GPU在进行大模型的训练或推理时，GPU的显存经常根本装不下完整的KV Cache或者模型权重。这个时候GPU就必须通过DRAM内存进行缓存。

传统x86架构下，GPU与内存的通信只能通过CPU进行调度，而底层通信链路PCIe总线是一个非常狭窄的通道。PCIe4.0×16的单向带宽大约是16GB/s，即使是现在的PCIe5.0×16带宽也只有32GB/s，要知道H200的HBM3e访问带宽就超过4.8TB/秒，相比之下真是小马拉大车，导致GPU需要等待CPU搬运内存中的数据，这就是通信墙。

传统的通用服务器里面，CPU是整个系统的大脑，负责执行操作系统，运行应用程序，这些都涉及大量的逻辑计算和浮点计算。然而在AI时代，CPU从过去的大脑变成了数据的搬运工。GPU更多地依靠CPU来处理串行任务（例如数据调度、分词、反分词、提示词调度等）。因此CPU更需要的是足够的核心数量来并发运行各种搬运工作，反而单线程性能要求降低了，只要能快速地处理简单任务即可。

很明显传统的x86 CPU已经不能满足新的需求，一场关于AI CPU的深刻革命正在悄然发生。

二、Nvdia Grace问世，重新定义AI CPU

Grace CPU的概念在2021年首次提出，但实际上是到了2023年，Grace才真正的问世。Grace Hopper（也就是大家常说的GH200平台），彻底定义了未来AI CPU的形态。

首先是通信墙的问题。得益于Nvdia成熟的NVLink技术，Nvdia直接跳过PCIe这种老弱病残，Grace CPU与Hopper GPU之间通过直接NVLink-C2C互连，能够提供高达900GB/s的双向带宽，是PCIe5.0（64GB/s的双向带宽）的整整7x！

Grace拥有72颗核心，为了保证GPU访问CPU内存时，数据能在CPU内部被快速汇集并传输至NVLink-C2C，NVIDIA为Grace设计了定制的网格缓存架构SCF（Scalable Coherency Fabric）。它能提供高达3.2TB/s的对分带宽，确保分布在芯片各处的核心都能实现高速访问。

Grace CPU和Blackwell GPU在物理和逻辑上共享一个完全一致的统一虚拟内存空间（ATS）。ATS+SCF+NVLink-C2C，使得Grace完美地解决了传统架构中PCIe总线导致的通信墙问题，GH200系统的GPU不仅可以使用自身极快但容量有限的HBM显存，还可以以极高的速度直接访问CPU侧的高容量内存。

另外Nvdia放弃了传统的x86架构，采用了专门针对云计算优化的ARM Neoverse V2核心，单个Grace包含72个核心，这种设计在保持极高单线程性能的同时，也满足了高数据吞吐需求。ARM架构的低功耗优势也不可小觑，Grace CPU在相同的功耗下，能够提供传统领先x86服务器CPU多达两倍的性能。

三、AMD EPYC在8卡机市场的统治

前面已经见过，在典型的8卡服务器中，前端CPU承受着极大的并发压力，需要同时处理海量用户的网络并发连接、文档清洗、分词、连续批处理调度等。这些任务不缺单核绝对性能，但极度缺乏核心数。

为此AMD走上了狂推核心的道路，把chiplet玩到炉火纯青。AMD的Zen4就率先将单路核心数推向了128核，更是在Zen5c里面塞进去了192核。尤其是Zen5c这种小核心设计，牺牲了单核性能，换来极致的并发处理能力，完美契合了AI agent的容器化需求，也非常适合AI推理场景。

AMD为了把这么多CPU Die链接起来，推出了Infinity Fabric高速互联架构，可以实现Die-Die，Core-Core的互联。利用IF的能力，AMD从第四代EPYC开始推广双路系统。每个EPYC处理器最多可提供4条xGMI链路用于CPU间互联，每条链路的带宽等效于PCIe5.0x16，也就是说能够提供512 GB/s的CPU-CPU双向互联带宽，CPU几乎可以像访问自己的内存一样快速访问另一颗CPU的内存。

PCIe5.0的带宽硬伤一时半会儿是改变不了的，但是AMD选择狂堆通道数，单路/双路系统能提供高达128到160条PCIe5.0通道，内存也升级到12通道DDR5。海量的原生通道意味着可以减少对PCIe Switch的依赖，让网卡和存储几乎直连CPU。

AMD EPYC并非原生AI CPU，但是在x86框架下，尽可能地满足了AIDC对CPU的需求。尽管Nvdia极力推崇GB200/GB300 NVL72液冷整机柜，但单个机柜功率需求巨大，且强制要求液冷，只有巨型CSP才有实力采购。实际上更多客户还是选择了HGX方案。这是为什么EPYC双路系统在HGX B300占据着统治级的地位，几乎是各大OEM的主推方案。

不过Intel过去几年也在疯狂补齐短板。

在第三代至强（Ice Lake）时期，Intel的PCIe4.0通道数仅有 64 条，导致Xeon在8卡机系统中非常吃亏，必须依赖复杂的PCIe Switch拓扑。从第四代升级到PCIe5.0和8通道DDR5，再到最新的第六代，Intel已经实现了 136 条PCIe5.0通道，并首发支持了12通道MRDIMM的内存通道。也是从第六代开始，也将产品线拆分为大小核两个产品线，全小核 E-core最高可以干到288核，主攻高并发与能效。

另外值得一提的是，Intel和AMD两个老对头也放弃恩怨，共同推动了CXL联盟的建立。

为了极致的访问速度，Grace的LPDDR5内存是直接焊死在CPU旁边的，然而x86生态不可能彻底放弃PCIe可插拔的扩展性。x86架构为了解决GPU对CPU的内存访问问题，复用了现有的PCIe接口，在其之上建立了一套CXL（缓存一致性）协议。

CXL并不能直接提高GPU-CPU之间的带宽，但实现了两个核心突破：1）允许GPU直接访问CPU内存中的数据，不需要CPU在中间介入，减少对PCIe带宽的占用；2）实现了内存池化，内存不再必须插在 CPU 旁边的插槽里，可以额外扩展，将CXL内存作为大容量后备存储，GPU则可以直接访问池中的大容量CXL内存。

CXL2.0在软件层的支持尚未完全普及，CXL3.0和4.0又提出了更激进的技术蓝图，未来可能成为x86 CPU在AI时代的关键技术基座。

四、ARM CPU历史性的机遇

当单张GPU的功耗超过1000W时，机柜的供电和散热已经成为显著的瓶颈，Nvdia标配的DGX B300总功耗高达14kW，如果上双路EPYC功耗更甚。如果能将CPU的功耗下降一半，就能为GPU腾出极其宝贵的功耗资源，而ARM CPU的低功耗特性恰好满足了这一点。

在传统的云计算时代，x86 CPU是绝对的主力，负责处理所有的复杂逻辑和高并发计算，而AI时代CPU更多只需要起到搬运工的作用，精简指令集的ARM CPU也足够胜任。

AWS是最早探索服务器级ARM CPU的云厂。2018年推出第一代Graviton CPU，这颗CPU是基于较老的Arm Cortex-A72，性能并不突出，主要定位于对成本极度敏感、且对单核性能要求不高的工作负载。

2019年的Graviton 2是真正颠覆行业认知的一代产品。根据AWS自己的测算，Graviton 2在通用计算、Web服务器、内存缓存、视频编码等多种工作负载中，与同规格的第五代x86相比（主要是基于Intel至强铂金处理器），性价比提升最高可达40%！

AWS在Graviton上的成功是巨大的，北美CSP大厂纷纷跟进。微软2023年底推出ARM CPU Azure Cobalt 100，市场反馈极佳。2025年底又紧锣密鼓地发布了Cobalt 200，已经开始用在各类云原生工作负载。

根据AWS CEO在2026年股东信中的披露，截至2026年初，AWS内部超过50%的新增CPU算力是Graviton驱动的。ARM CPU已经充分证明能够稳定、高效地承载企业级核心应用。

2025年底发布的Graviton 5更是成为Agentic AI场景的首选。2026年初，Meta与AWS签署了一项数十亿美元级别的历史性协议，未来将部署数千万颗Graviton 5核心，专门用于支撑其下一代Agentic AI需求。

Google在2024年才正式推出基于ARM的Axion CPU。从第七代TPU开始，Google Axion与自家的Titanium就实现了深度融合，专门用于大规模AI模型的训练及低延迟推理。

多核+低功耗+稳定的Linux支持，似乎ARM就是Agentic AI的最优选。

不久前我们看到ARM也忍不住自己下场了，推出了ARM AGI CPU。

其实ARM这款AGI CPU其实已经经过充分验证了。136个Arm Neoverse V3核心，2个Die的chiplet，基础频率为3.2GHz，12通道DDR5，96条PCIe6.0，CXL3.0，300W的TDP，纸面参数可圈可点。Graviton 5正是基于Arm Neoverse V3，相当于ARM做了流片测试。也可以说更像Azure Cobalt 200的姊妹版，因为Cobalt正是基于Neoverse V3 CSS的公版方案。

V3从测试指标来看，非常适合Agentic的工作负载。其实说白了，V3就是ARM摸着Nvdia Grace过河的产物。这就不难理解为什么Nvdia的Vera已经全面自研了。

随着今年Agentic AI需求爆发，ARM迎来了一个史诗级市场机遇。根据BAML的测算，全球服务器级CPU市场大约400亿美元，未来几年会快速增长到千亿美金的体量，而这里面ARM CPU至少会拿走50%以上的增量。

这就是为什么ARM冒天下之大不韪，宁可得罪部分客户，也要自己下场干CPU。

五、到底需要多少CPU？从1:8到8:1

最近投资圈很热门的话题就是到底CPU用量需要多少？这个帮大家简单地算一算。

1:8就是指经典的8卡机，比如HGX H200基本都是经典的8卡机。

然而前面章节已经讲过了，HGX B300时代主流已经是双路CPU了，所以这个比例在2026年已经提高到了1:4。

如果考虑到Nvdia的超节点，那么这个比例就是1:2。最早的GH200其实是1:1，但那个属于是技术验证的原型机。Nvdia主推NVL72的GB200/300板卡，CPU:GPU已经是1:2了。今年GTC发布的Vera Rubin也还是1:2的配置。

那么1:1是怎么来的呢？其实这是Nvdia在GTC上面提出一个概念，本来Vera Rubin已经是1:2了，8台NVL144再额外配1台Vera CPU柜，基本就可以实现1:1了。

到底需不需要这么多CPU呢？只要养过龙虾应该是有感觉的。当用户在云端开启一个agent实例时，需要服务器CPU开启一个容器实例。

当然如果只是跑虚拟化环境，其实需要的CPU算力并不多。Agent的Orchestration计算图能够很清楚地展现CPU的工作量。每个sub-agent完成一次inference之后，CPU需要解析LLM输出（token反解）、判断是否触发工具调用（条件分支）、执行工具（I/O）、维护依赖关系图（哪些agent在等哪些agent的输出）、集成中间结果、决定是否进入下一轮反思循环。当并发sub-agent数量达到数百个时，这套数据编排和调度逻辑对CPU都提出了极高要求。

根据Georgia Tech与Intel的联合研究论文，针对5类代表性Agentic工作负载，CPU耗时占到工作负载延迟的50%-90%。说白了还是GPU在等CPU。为了提高GPU的利用效率，提高CPU数量是ROI非常高的方案。

至于8:1我觉得可能就是分析师顺口一提，讲起来比较方便。

当然我还看过更牛逼的。去年底AWS和OpenAI战略合作的新闻，提到GPU的量级是数十万颗（假设是50万颗吧），而提到CPU的量级是千万级。那这岂不是CPU:GPU是20:1了？

写在最后

不管是1:1还是多少，Agentic AI驱动下，一场关于AI CPU的深刻革命正在悄然发生。CPU是时候回归C位了。

海外市场老罗是很看好ARM的，另外国产CPU机会更大。因为海外CPU缺货，今年国产是有机会实现KA客户的突破的，海光已经拿下阿里了，就看今年能否突破字节。除了X86之外，国产ARM CPU今年也是爆发元年，具体A股标的大家可以自己找找。