第21期 AI Agent推理为什么吃CPU
小Q
导读:Agent工作流中CPU承担50%~90%的延迟。TrendForce预测CPU:GPU比从1:8重估至1:1。英特尔、ARM、英伟达纷纷押注Agent驱动的CPU需求爆发。
如果问你AI算力的核心是什么,大概率你会脱口而出:GPU。这个答案在2024年之前完全正确——训练大模型靠GPU矩阵乘法,推理大模型也靠GPU张量计算。但到了2026年,这个答案开始变得不够完整了。
因为AI的形态正在从"你问它答"的对话式LLM,变成"你派它干活的"智能体(Agent)。Agent不是只生成一句话就完事——它会自己规划任务、拆解步骤、搜索网页、执行代码、读写文件、调用API……而这些"干活"的部分,绝大部分是由CPU完成的,GPU只在模型推理那一步介入。
所以问题来了:Agent推理到底有多吃CPU?这种吃法会怎么改变数据中心的算力结构?
先给一个数字感受一下:2026年最新研究显示,在Agent执行的多步骤工作流中,CPU承担的延迟占比高达50%~90%(Georgia Tech×Intel arXiv 2511.00739)。这意味着你的Agent等得越久,卡住的往往不是GPU,而是CPU。
一、Agent工作流:GPU负责"想",CPU负责"干"
要理解为什么CPU突然变得重要,先看一个典型的Agent任务流是什么样的。以编程助手为例——它收到你的需求"帮我分析这个repo的代码质量":① LLM理解需求(GPU推理)→ ② Agent拆解子任务(CPU编排)→ ③ 获取代码(I/O,CPU)→ ④ 执行静态分析工具(CPU计算)→ ⑤ 汇总结果(可能又是GPU推理)→ ⑥ 格式化输出(CPU)在整个链路上,GPU的参与只在步骤①和⑤,其他全部由CPU包揽。Agent的步骤越多,CPU的占比就越高。
工具调用是CPU的最大消耗点
Mobile AIOS Wiki的Agentic AI CPU执行优化分析(2026年发布)给出了一个惊人的数据:在Agent工作流中,工具调用(Tool Execution)占总延迟的90.6%。具体分布如下:• 工具调用(Python执行/Web搜索/DB查询):90.6%• LLM推理(GPU部分):仅占很小比例• 编排与调度:占剩余大部分更具体地说,一次典型的Web搜索Agent任务,CPU在以下环节都有显著耗时:• 解析用户意图并发起网络请求• 下载并解析网页内容• 将结构化数据返回给LLM• 等待LLM输出后,再格式化最终结果所有这些步骤都在CPU上完成,GPU仅在LLM推理那几十毫秒参与工作。
二、沙箱VM:每个Agent背后都是一个"数字员工"
2024-2026年Agent架构最大的一个变化是:新一代Agent已经开始用沙箱虚拟机作为执行环境。
早期Agent通过预定义API(Function Calling)调用外部服务,能力有限。而从2025年起,亚马逊、微软、阿里等云厂商开始推广"沙箱Agent"模式——在云端为每个Agent动态创建隔离的微虚拟机(MicroVM),让Agent在里面自由地写文件、装依赖、跑代码、调API。
一个典型任务流(如"分析这批图片生成报告"):① 创建专属沙箱环境② 在沙箱内下载所有图片③ 运行Python脚本进行图片处理④ 生成可视化报告⑤ 销毁沙箱释放资源整个执行过程——文件I/O、进程管理、代码解释、网络通信——全部由CPU承担。GPU仅在任务分析的LLM推理步骤中介入。
目前业界主流的MicroVM方案包括:亚马逊Firecracker、腾讯Cube、阿里ACS Agent Sandbox。它们启动时间可缩短至毫秒级,但几乎所有的系统调用和硬件交互都要由CPU处理。当百万级Agent并发运行时,对CPU核心数的需求呈指数级增长。
三、从"问完即走"到"长在线":并发模型变了
传统对话式LLM的用法是用户问一句、模型答一句,然后用户就关闭了。这种模式下的并发比通常低于1%。但Agent的使用方式完全不同——用户把Agent当成一个"数字员工"挂在后台,一挂就是几小时甚至持续运行。
以Cursor、Claude Code这样的编程助手为例:用户打开一个项目后,Agent可能连续工作30分钟到数小时,期间:• 持续阅读和修改代码文件• 运行测试和编译• 搜索文档和Web资源• 安装依赖包这导致两个关键变化:第一,会话时长从分钟级进入小时级,大量沙箱长期驻留,持续消耗CPU;第二,任务类型分化——简单任务(网页下载、解压文件)CPU碎片化可池化,但复杂任务(视频处理、代码编译)会长时间霸占CPU核心。
四、数据说话:CPU:GPU比例正在从1:8走向1:1
这不是某个分析师的观点,而是多条独立渠道交叉验证的趋势。
TrendForce(2026年4月报告)指出:在AI智能体时代,数据中心CPU:GPU配比将从传统的1:4~1:8,大幅重估至1:1~1:2。这意味着每块GPU需要搭配的CPU数量增加了数倍。
英特尔在2026年4月的财报电话会上直接表态:AI推理正在将CPU比例从1:8推向1:1,并以此为据上调了Q2营收预期至138~148亿美元。英特尔CEO Pat Gelsinger明确说:"Agentic AI是CPU增长的最大驱动力。"
ARM公司在2026年3月推出了首款自研CPU产品——Arm AGI CPU(基于Neoverse V3架构、台积电N3工艺、136核/136线程),正式从纯IP授权模式进入CPU成品市场。ARM CEO Rene Haas更表示:Agentic AI可能会驱动CPU核心数达到512核。
英伟达在2026年GTC上首次独立展示了Vera CPU整机柜方案——这是英伟达第一次把CPU作为独立产品(而非GPU的附属)推向市场。这一举动本身就说明问题。
五、对CPU厂商意味着什么
英特尔:最大的受益者?
英特尔是这轮CPU重估中最直接受益的厂商。其Granite Rapids和Sierra Forest系列专为高密度云原生和AI推理工作负载设计。2026年Q2营收预期上修,18A工艺的良率目标也被提前至年中。更重要的是,英特尔在AI加速指令集(AMX、AVX-512)上的积累使其CPU在推理场景中更具竞争力。
ARM与英伟达:新的CPU竞争格局
ARM的AGI CPU标志着这家CPU架构巨头正式下场做产品。其136核N3设计在能效上有显著优势,适合大规模部署MicroVM Agent的场景。而英伟达的Vera CPU则走"GPU+CUDA生态"路线,强调CPU与GPU之间的高速互联(NVLink-C2C),在Agent推理的"GPU-CPU协同"环节有独特优势。
AMD:站在十字路口
AMD的EPYC Turin系列在核心数和内存带宽方面有竞争力(最高192核),但在AI推理的CPU生态(如AVX-512调度优化、与GPU的互联效率)方面相对英特尔略逊色。2026年是AMD证明自己能在Agent时代抓住CPU红利的关键一年。
六、这对AI基础设施意味着什么
把这一切放在一起看,有几个重要的结构性变化正在发生:第一,数据中心扩建的逻辑变了。过去我们算一个数据中心的算力,主要看装了多少块H100/B200。未来还要算——配套了多少个CPU核心。TrendForce预测,一座1GW数据中心所需的CPU核心数将从3000万增长到1.2亿(4倍增长)。第二,云厂商的硬件采购结构变了。过去云厂商大量采购GPU,CPU随服务器附送。但现在AWS、Azure、GCP可能要单独加购更多CPU来支撑Agent负载。这直接影响云厂商的CapEx分配和服务器设计策略。第三,AI应用的性能瓶颈变了。过去优化AI性能主要看GPU算力和显存带宽。未来还要看CPU的调度能力、核心数、内存带宽,以及CPU-GPU之间的互联效率。Agent的"思考"(GPU)不慢,但"动手"(CPU)可能拖后腿。
一句话总结:2024年以前,AI算力=GPU算力。2026年以后,AI算力=GPU×CPU的乘积。任何一方成为短板,另一端都无法独立发挥价值。
延伸思考:为什么你会觉得Agent"卡卡的"
如果你用过Cursor、Claude Code或者任何多步骤Agent,你很可能有过这种体验:Agent在"思考"的时候很快(几秒内就有回复),但在"执行"的时候——比如下载文件、编译代码、运行测试——会等很久。过去大家普遍以为是"模型太慢",但越来越多证据表明:大部分等待时间发生在CPU端。LLM推理已被优化到秒级甚至毫秒级(通过KV Cache、投机解码等技术),但Agent在沙箱里装的依赖、跑的命令、调的外部API,每一步都是实打实的"传统计算"。
所以当你感觉Agent"越来越卡"的时候,可能不是LLM变慢了,而是你的CPU不够用了。
这是Agent时代一个容易被忽视却极其关键的认知转变——算力的定义正在从"每秒浮点运算次数"(TFLOPS)向"每秒可完成任务数"(Tasks Per Second)迁移。而CPU,正是这个新定义的核心。
——— END ———
📌 如果你对AI基础设施、GPU芯片、算力技术感兴趣,欢迎关注这个号,每周深度解析一个方向。▸ 点击上方蓝字"小Q"关注公众号 ◂已发布:GPU架构·HBM内存·AI芯片·光模块·服务器CPU·液冷散热 等14个系列
如果觉得内容有用,欢迎转发给朋友,一起看懂AI基础设施~
📂 关注公众号回复「资料包」
即可获取历史10+份AI基础设施深度调研PDF涵盖:GPU架构·HBM内存·AI芯片·光模块·服务器CPU·液冷散热等核心方向
👇 关注后自动发送网盘链接

作者:小Q | AI基础设施产业调研数据来源:公开市场数据、行业研究报告、公司财报免责声明:本文数据仅供参考,不构成投资建议。
夜雨聆风