Agentic AI,让 CPU 再次伟大

Agentic AI 来了，为什么 CPU 变得更重要？

过去两年，AI 基础设施几乎被 GPU 定义了。

训练看 GPU，推理看 GPU，资本市场看 GPU，企业采购也看 GPU。很多人默认认为，AI Infra 的核心逻辑就是不断堆卡，CPU 只是配套，不是主角。但这个判断，到了 Agentic AI 时代，开始不够用了。

我越来越认同一个趋势：

从整套 AI Infra 的角度看，CPU:GPU 的比例会从过去的 1:4，逐步走向 1:2，甚至在一些场景下接近 1:1。这里先说清楚，这不是说 GPU 不重要了。恰恰相反，是因为 GPU 太贵、太重要了，系统反而必须投入更多 CPU 资源，去把 GPU 真正喂满、用满、跑顺。

很多人对这件事的第一反应，是不是单台 GPU 服务器里的 CPU 要变多了？

不完全是。

更准确地说，变的不是单机结构，而是整个系统结构。单台 GPU server 的 CPU:GPU 配比，很多时候还是 1:4、1:8，因为它的职责依旧是训练或高密度推理，这没什么问题。真正变化大的，是 GPU Server 周围那一整层系统资源。因为在 Agentic AI 场景里，模型推理只是其中一步。一个 agent 要真正把任务做完，前后还要经历大量工作：

任务拆解
上下文管理
检索知识库
调用工具
访问数据库和业务系统
代码执行
状态保存
权限校验
日志审计
失败重试
多 agent 协同

这些事情，绝大多数不是 GPU 在干，而是 CPU 在扛。这就是为什么，今天看 AI Infra，不能再只看 GPU 数量，而要看有没有足够厚的 CPU 层、runtime 层和 orchestration 层。否则 GPU 再多，也可能跑不出应有的效率。

为什么过去 CPU 没那么显眼？

因为过去很多 AI 应用，本质上还是“问一句，答一句”。用户提问，系统组上下文，模型推理，返回结果。整条链路里最重、最贵、最关键的部分，就是 GPU 上的计算。CPU 也参与，但主要做的是请求接入、I/O、调度和系统管理。所以在那个阶段，大家把 AI Infra 理解成 GPU Infra，并不算错。问题在于，Agentic AI 改变了这个前提。它不再只是“生成答案”，而是开始“完成任务”。而一旦 AI 开始做任务，事情就完全不同了。

Agentic AI 真正改变的，不是模型，而是执行链

一个普通聊天模型，核心是输出内容。一个 agent，核心是把事情做完。

为了完成任务，agent 往往不是只调用一次模型，而是要经历多轮推理、多次工具调用和持续状态管理。比如一个 coding agent，收到任务后，可能会先读代码、搜文件、执行命令、跑测试、修 bug、再跑一次，最后才给出结果。你会发现，这里面真正属于 GPU 的，主要还是模型推理那一段。剩下的大量动作，更依赖 CPU、内存、网络和存储。也就是说，过去是“推理主导系统”，现在变成了“系统承载推理”。这个变化非常关键，因为当 AI 从“会说”变成“会做”，真正决定价值的，就不只是模型本身，而是整套系统能不能把模型组织成行动。而行动这件事，本来就是 CPU 的世界。

为什么 Agentic AI 会明显抬高 CPU 需求？

原因其实很直接。

第一，任务链变长了。

单轮问答很短，agent 执行很长。链路一长，调度、编排、状态管理、异常恢复这些工作都会放大，而这些都是 CPU 侧的事情。

第二，工具调用天然偏 CPU。

文件系统、数据库、浏览器、搜索、API、代码执行、权限系统、日志系统，这些都不属于 GPU 的强项。agent 越接近真实工作流，越离不开 CPU。

第三，RAG 和数据访问本来就重度依赖 CPU。

向量库、缓存、关系库、消息队列、文档检索、内容重排、prompt 构造，这些环节看上去不“性感”，但在生产系统里往往最耗资源，也最容易成为瓶颈。

第四，GPU 太贵了，不能空转。

如果前面的 CPU 层准备不及时，GPU 就只能等。调度慢了，GPU 在等；检索慢了，GPU 在等；工具调用卡住了，GPU 还是在等。所以很多 CPU 投入，本质上不是在增强 CPU，而是在保护 GPU 利用率。

第五，多 agent 协作会进一步放大 CPU 压力。

未来企业里的 AI 系统，大概率不是一个 agent，而是一组 agent 分工合作。谁负责检索，谁负责执行，谁负责校验，谁负责汇总，这背后会带来更多同步、路由、容错和观测问题，而这些复杂度主要都压在 CPU 和系统软件层上。

所以，1:4、1:2、1:1 到底代表什么？

我更愿意把它看成三个阶段。

1:4 代表模型中心阶段。

这个阶段拼的是训练和推理能力，GPU 是绝对主角，CPU 主要服务 GPU。

1:2 代表模型和执行系统开始并重。

AI 不再只是输出内容，而是开始接工具、接知识、接业务流程。此时，GPU 仍然关键，但 runtime、orchestration、RAG、缓存和调度层已经明显变重。

1:1 则更接近系统中心阶段。

大家拼的已经不是单点推理性能，而是 end-to-end 的任务完成效率。GPU 负责“想”，CPU 负责“把事情跑起来”。这时候，从整套基础设施视角看，CPU:GPU 接近 1:1 并不奇怪。

这对企业意味着什么？

最大的变化是，企业不能再把 AI Infra 简单理解成“买 GPU”。

未来真正要建设的，不只是一个推理集群，而是一套能够支撑 agent 持续运行的执行系统。这里面既要有 GPU 层，也要有足够厚的 CPU 层、数据层和编排层。换句话说，未来基础设施竞争，比的不会只是“谁卡多”，而是“谁能把整套系统做顺”。谁能把检索、推理、工具调用、执行、反馈闭成一个环，谁能把 GPU 利用率做高，谁能把 agent 的任务完成时间真正压下来，谁才更可能在下一阶段拿到实际价值。

最后

过去几年，CPU 在 AI 讨论里一度有些边缘化。但 Agentic AI 的出现，正在把它重新拉回中心。因为当 AI 只是回答问题时，GPU 决定上限。当 AI 开始执行任务时，系统复杂度就会迅速上升，而这些复杂度，大多数不会自动落到 GPU 身上。

GPU 负责推理。

CPU 负责把事情接住。

所以 CPU:GPU 从 1:4 走向 1:2，甚至 1:1，背后不是一个简单的采购比例变化，而是一个更大的信号：

AI 正在从模型时代，走向系统时代。