过去两年,AI 基础设施几乎被 GPU 定义了。训练看 GPU,推理看 GPU,资本市场看 GPU,企业采购也看 GPU。很多人默认认为,AI Infra 的核心逻辑就是不断堆卡,CPU 只是配套,不是主角。但这个判断,到了 Agentic AI 时代,开始不够用了。我越来越认同一个趋势:从整套 AI Infra 的角度看,CPU:GPU 的比例会从过去的 1:4,逐步走向 1:2,甚至在一些场景下接近 1:1。这里先说清楚,这不是说 GPU 不重要了。恰恰相反,是因为 GPU 太贵、太重要了,系统反而必须投入更多 CPU 资源,去把 GPU 真正喂满、用满、跑顺。很多人对这件事的第一反应,是不是单台 GPU 服务器里的 CPU 要变多了?不完全是。更准确地说,变的不是单机结构,而是整个系统结构。单台 GPU server 的 CPU:GPU 配比,很多时候还是 1:4、1:8,因为它的职责依旧是训练或高密度推理,这没什么问题。真正变化大的,是 GPU Server 周围那一整层系统资源。因为在 Agentic AI 场景里,模型推理只是其中一步。一个 agent 要真正把任务做完,前后还要经历大量工作:
任务拆解
上下文管理
检索知识库
调用工具
访问数据库和业务系统
代码执行
状态保存
权限校验
日志审计
失败重试
多 agent 协同
这些事情,绝大多数不是 GPU 在干,而是 CPU 在扛。这就是为什么,今天看 AI Infra,不能再只看 GPU 数量,而要看有没有足够厚的 CPU 层、runtime 层和 orchestration 层。否则 GPU 再多,也可能跑不出应有的效率。
为什么过去 CPU 没那么显眼?
因为过去很多 AI 应用,本质上还是“问一句,答一句”。用户提问,系统组上下文,模型推理,返回结果。整条链路里最重、最贵、最关键的部分,就是 GPU 上的计算。CPU 也参与,但主要做的是请求接入、I/O、调度和系统管理。所以在那个阶段,大家把 AI Infra 理解成 GPU Infra,并不算错。问题在于,Agentic AI 改变了这个前提。它不再只是“生成答案”,而是开始“完成任务”。而一旦 AI 开始做任务,事情就完全不同了。
Agentic AI 真正改变的,不是模型,而是执行链
一个普通聊天模型,核心是输出内容。一个 agent,核心是把事情做完。为了完成任务,agent 往往不是只调用一次模型,而是要经历多轮推理、多次工具调用和持续状态管理。比如一个 coding agent,收到任务后,可能会先读代码、搜文件、执行命令、跑测试、修 bug、再跑一次,最后才给出结果。你会发现,这里面真正属于 GPU 的,主要还是模型推理那一段。剩下的大量动作,更依赖 CPU、内存、网络和存储。也就是说,过去是“推理主导系统”,现在变成了“系统承载推理”。这个变化非常关键,因为当 AI 从“会说”变成“会做”,真正决定价值的,就不只是模型本身,而是整套系统能不能把模型组织成行动。而行动这件事,本来就是 CPU 的世界。
为什么 Agentic AI 会明显抬高 CPU 需求?
原因其实很直接。第一,任务链变长了。单轮问答很短,agent 执行很长。链路一长,调度、编排、状态管理、异常恢复这些工作都会放大,而这些都是 CPU 侧的事情。第二,工具调用天然偏 CPU。文件系统、数据库、浏览器、搜索、API、代码执行、权限系统、日志系统,这些都不属于 GPU 的强项。agent 越接近真实工作流,越离不开 CPU。第三,RAG 和数据访问本来就重度依赖 CPU。向量库、缓存、关系库、消息队列、文档检索、内容重排、prompt 构造,这些环节看上去不“性感”,但在生产系统里往往最耗资源,也最容易成为瓶颈。第四,GPU 太贵了,不能空转。如果前面的 CPU 层准备不及时,GPU 就只能等。调度慢了,GPU 在等;检索慢了,GPU 在等;工具调用卡住了,GPU 还是在等。所以很多 CPU 投入,本质上不是在增强 CPU,而是在保护 GPU 利用率。第五,多 agent 协作会进一步放大 CPU 压力。未来企业里的 AI 系统,大概率不是一个 agent,而是一组 agent 分工合作。谁负责检索,谁负责执行,谁负责校验,谁负责汇总,这背后会带来更多同步、路由、容错和观测问题,而这些复杂度主要都压在 CPU 和系统软件层上。
最大的变化是,企业不能再把 AI Infra 简单理解成“买 GPU”。未来真正要建设的,不只是一个推理集群,而是一套能够支撑 agent 持续运行的执行系统。这里面既要有 GPU 层,也要有足够厚的 CPU 层、数据层和编排层。换句话说,未来基础设施竞争,比的不会只是“谁卡多”,而是“谁能把整套系统做顺”。谁能把检索、推理、工具调用、执行、反馈闭成一个环,谁能把 GPU 利用率做高,谁能把 agent 的任务完成时间真正压下来,谁才更可能在下一阶段拿到实际价值。
最后
过去几年,CPU 在 AI 讨论里一度有些边缘化。但 Agentic AI 的出现,正在把它重新拉回中心。因为当 AI 只是回答问题时,GPU 决定上限。当 AI 开始执行任务时,系统复杂度就会迅速上升,而这些复杂度,大多数不会自动落到 GPU 身上。GPU 负责推理。CPU 负责把事情接住。所以 CPU:GPU 从 1:4 走向 1:2,甚至 1:1,背后不是一个简单的采购比例变化,而是一个更大的信号:AI 正在从模型时代,走向系统时代。
基本文件流程错误SQL调试
请求信息 : 2026-05-14 14:51:29 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/622800.html