当前时间: 2026-06-04 00:27:09
分类:办公文件
评论(0)
AI推理带动CPU需求持续上行·算力结构向推理转移趋势:当前AI模型算力结构从训练向推理倾斜已成为行业共识,硬件公司、模型厂商、二级市场相关参与方均形成一致预期。头部厂商的动作也印证了这一趋势:英伟达多次表示推理市场未来总量将是训练市场的数倍,头部云厂商对推理的CapEx投资已经超过训练,未来训练与推理的算力分布比例将从之前的7:3变化为3:7,推理成为算力核心是行业发展的必然趋势。·CPU/GPU场景负载差异:CPU与GPU的核心架构差异决定了二者适用不同场景:CPU在分支处理、控制调度能力上优势更突出,保留了更多缓存及控制单元,走压低延迟的技术路线;GPU追求极致并行运算能力,绝大多数晶体管用于运算,走堆高并发的技术路线,二者最终目标均为提升吞吐量。训练场景下,任务以高度规整、高并发、高同步的大规模稠密矩阵运算为主,GPU发挥主力作用,CPU仅承担数据准备加载、通信调度等辅助工作,耗时占比仅为10%-30%,GPU耗时占比达70%-90%。推理场景具有碎片化、小批次、低延迟的特点,CPU需要承接请求解析、分词、历史KV检索、Decode后采样、KV Cache管理、输出生成等工作,叠加CPU外挂DDR5方案性价比优势逐步凸显,推理场景下CPU可完成70%以上的子任务,成为算力主力。实测数据也验证了CPU在推理场景的适配性:7B/13B模型用CPU运行吞吐量峰值损失仅3-7个点,Llama3.2 3B模型用CPU跑推理速度可达80token/秒,完全能满足边缘私有部署、中小企业场景需求,中小模型推理场景下CPU使用效率将持续提升。·CPU/GPU配比变化趋势:随着AI模型算力结构从训练向推理切换,CPU与GPU的硬件配比变化是必然趋势。二者配比将从过去的1:8收紧至当前的1:4,未来还有望逐步收敛至1:1,甚至出现2:1的可能,CPU需求将迎来确定性的增长空间。·指令集迭代升级:CPU指令集历经从通用计算到AI原生的四代演进:第一代引入SSE、AVX技术,实现从纯标量到向量计算的升级;后续逐步增强推理能力,第四代引入AMX技术,通过专用寄存器加配套引擎将矩阵乘从分解向量计算升级为整块计算,AMX指令集相比AVX指令集的运算能力提升20余倍,同时保留CPU控制调度等通用功能,本质是在原有基础上新增并行运算能力,适配AI算力需求。·核心数规模增长:CPU核心数呈爆炸式增长,从早期的28核攀升至当前最高288核,提升约10倍。核心数增长一方面适配AI推理对并发任务处理能力的要求:AI推理需处理数百万独立用户请求,天然需要大量独立CPU核心并发处理,每个核心独立服务一个推理请求可阻隔资源干扰,单台服务器可并发运行更多实例,满足推理及Agent AI时代需求;另一方面也同步放大总算力,当CPU核心数从64增长到288时,整体算力提升约4.5倍。·内存子系统优化:AI推理decoding阶段是存储端限制场景,生成每个token的瓶颈在于内存读取量而非运算次数,解决内存墙问题优先级更高。CPU内存子系统的升级路径包括:a.内存规格从DDR4演进到DDR5,单条容量、带宽实现翻倍;b.内存通道数从8增至12,平台内存带宽容量进一步翻倍;此外还可通过CHL内存池化挂载更大外部内存、HBM-on-CPU、3D多级缓存等技术打破存储瓶颈,缓解上下文场景KV Cache压力。三大技术方向协同升级实现1+1+1>3的效果,CPU AI能力得到多倍提升,可满足现阶段AI需求。·工作负载特征反转:传统大语言模型的推理思路为尽量凑大batch提高GPU利用率,而Agent推理为串行模式,小batch推理和低延迟特征会导致GPU利用率显著下降,CPU前后处理时间随之上升,模型瓶颈从GPU算力转移到CPU协同效率。研究结果显示Agent任务中整体GPU利用率不足50%,印证该逻辑对CPU需求的拉动作用。·调度环节依赖CPU:Agent的工具调用、沙箱运行、多智能体调度等天然环节更适配CPU能力:a.工具调用环节,Agent核心能力包括代码执行、网站搜索、API调用、数据库查询等,GPU调度能力欠缺,每次工具调用本质都依赖CPU,五类Agent场景中CPU侧工具调用耗时占总延迟的比例最高可达90%;b.沙箱运行环节,Agent执行用户代码需在沙箱环境运行,要求强安全隔离、轻量快速启动,GPU原生硬件缺乏安全隔离和I/O能力,虚拟化调度成本高,依托CPU实现沙箱执行更合理,每个Agent任务需要独立沙箱实例,会同步增加CPU核心数需求;c.多智能体调度环节,CPU工作逻辑密集、分支复杂、弹性度高,可作为系统中央大脑编排Agent子任务、管理Agent状态、保障长周期任务连续性,避免冲突冗余。·RAG场景适配优势:上下文加RAG的检索场景下,RAG天然需要工作记忆类上下文,工具调用历史、推理思考过程、外部检索结果等信息共同构成完整决策链,会导致Token规模迅速膨胀,GPU在该类场景下容量受限易导致TV cache溢出,CPU+DDR5方案更具适配优势,同时上下文中的文本压缩和工程化工作也可在CPU上完成。综合上述机制,AI时代CPU的核心数及总量需求将迎来爆发。·指令集竞争格局:当前CPU产业增量逻辑确定性较强,相关赛道将受益。从指令集维度划分,CPU分为x86、ARM、RISC-V三大阵营,目前主流为x86与ARM两大路线,二者均受益于产业发展趋势。其中x86侧重云端算力场景,ARM则凭借核心密度、能效AI协同优势,成为端侧场景主力,同时其在桌面级、服务器端的渗透率持续提升:当前英伟达、AWS均发布基于ARM的CPU,与自身GPU构建协同算力网,国内阿里等厂商也在跟进相关布局。叠加云侧渗透率提升及端侧场景增长,ARM相比x86有望实现更高的阿尔法增速。·市场规模与发展预判:CPU放量逻辑十分明确,在AI推理及端侧需求推动下,第三方预测数据显示,2025-2030年服务器CPU收入规模将从266亿美元增长至1252亿美元,复合增速达36%,增长弹性突出。短期来看,今年通用服务器出货受到一定压制,存储涨价是主要负面影响因素,对CPU产业的高速增长造成阶段性扰动,但剔除该因素后,CPU长期增长逻辑依然清晰,2026年将成为CPU受益AI云放量的元年。·相关投资标的推荐:当关注国产CPU核心标的及供应链相关标的,具体包括:a.国产CPU核心厂商:海光信息、ARM路线的熠知电子(被合盛新材收购)、龙芯;b.CPU供应链标的:广和、澜起、通富。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-06-04 10:00:46 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/708113.html
- 运行时间 : 0.136595s [ 吞吐率:7.32req/s ] 内存消耗:4,729.63kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=641cfd7dfa92e2b9d2ab3984f498a96e
- CONNECT:[ UseTime:0.000585s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000772s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000284s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000259s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000540s ]
- SELECT * FROM `set` [ RunTime:0.000235s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000519s ]
- SELECT * FROM `article` WHERE `id` = 708113 LIMIT 1 [ RunTime:0.000412s ]
- UPDATE `article` SET `lasttime` = 1780538446 WHERE `id` = 708113 [ RunTime:0.011459s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000401s ]
- SELECT * FROM `article` WHERE `id` < 708113 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.000556s ]
- SELECT * FROM `article` WHERE `id` > 708113 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.004729s ]
- SELECT * FROM `article` WHERE `id` < 708113 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.003492s ]
- SELECT * FROM `article` WHERE `id` < 708113 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.014291s ]
- SELECT * FROM `article` WHERE `id` < 708113 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.001992s ]
0.140538s