乐于分享
好东西不私藏

AI推理时代,CPU的角色正在被重新定义

AI推理时代,CPU的角色正在被重新定义

2025年1月,CES消费电子展。

英特尔的展台上,工程师们围着一台厚度不到14毫米的笔记本电脑,演示一项新功能:运行一个70亿参数的大模型,无需联网,所有推理在本地完成。处理器不是独立显卡,而是一颗集成NPU的Core Ultra 200V。

同一时间,几百米外的AMD展位,Ryzen AI MAX系列芯片被装进了一台工作站主机。AMD宣称,这颗芯片可以在本地跑一个完整的Llama模型——不需要云端,不需要GPU集群。

高通没有参加CES的实体展会,但它在发布会上的展示更具冲击力:Snapdragon X2 Elite的Hexagon NPU做到了80 TOPS的INT8算力,在笔记本电脑的电池供电下,运行了一整天的语音助手。

这不是三场独立的发布。这是同一个故事的不同切面。当所有人都在讨论大模型和GPU的时候,计算行业正在发生一场静默的革命:CPU——这颗计算机史上最古老的芯片——正在被重新定义。


一、被宣判死刑的CPU,正在被平反

2022年ChatGPT诞生之后,整个行业有一段疯狂的GPU崇拜期。

那时候的说法是:大模型的未来属于GPU。训练需要海量并行计算,推理需要高带宽内存,CPU那颗几核的标量处理器,在AI时代无关紧要了。

这个说法在训练场景下是对的。*GPT-3有1750亿参数,GPT-4据说超过万亿参数,训练这样的模型确实需要成千上万张GPU协同工作。NVIDIA的H100一张卡就要接近3万美元,还一卡难求。这个时代,是GPU的时代。

但这个叙事有一个盲区:它只描述了AI的一个阶段,而不是全部。

当大模型从实验室走向应用,从云端走向终端,从通用走向垂直,一个新的问题浮现出来:谁在承载推理?

推理不是训练。它是每一次用户提问时模型给出的响应。它是手机里那个帮你润色邮件的助手,是汽车里那个理解你语音指令的系统,是工厂里实时检测零件缺陷的视觉模型。

这些场景的共同特点是:高并发、小颗粒、低延迟、高效率。

GPU在这些场景里有两个问题:第一,功耗太高,数据中心一张H100的TDP是700W,笔记本电脑显然用不了。第二,GPU适合大规模矩阵运算,但推理里大量存在的控制流、分支预测、内存调度,恰恰是CPU的强项。

2024年开始,一个重要的反转出现了:不是GPU取代CPU,而是异构计算重新定义了CPU的位置。CPU没有出局。它只是换了一个角色。


二、从主角到指挥家:英特尔的战略转型

英特尔是这场转变中最具代表性的玩家。

2024年9月,英特尔发布Core Ultra 200V系列处理器。这是它第一次在消费级处理器里把NPU作为核心卖点:NPU算力达到48 TOPS,Xe3锐炫核显提供额外65 TOPS的GPU算力,CPU本体则负责通用计算和系统调度。

48 TOPS是什么概念?微软Copilot+ PC的标准是40 TOPS。英特尔这颗芯片刚好踩在这个门槛上。

2025年的CES上,英特尔宣布将Core Ultra 200V扩展到商用本领域,同时公布了18A制程的下一代产品规划。18A是英特尔目前最先进的制程节点,约等于1.8纳米工艺。英特尔的路线图显示,采用18A的PANTHER LAKE处理器将在2025年下半年进入量产。

英特尔的战略很清楚:不让推理上云,让推理发生在本地。

不是所有推理都需要跑到数据中心。用户的邮件润色、文档总结、语音助手响应——这些高频小任务如果都要经过云端,延迟高,成本也高。但如果能在本地CPU+NPU上跑,成本就是零,而且响应更快。

英特尔的判断是:未来80%的推理任务应该在终端完成,只有20%真正需要云端的大型模型集群。

截至2025年第一季度,戴尔、惠普、联想三家公司已经推出了超过100款搭载Core Ultra处理器的AI PC。这些机器不需要独立显卡就能跑70亿参数的本地模型。对企业用户而言,这意味着采购成本下降,IT管理复杂度下降,数据安全性反而上升。

CPU在英特尔的新架构里,是整个系统的控制平面:它决定哪个任务交给NPU,哪个交给GPU,以及数据如何在各计算单元之间流转。没有这个调度者,NPU和GPU就是各自为政的散兵游勇。


三、AMD的反击:统一内存的革命性意义

如果说英特尔是在NPU上补课,AMD的策略则是另一个方向:让CPU和GPU共享同一块内存。

2024年6月,AMD发布Ryzen AI MAX系列芯片。这颗芯片最大的技术创新是统一内存架构(Unified Memory Architecture):CPU cores和GPU cores共享同一块物理内存,最多可以配置128GB。

这在AI推理里意义重大。大模型推理的主要瓶颈是内存带宽和数据搬运。模型参数需要反复从内存加载到计算单元,如果内存和计算单元之间的带宽不足,再强的计算单元也只能等待数据。

传统PC架构里,CPU和GPU各用各的内存,中间需要通过PCIe总线传输数据。这条总线的带宽是瓶颈。AMD的统一内存架构去掉了这个瓶颈:CPU和GPU访问同一块内存,数据不需要跨总线搬运。

在实际测试中,AMD Ryzen AI MAX可以在本地运行一个完整的70亿参数模型,速度达到每秒30到40个token。这个速度对于日常交互场景已经完全可以接受。

AMD的技术判断是:未来三年的主流AI PC,将以CPU+NPU+统一内存GPU的形态存在。独立显卡的市场会被压缩到高端游戏和专业AI训练两个极端场景。

2025年第一季度,全球AI PC出货量环比增长超过60%,其中超过70%的产品采用AMD或高通平台。传统的CPU加独显组合,在AI PC这个新品类里,正在成为少数派。


四、高通的越级打击:从手机到PC

高通在AI PC这场竞争里,是一个跨维度而来的对手。

它的主业是手机SoC,但它的技术积累——尤其是Hexagon NPU和Adreno GPU——正在被复制到PC领域。2024年,高通推出Snapdragon X Elite,用ARM架构的8核Oryon CPU和45 TOPS的Hexagon NPU,直接杀入Windows PC市场。这是ARM架构第一次在PC领域正面挑战x86。

2025年的CES,高通发布了Snapdragon X2 Elite,进一步扩大战果。这颗芯片的参数在发布时震动了整个行业:

– 最高18核心,Oryon CPU架构
– Hexagon NPU算力达到80 TOPS
– 5.0 GHz boost频率
– 功耗控制在45瓦左右
– 支持LPDDR5X内存

80 TOPS的NPU算力,已经超过了微软Copilot+ PC标准的一倍。更关键的是,高通的芯片基于ARM架构,能效比远高于传统x86处理器。同样的电池容量下,搭载骁龙芯片的AI PC续航可以达到20小时以上,而搭载x86处理器的竞品通常在10到14小时之间。

高通的战略意图非常清晰:手机SoC的成功经验,可以复制到PC。

高通在Hexagon NPU上积累的AI加速技术、功耗优化技术、异构计算调度技术,最初都是为了手机场景设计的,但这些技术恰好也是AI PC最需要的。

在高通的路线图里,下一代芯片的NPU算力将突破100 TOPS。届时,一台搭载高通芯片的笔记本电脑,将可以在本地运行超过100亿参数的模型,而这个功耗只需要几十瓦。


五、苹果的护城河:统一内存的极致玩家

如果要选一个把CPU+NPU+统一内存做得最极致的公司,答案是苹果。

2024年,苹果发布M4系列芯片。M4 Max版本有16个CPU核心、40个GPU核心,以及一个38 TOPS的Neural Engine神经引擎。但更关键的是:M4 Max最多可以配置128GB的统一内存,内存带宽达到546 GB/s。

这组数字是什么意思?NVIDIA的H100 SXM5芯片内存带宽是3.35 TB/s,但那是价值几十万元的数据中心芯片。苹果这颗芯片的内存带宽是546 GB/s,而它的功耗只有几十瓦——这是笔记本电脑的功耗级别。

苹果的官方演示里,M4 Max可以在本地运行一个70亿参数的模型,生成速度达到每秒40个token以上。更重要的是:整个过程在MacBook Air上进行,设备没有主动散热,只靠被动散热片。

苹果的优势来自一个独特的闭环:它同时控制芯片设计、操作系统和开发工具链。这种垂直整合能力,是其他任何PC芯片厂商都不具备的。


六、算力格局正在重构的三条规律

规律一:推理正在从云端回流到终端

原因有三个:成本、延迟和隐私。成本方面,云端租一张H100跑推理按小时计费,价格不菲,但如果能在本地NPU上跑,成本就是硬件折旧,几乎为零。延迟方面,本地推理通常在50毫秒以内,云端加上网络往返通常在200到500毫秒之间。隐私方面,企业用户越来越不愿意把敏感数据发送到云端。

规律二:CPU的角色从计算核心变成调度核心

AI计算有三种完全不同性质的任务:大规模矩阵运算(GPU擅长)、专用神经网络运算(NPU擅长)、通用逻辑和控制流(CPU擅长)。没有单一芯片能同时高效处理这三类任务。CPU的角色发生了根本性转变:它不再是主要计算单元,而是系统调度者。这个转变对CPU架构设计产生了深远影响。

规律三:AI PC将重新定义计算机架构

当前AI PC的内存配置上限(128GB)将成为瓶颈。运行500亿参数的模型,至少需要256GB统一内存。各家芯片厂商的路线图里,256GB统一内存已经在开发中。


七、中国芯片玩家的机会与挑战

华为海思的昇腾系列(910B和910C)是目前国内最成熟的AI推理芯片。虽然受制程限制,单芯片算力与NVIDIA高端产品有差距,但在特定场景下已经具备了商业化部署能力。鲲鹏920的AI加速引擎已经可以支持70亿参数模型的推理需求。

再看挑战。制程是最核心的瓶颈——7纳米以下制程的芯片制造,国内目前还无法量产。其次是生态:NVIDIA的CUDA生态是AI开发的事实标准,切换到国产芯片平台意味着重新优化,成本非常高。

但这个挑战也同时是机遇:如果国产芯片平台能够提供足够好的性能和足够低的价格,部分国内企业是愿意承担迁移成本的。这给了国产芯片厂商在本土市场建立生态的时间窗口。


八、未来十年的四个判断

判断一:到2030年,70%的AI推理任务将发生在终端

当模型足够小、硬件足够便宜,终端推理的总成本将低于云端。这个趋势不会停止。

判断二:异构计算架构将持续十年

CPU+NPU+GPU+专用加速器的异构方案会持续优化,但方向不会变。

判断三:AI PC将取代传统PC成为市场主流

就像当年多媒体PC取代传统PC一样,AI PC取代传统PC的时间窗口已经开始打开。

判断四:独立GPU的市场将被严重压缩

NVIDIA在AI训练市场的地位不可撼动,但在推理市场和终端市场,它面临来自CPU+NPU异构方案的强力竞争。


结语

回到开头那三场CES发布会。

英特尔在说:CPU可以调度NPU跑推理。AMD在说:统一内存让CPU和GPU协同更高效。高通在说:ARM架构能以更低功耗做到更强的AI算力。

三个演讲,三种技术路径,讲的是同一件事:AI时代,计算的形态正在被重新定义。

CPU没有死。它只是换了一种活法。

它从舞台中央退到幕后,从主角变成了指挥家。这个角色没有聚光灯,但它决定了整个系统的运转效率。

历史上,很多重要的变革都遵循这个规律:从台前走到幕后的人,往往比看起来的更重要。

芯片行业正在验证这个规律。