AI推理时代,CPU的角色正在被重新定义-夜雨聆风

AI推理时代,CPU的角色正在被重新定义

2025年1月，CES消费电子展。

英特尔的展台上，工程师们围着一台厚度不到14毫米的笔记本电脑，演示一项新功能：运行一个70亿参数的大模型，无需联网，所有推理在本地完成。处理器不是独立显卡，而是一颗集成NPU的Core Ultra 200V。

同一时间，几百米外的AMD展位，Ryzen AI MAX系列芯片被装进了一台工作站主机。AMD宣称，这颗芯片可以在本地跑一个完整的Llama模型——不需要云端，不需要GPU集群。

高通没有参加CES的实体展会，但它在发布会上的展示更具冲击力：Snapdragon X2 Elite的Hexagon NPU做到了80 TOPS的INT8算力，在笔记本电脑的电池供电下，运行了一整天的语音助手。

这不是三场独立的发布。这是同一个故事的不同切面。当所有人都在讨论大模型和GPU的时候，计算行业正在发生一场静默的革命：CPU——这颗计算机史上最古老的芯片——正在被重新定义。

一、被宣判死刑的CPU，正在被平反

2022年ChatGPT诞生之后，整个行业有一段疯狂的GPU崇拜期。

那时候的说法是：大模型的未来属于GPU。训练需要海量并行计算，推理需要高带宽内存，CPU那颗几核的标量处理器，在AI时代无关紧要了。

这个说法在训练场景下是对的。*GPT-3有1750亿参数，GPT-4据说超过万亿参数，训练这样的模型确实需要成千上万张GPU协同工作。NVIDIA的H100一张卡就要接近3万美元，还一卡难求。这个时代，是GPU的时代。

但这个叙事有一个盲区：它只描述了AI的一个阶段，而不是全部。

当大模型从实验室走向应用，从云端走向终端，从通用走向垂直，一个新的问题浮现出来：谁在承载推理？

推理不是训练。它是每一次用户提问时模型给出的响应。它是手机里那个帮你润色邮件的助手，是汽车里那个理解你语音指令的系统，是工厂里实时检测零件缺陷的视觉模型。

这些场景的共同特点是：高并发、小颗粒、低延迟、高效率。

GPU在这些场景里有两个问题：第一，功耗太高，数据中心一张H100的TDP是700W，笔记本电脑显然用不了。第二，GPU适合大规模矩阵运算，但推理里大量存在的控制流、分支预测、内存调度，恰恰是CPU的强项。

2024年开始，一个重要的反转出现了：不是GPU取代CPU，而是异构计算重新定义了CPU的位置。CPU没有出局。它只是换了一个角色。

二、从主角到指挥家：英特尔的战略转型

英特尔是这场转变中最具代表性的玩家。

2024年9月，英特尔发布Core Ultra 200V系列处理器。这是它第一次在消费级处理器里把NPU作为核心卖点：NPU算力达到48 TOPS，Xe3锐炫核显提供额外65 TOPS的GPU算力，CPU本体则负责通用计算和系统调度。

48 TOPS是什么概念？微软Copilot+ PC的标准是40 TOPS。英特尔这颗芯片刚好踩在这个门槛上。

2025年的CES上，英特尔宣布将Core Ultra 200V扩展到商用本领域，同时公布了18A制程的下一代产品规划。18A是英特尔目前最先进的制程节点，约等于1.8纳米工艺。英特尔的路线图显示，采用18A的PANTHER LAKE处理器将在2025年下半年进入量产。

英特尔的战略很清楚：不让推理上云，让推理发生在本地。

不是所有推理都需要跑到数据中心。用户的邮件润色、文档总结、语音助手响应——这些高频小任务如果都要经过云端，延迟高，成本也高。但如果能在本地CPU+NPU上跑，成本就是零，而且响应更快。

英特尔的判断是：未来80%的推理任务应该在终端完成，只有20%真正需要云端的大型模型集群。

截至2025年第一季度，戴尔、惠普、联想三家公司已经推出了超过100款搭载Core Ultra处理器的AI PC。这些机器不需要独立显卡就能跑70亿参数的本地模型。对企业用户而言，这意味着采购成本下降，IT管理复杂度下降，数据安全性反而上升。

CPU在英特尔的新架构里，是整个系统的控制平面：它决定哪个任务交给NPU，哪个交给GPU，以及数据如何在各计算单元之间流转。没有这个调度者，NPU和GPU就是各自为政的散兵游勇。

三、AMD的反击：统一内存的革命性意义

如果说英特尔是在NPU上补课，AMD的策略则是另一个方向：让CPU和GPU共享同一块内存。

2024年6月，AMD发布Ryzen AI MAX系列芯片。这颗芯片最大的技术创新是统一内存架构（Unified Memory Architecture）：CPU cores和GPU cores共享同一块物理内存，最多可以配置128GB。

这在AI推理里意义重大。大模型推理的主要瓶颈是内存带宽和数据搬运。模型参数需要反复从内存加载到计算单元，如果内存和计算单元之间的带宽不足，再强的计算单元也只能等待数据。

传统PC架构里，CPU和GPU各用各的内存，中间需要通过PCIe总线传输数据。这条总线的带宽是瓶颈。AMD的统一内存架构去掉了这个瓶颈：CPU和GPU访问同一块内存，数据不需要跨总线搬运。

在实际测试中，AMD Ryzen AI MAX可以在本地运行一个完整的70亿参数模型，速度达到每秒30到40个token。这个速度对于日常交互场景已经完全可以接受。

AMD的技术判断是：未来三年的主流AI PC，将以CPU+NPU+统一内存GPU的形态存在。独立显卡的市场会被压缩到高端游戏和专业AI训练两个极端场景。

2025年第一季度，全球AI PC出货量环比增长超过60%，其中超过70%的产品采用AMD或高通平台。传统的CPU加独显组合，在AI PC这个新品类里，正在成为少数派。

四、高通的越级打击：从手机到PC

高通在AI PC这场竞争里，是一个跨维度而来的对手。

它的主业是手机SoC，但它的技术积累——尤其是Hexagon NPU和Adreno GPU——正在被复制到PC领域。2024年，高通推出Snapdragon X Elite，用ARM架构的8核Oryon CPU和45 TOPS的Hexagon NPU，直接杀入Windows PC市场。这是ARM架构第一次在PC领域正面挑战x86。

2025年的CES，高通发布了Snapdragon X2 Elite，进一步扩大战果。这颗芯片的参数在发布时震动了整个行业：

– 最高18核心，Oryon CPU架构
– Hexagon NPU算力达到80 TOPS
– 5.0 GHz boost频率
– 功耗控制在45瓦左右
– 支持LPDDR5X内存

80 TOPS的NPU算力，已经超过了微软Copilot+ PC标准的一倍。更关键的是，高通的芯片基于ARM架构，能效比远高于传统x86处理器。同样的电池容量下，搭载骁龙芯片的AI PC续航可以达到20小时以上，而搭载x86处理器的竞品通常在10到14小时之间。

高通的战略意图非常清晰：手机SoC的成功经验，可以复制到PC。

高通在Hexagon NPU上积累的AI加速技术、功耗优化技术、异构计算调度技术，最初都是为了手机场景设计的，但这些技术恰好也是AI PC最需要的。

在高通的路线图里，下一代芯片的NPU算力将突破100 TOPS。届时，一台搭载高通芯片的笔记本电脑，将可以在本地运行超过100亿参数的模型，而这个功耗只需要几十瓦。

五、苹果的护城河：统一内存的极致玩家

如果要选一个把CPU+NPU+统一内存做得最极致的公司，答案是苹果。

2024年，苹果发布M4系列芯片。M4 Max版本有16个CPU核心、40个GPU核心，以及一个38 TOPS的Neural Engine神经引擎。但更关键的是：M4 Max最多可以配置128GB的统一内存，内存带宽达到546 GB/s。

这组数字是什么意思？NVIDIA的H100 SXM5芯片内存带宽是3.35 TB/s，但那是价值几十万元的数据中心芯片。苹果这颗芯片的内存带宽是546 GB/s，而它的功耗只有几十瓦——这是笔记本电脑的功耗级别。

苹果的官方演示里，M4 Max可以在本地运行一个70亿参数的模型，生成速度达到每秒40个token以上。更重要的是：整个过程在MacBook Air上进行，设备没有主动散热，只靠被动散热片。

苹果的优势来自一个独特的闭环：它同时控制芯片设计、操作系统和开发工具链。这种垂直整合能力，是其他任何PC芯片厂商都不具备的。

六、算力格局正在重构的三条规律

规律一：推理正在从云端回流到终端

原因有三个：成本、延迟和隐私。成本方面，云端租一张H100跑推理按小时计费，价格不菲，但如果能在本地NPU上跑，成本就是硬件折旧，几乎为零。延迟方面，本地推理通常在50毫秒以内，云端加上网络往返通常在200到500毫秒之间。隐私方面，企业用户越来越不愿意把敏感数据发送到云端。

规律二：CPU的角色从计算核心变成调度核心

AI计算有三种完全不同性质的任务：大规模矩阵运算（GPU擅长）、专用神经网络运算（NPU擅长）、通用逻辑和控制流（CPU擅长）。没有单一芯片能同时高效处理这三类任务。CPU的角色发生了根本性转变：它不再是主要计算单元，而是系统调度者。这个转变对CPU架构设计产生了深远影响。

规律三：AI PC将重新定义计算机架构

当前AI PC的内存配置上限（128GB）将成为瓶颈。运行500亿参数的模型，至少需要256GB统一内存。各家芯片厂商的路线图里，256GB统一内存已经在开发中。

七、中国芯片玩家的机会与挑战

华为海思的昇腾系列（910B和910C）是目前国内最成熟的AI推理芯片。虽然受制程限制，单芯片算力与NVIDIA高端产品有差距，但在特定场景下已经具备了商业化部署能力。鲲鹏920的AI加速引擎已经可以支持70亿参数模型的推理需求。

再看挑战。制程是最核心的瓶颈——7纳米以下制程的芯片制造，国内目前还无法量产。其次是生态：NVIDIA的CUDA生态是AI开发的事实标准，切换到国产芯片平台意味着重新优化，成本非常高。

但这个挑战也同时是机遇：如果国产芯片平台能够提供足够好的性能和足够低的价格，部分国内企业是愿意承担迁移成本的。这给了国产芯片厂商在本土市场建立生态的时间窗口。

八、未来十年的四个判断

判断一：到2030年，70%的AI推理任务将发生在终端

当模型足够小、硬件足够便宜，终端推理的总成本将低于云端。这个趋势不会停止。

判断二：异构计算架构将持续十年

CPU+NPU+GPU+专用加速器的异构方案会持续优化，但方向不会变。

判断三：AI PC将取代传统PC成为市场主流

就像当年多媒体PC取代传统PC一样，AI PC取代传统PC的时间窗口已经开始打开。

判断四：独立GPU的市场将被严重压缩

NVIDIA在AI训练市场的地位不可撼动，但在推理市场和终端市场，它面临来自CPU+NPU异构方案的强力竞争。

结语

回到开头那三场CES发布会。

英特尔在说：CPU可以调度NPU跑推理。AMD在说：统一内存让CPU和GPU协同更高效。高通在说：ARM架构能以更低功耗做到更强的AI算力。

三个演讲，三种技术路径，讲的是同一件事：AI时代，计算的形态正在被重新定义。

CPU没有死。它只是换了一种活法。

它从舞台中央退到幕后，从主角变成了指挥家。这个角色没有聚光灯，但它决定了整个系统的运转效率。

历史上，很多重要的变革都遵循这个规律：从台前走到幕后的人，往往比看起来的更重要。

芯片行业正在验证这个规律。