乐于分享
好东西不私藏

硬件底座全栈演进,夯实 AI 终端核心能力(72页报告)

硬件底座全栈演进,夯实 AI 终端核心能力(72页报告)

如需报告请联系客服或扫码获取更多报告

2025 年,终端硬件技术的竞争已超越了单纯的参数堆砌,转向 了对 AI 体验的全面支撑。芯片不再只是算得快,更要算得巧;传感 器不再只是拍得清,更要看得懂。本章将从芯片、存储、感知、连 接与能效五个维度,解析硬件如何通过底层进化,为 AI 终端的“四 新”能力提供坚实的物理支撑(表 5)。

(一)芯片架构持续演进,强化端侧 AI 核心算力 

1.手机处理器架构持续优化,功能集成全场景化 

2025 年,手机处理器围绕制程工艺、微架构优化、异构算力协 同、存储带宽优化与能效管理等持续演进,为全场景 AI 体验提供底 层技术支撑。制程工艺已迈入 3nm–4nm 时代,台积电 N2 工艺的量 产带来同等性能下 10—30%的功耗优化,为高负载 AI 任务提供能效 基础。处理器性能演进全面转向架构驱动,各厂商通过不同技术路 径持续提升算力:苹果采用自研 Firestorm 等核心优化微架构;高通 推进 Oryon 架构迭代;联发科采用 ARM 最新 C1-Ultra 大核;三星 优化其定制核心,均实现 5%以上的主频提升与 30%以上的缓存扩容。

在功能集成方面,“CPU+GPU+NPU”的异构计算架构已成为行业标配。CPU 计算效率提升显著,通过大容量缓存与统一内存架构优化,显著降低数据搬运开销;GPU 引入硬件级光线追踪技术大幅提升阴影、反射与全局光照的真实感;NPU 已成为端侧 AI 推理的核心引擎,峰值算力突破 100TOPS,部分产品已支持 BitNet 1.58bit 超低比特推理与存算一体架构,使 4K 文生图等复杂 AI 任务在终端 实时运行成为可能(图 6)。存储性能同步跃升,LPDDR5X 内存带 宽突破 8533 Mbps,UFS 4.1 存储随机读取性能达 500K IOPS,配合 统一内存架构有效缓解“存储墙”瓶颈。能效管理采用多级动态电 压频率调节、场景感知功耗调度与 AI 驱动的预测模型,将整机功耗 控制在可持续运行阈值内。处理器通过软硬协同调度机制,实现 NPU、GPU、DSP 与 CPU 之间的动态负载分配与任务卸载,成为支撑多模 态感知、实时语义理解与情境智能决策的关键基础设施(表 6)。

芯片架构的技术跃迁,是 AI 终端实现“四新”特征的算力基石。 在认知协同层面,NPU 与 CPU、GPU 的协同调度,使多模态感知和 实时语义理解成为可能;在场景预见层面,低功耗 AI 算力支持终端 持续感知与预测,实现主动服务;在意图驱动层面,混合精度计算 架构支撑端侧大模型的高效运行,为意图理解与任务拆解提供基础; 在服务共生层面,能效平衡的异构计算为跨设备任务协同提供支撑, 使终端群能够智能分配计算负载。芯片技术从参数竞争到体验驱动 的转变,为“四新”特征的全面实现提供了坚实的物理基础。 

2.PC 处理器算力与能效突破,增强 AI 应用支撑能力 

当前随着大模型向端侧发展,AI PC 进入爆发阶段,AI 功能从 基础辅助转向 AI 生产力工具演进,落地覆盖办公、创作、行业等场 景应用。在 AI 技术驱动下,PC 处理器由 CPU 主导、GPU 协同向集 成 NPU 发展,从单一任务向算力协同、功能互补的一体化架构演进, 同时算力和工艺制程等持续突破,支持更强的端侧 AI 能力,驱动 PC 能力跃升,为 AI PC 场景应用夯实技术底座(表 7)。

在该阶段,一是“CPU+GPU+NPU”异构协同成为 AI PC 处理 器主流架构,AI 算力显著提升这一阶段标志性事件是,2023 年英 特尔第 14 代酷睿(Meteor Lake 架构)首度将 NPU 集成入 PC 处理 器,AI 任务能效比为上代产品的 2.5 倍。此外,高通、英伟达逐步 推出 ARM 架构 PC 处理器,渗透 AI PC 芯片市场。例如,高通发布 骁龙 X Elite 芯片,可在 ARM PC 上流畅运行 130 亿参数大模型,实 现百毫秒级实时翻译,功耗仅 1.5W(NPU 单独运行的极限值)。 

二是先进工艺制程进一步推动算力与能效双重突破,主流制程进入 3nm-4nm 时代例如,台积电 3nm 工艺(N3B\N3E)应用于英特尔酷睿 Ultra 200 系列、苹果 M4 芯片,4nm 工艺用于高通骁龙 X Elite、AMD 锐龙 AI Max+395。NPU 在算力提升的同时进一步降低 功耗,如苹果 M4 的 NPU 在 38TOPS 算力下,功耗仅 4W,较 M1 的神经网络引擎(16TOPS/3W)实现“算力翻倍+功耗微增”。 

三是 PC 芯片 AI 软件栈提升主流 AI 模型和框架等兼容适配能 力,以充分发挥端侧 AI 应用支撑能力PC 芯片 AI 软件栈作为连接 硬件算力与 AI 应用的桥梁,其兼容适配能力直接决定了端侧 AI 应 用的性能表现和用户体验。如英特尔推出 OpenVINO™工具套件, 通过统一的硬件抽象层和 API 接口,支持 PyTorch、TensorFlow 等模 型转换、硬件算力灵活调度等,缩短端侧模型开发周期。 

AI PC 大模型支持能力与端侧 AI PC 芯片强相关,当前商用 AIPC 主流芯片以英特尔、高通、AMD 为主,受限于 AI PC 设备计算 和存储能力,在端侧能够支持 2B\3B\7B\13B 等大小模型(13B 未消 费普及)。中国信息通信研究院的检测数据表明,在性能中等的 AI PC 芯片上模型参数由 2B 增大至 32B,模型性能和体验明显下降; 当前主流商用 AI PC 端侧模型主要为 1.5-7B(图 7)。未来 AI PC 芯片将在架构、算力、制程、软件栈等方面持续协 同演进,以支持更强的模型推理性能。随着 AI PC 芯片制程工艺向 18A、14A 演进,突破 2nm 以下工艺水平,NPU 算力有望突破 100TOPS,进一步推动 AI PC 性能提升和场景赋能。 

(二)存储带宽与容量持续升级,破解“存储墙”瓶颈 

内存与存储两大技术体系协同演进,为突破制约终端 AI 性能的 “存储墙”提供技术支撑,直接赋能“四新”特征的落地。在认知 协同层面,高带宽、大容量内存是实现低延迟、高并发 AI 推理的先 决条件。内存是直接与 CPU、GPU 和 NPU 交互的存储单元,其带 宽决定了大模型权重加载与数据传输的效率。LPDDR5X 速率突破 8533Mbps,单通道容量从 16GB 向 32GB 迈进,使端侧设备能够常 驻百亿参数级大模型,确保多模态交互的流畅体验。在场景预见层 面,存储技术从简单的容量扩展升级为智能数据调度。UFS4.0 接口带宽达 4.2GB/s,3D NAND 堆叠层数突破 300 层,推动手机存储迈 入 1TB 时代。新一代存储通过智能分区与预加载机制,基于用户行 为预测模型加载优先级,实现个人知识图谱常驻与意图预测,支撑 主动服务体验。在意图驱动与服务共生层面,统一内存架构实现 CPU、 GPU、NPU 间的数据共享,为跨应用任务编排提供低延迟数据通道。 

存内计算(CIM)技术通过架构创新,将部分计算单元集成到 存储单元中,减少数据搬运开销,在特定 AI 负载场景下大幅提升能 效比。当前,CIM 技术已在部分高端终端芯片中实现应用,为突破传 统计算架构瓶颈提供了新思路。随着技术成熟,CIM 有望在能效敏 感的边缘 AI 场景发挥更重要作用,为 AI 终端的持续进化开辟新路径。 

(三)多模态感知交互体系升级,迈向感知与表达一体化 

1.手机显示体验从参数竞争到健康护眼与智能交互的融合演进 

手机显示屏历经四代演进,已从单一显示工具,演进为融合视 觉体验、健康护眼与智能交互的核心人机界面(图 8)。它正朝着能 主动感知、理解与决策的“认知界面”发展,旨在成为全场景智能 的支柱,这标志着显示技术正式步入认知协同体验驱动的新纪元。折叠 屏、屏下摄像等形态创新重塑交互边界。其中,全面屏通过屏内挖孔, 窄边框,等高四曲等技术发展,如天马 OLED 屏通过下边框弯折技 术,将屏占比推升至 94%,接近全屏显示的理想形态。