苹果WWDC26前瞻:软件大会变硬件大年,跟华为抢首发HBF架构,台积电2nm M6芯片AI HPC和iPhone18Pro炸场

「

苹果解决内存危机

」

与以往不同，今年的WWDC26预计将是硬件大年，多款影响整个计算机市场的重磅硬件产品和技术，将会首发！今天AI顿悟涌现时就来详解一下今年的重点！

预计会有A19 Pro版MacBook Neo、iPad Pro M6、MacBook Ultra、全新HPC AI超算，大概率还有iPhone。从今年开始，iPhone会像MacBook一样变成一年两发。

其中，影响端侧AI推理生态，极具开创性的类HBF高宽带闪存架构技术，预计会连同M6、A20系列芯片发布。这个是重中之重！

很多地方会把HBF（High Bandwidth Flash，高带宽闪存）视为GPU直连NAND Flash的技术。实际上，这一说法并不严肃。对比HBM技术，HBF实际上是一套复杂的近存计算架构。

就是：

“多层级统一内存池”

这一技术，现在苹果、华为、英伟达、AMD、Google都在做。

整体架构方案：

寄存器↓SRAM↓HBM↓DDR↓CXL Memory↓Flash Pool

要知道未来AI服务器：

重点不是单一显存，

而是：

“数据分层调度能力”

谁能：

提前预测数据
智能预取
动态迁移权重
减少HBM占用

谁效率就高。

其中，苹果在这一领域拥有先发优势。除了成功的UMA统一内存架构、DMA直接内存访问，苹果使用自己定制的NVMe规范闪存技术，能够更快速地完成新技术架构落地。

加上苹果独家使用的SoIC封装技术，能够最大限度控制功耗发热，解决NAND Flash闪存不耐热、难以与SoC芯片堆叠封装的问题。

预计，此次苹果WWDC26，会发布基于TSMC台积电2nm制程的全新系列芯片产品。其中HBF架构技术突破是关键。

HBF 是什么？

HBF 是一种新兴内存技术，基于NAND Flash（类似 SSD 用的存储介质），采用与HBM（High Bandwidth Memory）类似的 3D 堆叠架构：

通过硅穿孔（TSV）将多层 NAND 芯片垂直堆叠（可达 16 层或更多）。
配以逻辑基底 die，通过interposer（中介层）与 GPU 直接相连。
提供接近 HBM 的高带宽，但容量远大于 HBM（单堆栈可达 512GB~数 TB，整体可实现 GPU 旁 4TB+ 容量）。

它不是传统通过 PCIe 连接的 SSD，而是像 HBM 一样作为 GPU 的“近内存”（near-memory），带宽可匹配或接近 HBM 级别（TB/s 量级），远快于普通 SSD。

闪存虽然不像内存那样拥有极低的延迟，但对于AI推理服务，这种需要大规模队列读取AI大模型参数的场景来说，正好完全匹配。这种需求无需频繁索引数据，所以对延迟要求不高，只追求队列读取参数数据的速度。

主要目的和特点

解决 AI 推理（Inference）痛点
：HBM 容量有限（目前单 GPU 通常几十到几百 GB），大模型需要频繁从 SSD 加载数据导致延迟。HBF 提供 8-16 倍甚至更高的容量，可让整个大模型或大部分参数直接驻留在 GPU 旁，加速推理、降低功耗。
常与 HBM 混合使用
：如 SK Hynix 的 H³ 架构，将 HBM（高速低延迟）和 HBF（大容量）一起通过 interposer 连到 GPU，HBF 可作为 HBM 的缓存或扩展。
优势
：成本低（NAND 比 DRAM 便宜得多）、容量大。
挑战
：延迟比 DRAM 高、写入 endurance 有限（适合读密集的推理场景）、功耗管理等。复杂的预取/分页控制器研发测试和标准化周期长，目前仍在开发中，预计 2027-2028 年左右商用。

从更符合大家直觉的角度来解释，HBF是一种把 Flash 存储器尽可能靠近 AI/GPU 计算单元的高带宽存储架构思路，本质属于“Storage-Class Memory / Near-Memory Storage / Flash-Based Buffering”方向，而不是传统意义的 HBM 内存。

你可以简单理解成：

HBF = “让 NAND Flash 像超大容量、低成本的扩展显存一样工作”的一种新型架构。

但它和真正的 HBM 有本质区别。

一句话区别

技术	本质
HBM	GPU直连DRAM高带宽内存
HBF	GPU/AI加速器近距离连接Flash存储
NAND Flash	大容量、低成本，但高延迟存储

HBF到底是什么

目前业内提到的“HBF（High Bandwidth Flash）”，多数是：

铠侠（Kioxia）
西部数据
部分日本/韩国研究机构

提出的：

“高带宽 Flash AI 数据供给架构”

核心目标：

用 Flash 替代一部分昂贵 HBM/DDR 的容量压力。

因为现在 AI 最大问题之一：

不是算力不够，

而是：

GPU喂不饱。

原因：

HBM容量太贵
显存不够大
参数装不下
checkpoint/embedding/cache 太大
数据搬运耗电巨大

于是大家开始想：

能不能让 Flash 更像“扩展显存”？

传统SSD：

GPU ← PCIe ← SSD控制器 ← NAND

问题：

延迟太高
带宽太低
数据路径太长
CPU参与太多

而HBF思路：

GPU/AI ASIC   ↓高速互连   ↓Flash Buffer / Flash Pool   ↓NAND阵列

甚至：

CXL
UCIe
硅中介层
2.5D封装
Near-memory fabric

直接把 Flash 拉近计算单元。

它不是“直接运行在Flash上”

这点很关键。

很多人误解：

“是不是GPU直接拿NAND当显存？”

目前还做不到。

因为：

项目	HBM	NAND
延迟	纳秒级	微秒级
带宽	TB/s	GB/s级
随机访问	极强	很差
擅长	计算缓存	大容量存储

所以：

Flash不能替代HBM。

但：

可以作为“超大低成本参数池”。

类似：

MoE专家权重池
embedding库
checkpoint缓存
推理冷数据
KV cache扩展
RAG向量库

为什么AI时代突然重视HBF

因为：

AI模型已经大到：

HBM根本装不下。

例如：

模型	参数量
GPT-4级	数千亿
DeepSeek MoE	超万亿激活参数
超大Embedding系统	TB级

HBM太贵：

HBM3E 每GB成本极高
功耗巨大
封装难
产能低

而NAND：

容量巨大
便宜很多
堆叠容易

于是：

“HBM + Flash层级内存”成了新方向。

HBF真正厉害的地方

不是Flash本身。

而是：

“软件+硬件联合的数据调度系统”。

包括：

GPU runtime
编译器
KV cache管理
权重分页
tensor streaming
MoE动态加载
Flash预取算法

这才是核心。

否则：

NAND延迟会把AI推理直接卡死。

为什么你会感觉它像“HMB”或者“GPU直连SSD”

因为现在很多技术正在融合：

技术	类似点
DirectStorage	GPU绕过CPU读SSD
GPUDirect Storage	GPU直连NVMe
HBF	Flash更靠近AI计算
CXL Memory	统一内存池
SCM	存储与内存融合

本质都在解决：

“AI的数据搬运墙”

而不是纯算力问题。

未来趋势

未来AI服务器大概率：

不是：

GPU + HBM

而是：

计算芯粒+ HBM+ SRAM cache+ CXL memory+ Flash fabric+ 硅光互连

也就是：

“存储成为AI架构核心”。

这也是为什么，铠侠、三星、SK海力士、长江存储、华为、美光现在都在疯狂做：

近存储计算
存算融合
高带宽Flash
层级内存系统
CXL存储池

因为：

AI时代瓶颈已经从“算力”转向“数据移动”。

你觉得苹果能用新技术搞定内存危机没？欢迎在评论区告诉AI顿悟涌现时！