
「
苹果解决内存危机
与以往不同,今年的WWDC26预计将是硬件大年,多款影响整个计算机市场的重磅硬件产品和技术,将会首发!今天AI顿悟涌现时就来详解一下今年的重点!
预计会有A19 Pro版MacBook Neo、iPad Pro M6、MacBook Ultra、全新HPC AI超算,大概率还有iPhone。从今年开始,iPhone会像MacBook一样变成一年两发。
其中,影响端侧AI推理生态,极具开创性的类HBF高宽带闪存架构技术,预计会连同M6、A20系列芯片发布。这个是重中之重!
很多地方会把HBF(High Bandwidth Flash,高带宽闪存)视为GPU直连NAND Flash的技术。实际上,这一说法并不严肃。对比HBM技术,HBF实际上是一套复杂的近存计算架构。
就是:
“多层级统一内存池”
这一技术,现在苹果、华为、英伟达、AMD、Google都在做。
整体架构方案:
寄存器↓SRAM↓HBM↓DDR↓CXL Memory↓Flash Pool要知道未来AI服务器:
重点不是单一显存,
而是:
“数据分层调度能力”
谁能:
- 提前预测数据
- 智能预取
- 动态迁移权重
- 减少HBM占用
谁效率就高。
其中,苹果在这一领域拥有先发优势。除了成功的UMA统一内存架构、DMA直接内存访问,苹果使用自己定制的NVMe规范闪存技术,能够更快速地完成新技术架构落地。
加上苹果独家使用的SoIC封装技术,能够最大限度控制功耗发热,解决NAND Flash闪存不耐热、难以与SoC芯片堆叠封装的问题。
预计,此次苹果WWDC26,会发布基于TSMC台积电2nm制程的全新系列芯片产品。其中HBF架构技术突破是关键。
HBF 是什么?
HBF 是一种新兴内存技术,基于NAND Flash(类似 SSD 用的存储介质),采用与HBM(High Bandwidth Memory)类似的 3D 堆叠架构:
- 通过硅穿孔(TSV)将多层 NAND 芯片垂直堆叠(可达 16 层或更多)。
配以逻辑基底 die,通过interposer(中介层)与 GPU 直接相连。 - 提供接近 HBM 的高带宽,但容量远大于 HBM(单堆栈可达 512GB~数 TB,整体可实现 GPU 旁 4TB+ 容量)。
它不是传统通过 PCIe 连接的 SSD,而是像 HBM 一样作为 GPU 的“近内存”(near-memory),带宽可匹配或接近 HBM 级别(TB/s 量级),远快于普通 SSD。
闪存虽然不像内存那样拥有极低的延迟,但对于AI推理服务,这种需要大规模队列读取AI大模型参数的场景来说,正好完全匹配。这种需求无需频繁索引数据,所以对延迟要求不高,只追求队列读取参数数据的速度。
主要目的和特点
- 解决 AI 推理(Inference)痛点
:HBM 容量有限(目前单 GPU 通常几十到几百 GB),大模型需要频繁从 SSD 加载数据导致延迟。HBF 提供 8-16 倍甚至更高的容量,可让整个大模型或大部分参数直接驻留在 GPU 旁,加速推理、降低功耗。 - 常与 HBM 混合使用
:如 SK Hynix 的 H³ 架构,将 HBM(高速低延迟)和 HBF(大容量)一起通过 interposer 连到 GPU,HBF 可作为 HBM 的缓存或扩展。 - 优势
:成本低(NAND 比 DRAM 便宜得多)、容量大。 - 挑战
:延迟比 DRAM 高、写入 endurance 有限(适合读密集的推理场景)、功耗管理等。复杂的预取/分页控制器研发测试和标准化周期长,目前仍在开发中,预计 2027-2028 年左右商用。
从更符合大家直觉的角度来解释,HBF是一种把 Flash 存储器尽可能靠近 AI/GPU 计算单元的高带宽存储架构思路,本质属于“Storage-Class Memory / Near-Memory Storage / Flash-Based Buffering”方向,而不是传统意义的 HBM 内存。
你可以简单理解成:
HBF = “让 NAND Flash 像超大容量、低成本的扩展显存一样工作”的一种新型架构。
但它和真正的 HBM 有本质区别。
一句话区别
HBF到底是什么
目前业内提到的“HBF(High Bandwidth Flash)”,多数是:
- 铠侠(Kioxia)
- 西部数据
- 部分日本/韩国研究机构
提出的:
“高带宽 Flash AI 数据供给架构”
核心目标:
用 Flash 替代一部分昂贵 HBM/DDR 的容量压力。
因为现在 AI 最大问题之一:
不是算力不够,
而是:
GPU喂不饱。
原因:
- HBM容量太贵
- 显存不够大
- 参数装不下
- checkpoint/embedding/cache 太大
- 数据搬运耗电巨大
于是大家开始想:
能不能让 Flash 更像“扩展显存”?
传统SSD:
GPU ← PCIe ← SSD控制器 ← NAND问题:
- 延迟太高
- 带宽太低
- 数据路径太长
- CPU参与太多
而HBF思路:
GPU/AI ASIC ↓高速互连 ↓Flash Buffer / Flash Pool ↓NAND阵列甚至:
- CXL
- UCIe
- 硅中介层
- 2.5D封装
- Near-memory fabric
直接把 Flash 拉近计算单元。
它不是“直接运行在Flash上”
这点很关键。
很多人误解:
“是不是GPU直接拿NAND当显存?”
目前还做不到。
因为:
所以:
Flash不能替代HBM。
但:
可以作为“超大低成本参数池”。
类似:
- MoE专家权重池
- embedding库
- checkpoint缓存
- 推理冷数据
- KV cache扩展
- RAG向量库
为什么AI时代突然重视HBF
因为:
AI模型已经大到:
HBM根本装不下。
例如:
HBM太贵:
- HBM3E 每GB成本极高
- 功耗巨大
- 封装难
- 产能低
而NAND:
- 容量巨大
- 便宜很多
- 堆叠容易
于是:
“HBM + Flash层级内存”成了新方向。
HBF真正厉害的地方
不是Flash本身。
而是:
“软件+硬件联合的数据调度系统”。
包括:
- GPU runtime
- 编译器
- KV cache管理
- 权重分页
- tensor streaming
- MoE动态加载
- Flash预取算法
这才是核心。
否则:
NAND延迟会把AI推理直接卡死。
为什么你会感觉它像“HMB”或者“GPU直连SSD”
因为现在很多技术正在融合:
本质都在解决:
“AI的数据搬运墙”
而不是纯算力问题。
未来趋势
未来AI服务器大概率:
不是:
GPU + HBM而是:
计算芯粒+ HBM+ SRAM cache+ CXL memory+ Flash fabric+ 硅光互连也就是:
“存储成为AI架构核心”。
这也是为什么,铠侠、三星、SK海力士、长江存储、华为、美光现在都在疯狂做:
- 近存储计算
- 存算融合
- 高带宽Flash
- 层级内存系统
- CXL存储池
因为:
AI时代瓶颈已经从“算力”转向“数据移动”。
你觉得苹果能用新技术搞定内存危机没?欢迎在评论区告诉AI顿悟涌现时!
欢迎大家关注AI顿悟涌现时,快速入门当下最热的AI大模型前沿。
AI顿悟涌现时
AI顿悟涌现时是红绿旗下关注新技术的内容品牌。 AI顿悟涌现时关注前沿技术的发展应用,深度解读新技术对商业模式和社会形态的变革。 大模型商业技术及通识,筹备开课,欢迎有授课能力的朋友合作,欢迎有兴趣的朋友报名一起学习。相关优质内容将会发布在下方动图内微信公众号▼▼

夜雨聆风