当一个 LLM 推理请求进来,GPU 需要处理的 KV cache(注意力机制的键值对缓存)随上下文长度线性增长。对一个处理长文档或多轮对话的模型,这块 KV cache 很快就会超出 GPU 的 HBM 显存容量,溢出到外部 DRAM。DRAM 的带宽和延迟与 HBM 差距是数量级的。这不是偶发问题,是当前推理架构的结构性瓶颈。
XCENA 拿了 1.35 亿美元,押注的正是这个瓶颈。
每次推理都在重复搬运同一批数据
KV cache 溢出的直接后果是性能悬崖。GPU 等待外部 DRAM 返回数据时,算力闲置;而 DRAM 的带宽在多个推理请求并发时会进一步成为争用点。这个现象在 GPU 集群规模扩大后并不会自动改善——更多 GPU 意味着更多并发请求,DRAM 带宽压力等比增加。
更深层的问题是重复计算。同样的 KV cache——比如一个长系统提示词对应的缓存——在处理每一个新请求时通常会被重新生成,而不是从上一次的结果里复用。数据被反复生成、传输、丢弃。这在计算资源和时间上都是浪费。
XCENA 的 MX1 针对的是这两个问题,而不是"让 GPU 更快"。
把 RISC-V 核心放进 2TB 内存旁边
MX1 是一块计算内存控制器(computational memory controller)。它把最多 2TB 的 DRAM 和数千颗 RISC-V CPU 核心集成在同一个设备里。RISC-V 核心按 4 核一组组成集群,每个集群有专属的 L1 缓存,多个集群共享更大的内存池。
这个架构的核心价值不在于核心数量,而在于数据路径的长度。传统推理架构里,KV cache 的数据要在 GPU → PCIe → DRAM 之间反复传输。MX1 的设计是让计算发生在数据存储的地方——"近内存计算"(near-memory computing)的字面意思。GPU 不需要把数据拉过来,计算结果再回传。
MX1 额外支持 KV cache 跨请求复用,避免对相同上下文的重复计算。这对长系统提示词或 RAG 类应用的吞吐量有直接影响。除推理场景外,MX1 也针对 Apache Spark 类分析负载做了优化——数据库查询中 CPU 和内存之间频繁的数据移动,和 KV cache 场景面对的是同一个根本问题。
MX1 使用三星 4nm 工艺生产,计划在 2026 年底开始量产,2027 年开始产生收入。
韩国资本为什么先出手
XCENA 的 B 轮由韩国基金 Atinum Investment 和 IMM Investment 领投,加上六家以上机构投资方,总计 1.35 亿美元,估值 5.7 亿美元。公司创立于 2022 年,创始人来自三星电子和 SK Hynix。
领投方是韩国基金这件事值得注意。三星和 SK Hynix 在 AI 内存市场的主要押注是 HBM(High Bandwidth Memory)——这是当前 AI 训练和推理集群里最贵的组件之一。XCENA 的 MX1 不是在让 HBM 更快,而是在尝试替换掉当 HBM 不够用时退而求其次的外部 DRAM 环节,并且让这个"次级内存"也具备计算能力。
XCENA 从韩国存储产业生态里长出来,却在局部颠覆这个产业的现有路线。韩国基金领投,可以理解为对这个方向合理性的本地认可,也可以理解为对"DRAM 侧计算"这个赛道尚未被美国 VC 饱和覆盖的机会判断。
夜雨聆风