AI 推理的墙不在 GPU,在内存和 GPU 之间——XCENA 拿了 $135M,要把计算搬进内存旁边——这是对冯·诺依曼架构的一次局部外科手术

当一个 LLM 推理请求进来，GPU 需要处理的 KV cache（注意力机制的键值对缓存）随上下文长度线性增长。对一个处理长文档或多轮对话的模型，这块 KV cache 很快就会超出 GPU 的 HBM 显存容量，溢出到外部 DRAM。DRAM 的带宽和延迟与 HBM 差距是数量级的。这不是偶发问题，是当前推理架构的结构性瓶颈。

XCENA 拿了 1.35 亿美元，押注的正是这个瓶颈。

每次推理都在重复搬运同一批数据

KV cache 溢出的直接后果是性能悬崖。GPU 等待外部 DRAM 返回数据时，算力闲置；而 DRAM 的带宽在多个推理请求并发时会进一步成为争用点。这个现象在 GPU 集群规模扩大后并不会自动改善——更多 GPU 意味着更多并发请求，DRAM 带宽压力等比增加。

更深层的问题是重复计算。同样的 KV cache——比如一个长系统提示词对应的缓存——在处理每一个新请求时通常会被重新生成，而不是从上一次的结果里复用。数据被反复生成、传输、丢弃。这在计算资源和时间上都是浪费。

XCENA 的 MX1 针对的是这两个问题，而不是"让 GPU 更快"。

把 RISC-V 核心放进 2TB 内存旁边

MX1 是一块计算内存控制器（computational memory controller）。它把最多 2TB 的 DRAM 和数千颗 RISC-V CPU 核心集成在同一个设备里。RISC-V 核心按 4 核一组组成集群，每个集群有专属的 L1 缓存，多个集群共享更大的内存池。

这个架构的核心价值不在于核心数量，而在于数据路径的长度。传统推理架构里，KV cache 的数据要在 GPU → PCIe → DRAM 之间反复传输。MX1 的设计是让计算发生在数据存储的地方——"近内存计算"（near-memory computing）的字面意思。GPU 不需要把数据拉过来，计算结果再回传。

MX1 额外支持 KV cache 跨请求复用，避免对相同上下文的重复计算。这对长系统提示词或 RAG 类应用的吞吐量有直接影响。除推理场景外，MX1 也针对 Apache Spark 类分析负载做了优化——数据库查询中 CPU 和内存之间频繁的数据移动，和 KV cache 场景面对的是同一个根本问题。

MX1 使用三星 4nm 工艺生产，计划在 2026 年底开始量产，2027 年开始产生收入。

韩国资本为什么先出手

XCENA 的 B 轮由韩国基金 Atinum Investment 和 IMM Investment 领投，加上六家以上机构投资方，总计 1.35 亿美元，估值 5.7 亿美元。公司创立于 2022 年，创始人来自三星电子和 SK Hynix。

领投方是韩国基金这件事值得注意。三星和 SK Hynix 在 AI 内存市场的主要押注是 HBM（High Bandwidth Memory）——这是当前 AI 训练和推理集群里最贵的组件之一。XCENA 的 MX1 不是在让 HBM 更快，而是在尝试替换掉当 HBM 不够用时退而求其次的外部 DRAM 环节，并且让这个"次级内存"也具备计算能力。

XCENA 从韩国存储产业生态里长出来，却在局部颠覆这个产业的现有路线。韩国基金领投，可以理解为对这个方向合理性的本地认可，也可以理解为对"DRAM 侧计算"这个赛道尚未被美国 VC 饱和覆盖的机会判断。