
随着大模型应用从“能用”迈向“高效规模化”,智能体与代码生成等场景的爆发,使得Token消耗量激增。长上下文与多轮对话成为核心诉求,传统的“存算一体”数据通路面临严峻挑战。在此背景下,KV Cache Offloading(卸载)、Prefill/Decode(PD)分离架构,以及面向高并发的新一代G3.5存储技术,正成为突破性能瓶颈的关键。
日前,2026年NVIDIA亚太区AI存储研讨会在英伟达总部举行。超云数据与存储研发负责人伍瑞受邀出席,与来自NVIDIA、ODCC、三星、Solidigm、DaoCloud等国内外知名企业及顶尖技术组织的专家齐聚一堂,深入探讨了长上下文推理的存储挑战、缓存体系演进及高性能数据通路设计等议题。在同期举办的GTC 2026大会上,超云展示了面向AI负载的新一代低延迟高性能分布式存储,其针对长上下文推理场景的优化方案引发了行业广泛关注。

在AI存储研讨会上,超云重点分享了基于CS13000-S存储系统的“KV Cache Offloading与PD分离”全栈系统化验证成果,展示了在重构AI推理架构方面的技术实力。
该项技术主要面向长上下文和高并发推理场景,重点评估基于超云CS13000-S 高性能分布式存储的KVCache Offloading方案对长上下文推理延迟、吞吐以及资源利用率的影响。相关测试结果更清晰地反映了各个环节对整体性能的实际影响,为大模型推理系统在架构设计和部署选择上提供了清晰的参考依据。

01
核心成果一
系统性验证超低延迟全闪文件系统作为G3.5缓存层,用于大规模长上下文推理KVCache Offloading的工程可行性

在DeepSeek-R1-0528的长上下文推理场景中,系统表现出优异的低延迟能力:高并发下,10K上下文首字延迟低于1秒,100K上下文首字延迟也仅约8秒,充分验证了在不依赖G2本地内存及G3本地NVMe的情况下,具备超低延迟特性的G3.5缓存层仍可显著提升GPU推理性能。
更重要的是,通过GDS实现GPU直通存储访问,将KVCache从HBM直接卸载至存储侧,相比多层级KVCache缓存架构,整体链路更加简洁,系统复杂度更低,同时具备更好的成本结构与工程可落地性,在稳定性与成熟度方面也更有优势。
02
核心成果二
面向工程落地的系统级协同优化与GPUDirect Storage应用最佳实践
在本次验证中,超云联合 DaoCloud 等合作伙伴,围绕软硬件全栈开展系统级协同优化,覆盖从底层硬件到上层应用的完整链路,包括 GPU 与存储节点的硬件调优、操作系统参数优化、分布式存储参数调优、GDS 访问与调度优化,以及 vLLM、LMCache 的代码与参数优化,并结合 ARCC 实现网络层面的针对性优化。
在关键的 GDS 优化环节,针对 AI 推理负载特征,设计并实现了基于硬件拓扑的自适应最优路径选择机制,有效降低数据访问路径开销;同时对 LMCache 中 KVCache 的调度策略与 I/O 模式进行了优化,进一步提升整体数据访问效率。
测试结果表明,经过上述系统级协同优化,在 100K 长上下文场景下,首字延迟降低约 85%,整体吞吐提升接近6倍(相较非GDS模式),充分验证了端到端协同优化在AI推理性能提升中的关键价值。
03
核心成果三
高性能网络与存储协同的PD分离解决方案验证实践
最后,则是将PD分离架构与KVCache Offloading深度协同的基础性验证。测试结果表明,基于高性能网络与高性能存储构建的PD分离方案具备良好的工程可行性,并能够带来显著的推理性能收益。在长上下文场景,TPOT最高可降低约98%。
同时,验证过程中也识别出若干关键技术挑战,主要集中在Prefill/Decode调度机制以及KVCache元数据同步等方面。针对这些问题,超云进一步探索了结合ARCC进行网络层优化,以提升KVCache元数据同步效率的技术路径,为后续方案优化与产品化落地奠定了基础。
本次研讨会,超云系统展示了在AI存储领域的最新研发和实践成果,相关实践表明,围绕KVCache Offloading、PD分离以及G3.5缓存层构建的新型数据通路,通过系统级协同优化与GPUDirect Storage等技术的深度应用,能够在长上下文与高并发场景下显著提升推理效率,同时兼顾工程可行性与成本可控。
整体来看,AI基础设施正从单点性能提升转向全栈协同与体系化优化,通过打通计算、网络与存储之间的数据路径,构建更低时延、更高吞吐且更易落地的推理架构。随着相关技术路径逐步成熟,大模型推理系统将具备更强的规模化支撑能力,为智能体与复杂交互类应用的广泛落地提供更加稳固的基础。

点击「阅读原文」获取高清原图!


长按识别二维码 关注超云
夜雨聆风