通过KV Cache卸载与存算协同,破解长上下文推理存储瓶颈!超云最新产品方案亮相GTC 2026大会、NV亚太区AI存储研讨会!

随着大模型应用从“能用”迈向“高效规模化”，智能体与代码生成等场景的爆发，使得Token消耗量激增。长上下文与多轮对话成为核心诉求，传统的“存算一体”数据通路面临严峻挑战。在此背景下，KV Cache Offloading（卸载）、Prefill/Decode（PD）分离架构，以及面向高并发的新一代G3.5存储技术，正成为突破性能瓶颈的关键。

日前，2026年NVIDIA亚太区AI存储研讨会在英伟达总部举行。超云数据与存储研发负责人伍瑞受邀出席，与来自NVIDIA、ODCC、三星、Solidigm、DaoCloud等国内外知名企业及顶尖技术组织的专家齐聚一堂，深入探讨了长上下文推理的存储挑战、缓存体系演进及高性能数据通路设计等议题。在同期举办的GTC 2026大会上，超云展示了面向AI负载的新一代低延迟高性能分布式存储，其针对长上下文推理场景的优化方案引发了行业广泛关注。

在AI存储研讨会上，超云重点分享了基于CS13000-S存储系统的“KV Cache Offloading与PD分离”全栈系统化验证成果，展示了在重构AI推理架构方面的技术实力。

该项技术主要面向长上下文和高并发推理场景，重点评估基于超云CS13000-S 高性能分布式存储的KVCache Offloading方案对长上下文推理延迟、吞吐以及资源利用率的影响。相关测试结果更清晰地反映了各个环节对整体性能的实际影响，为大模型推理系统在架构设计和部署选择上提供了清晰的参考依据。

通过对验证测试的数据进行全面、深入的分析，伍瑞总结了本次技术验证工作的三个核心成果：

核心成果一

系统性验证超低延迟全闪文件系统作为G3.5缓存层，用于大规模长上下文推理KVCache Offloading的工程可行性

CS13000-S作为超云面向AI研发的新一代高性能分布式全闪文件存储，针对大规模AI负载进行了软硬件全栈优化，实现了端到端超低I/O延迟与高吞吐能力。在本次测试中，CS13000-S结合GDS及Spectrum-X / BF3 / DOCA，作为G3.5缓存层，为GPU推理提供接近本地内存/NVMe级别的访问性能。

超云在GTC 2026大会正式展示

面向AI负载的新一代低延迟高性能分布式存储

（如需了解技术细节与架构图解，可点击“阅读原文”获取高清原图）

在DeepSeek-R1-0528的长上下文推理场景中，系统表现出优异的低延迟能力：高并发下，10K上下文首字延迟低于1秒，100K上下文首字延迟也仅约8秒，充分验证了在不依赖G2本地内存及G3本地NVMe的情况下，具备超低延迟特性的G3.5缓存层仍可显著提升GPU推理性能。

更重要的是，通过GDS实现GPU直通存储访问，将KVCache从HBM直接卸载至存储侧，相比多层级KVCache缓存架构，整体链路更加简洁，系统复杂度更低，同时具备更好的成本结构与工程可落地性，在稳定性与成熟度方面也更有优势。

核心成果二

面向工程落地的系统级协同优化与GPUDirect Storage应用最佳实践

在本次验证中，超云联合 DaoCloud 等合作伙伴，围绕软硬件全栈开展系统级协同优化，覆盖从底层硬件到上层应用的完整链路，包括 GPU 与存储节点的硬件调优、操作系统参数优化、分布式存储参数调优、GDS 访问与调度优化，以及 vLLM、LMCache 的代码与参数优化，并结合 ARCC 实现网络层面的针对性优化。

在关键的 GDS 优化环节，针对 AI 推理负载特征，设计并实现了基于硬件拓扑的自适应最优路径选择机制，有效降低数据访问路径开销；同时对 LMCache 中 KVCache 的调度策略与 I/O 模式进行了优化，进一步提升整体数据访问效率。

测试结果表明，经过上述系统级协同优化，在 100K 长上下文场景下，首字延迟降低约 85%，整体吞吐提升接近6倍（相较非GDS模式），充分验证了端到端协同优化在AI推理性能提升中的关键价值。

核心成果三

高性能网络与存储协同的PD分离解决方案验证实践

最后，则是将PD分离架构与KVCache Offloading深度协同的基础性验证。测试结果表明，基于高性能网络与高性能存储构建的PD分离方案具备良好的工程可行性，并能够带来显著的推理性能收益。在长上下文场景，TPOT最高可降低约98%。

同时，验证过程中也识别出若干关键技术挑战，主要集中在Prefill/Decode调度机制以及KVCache元数据同步等方面。针对这些问题，超云进一步探索了结合ARCC进行网络层优化，以提升KVCache元数据同步效率的技术路径，为后续方案优化与产品化落地奠定了基础。

本次研讨会，超云系统展示了在AI存储领域的最新研发和实践成果，相关实践表明，围绕KVCache Offloading、PD分离以及G3.5缓存层构建的新型数据通路，通过系统级协同优化与GPUDirect Storage等技术的深度应用，能够在长上下文与高并发场景下显著提升推理效率，同时兼顾工程可行性与成本可控。

整体来看，AI基础设施正从单点性能提升转向全栈协同与体系化优化，通过打通计算、网络与存储之间的数据路径，构建更低时延、更高吞吐且更易落地的推理架构。随着相关技术路径逐步成熟，大模型推理系统将具备更强的规模化支撑能力，为智能体与复杂交互类应用的广泛落地提供更加稳固的基础。

点击「阅读原文」获取高清原图！

长按识别二维码关注超云