当大模型从单轮问答走向 Agent 驱动的复杂任务执行,推理集群的压力也在发生质变。长上下文窗口、频繁的工具调用、多步推理链路——这些 Agent 场景的典型特征,对推理基础设施的吞吐、延迟和资源利用率都提出了更高要求。
vLLM 社区一直在推动推理引擎的性能边界,而 Mooncake 作为专注分布式推理优化的开源项目,在 KV Cache 管理和集群调度方面有独到的设计。两者的结合,为搭建 Agent 时代的高性能推理集群提供了一条极具参考价值的技术路径。
本期 vLLM Office Hours(第八期),我们邀请到两位深耕推理基础设施的技术专家,从瓶颈分析到架构实践,系统拆解这套方案。

📌 本期看点:
1. Agent 时代,推理集群面临哪些区别于传统场景的性能瓶颈?根因在哪里?
2. 基于 vLLM 和 Mooncake 的高性能推理集群如何搭建?工程层面有哪些关键决策?
3. Mooncake 架构深度剖析——核心贡献者亲自讲解设计思路和优化策略
🎙️ 分享嘉宾:
张家驹 — 红帽大中华区首席技术官
杨珂 — 趋境科技技术专家,Mooncake 核心贡献者
⏰ 直播时间:4月23日(周四)20:00
📺 直播平台:微信视频号搜索「红帽」
🎁 直播期间有互动抽奖环节!
👉 扫描下方二维码立即预约,锁定直播!
夜雨聆风