
如果你正被百万级长上下文压得存储告急;
如果你苦恼 Agent 高频调用引发 GPU 争抢、请求卡顿;
如果你看着节节攀升的 Token 账单倍感压力;
如果你在企业落地智能体时,被安全合规、价值量化难住;
2026 年 6 月 6 日,一场关于智能体精细化管理与算力-Token 规模化运营实践的技术分享活动在上海落下帷幕。现场人气满满,各位小伙伴全程热情在线,频频和讲师互动提问、交流想法,技术探讨氛围轻松又热烈。六位行业大咖轮番上场,从底层存储、推理架构,聊到智能体运营、企业落地、云端环境,满满都是实战干货,下面一起来回顾精彩内容吧~
AI 推理存储 & KV Cache 优化妙招

首先,来自 SK 海力士旗下 Solidigm 的高伟带大家一一解锁AI 推理存储的那些事儿。
如今大模型上下文动辄达到百万级别,再加上多轮对话、多模态场景普及,存储压力一路飙升。即便各类算法能把 KV Cache 压缩数倍,也挡不住存储扩容的大趋势。结合英伟达相关架构,他分享了远程存储池化的思路,还带来多款自研黑科技:基于SPDK 优化的 RAID 方案,性能比传统内核 RAID 高出 4-20 倍;全新 FIFO 缓存算法搞定写放大难题;全异步 IO 也实现了性能大飞跃。目前这套方案已经在阿里云落地,后续还会持续打磨适配 KV Cache 场景的专属算法。
02
Agent 推理流量暴增?PD 分离架构给出最优解

来自「DaoCloud 道客」的李辉聚焦当下火热的 Agent 场景给出了提高资源效率的方案。她提到,Agent 调用频繁、文本上下文超长越来越常见,Token 消耗更是远超传统对话模型,很容易出现 GPU 资源争抢、请求卡顿、指标波动等问题。
而 PD 分离架构就是破局好办法,把算力、带宽两类不同负载的阶段拆分开独立部署,搭配 RDMA 高速网络和外置存储,让 KV Cache 复用、扩容更高效。她还完整分享了该场景的集群落地全流程,从硬件选型、参数调优,到大流量压测、全维度监控。AI 推理早已不只是跑模型,更是一套复杂的分布式系统工程,调度、缓存、路由配合到位,才能把 GPU 资源用透。
03
告别无效消耗!用 Agent 资产化省下大把 Token

来自 CelHive 的 Daniel 结合 C 端产品实操经验,聊了聊 AI 从技术试水走向规模化应用的心得。随着 Agent 越用越多,重复操作带来的 Token 消耗成了大家的共同烦恼,而把流程和角色做成可复用资产就是最优解。
Daniel 在现场带大家清晰区分了 Skill 和 Agent:Skill 是标准化工作流程,支持版本管理、跨场景复用;Agent 偏向角色化执行单元,靠多智能体协作搞定复杂任务。借助快照留存功能沉淀流程,既能减少重复计算、节约成本,也让 AI 业务规模化推进更顺畅。
LLM流量治理
与集群自动扩缩容探索
接下来,来自华为云的李振诚老师围绕云原生 AI 的技术实践展开分享。近两年云原生AI、MaaS 服务飞速发展,PD 分离架构能让集群性能提升 40%-50%,但也给流量调度、集群管理带来了新挑战。
测试验证表明,在主流路由策略趋同的背景下,新增会话优先级队列可大幅提升 KV Cache 命中率与系统吞吐,仅小幅增加延迟,企业可根据业务诉求灵活选择。而针对PD 集群自动扩缩难题,他提出了应对方向:利用HyperNode 感知网络拓扑、按硬件成本差异化部署节点、设置 P/D 实例比例阈值。目前相关方案仍在探索优化中,李振诚也邀请大家持续关注进展。
万人企业落地 Agent
安全、效益两手抓

Clawwork(打造跨运行环境的通用智能体工作空间的开源项目)的核心成员、蔚来汽车产品经理徐经雷带来了车企万人规模落地 Agent 的真实案例。企业上线 Agent 常会遇到三大难题:安全合规风险高、业务伙伴接受度低、实际价值不好衡量。
团队针对性给出解决方案:重构安全命令包、搭建审计机制守住安全底线;筛选并优化技能生态,打通 CRM、企业微信等业务系统,让 Agent 深度融入日常工作。同时通过 AB 反转实验直观验证业务价值,落地后产品次日留存 40%、周活 70%,表现十分亮眼。他也打趣道,企业 AI 产品不是单纯规划出来的,得多方磨合、持续优化,做好效果评估才能长久发展。
云端 Agent 专属沙箱
打造好用又安全的执行环境

最后,PPIO 的胡昕媛为大家讲解了云端 Agent 沙箱的设计逻辑。现在的 Agent 早已不只是聊天工具,还能独立完成编码、数据分析、网页操作、长任务处理等工作,这就要求运行环境兼顾完整性、持久性和高可用。
传统云服务器、容器架构,很难同时平衡安全、成本与使用体验。而基于MicroVM 打造的专属沙箱,依靠硬件隔离筑牢安全防线,搭配自动启停、快照功能,既能弹性释放资源控成本,又能实现秒级断点续跑。这套方案完美适配编码、数据分析、浏览器、长任务四大类 Agent 场景。
整场分享串联起AI 底层存储、推理架构、Agent 产品、运维调度、企业落地、运行环境安全等全链路内容,大家边听边交流,碰撞出不少新思路。没赶上直播的小伙伴别急着拍大腿,直播回放已在下方贴心备好,扫码即可在直播回放中随时补课。

AI 技术一直在快速向前,架构优化、场景落地还有超多有趣方向等待探索。后续我们也会继续举办这类轻松有趣的开源技术活动,欢迎更多技术小伙伴前来参与,一起交流学习、玩转 AI 技术!
热门推荐

访问以下网址或【阅读原文】,快速获取高效能 AI 算力

DaoCloud 公司简介
网址:www.daocloud.io
邮件:info@daocloud.io
电话:400 002 6898

夜雨聆风