4 月 9 日至 10 日,2026 Open AI Infra Summit 在京隆重召开。本次大会由 GCC-Open AI Infra 社区主办,聚焦兆瓦级算力系统到 GW 级数据中心的行业热点,覆盖高速互联、800V 高压供电、先进液冷、超节点生态与性能测试等关键领域。阿里云服务器研发团队在高速互联主题论坛和超节点生态主题论坛分别发表技术演讲,全面展现了阿里云在 AI 基础设施互连领域的技术实力与生态布局。
UALink 2.0 协议演进:破局 Scale Up 发展瓶颈
在高速互联主题论坛中,阿里云服务器研发架构师邱宇弟发表了题为"破局 Scale Up 未来发展瓶颈:UALink 2.0 协议演进与分析"的专题演讲,系统梳理 UALink 技术的发展脉络、解读 ALink2.0 新规范,以及介绍当前 UALink 中国生态的发展情况。
UALink 联盟作为拥有超过 120 家成员企业的开放技术行业组织,旨在为 AI 加速器打造专用的 Scale Up 互连网络,采用以内存为中心的低延迟架构,与 PCIe、CXL 和以太网有效协同补充。2025 年 4 月 200G V1.0 规范发布,同年 9 月 128G DL/PL 规范跟进,2026 年 4 月上旬四项新规范集中发布,技术体系日趋完善。
在最新的 UALink 2.0 通用规范中,引入了在网计算(In-Network Compute)能力,将集合通信操作卸载到网络内部执行,有效降低 AI 分布式训练延迟,节省带宽,提升分布式训练和推理的扩展效率;200G DL/PL 规范 2.0 将数据链路与物理层从通用规范中独立拆分,新增链路弹性(Link Resiliency)和链路折叠(Link Folding)两大特性;可管理性规范 1.0 首次引入集中式管控架构,采用 gNMI、YANG、SAI 和 Redfish 等标准协议;芯粒规范 1.0 完全兼容 UCIe 3.0,简化与现有 Chiplet 生态的集成。

演讲的最后,邱宇弟表示,面向大模型训练与推理带来的新挑战,产业界对 Scale Up 互连提出了更高要求,UALink 协议的持续演进正是对成员伙伴需求的积极响应。作为开放的 Scale Up 互连标准,UALink 为中国 AI 基础设施产业参与全球生态建设提供了重要机会。阿里云将持续深度参与 UALink 规范制定与生态共建,联合产业伙伴加快推动 UALink 在国内 AI 集群中的落地,共同构建开放互连的 AI 算力底座。
CXL 与 UALink:定义 AI 存储 Scale Up 互连新边界
在超节点生态主题论坛中,阿里云服务器研发资深技术专家常存银发表了题为"CXL 与 UALink 在 AI 存储 Scale Up 互连中的价值与机遇"的专题演讲,系统阐述当前 AI 场景下存储需求的变化以及给行业带来的挑战。
当前 AI 业务场景对存储介质分层架构的需求,涵盖 Scale Up 单机柜内超低延迟互连和 Scale Out 跨机柜分布式存取两个维度。CXL 的核心优势在于内存一致性与高带宽低延迟,通过内存解耦和内存池化,重构数据中心的数据与算力交互方式,在性能、成本和效率上实现突破。
阿里云展示了基于 CXL 技术的多项自研创新成果:自研持久化内存 AliSCM 具备容量更大、成本更低、支持持久化、池化扩展、空间隔离和快速恢复等核心优势;自研 CXL 存储 AliFlash 实现了 GPU 直接访问基于 CXL 的 KVCache,大幅提升大模型推理场景下的数据访问效率;磐久 CXL 内存池化服务器实现内存资源的弹性调度和高效利用。

常存银表示,面对 AI 训练和推理对于存储和内存带宽以及延迟的极致要求,相较传统以太网,CXL/UALink等计算总线结合自研存储部件在 Scale Up 场景可以有效提升数据交互带宽并降低延迟,通过 GPU 紧耦合架构满足实时存算需求。而基于 CXL/UALink等计算总线实现的“存算一体”互连架构,通过总线级互连重构架构可消除存算鸿沟,定义未来 AI 基础设施的存储性能边界。
总结与展望
近年来,阿里云在 CXL 和 UALink 两大高速互连生态建设中持续发挥关键作用。作为 CXL 联盟创始成员及董事会成员,阿里云在业界首发 CXL 内存池化超节点服务器,推动 CXL 在云数据库场景率先落地。并在今年 1 月份 PolarDB 开发者大会上展出全新 PolarDB GPU-CXL 内存池直连的大模型推理架构,为 LLM 推理和 AI 应用探索可弹性扩展、跨机共享的统一内存池。
同时,阿里云作为 UALink 联盟唯一中国董事会成员,推动 UALink 和自建 ALink System(ALS)产业生态建设,经过一年多的发展,UALink 联盟国内成员数量超过 30 家。近期,ODCC 和联盟联合发布 UALink 规范测试验证服务,支持成员单位基于 UALink 1.0 规范,就互连 IP、链路协议、事务交互、数据传输等核心功能,对研发产品在投片前进行全面验证。包括楠菲微电子、瀚博半导体、星拓微电子和集益威等企业,已在前期内测阶段完成 IP 层面互通测试,阿里云磐久服务器超节点未来也将通过 ODCC AI Infra 方升开放项目完成硬件架构适配。
此前,阿里云服务器研发产品与架构负责人王伟也曾在业界交流中表示,面向 AI 大模型推理,需打破以 CPU 为中心的互连架构,转向构建以 GPU 为核心的互连架构。通过 CXL 解决内存池化困境、UALink 突破 GPU 互连瓶颈,阿里云正以软硬协同方式,支持未来 AI 基础设施从"CPU 中心"转向"GPU 中心",打造面向大模型时代的 AI 原生云基础设施。
夜雨聆风