本文内容基于 NVIDIA Run:ai v2.25 官方文档整理翻译,产品架构、部署分类、软硬件兼容标准全部取自英伟达原厂公开手册,仅用于企业 AI 算力技术交流,生产落地建议对照官方原版文档复核。

上一篇《NVIDIA Runai v2.25 私有化部署|拆解平台底层架构与部署方案》我们理清平台两大核心组件与部署方案。但是很多团队直接上手安装,会卡在资源不足、版本不匹配、网络域名缺失等基础问题,导致返工耗时。
本篇为简易部署前置自查清单,不涉及具体操作,仅梳理控制平面、业务集群两套软硬件基础标准,汇总部署架构选型、系统与算子版本兼容、网络放行规则、存储域名证书、离线 / 联网部署所需物料,可供运维、研发负责人做前期方案调研,同时用于部署前快速逐项核对,提前规避常见安装故障。

一、两大组件硬件标准Run:ai 控制平面、业务集群资源要求完全独立,同集群部署需两套资源叠加计算;生产环境建议拆分系统节点与 GPU 工作节点,避免昂贵显卡资源被调度服务占用。
Run:ai 控制平面(管理节点硬件)
配套安装机要求(具备集群管理员权限、执行 helm 安装的 K8s Master 节点):磁盘空闲空间≥50GB;
预装 Docker;
Helm 3.14 及以上版本;
离线环境安装包自带 helm 二进制,无需单独部署。
2. Run:ai 算力集群
分为集群系统节点(调度服务)、GPU 工作节点(承载 AI 任务)两类。业务集群系统节点承载集群调度、监控采集、各类算子控制器等平台后台服务,禁止调度用户AI业务任务;GPU工作节点仅运行模型训练、在线推理、开发工作空间等用户负载,不部署任何平台管控组件。
(1)算力集群系统节点
(2)GPU 工作节点(训练 / 推理负载)
GPU 硬件兼容
支持:A100/H100/B200/GB200 等数据中心 GPU,仅GPU 直通模式可用不支持:Jetson 开发板、DGX Spark、桌面工作站、vGPU 虚拟化
二、两种部署架构选型 & 前置差异
方案 1:同集群部署(中小单机房推荐)
控制平面 + 首个业务集群部署同一套 K8s
优势:部署流程简单,无需两套独立 Ingress、LB、FQDN 域名,硬件投入更低。
前置简化规则:同一集群场景,无需单独配置集群 Ingress、独立 FQDN 域名、独立 Prometheus,复用控制平面基础设施。
方案 2:分离集群部署(大型多机房 / 涉密企业)
独立 K8s 承载控制平面,各地机房单独搭建业务 GPU 集群,统一纳管。
硬性前置要求:两套集群完全隔离,均需独立:Ingress 控制器、负载均衡、独立 FQDN 域名、全套 TLS 证书、独立 Prometheus 监控。
三、系统 & 算子版本兼容预检(v2.25 官方支持矩阵)
Run:ai 版本 | 兼容 Kubernetes | 兼容 OpenShift |
v2.25 1.33 | 1.35 4.18 | 4.21 |
NVIDIA GPU Operator:25.10 ~ 26.3(GPU 核心管理) NVIDIA Network Operator:25.10 ~ 26.1(NVLink/RDMA 高速网络) NVIDIA DRA 驱动:25.8 ~ 25.12(GB200 多节点动态资源分配) Prometheus / Kube-Prometheus Stack:3.5 及以上 Kubeflow Training Operator:1.9.2(多框架分布式训练) MPI Operator:0.6.0 及以上 Knative Serving(推理):1.19 ~ 1.21 LWS 主从调度集:0.7.0 及以上(分布式多卡推理)
EKS:不支持 Bottlerocket、Amazon Linux; GKE:COS 系统仅搭配 GPU Operator24.6+; OKE:仅支持 Ubuntu 自定义镜像,Oracle Linux 驱动不兼容。
防火墙端口设置
注意:runai.jfrog.io 和 nvcr.io 仅 IPv4 解析,纯 IPv6 内网必须配置 NAT64/DNS64 或内网镜像仓库中转离线包。 |
集群内网
所有 K8s 节点全端口互通,无内网防火墙阻断通信。
2. 集群间通信规则(分离集群)
业务集群 443 出站可达控制平面 FQDN,用于集群注册、监控指标上报。
五、存储、域名、证书
共享存储支持 NFS/NAS,保证所有 GPU 节点统一读写数据集、模型、检查点;无共享存储会导致任务跨节点读取文件失败。 FQDN 域名规划(分离集群需填写,同集群可省略)三套域名需内网 DNS 正常解析,禁止纯 IP 访问:1)控制平面主域名(控制平面 ↔ 集群通信),例如:runai.mycorp.local2)训练 / 工作负载泛域名:例如:.runai.mycorp.local3)推理泛域名(对外推理场景),例如:.runai-inference.mycorp.local TLS 证书与自建 CA1)公网可信环境:域名匹配正规 CA 证书,创建 tls secret;2)离线 / 涉密内网:自建根 CA,集群注入 CA 通用 secret,helm 安装增加--set global.customCA.enabled=true;3)OpenShift 复用平台内置路由证书,无需手动创建 tls 密钥。 默认存储类(K8s 必填)集群配置需要默认存储类,用于平台元数据、监控库持久化存储。
资源渠道选择· 推荐:NVIDIA NGC,新版本唯一适配源;· 不推荐:JFrog 仓库,官方标注后续版本移除支持。 联网环境· 有效 NGC API 密钥;· 可访问外网的 K8s 节点;· 创建 nvcr 镜像拉取 secret runai-reg-creds。 离线隔离环境· NGC 密钥下载完整离线 tar 安装包;· 内网私有 Docker 仓库(Harbor 等);· 20GB 以上空闲磁盘用于解压上传镜像;· 上传脚本生成 custom-env.yaml(离线安装核心配置文件);· 内网自建 CA 根证书。
确认 K8s/OpenShift 版本落在 v2.25 兼容区间 GPU Operator、Network Operator、DRA 驱动版本匹配官方区间 区分控制平面、业务集群硬件,同集群资源叠加核算 确定网络模式:联网 Connected / 离线 Air-gapped,备好对应物料 选定部署架构:同集群 / 双分离集群,补齐对应 Ingress、域名需求 防火墙 443 入出站全部放行,IPv6 环境配置镜像中转 / NAT64 业务集群部署 NFS/NAS 共享存储 规划内网 FQDN、泛域名 DNS 解析(分离集群) 准备域名 TLS 证书 / 内网自建 CA 根证书 K8s 集群配置默认存储类 联网:准备 NGC API 密钥;离线:下载完整离线安装包、内网镜像仓库 安装机具备 Docker、Helm3.14+,磁盘空闲≥50GB

DSLINK是一家专注于 AI 时代基础设施的科技公司
"以人工智能基础设施平台为基石,打造驱动智能体 AI 革命的 AI 工厂,让数据成为企业突破边界的核心引擎。"
夜雨聆风