NVIDIA Run:ai v2.25 部署前置|核对硬件 / 系统 / 网络 / 存储 / 证书(二)

本文内容基于 NVIDIA Run:ai v2.25 官方文档整理翻译，产品架构、部署分类、软硬件兼容标准全部取自英伟达原厂公开手册，仅用于企业 AI 算力技术交流，生产落地建议对照官方原版文档复核。

上一篇《NVIDIA Runai v2.25 私有化部署｜拆解平台底层架构与部署方案》我们理清平台两大核心组件与部署方案。但是很多团队直接上手安装，会卡在资源不足、版本不匹配、网络域名缺失等基础问题，导致返工耗时。

本篇为简易部署前置自查清单，不涉及具体操作，仅梳理控制平面、业务集群两套软硬件基础标准，汇总部署架构选型、系统与算子版本兼容、网络放行规则、存储域名证书、离线 / 联网部署所需物料，可供运维、研发负责人做前期方案调研，同时用于部署前快速逐项核对，提前规避常见安装故障。

一、两大组件硬件标准Run:ai 控制平面、业务集群资源要求完全独立，同集群部署需两套资源叠加计算；生产环境建议拆分系统节点与 GPU 工作节点，避免昂贵显卡资源被调度服务占用。

Run:ai 控制平面（管理节点硬件）

适配 x86、ARM 架构，平台所有管理后台、权限管控、日志监控、数据库、全局调度核心服务均运行于此节点组，是整个算力平台的核心管控中枢。

资源项	最低配置
CPU	10核
内存	12GB
磁盘	110GB

配套安装机要求（具备集群管理员权限、执行 helm 安装的 K8s Master 节点）：磁盘空闲空间≥50GB；
预装 Docker；
Helm 3.14 及以上版本；
离线环境安装包自带 helm 二进制，无需单独部署。

2. Run:ai 算力集群

分为集群系统节点（调度服务）、GPU 工作节点（承载 AI 任务）两类。业务集群系统节点承载集群调度、监控采集、各类算子控制器等平台后台服务，禁止调度用户AI业务任务；GPU工作节点仅运行模型训练、在线推理、开发工作空间等用户负载，不部署任何平台管控组件。

（1）算力集群系统节点

资源项	最低配置
CPU	10核
内存	20GB
磁盘	50GB

（2）GPU 工作节点（训练 / 推理负载）

资源项	最低配置
CPU	2核
内存	4GB

GPU 硬件兼容

支持：A100/H100/B200/GB200 等数据中心 GPU，仅GPU 直通模式可用不支持：Jetson 开发板、DGX Spark、桌面工作站、vGPU 虚拟化

二、两种部署架构选型 & 前置差异

方案 1：同集群部署（中小单机房推荐）

控制平面 + 首个业务集群部署同一套 K8s

优势：部署流程简单，无需两套独立 Ingress、LB、FQDN 域名，硬件投入更低。

前置简化规则：同一集群场景，无需单独配置集群 Ingress、独立 FQDN 域名、独立 Prometheus，复用控制平面基础设施。

方案 2：分离集群部署（大型多机房 / 涉密企业）

独立 K8s 承载控制平面，各地机房单独搭建业务 GPU 集群，统一纳管。

硬性前置要求：两套集群完全隔离，均需独立：Ingress 控制器、负载均衡、独立 FQDN 域名、全套 TLS 证书、独立 Prometheus 监控。

三、系统 & 算子版本兼容预检（v2.25 官方支持矩阵）

1.Kubernetes / OpenShift 适配区间

Run:ai 版本	兼容 Kubernetes	兼容 OpenShift
v2.25 1.33	1.35 4.18	4.21

兼容集群：原生 K8s、EKS/GKE/AKS/OKE/RKE2、VMware VKS、Mirantis、Rafay 等厂商发行版。

2.必备算子兼容版本区间

NVIDIA GPU Operator：25.10 ~ 26.3（GPU 核心管理）
NVIDIA Network Operator：25.10 ~ 26.1（NVLink/RDMA 高速网络）
NVIDIA DRA 驱动：25.8 ~ 25.12（GB200 多节点动态资源分配）
Prometheus / Kube-Prometheus Stack：3.5 及以上
Kubeflow Training Operator：1.9.2（多框架分布式训练）
MPI Operator：0.6.0 及以上
Knative Serving（推理）：1.19 ~ 1.21
LWS 主从调度集：0.7.0 及以上（分布式多卡推理）

3.操作系统兼容与云平台特殊限制

通用标准：同时被 K8s、GPU Operator 支持的 Linux 均可；官方基准系统 Ubuntu22.04、OpenShift CoreOS。云集群特殊约束：

EKS：不支持 Bottlerocket、Amazon Linux；
GKE：COS 系统仅搭配 GPU Operator24.6+；
OKE：仅支持 Ubuntu 自定义镜像，Oracle Linux 驱动不兼容。

4.容器运行时要求

仅支持 containerd（原生 K8s、云集群）、CRI-O（OpenShift）。

四、网络前置要求

防火墙端口设置

入站规则（所有用户访问）：全网 443 端口放行，用于 UI、CLI、工作空间、推理 HTTPS 访问。

出站规则（集群节点全部放开 443）：联网环境需放行外网域名：nvcr.io、api.ngc.nvidia.com、huggingface.co、docker.io、gcr.io、quay.io

注意：runai.jfrog.io 和 nvcr.io 仅 IPv4 解析，纯 IPv6 内网必须配置 NAT64/DNS64 或内网镜像仓库中转离线包。

集群内网

所有 K8s 节点全端口互通，无内网防火墙阻断通信。

2. 集群间通信规则（分离集群）

业务集群 443 出站可达控制平面 FQDN，用于集群注册、监控指标上报。

五、存储、域名、证书

共享存储支持 NFS/NAS，保证所有 GPU 节点统一读写数据集、模型、检查点；无共享存储会导致任务跨节点读取文件失败。
FQDN 域名规划（分离集群需填写，同集群可省略）三套域名需内网 DNS 正常解析，禁止纯 IP 访问：1）控制平面主域名（控制平面 ↔ 集群通信），例如：runai.mycorp.local2）训练 / 工作负载泛域名：例如：.runai.mycorp.local3）推理泛域名（对外推理场景），例如：.runai-inference.mycorp.local
TLS 证书与自建 CA1）公网可信环境：域名匹配正规 CA 证书，创建 tls secret；2）离线 / 涉密内网：自建根 CA，集群注入 CA 通用 secret，helm 安装增加--set global.customCA.enabled=true；3）OpenShift 复用平台内置路由证书，无需手动创建 tls 密钥。
默认存储类（K8s 必填）集群配置需要默认存储类，用于平台元数据、监控库持久化存储。

六、资源渠道 & 环境配置

资源渠道选择· 推荐：NVIDIA NGC，新版本唯一适配源；· 不推荐：JFrog 仓库，官方标注后续版本移除支持。
联网环境· 有效 NGC API 密钥；· 可访问外网的 K8s 节点；· 创建 nvcr 镜像拉取 secret runai-reg-creds。
离线隔离环境· NGC 密钥下载完整离线 tar 安装包；· 内网私有 Docker 仓库（Harbor 等）；· 20GB 以上空闲磁盘用于解压上传镜像；· 上传脚本生成 custom-env.yaml（离线安装核心配置文件）；· 内网自建 CA 根证书。

部署前完整自检清单

确认 K8s/OpenShift 版本落在 v2.25 兼容区间
GPU Operator、Network Operator、DRA 驱动版本匹配官方区间
区分控制平面、业务集群硬件，同集群资源叠加核算
确定网络模式：联网 Connected / 离线 Air-gapped，备好对应物料
选定部署架构：同集群 / 双分离集群，补齐对应 Ingress、域名需求
防火墙 443 入出站全部放行，IPv6 环境配置镜像中转 / NAT64
业务集群部署 NFS/NAS 共享存储
规划内网 FQDN、泛域名 DNS 解析（分离集群）
准备域名 TLS 证书 / 内网自建 CA 根证书
K8s 集群配置默认存储类
联网：准备 NGC API 密钥；离线：下载完整离线安装包、内网镜像仓库
安装机具备 Docker、Helm3.14+，磁盘空闲≥50GB

参考资料文档来源：NVIDIA Run:ai v2.25 官方文档免责声明：本文仅为技术整理科普，非 NVIDIA 官方发布内容，生产环境部署请以英伟达原版官方文档为准，结合企业机房硬件、网络环境适配调整。

DSLINK是一家专注于 AI 时代基础设施的科技公司

"以人工智能基础设施平台为基石，打造驱动智能体 AI 革命的 AI 工厂，让数据成为企业突破边界的核心引擎。"