乐于分享
好东西不私藏

人工智能大模型离线安装部署指南

人工智能大模型离线安装部署指南
一、前言:
在大多数场景下,在线部署只需等待即可完成。但在特种行业,情况截然不同——要么客户采购一体机,要么必须进行离线部署。当离线部署遇上国产化环境,难度直线上升。本文直奔主题,分享实战经验。
目前,国内主流的国产算力芯片厂商已形成多元格局,代表企业包括华为昇腾、海光信息、寒武纪、摩尔线程、沐曦集成电路等。在党政、特种行业等关键领域,目前的应用仍以华为昇腾的解决方案为主。
二、项目环境介绍:
本文以昆仑 KunLun G5680 V2 推理服务器(2台)作为部署对象。在华为昇腾生态中,服务器整机厂商如百信、华鲲振宇、昆仑等均采用相同的昇腾算力底座,差异主要在于品牌和外观,底层架构与技术方案高度一致。

非常理解你现在的心情——服务器到位了,模型不知道装啥。这确实是国产化离线部署中最头疼的一环:面对Hugging Face上几十万个模型,选哪个?下哪个版本?怎么在没有网的情况下搞定?其实到了这一步,核心思路很简单:前端应用平台决定模型的类型,算力服务器决定模型的大小。只要把业务场景拆清楚,模型选型就明朗了。

建议多看社区和官网!!!!

三、环境准备:
类型
版本
下载链接
操作系统
openEuler-22.03-LTS-aarch64-dvd.iso
https://www.openeuler.org/zh/download/archive/detail/?version=openEuler%2022.03%20LTS
NPU驱动&固件
Ascend-hdk-910b-npu-driver_24.1.rc3_linux-aarch64.run
https://www.hiascend.com/hardware/firmware-drivers/community?product=4&model=26&cann=8.0.0.beta1&driver=1.0.28.alpha
Ascend-hdk-910b-npu-firmware_7.5.0.1.129.run
docker(离线安装)
推荐最新版本
Index of linux/static/stable/
模型部署工具
Vllm-ascend 稳定版本
https://quay.io/repository/ascend/vllm-ascend?tab=tags
大模型
MiniMax-M2.5
https://modelscope.cn/models
DeepSeek-R1-BF16-W8A8
https://modelers.cn/models/State_Cloud/DeepSeek-R1-W8A8/tree/main
DeepSeek-V3-0324-W8A8
https://www.modelscope.cn/models/appofis/DeepSeek-V3-0324-w8a8/files
Qwen3-235B-A22B
https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B/files
四、安装流程:
其实离线安装也没有那么复杂,就是把线上安装我们看不到下载,偷偷安装部署,简单介绍下离线部署的流程:
环境准备--安装驱动固件--安装Docker--导入镜像--导入模型权重--拉起模型权重--测试验证

4.1环境准备:

1. 资源下载:提前准备操作系统镜像、驱动固件、安全组件、Docker、vLLM工具以及模型权重文件。

2. 存储配置与系统安装:服务器上电后配置RAID——系统盘做RAID1,数据盘做RAID5或RAID6,然后安装操作系统。

3. 基础环境配置:操作系统安装完成后,关闭防火墙和SELinux,配置网络参数,并开启SSH远程登录服务。

4.2安装NPU驱动固件:主要安装NPU的驱动,让系统能够识别NPU算力卡。

4.3安装Docker:模型权重都是基于Docker容器部署的,正常安装,建议安装最新版本。

4.4导入镜像:目前市面上较多的工具有,VLLM、MinDIE、Sglang,根据自己掌握的工具进行下载。

4.5导入模型权重:根据自己业务定的模型,到魔塔社区、魔乐社会下载。

4.5拉起模型权重:启动服务

4.7测试验证:编辑测试脚本进行测试,官网都有或者直接进行前端智能体应用接入模型测试。

本次我就以纯文本模型 MiniMax-M2.5为举例,其他模型安装类似,我们用一台服务器8卡来部署MiniMax-M2.5,230GB啊,网络环境差的,建议提前下载。

完整版《国产化环境离线部署实战手册》正在紧锣密鼓编辑中,涵盖硬件配置、环境搭建、模型选型到离线部署全流程,附赠实战脚本。想要第一时间获取完整版的朋友,点点关注,避免错过