MAX+395部署本地AI
🔍 缘起:为何选择AMD笔记本
年前听说AMD的MAX+395性能强悍,内存大(128GB),能部署大模型,于是入手了ROG幻X2025。结果发现,AMD硬件在AI部署上真是”天生劣势”!
🎯 方案选择:为什么是vLLM
现有部署框架很多:SGLang、KTransformers、Ollama等。我选择了vLLM,因为它是”企业级”方案,性能优异。但AMD需要ROCm和PyTorch支持,官方教程复杂,优先考虑Docker部署。
🚫 尝试1:官方镜像版本太旧
官方镜像:rocm/vllm:rocm7.12.0_gfx950-dcgpu_ubuntu24.04_py3.12_pytorch_2.9.1_vllm_0.16.0
vLLM 0.16完全不够用!其要求的Transformers版本不能大于5.0,不支持很多国内模型。
⚡ 尝试2:激进方案遇挫
therock镜像:kyuz0/vllm-therock-gfx1151:stable
版本信息:
-
ROCm 7.13 -
Torch 2.13 -
Transformers 5.5.4 -
vLLM 0.19.2
测试结果:
1. 验证amd-smi # ❌ 解决:pip安装amdsmi2. 验证rocm-smi # ✅ 正常输出3. 验证torch cuda avilable # ✅ 正常输出4. 验证transformer 部署qwen35 # ✅ 正常交互5. 验证vllm部署qwen35 # ❌ 报错,显存错不足
懒得解决,3月19版本的therock镜像应该能用,感兴趣的朋友可以自行尝试。
🏆 尝试3:手动安装终成功!
基于官方PyTorch镜像安装vllm
版本信息:
-
ROCm 7.2.2 -
Torch 2.10 -
Transformers 5.6 -
vLLM 0.19.1
安装步骤:
1. 使用官方ROCm PyTorch镜像:rocm/pytorch:rocm7.2.2_ubuntu24.04_py3.12_pytorch_release_2.10.02. 安装Transformers:pip install transformers==5.63. 安装vLLM:pip install vllm==0.19.1+rocm721 --extra-index-url https://wheels.vllm.ai/rocm/0.19.1/rocm721
注意:环境是rocm7.2.2,vllm是基于rocm7.2.1,暂时不影响使用。
测试部署:
1. 验证amd-smi # ✅ 正常输出2. 验证rocm-smi # ✅ 正常输出3. 验证torch cuda avilable # ✅ 正常输出4. 验证transformer 部署qwen35 # ✅ 正常交互5. 验证vllm部署qwen35 # ✅ 正常交互
📊 经验总结
-
版本匹配是关键:rocm7.2+Torch2.10+Transformers5.6+vLLM0.19.1是最佳组合
-
关键参数说明:
--gpu-memory-utilization 0.85:降低显存占用,避免报错--max-model-len 8192:限制上下文长度,防止显存溢出--enable-expert-parallel 只有MoE模型才需要--tensor-parallel-size 1:单卡设备设为1
夜雨聆风