MAX+395部署本地AI-夜雨聆风

MAX+395部署本地AI

🔍 缘起：为何选择AMD笔记本

年前听说AMD的MAX+395性能强悍，内存大（128GB），能部署大模型，于是入手了ROG幻X2025。结果发现，AMD硬件在AI部署上真是”天生劣势”！

🎯 方案选择：为什么是vLLM

现有部署框架很多：SGLang、KTransformers、Ollama等。我选择了vLLM，因为它是”企业级”方案，性能优异。但AMD需要ROCm和PyTorch支持，官方教程复杂，优先考虑Docker部署。

🚫 尝试1：官方镜像版本太旧

官方镜像：rocm/vllm:rocm7.12.0_gfx950-dcgpu_ubuntu24.04_py3.12_pytorch_2.9.1_vllm_0.16.0

vLLM 0.16完全不够用！其要求的Transformers版本不能大于5.0，不支持很多国内模型。

⚡ 尝试2：激进方案遇挫

therock镜像：kyuz0/vllm-therock-gfx1151:stable

版本信息：

ROCm 7.13
Torch 2.13
Transformers 5.5.4
vLLM 0.19.2

测试结果：

1. 验证amd-smi  # ❌  解决：pip安装amdsmi2. 验证rocm-smi # ✅ 正常输出3. 验证torch cuda avilable # ✅ 正常输出4. 验证transformer 部署qwen35 # ✅ 正常交互5. 验证vllm部署qwen35 # ❌ 报错，显存错不足

懒得解决，3月19版本的therock镜像应该能用，感兴趣的朋友可以自行尝试。

🏆 尝试3：手动安装终成功！

基于官方PyTorch镜像安装vllm

版本信息：

ROCm 7.2.2
Torch 2.10
Transformers 5.6
vLLM 0.19.1

安装步骤：

1. 使用官方ROCm PyTorch镜像：rocm/pytorch:rocm7.2.2_ubuntu24.04_py3.12_pytorch_release_2.10.02. 安装Transformers：pip install transformers==5.63. 安装vLLM：pip install vllm==0.19.1+rocm721 --extra-index-url https://wheels.vllm.ai/rocm/0.19.1/rocm721

注意：环境是rocm7.2.2，vllm是基于rocm7.2.1，暂时不影响使用。

测试部署：

1. 验证amd-smi  # ✅ 正常输出2. 验证rocm-smi # ✅ 正常输出3. 验证torch cuda avilable # ✅ 正常输出4. 验证transformer 部署qwen35 # ✅ 正常交互5. 验证vllm部署qwen35 # ✅ 正常交互

📊 经验总结

版本匹配是关键：rocm7.2+Torch2.10+Transformers5.6+vLLM0.19.1是最佳组合
关键参数说明：

--gpu-memory-utilization 0.85：降低显存占用，避免报错--max-model-len 8192：限制上下文长度，防止显存溢出--enable-expert-parallel 只有MoE模型才需要--tensor-parallel-size 1：单卡设备设为1