乐于分享
好东西不私藏

MAX+395部署本地AI

MAX+395部署本地AI


🔍 缘起:为何选择AMD笔记本

年前听说AMD的MAX+395性能强悍,内存大(128GB),能部署大模型,于是入手了ROG幻X2025。结果发现,AMD硬件在AI部署上真是”天生劣势”!


🎯 方案选择:为什么是vLLM

现有部署框架很多:SGLang、KTransformers、Ollama等。我选择了vLLM,因为它是”企业级”方案,性能优异。但AMD需要ROCm和PyTorch支持,官方教程复杂,优先考虑Docker部署。


🚫 尝试1:官方镜像版本太旧

官方镜像rocm/vllm:rocm7.12.0_gfx950-dcgpu_ubuntu24.04_py3.12_pytorch_2.9.1_vllm_0.16.0

vLLM 0.16完全不够用!其要求的Transformers版本不能大于5.0,不支持很多国内模型


 尝试2:激进方案遇挫

therock镜像kyuz0/vllm-therock-gfx1151:stable

版本信息:

  • ROCm 7.13
  • Torch 2.13
  • Transformers 5.5.4
  • vLLM 0.19.2

测试结果:

1. 验证amd-smi  # ❌  解决:pip安装amdsmi2. 验证rocm-smi # ✅ 正常输出3. 验证torch cuda avilable # ✅ 正常输出4. 验证transformer 部署qwen35 # ✅ 正常交互5. 验证vllm部署qwen35 # ❌ 报错,显存错不足

懒得解决,3月19版本的therock镜像应该能用,感兴趣的朋友可以自行尝试。



🏆 尝试3:手动安装终成功!

基于官方PyTorch镜像安装vllm

版本信息:

  • ROCm 7.2.2
  • Torch 2.10
  • Transformers 5.6
  • vLLM 0.19.1

安装步骤:

1. 使用官方ROCm PyTorch镜像:rocm/pytorch:rocm7.2.2_ubuntu24.04_py3.12_pytorch_release_2.10.02. 安装Transformers:pip install transformers==5.63. 安装vLLM:pip install vllm==0.19.1+rocm721 --extra-index-url https://wheels.vllm.ai/rocm/0.19.1/rocm721

注意:环境是rocm7.2.2,vllm是基于rocm7.2.1,暂时不影响使用。

测试部署:

1. 验证amd-smi  # ✅ 正常输出2. 验证rocm-smi # ✅ 正常输出3. 验证torch cuda avilable # ✅ 正常输出4. 验证transformer 部署qwen35 # ✅ 正常交互5. 验证vllm部署qwen35 # ✅ 正常交互

📊 经验总结

  • 版本匹配是关键:rocm7.2+Torch2.10+Transformers5.6+vLLM0.19.1是最佳组合

  • 关键参数说明:

--gpu-memory-utilization 0.85:降低显存占用,避免报错--max-model-len 8192:限制上下文长度,防止显存溢出--enable-expert-parallel 只有MoE模型才需要--tensor-parallel-size 1:单卡设备设为1