乐于分享
好东西不私藏

OpenClaw接入vllm本地大模型

OpenClaw接入vllm本地大模型

1.vLLM 简介与技术特点

vLLM是一个快速高效的大语言模型推理和服务库,具有以下核心优势:

·高吞吐量服务

通过PagedAttention实现先进的内存管理

·连续批处理

对传入请求进行连续批处理,提高GPU利用率

·优化执行

支持自定义Gaudi®实现,针对LLM操作符进行优化

·多推理模式

支持离线批处理推理和通过OpenAI兼容服务器的在线推理 

2.环境要求(硬件+系统+软件环境)

·操作系统

Ubuntu 22.04 LTS/Windows 11(WSL2)

 ·显卡驱动

   ·conda环境

已安装conda

       ·cuda工具包

已安装cuda

3.安装大模型

3.1创建虚拟环境

conda create -n vllm python=3.12 -y 

3.2 激活虚拟环境

conda activate vllm

3.3安装vLLM

pip安装vllm预编译的Python包 

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

3.4 验证vLLM

vllm --version

3.5 下载大模型包

魔搭社区: https://www.modelscope.cn/models/modelscope

(1)安装ModelScope 

pip install modelscope

(2)下载大模型

#模型下载 

from modelscope import snapshot_download 

model_dir = snapshot_download('Qwen/Qwen3-4B',cache_dir=”./llms/models”)

 python download.py 即可

3.6启动模型服务

vllm serve /home/it007/llms/models/Qwen/Qwen3-4B --host 0.0.0.0--port 8001--enable-auto-tool-choice--tool-call-parser qwen3_coder

注意:需要带路径/home/it007/llms/models/Qwen,默认的端口号为:8001

3.7验证大模型

(1)查看模型信息

curl http://localhost:8001/v1/models

 (2)查看一下效果

curl http://127.0.0.1:8001/v1/chat/completions \              -H "Content-Type: application/json" \              -d '{              "model": "/home/it007/llms/models/Qwen/Qwen3-4B","messages": [              {"role": "system", "content": "你是一个英文翻译助手。"},              {"role": "user", "content": "请把你吃饭了么翻译成英语"}  ],              "temperature": 0.2,              "max_tokens": 256              }'

3.8配置openclaw

vi ~/.openclaw/openclaw.json

把下面这段代码替换到上述文件中

"models": {

"mode""merge",

"providers": {     

"vllm": {

"baseUrl""http://127.0.0.1:8001/v1",

"apiKey""VLLM_API_KEY",

"api""openai-completions",

"models": [

          {

"id""/home/it007/llms/models/Qwen/Qwen3-4B",

"name""/home/it007/llms/models/Qwen/Qwen3-4B",

"reasoning"false,

"input": [

"text"

            ],

"cost": {

"input"0,

"output"0,

"cacheRead"0,

"cacheWrite"0

            },

"contextWindow"128000,

"maxTokens"8192,

"compat": {

"supportsStrictMode"false,

"supportsStore"false,

"supportsDeveloperRole"false,

"supportsReasoningEffort"false

            }

          }

        ]

      }

    }

  },

"agents": {

"defaults": {

"model": {

"primary""vllm//home/it007/llms/models/Qwen/Qwen3-4B"

      },

"models": {       

"vllm//home/it007/llms/models/Qwen/Qwen3-4B": {}

      },

"workspace""/home/it007/.openclaw/workspace"

    }

  },

注意

(1)id和name名填写的是模型启动的全路径

/home/it007/llms/models/Qwen/Qwen3-4B

(2)agents配置时,vllm后面是//

3.9重启openclaw网关

#重启网关                      openclaw gateway restart

4试OpenClaw使用模型

打开openclaw的Web UI

测试一下ollama部署的qwen3:4B模型