我们使用OpenClaw 的时候,模型不仅要具备强大的推理与语言理解能力,还必须拥有稳定的Tool Calling能力。在自动化任务中,模型需要频繁调用各类工具来完成操作,因此工具调用能力往往是选择模型时的最关键指标之一。
我们在初次尝试本地部署模型时,通常会选择 Ollama。其优势十分明显:安装简单、配置便捷然而,在 OpenClaw 这类自动化任务场景下,Ollama 的调用方式与推理速度并不理想,实际使用中会感觉推理速度越来越慢。连续运行多个任务后,上下文不足的情况尤为频繁。因此,选用更合适的推理框架成为我们使用openclaw的首要条件。
如果我们的场景是集群/多智能体场景,就要使用SGLang
如果我们是自己个人使用,单卡本地部署,最优的选择是vLLM
下面是在windows+RTX4090 (24G )本地部署的配置步骤,适合个人炒龙虾。
一、安装 WSL2
在PowerShell(管理员)执行:
wsl --install
安装完成后重启电脑,然后安装Ubuntu,
wsl --install -d Ubuntu
检查版本:
wsl --version
确保输出结果是:WSL2
二、WSL 安装 CUDA 驱动支持
先确认 Windows 已安装 NVIDIA 驱动。
检查:nvidia-smi
然后在 WSL Ubuntu里运行:nvidia-smi
如果出现显卡信息说明 GPU直通成功。例如:RTX 4090
三、安装 Python 环境
更新系统:
sudo apt update
sudo apt upgrade -y
安装 Python:sudo apt install python3-pip python3-venv -y
创建虚拟环境:
cd ~
python3 -m venv vllm-env
进入环境:
source vllm-env/bin/activate
四、安装 vLLM
安装命令:
pip install --upgrade pip
pip install vllm
安装完成后测试:
python -c "import vllm; print('vLLM installed')"
五、下载模型
推荐模型:
Qwen2.5-14B-Instruct-AWQ ,如果你的显存更小,建议选择参数规模更小的模型
六、启动 vLLM 服务
十二、解决长对话卡顿
夜雨聆风