Ollama越用越慢,OpenClaw最佳本地部署方案

我们使用OpenClaw 的时候，模型不仅要具备强大的推理与语言理解能力，还必须拥有稳定的Tool Calling能力。在自动化任务中，模型需要频繁调用各类工具来完成操作，因此工具调用能力往往是选择模型时的最关键指标之一。

我们在初次尝试本地部署模型时，通常会选择 Ollama。其优势十分明显：安装简单、配置便捷然而，在 OpenClaw 这类自动化任务场景下，Ollama 的调用方式与推理速度并不理想，实际使用中会感觉推理速度越来越慢。连续运行多个任务后，上下文不足的情况尤为频繁。因此，选用更合适的推理框架成为我们使用openclaw的首要条件。

如果我们的场景是集群/多智能体场景，就要使用SGLang

如果我们是自己个人使用，单卡本地部署，最优的选择是vLLM

下面是在windows+RTX4090 (24G )本地部署的配置步骤，适合个人炒龙虾。

一、安装 WSL2

在PowerShell（管理员）执行：

wsl --install

安装完成后重启电脑，然后安装Ubuntu，

wsl --install -d Ubuntu

检查版本：

wsl --version

确保输出结果是：WSL2

二、WSL 安装 CUDA 驱动支持

先确认 Windows 已安装 NVIDIA 驱动。

检查：nvidia-smi

然后在 WSL Ubuntu里运行：nvidia-smi

如果出现显卡信息说明 GPU直通成功。例如：RTX 4090

三、安装 Python 环境

更新系统：

sudo apt update

sudo apt upgrade -y

安装 Python：sudo apt install python3-pip python3-venv -y

创建虚拟环境：

cd ~

python3 -m venv vllm-env

进入环境：

source vllm-env/bin/activate

四、安装 vLLM

安装命令：

pip install --upgrade pip

pip install vllm

安装完成后测试：

python -c "import vllm; print('vLLM installed')"

五、下载模型

推荐模型：

Qwen2.5-14B-Instruct-AWQ ，如果你的显存更小，建议选择参数规模更小的模型

六、启动 vLLM 服务

运行命令：

python -m vllm.entrypoints.openai.api_server \

--model Qwen/Qwen2.5-14B-Instruct-AWQ \

--quantization awq_marlin \

--gpu-memory-utilization 0.9 \

--max-model-len 32768 \

--enable-auto-tool-choice \

--tool-call-parser hermes

七、测试模型

在 Windows PowerShell 测试：curl http://127.0.0.1:8000/v1/models

返回模型信息：Qwen/Qwen2.5-14B-Instruct-AWQ

说明连接正常。

八、安装 OpenClaw

在 WSL 子系统里执行安装命令：

先安装Nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -<br />sudo apt install -y nodejs

再执行安装Openclaw

sudo npm install -g openclaw@latest

九、OpenClaw 配置本地模型

进入配置：openclaw onboard

添加模型：选择 Custom Provider

模型提供商必须选择自定义的：

Base URL：http://127.0.0.1:8000/v1

API key：123456 (随便填写)

模型名称：Qwen2.5-14B-Instruct-AWQ

最后保存

十、OpenClaw 推荐参数（优化）

为了避免卡顿：

Context length：6000–8000

Temperature：0.7

Max tokens：2048

十一、优化推理速度（强烈推荐）

vLLM启动参数建议：

注意：这是RTX4090 显卡的配置，请根据你自己的显卡显存来适当修改max-model-len 后面的参数

python -m vllm.entrypoints.openai.api_server \

--model Qwen/Qwen2.5-14B-Instruct-AWQ \

--quantization awq_marlin \

--gpu-memory-utilization 0.9 \

--max-model-len 32768 \

--enable-auto-tool-choice \

--tool-call-parser hermes

十二、解决长对话卡顿

在 OpenClaw System Prompt 加：

When the conversation becomes long,

summarize previous messages into a short memory.

Keep the memory under 200 tokens.