OpenClaw+本地大模型实战:Ollama完美跑通全记录,vLLM等你来填坑!

本地部署，从Ollama开始

最近折腾OpenClaw对接本地大模型，亲测Ollama方案已完美跑通！从安装到配置，全程无坑，适合想快速上手的同学。

至于vLLM... 目前还在踩坑中（后文详说）。如果你成功跑通了vLLM，请务必在评论区分享经验，咱们一起完善这份指南！

为什么选本地部署？

痛点	云端方案	本地部署
数据隐私	❌ 上传第三方	✅ 完全本地
调用成本	❌ 按token收费	✅ 一次性投入
网络依赖	❌ 需要外网	✅ 离线可用
定制自由度	❌ 受限	✅ 模型/参数全可控

适合人群：

处理敏感数据的打工人
想白嫖无限调用的开发者
网络环境受限的企业内网用户

环境准备（Windows/WSL2版）

必装清单

# 1. WSL2（Windows必需）wsl --install -d Ubuntu-22.04# 2. Node.js 22+ # 官网下载：https://nodejs.org 或curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -sudo apt-get install -y nodejs# 3. 验证版本node -v  # v22.x.xnpm -v   # 10.x.x

硬件参考

测试环境：

CPU: AMD Ryzen 7 5800X
内存: 32GB DDR4
显卡: RTX 3060 12GB（关键：大显存比高算力更重要）
系统: Windows 11 + WSL2 Ubuntu 22.04

经验谈：12GB显存跑qwen3:8b很顺畅，但想跑14B模型建议16GB+。

Ollama部署全流程（已验证✅）

安装Ollama

# WSL2/Ubuntu一键安装curl -fsSL https://ollama.com/install.sh | sh# 验证ollama --version  # 0.6.5+

Windows用户注意：Ollama会同时安装Windows版和WSL版，建议统一在WSL2里操作，避免路径混乱。

拉取模型（避坑重点！）

关键认知：OpenClaw需要支持Function Calling（工具调用）的模型！

模型	工具调用	推荐度	说明
qwen3:8b	✅ 完美支持	⭐⭐⭐⭐⭐	中文强、32K上下文
qwen2.5:7b	✅ 支持	⭐⭐⭐⭐	轻量快速
glm-4:9b	✅ 支持	⭐⭐⭐⭐	代码能力好
deepseek-r1:8b	❌ 不支持	⭐	纯文本模型，无法调用工具
llama3.1:8b	✅ 支持	⭐⭐⭐	英文场景优先

我的选择：

# 拉取Qwen3 8B（默认8K上下文）ollama pull qwen3:8b# 创建32K上下文版本（OpenClaw建议≥16K）cat > Modelfile << 'EOF'FROM qwen3:8bPARAMETER num_ctx 32768EOFollama create qwen3:8b-32k -f Modelfile

验证模型：

ollama list# NAME                ID              SIZE      MODIFIED# qwen3:8b            xxx             4.9 GB    2 hours ago# qwen3:8b-32k        xxx             4.9 GB    1 hour ago  ← 用这个

安装OpenClaw

# 全局安装npm install -g openclaw# 验证openclaw --version  # 1.x.x

配置对接（核心步骤）

启动配置向导：

openclaw onboard

逐步操作截图级指引：

步骤	选项	填写内容	注意事项
1	Model provider	`Custom Provider`	选最后一项
2	API Base URL	`http://127.0.0.1:11434/v1`	必须带/v1后缀
3	API Key	`ollama`	随意填，不能留空
4	Endpoint compatibility	`OpenAI-compatible`	选兼容模式
5	Model ID	`qwen3:8b-32k`	填你创建的模型名
6	Context window	`32768`	与Modelfile一致
7	Max output tokens	`8192`	根据显存调整
8	Cost	`0` / `0`	本地模型成本为0
9	MCP servers	`Skip for now`	后续再配置
10	Agent config	`Skip for now`	保持默认

看到 Verification successful 就成功了！

启动与验证

# 启动网关openclaw gateway# 输出示例：# [Gateway] Starting gateway on http://127.0.0.1:18789# [Ollama] Connected to http://127.0.0.1:11434/v1# [Model] qwen3:8b-32k ready

访问Web界面：浏览器打开 http://127.0.0.1:18789

测试工具调用：

输入："帮我查一下北京的天气"
观察：Agent应该能识别意图并调用天气工具（如果配置了MCP）
查看日志：openclaw logs 能看到完整的请求/响应

Ollama进阶技巧

多模型管理

# 列出所有模型ollama list# 快速切换模型（无需重启OpenClaw）ollama run qwen2.5:7b# 删除不用的模型释放空间ollama rm deepseek-r1:8b

性能优化

# 查看当前运行的模型ollama ps# 限制显存占用（多模型并存时有用）export OLLAMA_GPU_OVERHEAD=1GB# 强制CPU运行（没显卡时应急）export OLLAMA_NO_GPU=1

自动启动配置

# WSL2设置开机自启sudo systemctl enable ollama# 或者创建Windows任务计划程序，开机执行：# wsl -d Ubuntu-22.04 -e ollama serve

vLLM部署现状：我卡在哪了？（求助🙏）

为什么想试vLLM？

Ollama虽然好用，但vLLM有几个诱人特性：

更高并发：适合多Agent同时运行
显存优化：相同显卡能跑更大模型
吞吐量：API响应速度更快

我的尝试过程

安装阶段（顺利）：

pip install vllm# 安装成功，无报错

启动服务（疑似成功）：

python -m vllm.entrypoints.openai.api_server \  --model Qwen/Qwen2.5-7B-Instruct \  --port 8000 \  --host 0.0.0.0# 显示：INFO: Started server process [xxx]

配置OpenClaw（按文档操作）：

{"vllm-local": {"baseUrl": "http://127.0.0.1:8000/v1","apiKey": "sk-anything","models": [{"id": "Qwen2.5-7B-Instruct", "contextWindow": 32768}]  }}

报错现象：

OpenClaw配置向导显示 Connection timeout
直接curl http://127.0.0.1:8000/v1/models有时能通，有时不通
日志显示 Failed to fetch models from provider

我的排查思路（未解决）

网络层：确认端口8000已放行防火墙
服务层：vLLM日志显示运行正常，无错误
配置层：尝试了localhost/127.0.0.1/0.0.0.0多种组合
权限层：WSL2和Windows防火墙都检查过

怀疑方向：

vLLM的OpenAI兼容层与OpenClaw的握手协议不匹配？
需要额外的启动参数？

📢 vllm部署求助，等你来填坑！

如果你成功跑通了vLLM + OpenClaw，请帮忙验证以下信息：

环境信息（请留言格式）

操作系统: [Windows/Mac/Linux]部署方式: [Docker/conda/源码]vLLM版本: [x.x.x]模型名称: [xxx]关键启动参数: [xxx]OpenClaw版本: [x.x.x]

特别想请教的问题

WSL2部署vLLM是否需要特殊网络配置？

是否需要--network host？
Windows访问WSL2的vLLM服务，地址是localhost还是172.x.x.x？

工具调用参数怎么配？

是否需要--enable-auto-tool-choice？
--tool-call-parser选hermes还是qwen？

性能调优经验

--gpu-memory-utilization设多少合适？
--max-num-seqs对OpenClaw的影响？

与Ollama的对比

实际使用中vLLM比Ollama快多少？
显存占用真的更低吗？

总结

当前结论：

✅ Ollama方案：已验证，10 分钟上手，适合绝大多数个人用户
⏳ vLLM方案：潜力大，但需要大家帮忙共同攻克难题

我的建议：

新手/急用 → 直接抄Ollama部分的作业，今天就能跑起来
性能党/技术控 → 先收藏本文，等评论区vLLM方案成熟后再迁移
大佬 → 请直接评论区开讲，拯救一下卡在vLLM的小伙伴😭

参考资源

资源	链接	说明
OpenClaw官方文档	docs.openclaw.ai	配置参考
Ollama模型库	ollama.com/library	找支持的模型
Qwen3工具调用指南	GitHub Qwen3	工具调用格式
vLLM文档	docs.vllm.ai	待补充经验
本文评论区	见下方👇	vLLM经验征集区