OpenClaw + Ollama 本地部署

字数 977，阅读大约需 5 分钟

国内各大厂的CodingPlan计划都在收紧涨价，免费的API，国内免费几千万额度还不够OpenClaw几分钟折腾的，国外一些无限额度存在超时不稳定情况，于是想本地搭建一个试试。

一、为什么本地部署？

简单来说就三个理由：

1. 数据不出内网 ：所有对话、文件、知识库都在本地，不用担心隐私泄露
2. 零 API 成本 ：模型跑在自己机器上，随便用不花钱
3. 离线可用 ：没网也能用，适合对数据敏感的场景

当然，代价是你得有自己的硬件，并且模型能力取决于你买的显卡。

二、硬件配置与模型选择

硬件门槛

配置等级	GPU	显存	内存	可运行模型
入门	无 (仅 CPU)	-	16GB+	Qwen3.5-0.8B/2B
推荐	RTX 3060/4060	12GB	32GB	Qwen3.5-4B/9B
高端	RTX 3090/4090	24GB	64GB	Qwen3.5-27B/35B
Mac	M1/M2/M3	统一内存	16GB+	各种 7B-14B 模型

我的配置: RTX 3060 12GB + 32GB 内存，跑 Qwen3.5-9B 够用，选它的理由是中文能力好，日常对话、基础指令、写作辅助都还不错，可以做小龙虾的基础模型使用。

三、Ollama 安装步骤

进入官网https://ollama.com/download

Linux (Ubuntu/Debian)



1
2
3
4
5
6
7
8
9
10
11
12

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 启动服务（后台运行）
ollama serve

# 设置开机自启
sudo systemctl enable ollama
sudo systemctl start ollama

macOS



1
2
3
4
5

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 或者下载官方 App
# https://ollama.com/download/mac

Windows



1
2
3
4
5

# 一键安装
irm https://ollama.com/install.ps1 | iex

# 或者下载官方 App
# https://ollama.com/download/windows

拉取模型

可以去官网https://ollama.com/search查看可用的模型，这里以Qwen3.5-9B为例



1
2
3
4
5

# 下载 Qwen3.5-9B
ollama pull qwen3.5:9b

# 查看已下载模型
ollama list

测试运行



1
2
3
4
5
6
7
8

# 交互式对话
ollama run qwen3.5:9b

# 单次问答
ollama run qwen3.5:9b "你好，请介绍一下自己"

# 查看服务状态
curl http://localhost:11434/api/tags

四、OpenClaw 配置 Ollama

修改配置

编辑 ~/.openclaw/config.json



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

{
  "providers": {
    "ollama": {
      "baseUrl": "http://192.168.1.5:11434/v1", #我这小龙虾和ollama不在同一设备上
      "apiKey": "",    # 没有密钥，留空
      "api": "openai-completions",
      "models": [
        {
          "id": "qwen3.5:9b",
          "name": "Qwen 3.5 9B",
          "contextWindow": 524288,
          "maxTokens": 262144  # qwen3.5 9b最大支持256Ktoken
        }
      ]
    },
    "bailian": {
      "baseUrl": "https://coding.dashscope.aliyuncs.com/v1",
      "apiKey": "这里是百炼CodingPlan的Key",
      "api": "openai-completions",
      "models": [
        {
          "id": "qwen3.5-plus",
          "name": "qwen3.5 plus",
          "contextWindow": 2097152,
          "maxTokens": 1048576
        }
      ]
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:9b",
        "fallbacks": [
          "bailian/qwen3.5-plus" # 备用百炼模型
        ]
      }
    }
  }
}

测试

我是配置到New-API中转使用的，切换到qwen3.5:9b模型，输入文本测试。在Ollama中测试，感觉输出挺快的，但是放到OpenClaw中就发了一个“你好，测试一下模型”，结果输入Token 36k+，输出卡到怀疑人生（以上本人测试，数据仅提参考）

分析优化

可以看出显存炸了，内存飙升（应该用了共享GPU内存）。从网上资料来看，对于 Qwen3.5-9B 这样的模型，每 1k 输入 Token 大约会消耗 200-300MB 的显存用于 KV Cache，36k tokens 约占 7~10GB 显存，加上基础模型占用6G左右，已经超过12G显存了。

解决办法：

• 1. 换成4B模型，这个基本不卡，输出几秒时间，“智商”有点弱，日常对话简单任务还行，偶尔会“犯傻”。
• 2. 修改裁剪大小，把输入Token限制在10k以内，但是加点技能历史记录什么的分分钟超这个值，对话裁剪都很难裁掉。

五、结论

没有好硬件还是不要给OpenClaw用本地模型，qwen3.5 4b有点弱，给OpenClaw基础日常用9b是基础，显卡得3090/4090才流畅。听说微软最近推出了BitNet以1.58-bit三值量化技术，可以降低显卡要求，有空了折腾一下怎么玩。