字数 977,阅读大约需 5 分钟
国内各大厂的CodingPlan计划都在收紧涨价,免费的API,国内免费几千万额度还不够OpenClaw几分钟折腾的,国外一些无限额度存在超时不稳定情况,于是想本地搭建一个试试。
一、为什么本地部署?
简单来说就三个理由:
1. 数据不出内网 :所有对话、文件、知识库都在本地,不用担心隐私泄露 2. 零 API 成本 :模型跑在自己机器上,随便用不花钱 3. 离线可用 :没网也能用,适合对数据敏感的场景
当然,代价是你得有自己的硬件,并且模型能力取决于你买的显卡。
二、硬件配置与模型选择
硬件门槛
| 入门 | ||||
| 推荐 | ||||
| 高端 | ||||
| Mac |
我的配置: RTX 3060 12GB + 32GB 内存,跑 Qwen3.5-9B 够用,选它的理由是中文能力好,日常对话、基础指令、写作辅助都还不错,可以做小龙虾的基础模型使用。
三、Ollama 安装步骤
进入官网https://ollama.com/download

Linux (Ubuntu/Debian)
1 2 3 4 5 6 7 8 9 10 11 12
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
# 启动服务(后台运行)
ollama serve
# 设置开机自启
sudo systemctl enable ollama
sudo systemctl start ollama
macOS
1 2 3 4 5
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 或者下载官方 App
# https://ollama.com/download/mac
Windows
1 2 3 4 5
# 一键安装
irm https://ollama.com/install.ps1 | iex
# 或者下载官方 App
# https://ollama.com/download/windows
拉取模型
可以去官网https://ollama.com/search查看可用的模型,这里以Qwen3.5-9B为例

1 2 3 4 5
# 下载 Qwen3.5-9B
ollama pull qwen3.5:9b
# 查看已下载模型
ollama list
测试运行
1 2 3 4 5 6 7 8
# 交互式对话
ollama run qwen3.5:9b
# 单次问答
ollama run qwen3.5:9b "你好,请介绍一下自己"
# 查看服务状态
curl http://localhost:11434/api/tags

四、OpenClaw 配置 Ollama
修改配置
编辑 ~/.openclaw/config.json
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
{
"providers": {
"ollama": {
"baseUrl": "http://192.168.1.5:11434/v1", #我这小龙虾和ollama不在同一设备上
"apiKey": "", # 没有密钥,留空
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:9b",
"name": "Qwen 3.5 9B",
"contextWindow": 524288,
"maxTokens": 262144 # qwen3.5 9b最大支持256Ktoken
}
]
},
"bailian": {
"baseUrl": "https://coding.dashscope.aliyuncs.com/v1",
"apiKey": "这里是百炼CodingPlan的Key",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5-plus",
"name": "qwen3.5 plus",
"contextWindow": 2097152,
"maxTokens": 1048576
}
]
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:9b",
"fallbacks": [
"bailian/qwen3.5-plus" # 备用百炼模型
]
}
}
}
}
测试
我是配置到New-API中转使用的,切换到qwen3.5:9b模型,输入文本测试。在Ollama中测试,感觉输出挺快的,但是放到OpenClaw中就发了一个“你好,测试一下模型”,结果输入Token 36k+,输出卡到怀疑人生(以上本人测试,数据仅提参考)

分析优化
可以看出显存炸了,内存飙升(应该用了共享GPU内存)。从网上资料来看,对于 Qwen3.5-9B 这样的模型,每 1k 输入 Token 大约会消耗 200-300MB 的显存用于 KV Cache,36k tokens 约占 7~10GB 显存,加上基础模型占用6G左右,已经超过12G显存了。
解决办法:
• 1. 换成4B模型,这个基本不卡,输出几秒时间,“智商”有点弱,日常对话简单任务还行,偶尔会“犯傻”。 • 2. 修改裁剪大小,把输入Token限制在10k以内,但是加点技能历史记录什么的分分钟超这个值,对话裁剪都很难裁掉。
五、结论
没有好硬件还是不要给OpenClaw用本地模型,qwen3.5 4b有点弱,给OpenClaw基础日常用9b是基础,显卡得3090/4090才流畅。听说微软最近推出了BitNet以1.58-bit三值量化技术,可以降低显卡要求,有空了折腾一下怎么玩。
夜雨聆风