穷养龙虾指南:OpenClaw本地模型怎么选,才能既省钱又能打?

上一篇文章发了之后，后台收到不少留言，问的最多的问题是：

“cncdns，你说OpenClaw能本地跑模型，那到底该选哪个？我电脑就一张3060，能跑得动吗？”“不想花钱买API，本地跑会不会很卡？”“Qwen、MiniMax、Llama……到底哪个跟OpenClaw最搭？”

今天这篇，咱们就专门聊聊这个话题。

先说结论：本地跑模型，完全可以做到“穷养不穷用”。关键是选对模型、做对量化。

我自己折腾了一个多月，踩过坑、烧过卡、也遇到过模型抽风把代码删了一半的惊魂时刻。下面这些内容，都是我拿真金白银（和时间）换来的经验。

一、先算一笔账：为什么要“穷养”？

在决定本地跑之前，你得先想清楚一个问题：你到底想省什么？

如果只是偶尔用用，云端API其实挺划算的。硅基流动新用户送2000万Token，够你用几个月。阿里云百炼Coding Plan也有免费额度，首月7.9元就能随便玩。

但如果你是重度用户——比如让OpenClaw帮你处理日常邮件、定时跑脚本、做代码审查——那Token消耗起来是真的快。

我有个朋友，把OpenClaw接进飞书当团队助理用，一个月干了60多万Token，账单下来直接懵了。

本地跑的优势很明显：

一次硬件投入，长期零成本
数据不出门，隐私可控
离线也能用，不怕断网

缺点也实在：

需要显卡（没钱就得将就）
速度取决于你电脑配置
折腾门槛比云端高

我的态度很明确：能本地跑就本地跑，跑不动的再考虑云端混合。下面咱们就按这个思路，一步步拆。

二、本地跑模型，硬件得花多少钱？

先别急着买卡，咱们先看看自己的家底。

根据实测经验，Qwen3.5系列是目前本地跑OpenClaw最成熟的模型之一，硬件需求很清晰：

量化版本	显存需求	内存需求	适合什么卡	体验评价
INT4（性价比版）	4-5GB	4-5GB	RTX 2060 6GB、GTX 1660 Ti	流畅，日常够用
INT8（平衡版）	8-10GB	8-10GB	RTX 3060 12GB、RTX 4060 Ti	速度和精度都不错
FP16（高精度版）	16GB	16GB	RTX 3090/4090	专业级，追求极致

说人话版本：

如果你手里是RTX 3060（12GB版），恭喜你，这是目前穷养的最佳选择。Qwen3.5 9B的INT8量化版刚好能跑，速度还不错，二手卡也就一千多块。

如果你是GTX 1060这种老卡，也别灰心。选Qwen3.5 4B或者2B的INT4版本，照样能跑。响应慢一点，但该干的活都能干。

如果你是Mac用户（M1/M2/M3），苹果的统一内存架构其实挺适合跑模型的。8GB内存的MacBook Air就能跑Qwen3.5 4B，16GB的能跑9B。

真心话： 别为了跑OpenClaw专门去买4090，没必要。先用手头的卡试试，跑不动再考虑降级模型。穷养的核心是“物尽其用”，不是烧硬件。

三、模型怎么选？直接给结论

我实测了市面上主流的几款模型，结合OpenClaw官方PinchBench榜单的数据，给你一个可以直接抄的结论：

1. 综合最强：MiniMax M2.5

适合人群：追求体验、愿意花点小钱的用户

PinchBench测试中，MiniMax M2.1（M2.5的前代）拿下了93.6%的成功率，仅次于谷歌Gemini，把Claude和GPT-4o都甩在后面。

实测下来，这玩意是真的稳。我让它帮我整理桌面文件、写Python脚本、甚至控制浏览器自动填表单，基本没出过岔子。

缺点：M2.5本身不是开源的，本地跑不了，得用MiniMax的API。价格不贵，但也不是完全免费。

穷养建议：如果你愿意每个月花几十块，这是目前最优解。

2. 免费最佳：Qwen3.5 9B（INT4/INT8量化版）

适合人群：不想花一分钱、手头有6GB以上显存显卡的用户

通义千问3.5系列是目前开源模型里中文支持最好、量化版本最全的。9B版本用INT4量化后，显存占用只有4-5GB，GTX 1660 Ti就能跑。

我自己的主力配置就是Qwen3.5 9B INT8版，跑在RTX 3060上，响应速度大概3-5秒。写代码、整理文档、查资料，完全够用。

穷养建议：这是穷养的黄金选择。免费、能跑、效果不差。

3. 轻量首选：Qwen3.5 4B / 2B

适合人群：显存小于4GB、或者用CPU硬扛的用户

如果你只有4GB显存，甚至没有独立显卡，那就选这两个小尺寸版本。Qwen3.5 4B INT4量化后显存占用不到3GB，CPU也能跑。

效果嘛，肯定不如9B，但基本的对话、代码生成没问题。复杂任务就别指望了，老老实实切云端。

穷养建议：手头紧就选这个，总比没有强。

4. 潜力股：GLM-4.7-Flash

智谱出的小尺寸模型，在NVIDIA DGX Spark上的实测表现不错。如果你用Ollama，可以直接ollama pull glm-4.7-flash拉下来试试。

我用了一周，感觉中文理解比Qwen3.5 4B稍好，但工具调用能力略弱。可以当作备选方案。

5. 云端备胎：阿里云百炼 / 硅基流动

适合人群：电脑实在跑不动、又不想花钱买卡的用户

这不是本地方案，但胜在便宜。硅基流动新用户送2000万Token，阿里云百炼Coding Plan首月7.9元。

穷养建议：先用免费额度撑着，攒钱买卡。

四、实操：OpenClaw怎么接本地模型？

理论说完了，上实操。

目前接本地模型主要有两条路：Ollama 和 LM Studio。我两个都试过，给你说说区别。

方案一：Ollama（推荐，最省事）

Ollama是目前最简单好用的本地模型管理工具，没有之一。

第一步：装Ollama

去官网下载对应系统的安装包，下一步下一步就完事了。Mac用户可以用

brew install ollama

第二步：下载模型

打开终端，执行：

bash

# 下载Qwen3.5 9B（推荐）ollama pull qwen3:9b# 或者下轻量版ollama pull qwen3:4b

第三步：配置OpenClaw

用onboard向导是最简单的：

bash

openclaw onboard

在供应商列表里选Ollama，向导会自动检测你本地的模型。选择你刚下载的那个，一路回车。

如果向导找不到，手动配也行：

bash

openclaw config set models.providers.ollama.apiKey "ollama-local"

OpenClaw会自动发现Ollama里所有已下载的模型。

验证是否成功：

bash

openclaw models list

看到ollama/qwen3.5:9b这种带ollama前缀的，说明配好了。

方案二：LM Studio（适合显卡不太好的用户）

LM Studio的好处是支持更多模型格式，而且有图形界面，不用敲命令。

第一步：下载LM Studio

去官网下载安装。

第二步：下载模型

打开LM Studio，在Model Hub里搜索Qwen3.5，选一个你显卡能跑的版本，点Download。

第三步：开启API服务

点击左侧的Server图标，打开Enable Server和Enable OpenAI Compatibility两个开关，默认端口1234。

第四步：配置OpenClaw

在OpenClaw的配置文件~/.openclaw/openclaw.json里加上：

json

{  "models": {    "providers": {      "local-gpu": {        "baseUrl": "http://localhost:1234/v1",        "apiKey": "",        "api": "openai-completions",        "models": [          {            "id": "qwen3.5-9b",            "name": "Qwen3.5-9B (Local)",            "contextWindow": 100000,            "maxTokens": 100000,            "cost": { "input": 0, "output": 0 }          }        ]      }    }  }}

第五步：重启OpenClaw

bash

openclaw gateway stop && openclaw gateway start

两种方案怎么选？

追求省事：Ollama，命令少、自动发现模型
需要精细控制：LM Studio，图形界面、支持更多模型格式
想混合使用：两个都可以同时开，OpenClaw支持多供应商

五、避坑指南：这些坑我替你踩过了

坑1：baseUrl写错了，工具调用失灵

很多人配置LM Studio时，会把baseUrl写成http://localhost:1234/v1，这没问题。但如果你配置Ollama时也加/v1，OpenClaw的工具调用功能会挂掉。

正确写法：Ollama用http://localhost:11434，不要加/v1。

坑2：上下文窗口设太小

默认的上下文窗口可能只有4096，稍微长一点的对话就截断了。在模型配置里把contextWindow改成100000以上。

坑3：模型下载太慢

国内下模型确实慢。Ollama可以配置代理，或者用镜像站。LM Studio的下载也经常断。

笨办法：晚上挂着下，第二天再看。

坑4：显存爆了

如果你跑Qwen3.5 9B INT4版本还爆显存，说明你显卡确实不够。换4B版本，或者加--num-gpu-layers参数让部分层跑在CPU上。

坑5：模型抽风乱删文件

这是真事。早期OpenClaw确实出过模型误删文件的事故。

解决方案：

用Docker跑OpenClaw，限制文件访问范围
配置里禁用delete_file等高危工具
重要操作设成“需要确认再执行”

六、写在最后

穷养OpenClaw，核心就一句话：量力而行，够用就行。

手头有好卡，上Qwen3.5 9B；卡一般，上4B；没卡，先用云端免费额度顶着。

千万别为了“养龙虾”去借钱买4090，不值当。

这东西迭代速度太快了，今天你花大价钱买的卡，明年可能就被新出的量化技术干翻了。我一个多月前配的环境，现在已经不能用了，得重新折腾。

所以，我的建议是：先用你手头的东西跑起来，跑不动再想升级。

下一篇，我准备写写OpenClaw怎么接飞书，以及怎么配置让它能安全地操作你电脑上的文件。想看的评论区扣个1。

—— cncdns笔记

（这篇写了一个周末，中间模型抽风删了我两次草稿。如果你照着配遇到问题，公众号直接问我，我看到就回。）