上一篇文章发了之后,后台收到不少留言,问的最多的问题是:
“cncdns,你说OpenClaw能本地跑模型,那到底该选哪个?我电脑就一张3060,能跑得动吗?”“不想花钱买API,本地跑会不会很卡?”“Qwen、MiniMax、Llama……到底哪个跟OpenClaw最搭?”
今天这篇,咱们就专门聊聊这个话题。

先说结论:本地跑模型,完全可以做到“穷养不穷用”。关键是选对模型、做对量化。
我自己折腾了一个多月,踩过坑、烧过卡、也遇到过模型抽风把代码删了一半的惊魂时刻。下面这些内容,都是我拿真金白银(和时间)换来的经验。
一、先算一笔账:为什么要“穷养”?
在决定本地跑之前,你得先想清楚一个问题:你到底想省什么?
如果只是偶尔用用,云端API其实挺划算的。硅基流动新用户送2000万Token,够你用几个月。阿里云百炼Coding Plan也有免费额度,首月7.9元就能随便玩。
但如果你是重度用户——比如让OpenClaw帮你处理日常邮件、定时跑脚本、做代码审查——那Token消耗起来是真的快。
我有个朋友,把OpenClaw接进飞书当团队助理用,一个月干了60多万Token,账单下来直接懵了。
本地跑的优势很明显:
一次硬件投入,长期零成本
数据不出门,隐私可控
离线也能用,不怕断网
缺点也实在:
需要显卡(没钱就得将就)
速度取决于你电脑配置
折腾门槛比云端高
我的态度很明确:能本地跑就本地跑,跑不动的再考虑云端混合。下面咱们就按这个思路,一步步拆。
二、本地跑模型,硬件得花多少钱?
先别急着买卡,咱们先看看自己的家底。
根据实测经验,Qwen3.5系列是目前本地跑OpenClaw最成熟的模型之一,硬件需求很清晰:
说人话版本:
如果你手里是RTX 3060(12GB版),恭喜你,这是目前穷养的最佳选择。Qwen3.5 9B的INT8量化版刚好能跑,速度还不错,二手卡也就一千多块。
如果你是GTX 1060这种老卡,也别灰心。选Qwen3.5 4B或者2B的INT4版本,照样能跑。响应慢一点,但该干的活都能干。
如果你是Mac用户(M1/M2/M3),苹果的统一内存架构其实挺适合跑模型的。8GB内存的MacBook Air就能跑Qwen3.5 4B,16GB的能跑9B。
真心话: 别为了跑OpenClaw专门去买4090,没必要。先用手头的卡试试,跑不动再考虑降级模型。穷养的核心是“物尽其用”,不是烧硬件。
三、模型怎么选?直接给结论
我实测了市面上主流的几款模型,结合OpenClaw官方PinchBench榜单的数据,给你一个可以直接抄的结论:
1. 综合最强:MiniMax M2.5
适合人群:追求体验、愿意花点小钱的用户
PinchBench测试中,MiniMax M2.1(M2.5的前代)拿下了93.6%的成功率,仅次于谷歌Gemini,把Claude和GPT-4o都甩在后面。
实测下来,这玩意是真的稳。我让它帮我整理桌面文件、写Python脚本、甚至控制浏览器自动填表单,基本没出过岔子。
缺点:M2.5本身不是开源的,本地跑不了,得用MiniMax的API。价格不贵,但也不是完全免费。
穷养建议:如果你愿意每个月花几十块,这是目前最优解。
2. 免费最佳:Qwen3.5 9B(INT4/INT8量化版)
适合人群:不想花一分钱、手头有6GB以上显存显卡的用户
通义千问3.5系列是目前开源模型里中文支持最好、量化版本最全的。9B版本用INT4量化后,显存占用只有4-5GB,GTX 1660 Ti就能跑。
我自己的主力配置就是Qwen3.5 9B INT8版,跑在RTX 3060上,响应速度大概3-5秒。写代码、整理文档、查资料,完全够用。
穷养建议:这是穷养的黄金选择。免费、能跑、效果不差。
3. 轻量首选:Qwen3.5 4B / 2B
适合人群:显存小于4GB、或者用CPU硬扛的用户
如果你只有4GB显存,甚至没有独立显卡,那就选这两个小尺寸版本。Qwen3.5 4B INT4量化后显存占用不到3GB,CPU也能跑。
效果嘛,肯定不如9B,但基本的对话、代码生成没问题。复杂任务就别指望了,老老实实切云端。
穷养建议:手头紧就选这个,总比没有强。
4. 潜力股:GLM-4.7-Flash
智谱出的小尺寸模型,在NVIDIA DGX Spark上的实测表现不错。如果你用Ollama,可以直接ollama pull glm-4.7-flash拉下来试试。
我用了一周,感觉中文理解比Qwen3.5 4B稍好,但工具调用能力略弱。可以当作备选方案。
5. 云端备胎:阿里云百炼 / 硅基流动
适合人群:电脑实在跑不动、又不想花钱买卡的用户
这不是本地方案,但胜在便宜。硅基流动新用户送2000万Token,阿里云百炼Coding Plan首月7.9元。
穷养建议:先用免费额度撑着,攒钱买卡。
四、实操:OpenClaw怎么接本地模型?
理论说完了,上实操。
目前接本地模型主要有两条路:Ollama 和 LM Studio。我两个都试过,给你说说区别。
方案一:Ollama(推荐,最省事)
Ollama是目前最简单好用的本地模型管理工具,没有之一。
第一步:装Ollama
去官网下载对应系统的安装包,下一步下一步就完事了。Mac用户可以用
brew install ollama第二步:下载模型
打开终端,执行:
bash
# 下载Qwen3.5 9B(推荐)ollama pull qwen3:9b# 或者下轻量版ollama pull qwen3:4b
第三步:配置OpenClaw
用onboard向导是最简单的:
bash
openclaw onboard在供应商列表里选Ollama,向导会自动检测你本地的模型。选择你刚下载的那个,一路回车。
如果向导找不到,手动配也行:
bash
openclaw config set models.providers.ollama.apiKey "ollama-local"OpenClaw会自动发现Ollama里所有已下载的模型。
验证是否成功:
bash
openclaw models list看到ollama/qwen3.5:9b这种带ollama前缀的,说明配好了。
方案二:LM Studio(适合显卡不太好的用户)
LM Studio的好处是支持更多模型格式,而且有图形界面,不用敲命令。
第一步:下载LM Studio
去官网下载安装。
第二步:下载模型
打开LM Studio,在Model Hub里搜索Qwen3.5,选一个你显卡能跑的版本,点Download。
第三步:开启API服务
点击左侧的Server图标,打开Enable Server和Enable OpenAI Compatibility两个开关,默认端口1234。
第四步:配置OpenClaw
在OpenClaw的配置文件~/.openclaw/openclaw.json里加上:
json
{"models": {"providers": {"local-gpu": {"baseUrl": "http://localhost:1234/v1","apiKey": "","api": "openai-completions","models": [{"id": "qwen3.5-9b","name": "Qwen3.5-9B (Local)","contextWindow": 100000,"maxTokens": 100000,"cost": { "input": 0, "output": 0 }}]}}}}
第五步:重启OpenClaw
bash
openclaw gateway stop && openclaw gateway start两种方案怎么选?
追求省事:Ollama,命令少、自动发现模型
需要精细控制:LM Studio,图形界面、支持更多模型格式
想混合使用:两个都可以同时开,OpenClaw支持多供应商
五、避坑指南:这些坑我替你踩过了
坑1:baseUrl写错了,工具调用失灵
很多人配置LM Studio时,会把baseUrl写成http://localhost:1234/v1,这没问题。但如果你配置Ollama时也加/v1,OpenClaw的工具调用功能会挂掉。
正确写法:Ollama用http://localhost:11434,不要加/v1。
坑2:上下文窗口设太小
默认的上下文窗口可能只有4096,稍微长一点的对话就截断了。在模型配置里把contextWindow改成100000以上。
坑3:模型下载太慢
国内下模型确实慢。Ollama可以配置代理,或者用镜像站。LM Studio的下载也经常断。
笨办法:晚上挂着下,第二天再看。
坑4:显存爆了
如果你跑Qwen3.5 9B INT4版本还爆显存,说明你显卡确实不够。换4B版本,或者加--num-gpu-layers参数让部分层跑在CPU上。
坑5:模型抽风乱删文件
这是真事。早期OpenClaw确实出过模型误删文件的事故。
解决方案:
用Docker跑OpenClaw,限制文件访问范围
配置里禁用
delete_file等高危工具重要操作设成“需要确认再执行”
六、写在最后
穷养OpenClaw,核心就一句话:量力而行,够用就行。
手头有好卡,上Qwen3.5 9B;卡一般,上4B;没卡,先用云端免费额度顶着。
千万别为了“养龙虾”去借钱买4090,不值当。
这东西迭代速度太快了,今天你花大价钱买的卡,明年可能就被新出的量化技术干翻了。我一个多月前配的环境,现在已经不能用了,得重新折腾。
所以,我的建议是:先用你手头的东西跑起来,跑不动再想升级。
下一篇,我准备写写OpenClaw怎么接飞书,以及怎么配置让它能安全地操作你电脑上的文件。想看的评论区扣个1。
—— cncdns笔记
(这篇写了一个周末,中间模型抽风删了我两次草稿。如果你照着配遇到问题,公众号直接问我,我看到就回。)
夜雨聆风