乐于分享
好东西不私藏

告别 Token 焦虑!用 OpenClaw 小龙虾调用本地大模型,实现真正零成本 AI 自由

告别 Token 焦虑!用 OpenClaw 小龙虾调用本地大模型,实现真正零成本 AI 自由

最近 OpenClaw 小龙虾确实火,身边不少朋友都装上了。但用着用着发现一个扎心的问题——Token 烧得太快了!

跟 AI 聊几句,API 余额哗哗往下掉。一天下来几块钱,一个月就是上百块。虽然不算天价,但长期用下来还是肉疼。

💡 有没有办法彻底摆脱 API 费用,想聊多少聊多少?

有的。 答案就是把大模型部署在本地,让小龙虾直接调用本机算力——真正实现 Token 自由。


🖥️ 我的配置

先说一下我的环境,供你参考:

项目
配置
显卡
NVIDIA RTX 3060 12GB
系统
Windows 11
内存
32GB
CPU
AMD Ryzen 7

⚠ 不用一模一样的配置,只要你有 6GB 以上显存的 NVIDIA 显卡,就能跑起来。显存越大,能跑的模型越大。


📦 第一步:安装 Ollama

Ollama 是目前最流行的本地大模型运行工具,一条命令就能下载和运行各种开源模型。

1.1 下载安装

打开浏览器,访问 [1]https://ollama.com[2] ,点击 Download 下载 Windows 版本。

双击安装包,一路下一步即可,没有任何坑。

1.2 验证安装

安装完成后,右键点击开始菜单,选择「终端(管理员)」,输入:

ollama --version

如果显示版本号(比如 ollama version is 0.21.0),说明安装成功 ✅

1.3 下载模型

Ollama 安装好之后,就可以下载模型了。推荐几个适合 12GB 显存的模型:

# 千问 3.5(推荐,9B 参数,中文能力强,约 5.5GB)ollama pull qwen3:14b# 千问 3(14B,更强但更大,约 8.5GB)ollama pull qwen:14b# 智谱清言 GLM-4(9B,约 5.5GB)ollama pull glm4:9b# Llama 3.1(8B,Meta 出品,约 4.7GB)ollama pull llama3.1:8b

💡 建议先下 qwen3:14b,中文效果最好,速度和质量的平衡点。

1.4 测试一下

下载完成后,直接在终端里跟模型聊天:

ollama run qwen3:14b

试试发张图片给它识别:

ollama run llama3.2-vision:11b

🎉 没错,本地模型也能识别图片!它会详细分析图片里的物体、颜色、风格甚至家具类型,非常强大。


🔗 第二步:让 OpenClaw 小龙虾连接本地 Ollama

这是关键步骤——把小龙虾的”大脑”从云端切到本地。

2.1 打开配置向导

在终端输入:

openclaw configure

回车后会进入交互式配置界面。

2.2 选择 Ollama 作为模型提供方

一路按照提示操作:

第一步:选择 Provider(模型提供方)→ 选「Ollama」第二步:配置连接地址→ 默认 127.0.0.1:11434(本机地址,直接回车即可)第三步:选择本地模型→ 用方向键移动到你想用的模型→ 按「空格键」勾选(变绿即选中)→ 可以多选,方便以后随时切换→ 选好后回车确认

2.3 确认并保存

看到你选的模型列表后,选择 Continue 确认。


🔄 第三步:重启小龙虾

配置保存后,需要重启 Gateway 让新设置生效:

openclaw gateway restart

等几秒,出现「Gateway is running」就 OK 了。


✅ 第四步:测试本地模型

打开控制台:

openclaw dashboard

在聊天框里发送「你好」,看看回复速度如何?

如果正常回复,说明小龙虾已经跑在本地的 Ollama 上了! 🎉

📊 运行时会听到显卡风扇加速——这是正常的,本地推理吃 GPU,风扇转得快说明它在认真干活。


🎮 自由切换模型

本地部署最大的好处:想换哪个模型换哪个。

你装了多个模型后,在对话中可以随时切换:

  • 写代码用 CodeLlama
  • 写文章用千问
  • 翻译用 GLM-4
  • 识图用 LLaVA 或 llama3.2-vision

各大厂商(阿里、Meta、智谱、微软……)都在不断开源新模型,你可以根据自己的需求随时下载尝鲜。


💰 成本对比

方案
月成本(假设每天 50 条消息)
隐私性
速度
云端 API(DeepSeek)
约 ¥30-60
一般
云端 API(OpenAI)
约 ¥100-300
一般
本地 Ollama ¥0(仅电费)
🔒 极高
取决于显卡

🎯 本地部署 = 一次性投入显卡 + 永久零成本使用。


🔧 常见问题

Q:显存不够怎么办? A:选更小的模型,比如 qwen3:4b(约 2.5GB)、llama3.2:3b(约 2GB),4GB 显存也能跑。

Q:回复速度慢吗? A:RTX 3060 12GB 跑 14B 模型,每秒约 30-50 个 token,日常聊天完全够用。

Q:没有 NVIDIA 显卡能用吗? A:可以用 CPU 跑,但会很慢。建议至少 GTX 1060 6GB 起步。

Q:模型存在哪里? A:默认在 C:\Users\你的用户名\.ollama\models,想迁移可以改环境变量 OLLAMA_MODELS


📝 总结

步骤
操作
耗时
1
安装 Ollama
2 分钟
2
下载模型
5-20 分钟(取决于网速)
3
OpenClaw 配置切换到 Ollama
1 分钟
4
重启 Gateway
30 秒
5
开始聊天!

💬 写在最后

本地部署大模型 + OpenClaw 小龙虾的组合,是我目前找到的性价比最高的 AI 助手方案

  • 🆓 Token 完全免费,想聊多久聊多久
  • 🔒 数据不出本地,隐私零风险
  • 🎛 模型自由切换,不被任何厂商绑定
  • 🚀 离线也能用,不依赖网络

如果你跟着教程操作成功了,欢迎在评论区分享你的体验。

遇到问题也可以在评论区交流,我看到会回复 💪


🦞 本文由 小龙虾实验室撰写