告别 Token 焦虑!用 OpenClaw 小龙虾调用本地大模型,实现真正零成本 AI 自由-夜雨聆风

告别 Token 焦虑!用 OpenClaw 小龙虾调用本地大模型,实现真正零成本 AI 自由

最近 OpenClaw 小龙虾确实火，身边不少朋友都装上了。但用着用着发现一个扎心的问题——Token 烧得太快了！

跟 AI 聊几句，API 余额哗哗往下掉。一天下来几块钱，一个月就是上百块。虽然不算天价，但长期用下来还是肉疼。

💡 有没有办法彻底摆脱 API 费用，想聊多少聊多少？

有的。 答案就是把大模型部署在本地，让小龙虾直接调用本机算力——真正实现 Token 自由。

🖥️ 我的配置

先说一下我的环境，供你参考：

项目	配置
显卡	NVIDIA RTX 3060 12GB
系统	Windows 11
内存	32GB
CPU	AMD Ryzen 7

⚠ 不用一模一样的配置，只要你有 6GB 以上显存的 NVIDIA 显卡，就能跑起来。显存越大，能跑的模型越大。

📦 第一步：安装 Ollama

Ollama 是目前最流行的本地大模型运行工具，一条命令就能下载和运行各种开源模型。

1.1 下载安装

打开浏览器，访问 ^[1]https://ollama.com^[2] ，点击 Download 下载 Windows 版本。

双击安装包，一路下一步即可，没有任何坑。

1.2 验证安装

安装完成后，右键点击开始菜单，选择「终端（管理员）」，输入：

ollama --version

如果显示版本号（比如 ollama version is 0.21.0），说明安装成功 ✅

1.3 下载模型

Ollama 安装好之后，就可以下载模型了。推荐几个适合 12GB 显存的模型：

# 千问 3.5（推荐，9B 参数，中文能力强，约 5.5GB）ollama pull qwen3:14b# 千问 3（14B，更强但更大，约 8.5GB）ollama pull qwen:14b# 智谱清言 GLM-4（9B，约 5.5GB）ollama pull glm4:9b# Llama 3.1（8B，Meta 出品，约 4.7GB）ollama pull llama3.1:8b

💡 建议先下 qwen3:14b，中文效果最好，速度和质量的平衡点。

1.4 测试一下

下载完成后，直接在终端里跟模型聊天：

ollama run qwen3:14b

试试发张图片给它识别：

ollama run llama3.2-vision:11b

🎉 没错，本地模型也能识别图片！它会详细分析图片里的物体、颜色、风格甚至家具类型，非常强大。

🔗 第二步：让 OpenClaw 小龙虾连接本地 Ollama

这是关键步骤——把小龙虾的”大脑”从云端切到本地。

2.1 打开配置向导

在终端输入：

openclaw configure

回车后会进入交互式配置界面。

2.2 选择 Ollama 作为模型提供方

一路按照提示操作：

第一步：选择 Provider（模型提供方）→ 选「Ollama」第二步：配置连接地址→ 默认 127.0.0.1:11434（本机地址，直接回车即可）第三步：选择本地模型→ 用方向键移动到你想用的模型→ 按「空格键」勾选（变绿即选中）→ 可以多选，方便以后随时切换→ 选好后回车确认

2.3 确认并保存

看到你选的模型列表后，选择 Continue 确认。

🔄 第三步：重启小龙虾

配置保存后，需要重启 Gateway 让新设置生效：

openclaw gateway restart

等几秒，出现「Gateway is running」就 OK 了。

✅ 第四步：测试本地模型

打开控制台：

openclaw dashboard

在聊天框里发送「你好」，看看回复速度如何？

如果正常回复，说明小龙虾已经跑在本地的 Ollama 上了！ 🎉

📊 运行时会听到显卡风扇加速——这是正常的，本地推理吃 GPU，风扇转得快说明它在认真干活。

🎮 自由切换模型

本地部署最大的好处：想换哪个模型换哪个。

你装了多个模型后，在对话中可以随时切换：

写代码用 CodeLlama
写文章用千问
翻译用 GLM-4
识图用 LLaVA 或 llama3.2-vision

各大厂商（阿里、Meta、智谱、微软……）都在不断开源新模型，你可以根据自己的需求随时下载尝鲜。

💰 成本对比

方案	月成本（假设每天 50 条消息）	隐私性	速度
云端 API（DeepSeek）	约 ¥30-60	一般	快
云端 API（OpenAI）	约 ¥100-300	一般	快
本地 Ollama	¥0（仅电费）	🔒 极高	取决于显卡

🎯 本地部署 = 一次性投入显卡 + 永久零成本使用。

🔧 常见问题

Q：显存不够怎么办？ A：选更小的模型，比如 qwen3:4b（约 2.5GB）、llama3.2:3b（约 2GB），4GB 显存也能跑。

Q：回复速度慢吗？ A：RTX 3060 12GB 跑 14B 模型，每秒约 30-50 个 token，日常聊天完全够用。

Q：没有 NVIDIA 显卡能用吗？ A：可以用 CPU 跑，但会很慢。建议至少 GTX 1060 6GB 起步。

Q：模型存在哪里？ A：默认在 C:\Users\你的用户名\.ollama\models，想迁移可以改环境变量 OLLAMA_MODELS。

📝 总结

步骤	操作	耗时
1	安装 Ollama	2 分钟
2	下载模型	5-20 分钟（取决于网速）
3	OpenClaw 配置切换到 Ollama	1 分钟
4	重启 Gateway	30 秒
5	开始聊天！	∞

💬 写在最后

本地部署大模型 + OpenClaw 小龙虾的组合，是我目前找到的性价比最高的 AI 助手方案：

🆓 Token 完全免费，想聊多久聊多久
🔒 数据不出本地，隐私零风险
🎛 模型自由切换，不被任何厂商绑定
🚀 离线也能用，不依赖网络

如果你跟着教程操作成功了，欢迎在评论区分享你的体验。

遇到问题也可以在评论区交流，我看到会回复 💪

🦞 本文由小龙虾实验室撰写