OpenClaw + llama.cpp 本地部署Qwen3.5-4B指南

前段时间在我的 MacBook 上安装 openclaw+ollama，并部署了 Qwen2.5 7b的模型，电脑卡的不行，然后又费劲巴拉的卸载掉了。最近看到网上说可以用llama.cpp 部署 Qwen3.5 比较适合低配置的电脑，于是开始部署。

我的电脑配置如下：

由于内存较小，我找 AI 再次确认了这个安装方案：

M2 MacBook Air (8GB内存) 上部署 llama.cpp + Qwen3.5-4B 模型

📦 最终方案概览

🧰 前期准备

1. 安装 Homebrew（如未安装）

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

2. 安装 Node.js（OpenClaw 需要 v22+）

brew install node

node -v # 应显示 v22.x 或更高

3. 安装 Python 环境（用于下载模型）

pip3 install modelscope

🚀 第一步：部署 llama.cpp 和模型

1. 安装 llama.cpp

brew install llama.cpp

✅ Homebrew 安装会自动开启 Metal GPU 加速，无需额外配置。

2. 下载 Qwen3.5-4B GGUF 模型（国内魔塔源）

modelscope download --model unsloth/Qwen3.5-4B-GGUF Qwen3.5-4B-Q4_K_M.gguf --local_dir .

下载完成后，将模型移动到统一目录（可选）：

mkdir -p ~/Documents/llama-models

mv Qwen3.5-4B-Q4_K_M.gguf ~/Documents/llama-models/

3. 启动 llama-server（关键参数）

打开一个专用终端窗口，执行：

cd ~/Documents/llama-models

llama-server -m Qwen3.5-4B-Q4_K_M.gguf --host 127.0.0.1 --port 8080 -ngl 99 --ctx-size 16384

参数解释：

-m：模型文件路径
--host 127.0.0.1：仅本机访问（如需局域网改为 0.0.0.0）
--port 8080：服务端口
-ngl 99：将模型全部加载到 GPU（M2 Metal）
--ctx-size 16384：上下文窗口大小（必须 ≥16000 以满足 OpenClaw 要求）

⚠️ 此窗口不能关闭，服务必须保持运行。

验证服务是否成功：

curl http://127.0.0.1:8080/health # 返回 {"status":"ok"}

curl http://127.0.0.1:8080/v1/models # 返回模型信息

🔌 第二步：安装 OpenClaw

1. 使用一键脚本安装（推荐）

curl -fsSL https://openclaw.ai/install.sh | bash

或国内镜像：

curl -fsSL https://open-claw.org.cn/install-cn.sh | bash

2. 解决 openclaw: command not found

安装后如果执行 openclaw 提示找不到命令，是因为 npm 全局目录未加入 PATH。解决方法：

# 查找 openclaw 实际安装位置

find ~ -name "openclaw" -type f 2>/dev/null

# 假设输出为 /Users/你的用户名/.local/bin/openclaw

# 将 ~/.local/bin 添加到 PATH

echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.zshrc

source ~/.zshrc

之后 openclaw --version 应正常显示版本号。

3. 安装并启动网关服务

openclaw gateway install # 注册后台服务

openclaw gateway start # 启动网关

如果遇到 Gateway service not loaded，则按提示执行 openclaw gateway install 即可。

⚙️ 第三步：配置 OpenClaw 连接 llama.cpp

方法一：使用向导（简单）

openclaw onboard

按照提示选择/填写：

安全提示：选择 Yes
Model/auth provider：Custom Provider
API Base URL：http://127.0.0.1:8080/v1
API Key：任意（如 none）
Endpoint compatibility：OpenAI-compatible
Model ID：Qwen3.5-4B
Endpoint ID：任意（如 my-qwen）

向导验证通过后即完成基础配置。

💡 性能与内存建议（针对 8GB M2）

📚 参考命令速查

启动 llama-server	—llama-server -m ~/Documents/llama-models/Qwen3.5-4B-Q4_K_M.gguf --host 127.0.0.1 --port 8080 -ngl 99 --ctx-size 16384
启动 OpenClaw 网关	openclaw gateway start
停止 OpenClaw 网关	openclaw gateway stop
重启 OpenClaw 网关	openclaw gateway restart
打开 Web UI	openclaw dashboard
查看模型列表	openclaw models list
查看配置项	openclaw config get <path>
运行诊断	openclaw doctor

🎉 结语

至此，已经在 M2 MacBook Air 上成功搭建了一套完全本地、无 token 限制的 AI 对话服务。整套方案充分利用了 llama.cpp 的轻量和 Metal 加速，以及 OpenClaw 的便捷 Web 界面。后续可以进一步探索 OpenClaw 的更多功能（如接入 Telegram、Discord 等）。

Happy prompting! 🦞

奇妙科学

奇书引万般,妙理播云汉。

微信号｜fantascience