龙虾(OpenClaw)折腾记(二)
龙虾(OpenClaw)折腾记(二)
小显存的福音之 llama.cpp
笔者之前使用 Ollama 本地部署了 qwen3.5:27b 给 OpenClaw 提供模型服务,并通过优化 OpenClaw 超时时间、LLM 上下文窗口等配置,使得 OpenClaw 可以应付一般任务,但当执行网页搜索等复杂任务时总是超时无响应。
通过终端查看 Ollama 状态发现,在 OpenClaw 32K 上下文窗口的设置下,qwen3.5:27b 占用显存超过 22G,达到 25G,有一部分加载到内存中,使用 CPU 推理,极大的影响了任务执行时间,结果也变得不稳定。
于是改用 llama.cpp,加载 Qwen3.6-27B-UD-Q4_K_XL 模型,设置 GPU 加载全部 64 层,上下文窗口 65536,实测显存占用 96%,推理都在 GPU 执行,速度飞起,达到每秒 20 个 token!
llama.cpp:full-cuda --gpus all -s -m ./models/Qwen3.6-27B-UD-Q4_K_XL.gguf --alias "qwen3.6:27b" --n-gpu-layers 99 --ctx-size 65536 --port 8000 --host 0.0.0.0
OpenClaw 改用 llama.cpp 的 Qwen3.6-27B 模型,进行网页搜索和浏览,不仅能正常完成,而且速度也有很大的提升,赞。
"llamacpp": {
"baseUrl": "http://127.0.0.1:8000/v1",
"apiKey": "llama-local",
"api": "openai-completions",
"models": [
{
"id": "qwen3.6:27b",
"name": "Qwen3.6 27b",
"contextWindow": 65536
}
]
}
#OpenClaw #llama.cpp #本地部署 #Qwen #AI助手 #大模型
夜雨聆风