乐于分享
好东西不私藏

龙虾(OpenClaw)折腾记(二)

龙虾(OpenClaw)折腾记(二)

龙虾(OpenClaw)折腾记(二)

小显存的福音之 llama.cpp

笔者之前使用 Ollama 本地部署了 qwen3.5:27b 给 OpenClaw 提供模型服务,并通过优化 OpenClaw 超时时间、LLM 上下文窗口等配置,使得 OpenClaw 可以应付一般任务,但当执行网页搜索等复杂任务时总是超时无响应。

通过终端查看 Ollama 状态发现,在 OpenClaw 32K 上下文窗口的设置下,qwen3.5:27b 占用显存超过 22G,达到 25G,有一部分加载到内存中,使用 CPU 推理,极大的影响了任务执行时间,结果也变得不稳定。

于是改用 llama.cpp,加载 Qwen3.6-27B-UD-Q4_K_XL 模型,设置 GPU 加载全部 64 层,上下文窗口 65536,实测显存占用 96%,推理都在 GPU 执行,速度飞起,达到每秒 20 个 token!

llama.cpp:full-cuda --gpus all -s -m ./models/Qwen3.6-27B-UD-Q4_K_XL.gguf --alias "qwen3.6:27b" --n-gpu-layers 99 --ctx-size 65536 --port 8000 --host 0.0.0.0

OpenClaw 改用 llama.cpp 的 Qwen3.6-27B 模型,进行网页搜索和浏览,不仅能正常完成,而且速度也有很大的提升,赞。

"llamacpp": {
    "baseUrl": "http://127.0.0.1:8000/v1",
    "apiKey": "llama-local",
    "api": "openai-completions",
    "models": [
        {
            "id": "qwen3.6:27b",
            "name": "Qwen3.6 27b",
            "contextWindow": 65536
        }
    ]
}

#OpenClaw #llama.cpp #本地部署 #Qwen #AI助手 #大模型