龙虾(OpenClaw)折腾记(二)

龙虾（OpenClaw）折腾记（二）

小显存的福音之 llama.cpp

笔者之前使用 Ollama 本地部署了 qwen3.5:27b 给 OpenClaw 提供模型服务，并通过优化 OpenClaw 超时时间、LLM 上下文窗口等配置，使得 OpenClaw 可以应付一般任务，但当执行网页搜索等复杂任务时总是超时无响应。

通过终端查看 Ollama 状态发现，在 OpenClaw 32K 上下文窗口的设置下，qwen3.5:27b 占用显存超过 22G，达到 25G，有一部分加载到内存中，使用 CPU 推理，极大的影响了任务执行时间，结果也变得不稳定。

于是改用 llama.cpp，加载 Qwen3.6-27B-UD-Q4_K_XL 模型，设置 GPU 加载全部 64 层，上下文窗口 65536，实测显存占用 96%，推理都在 GPU 执行，速度飞起，达到每秒 20 个 token！

llama.cpp:full-cuda --gpus all -s -m ./models/Qwen3.6-27B-UD-Q4_K_XL.gguf --alias "qwen3.6:27b" --n-gpu-layers 99 --ctx-size 65536 --port 8000 --host 0.0.0.0

OpenClaw 改用 llama.cpp 的 Qwen3.6-27B 模型，进行网页搜索和浏览，不仅能正常完成，而且速度也有很大的提升，赞。

"llamacpp": {
    "baseUrl": "http://127.0.0.1:8000/v1",
    "apiKey": "llama-local",
    "api": "openai-completions",
    "models": [
        {
            "id": "qwen3.6:27b",
            "name": "Qwen3.6 27b",
            "contextWindow": 65536
        }
    ]
}

#OpenClaw #llama.cpp #本地部署 #Qwen #AI助手 #大模型