上篇我介绍了在Openclaw中配置vLLM框架下的DavidWen2025/Qwen3.5-9B-GPTQ-4bit本地模型,我后来用这个量化版本的模型去测试了较长的工具调用,发现会中途断联,看日志也没有原因,怀疑是量化过程中丢失了一些什么,具体也弄不大清楚。所以又去找其他的替代模型,原生版本的模型实在太大了,4090的24GB显存拖不动,没法用。
我在魔塔社区里搜索了一圈,逐个看了一下模型介绍和部署命令,选择了Qwen3.5-9B-AWQ量化版模型(链接:https://www.modelscope.cn/models/tclf90/Qwen3.5-9B-AWQ),可以通过如下命令进行Docker镜像构建。
docker run --runtime nvidia --gpus all --name vllm_9b_awq -v ~/.cache/modelscope:/root/.cache/modelscope -e VLLM_USE_MODELSCOPE=true -e TZ=Asia/Shanghai -p 8002:8000 --ipc=host vllm/vllm-openai:latest tclf90/Qwen3.5-9B-AWQ --gpu-memory-utilization 0.9 --max-model-len 262144 --kv-cache-dtype fp8_e5m2 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --max-num-seqs 4 模型加载大概消耗11.21 GiB显存,KV缓存可以有8.38 GiB,日常使用是够了的。
Model loading took 11.21 GiB memory and 7.024573 seconds......Available KV cache memory: 8.38 GiB......GPU KV cache size: 136,224 tokensMaximum concurrency for 262,144 tokens per request: 2.06x
用这个模型去做了一些相对复杂点的SKILL调用。中途没有出现突然断联的情况,只是在具体的呈现效果上差强人意,对于复杂的SKILL理解能力和做出来的效果,与大模型还是有很大差距的,这也是没有办法的事情,毕竟资源就这么点。
实测下来的最大Token生成速度大概在90 tokens/s,比之前的4 bit版本明显低,但工具调用断掉对我来说更不可接受一些。如果纯粹为了文本对话生成,上一个4 bit量化会更丝滑一些。具体大家可以根据需要选择,此处做个记录。
tclf90/Qwen3.5-9B-AWQ本地模型的Openclaw关键配置语句如下:
"models": {"mode": "merge","providers": {"vllm": {"baseUrl": "http://localhost:8002/v1" ,"apiKey": "sk-local","api": "openai-completions","models": [{"id": "tclf90/Qwen3.5-9B-AWQ","name": "Qwen3.5-9B-AWQ (Local vLLM)","contextWindow": 131072,"maxTokens": 65536,"cost": {"input": 0,"output": 0,"cacheRead": 0,"cacheWrite": 0}}]}}},"agents": {"defaults": {"model": {"primary": "vllm/tclf90/Qwen3.5-9B-AWQ"},"models": {"vllm/tclf90/Qwen3.5-9B-AWQ": {"alias": "qwen35-9b-awq"}},}},
运行时截图

大家如果有更好的本地模型配置方案,也欢迎在评论区告诉我,谢谢~
夜雨聆风