Openclaw配置vLLM框架下的Qwen3.5-9B-AWQ模型

接上篇：Openclaw配置vLLM框架的本地大模型（附本地模型部署流程）
上篇我介绍了在Openclaw中配置vLLM框架下的DavidWen2025/Qwen3.5-9B-GPTQ-4bit本地模型，我后来用这个量化版本的模型去测试了较长的工具调用，发现会中途断联，看日志也没有原因，怀疑是量化过程中丢失了一些什么，具体也弄不大清楚。所以又去找其他的替代模型，原生版本的模型实在太大了，4090的24GB显存拖不动，没法用。
我在魔塔社区里搜索了一圈，逐个看了一下模型介绍和部署命令，选择了Qwen3.5-9B-AWQ量化版模型（链接：https://www.modelscope.cn/models/tclf90/Qwen3.5-9B-AWQ），可以通过如下命令进行Docker镜像构建。

docker run --runtime nvidia --gpus all --name vllm_9b_awq -v ~/.cache/modelscope:/root/.cache/modelscope -e VLLM_USE_MODELSCOPE=true -e TZ=Asia/Shanghai -p 8002:8000 --ipc=host vllm/vllm-openai:latest tclf90/Qwen3.5-9B-AWQ --gpu-memory-utilization 0.9 --max-model-len 262144 --kv-cache-dtype fp8_e5m2 --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --max-num-seqs 4

模型加载大概消耗11.21 GiB显存，KV缓存可以有8.38 GiB，日常使用是够了的。

Model loading took 11.21 GiB memory and 7.024573 seconds......Available KV cache memory: 8.38 GiB......GPU KV cache size: 136,224 tokensMaximum concurrency for 262,144 tokens per request: 2.06x

用这个模型去做了一些相对复杂点的SKILL调用。中途没有出现突然断联的情况，只是在具体的呈现效果上差强人意，对于复杂的SKILL理解能力和做出来的效果，与大模型还是有很大差距的，这也是没有办法的事情，毕竟资源就这么点。
实测下来的最大Token生成速度大概在90 tokens/s，比之前的4 bit版本明显低，但工具调用断掉对我来说更不可接受一些。如果纯粹为了文本对话生成，上一个4 bit量化会更丝滑一些。具体大家可以根据需要选择，此处做个记录。
tclf90/Qwen3.5-9B-AWQ本地模型的Openclaw关键配置语句如下：

"models": {    "mode": "merge",    "providers": {      "vllm": {        "baseUrl": "http://localhost:8002/v1" ,        "apiKey": "sk-local",        "api": "openai-completions",        "models": [          {            "id": "tclf90/Qwen3.5-9B-AWQ",            "name": "Qwen3.5-9B-AWQ (Local vLLM)",            "contextWindow": 131072,            "maxTokens": 65536,            "cost": {              "input": 0,              "output": 0,              "cacheRead": 0,              "cacheWrite": 0            }          }        ]      }    }  },  "agents": {    "defaults": {      "model": {        "primary": "vllm/tclf90/Qwen3.5-9B-AWQ"      },      "models": {        "vllm/tclf90/Qwen3.5-9B-AWQ": {          "alias": "qwen35-9b-awq"        }      },         }  },

运行时截图

大家如果有更好的本地模型配置方案，也欢迎在评论区告诉我，谢谢~