OpenClaw + 私服 Qwen3.5-35B-A3B + 钉钉打造私域龙虾助手

一、概述

前段时间，OpenClaw 的风靡全网掀起了一股“养龙虾”热潮，也让“Token”（词元）这一概念成功破圈，进入大众视野。然而，热潮背后，高昂的 Token 消耗成本成为了悬在用户头顶的达摩克利斯之剑。对于普通用户而言，难以持续负担的 Token 消费让“养虾”乐趣大打折扣；而对于企业来说，除了高昂的成本投入，企业内部数据安全的不可控性更是一道难以逾越的鸿沟，让众多企业望而生畏。然而阿里开源的 Qwen3.5 系列已经实现了模型能力大的跨越，在全方位基准评估中均表现优异。基于此，作者通过亲身实践，成功完成了 Qwen3.5-35B-A3B 模型的本地部署，并将其与本地部署的OpenClaw 及钉钉进行深度接入。实践结果表明，这一整套本地化解决方案不仅有效规避了 Token 成本与数据安全风险，更实现了令人满意的协同效果，为“养龙虾”提供了一种全新的思路。

二、模型部署

1、两种模型部署比较

方案	核心工具	适用模型	主要优点	配置关键点	最佳场景
方案1：Ollama	Ollama	Llama、Qwen 等社区热门模型	安装与模型管理简单，开箱即用	OpenClaw 的模型提供商配置为 OpenAI 兼容格式，指向 `http://127.0.0.1:11434/v1`	快速在个人电脑（尤其是 macOS）上体验和测试
方案2：vLLM	vLLM	支持更多模型，尤其适合高性能推理场景	推理速度快、吞吐量高，GPU 利用更高效	配置指向 `http://127.0.0.1:8000/v1`（vLLM 默认地址）	对速度有要求，或需要部署更复杂、更大的模型

综合考虑本地硬件情况以及使用场景，部署采用vLLM引擎。

2、环境配置

GPU：4090D（显存24GB） *4张

组件	版本
NVIDIA Driver	590.44.01
CUDA Toolkit	13.1
vllm	v0.17.1

3、模型部署过程

从魔搭平台下载模型：modelscope download Qwen/Qwen3.5-35B-A3B

拉取vllm的docker镜像：docker pull vllm/vllm-openai:v0.17.1

#使用docker运行模型

docker run --gpus '"device=0,1,2,3"' \ --shm-size 50g \ -v /models/Qwen3.5-35B-A3B:/app/model \ -p 8000:8000 \ vllm/vllm-openai:v0.17.1 \--served-model-name "qwen3.5:35B" \--model "/app/model" \ --host 0.0.0.0 \ --port 8000 \ --dtype bfloat16 \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.8 \ --api-key " 设置一个你的api-key" \ --enable-prefix-caching \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --trust-remote-code

参数	说明
`export CUDA_VISIBLE_DEVICES=0,1`	指定使用的 GPU 设备，请根据实际硬件情况选择（例如：`0` 或 `0,1`）。
`dtype`	数据类型。推荐使用 `bfloat16`（16位浮点数），适合 NVIDIA A100、H100 及 RTX 30/40 系列等支持该精度的设备。
`tensor-parallel-size`	Tensor 并行的数量。在进行多 GPU 分布式推理时使用，建议设置为与 GPU 数量一致。
`cpu-offload-gb`	允许将部分模型权重或中间结果卸载到 CPU 内存中（单位：GB）。用于模拟 GPU 显存扩展，当模型大于显存时可设置，但会大大降低推理速度。
`gpu-memory-utilization`	设置 GPU 显存利用率的上限（通常设为 `0.8` 或 `0.85`），防止显存溢出。
`api-key`	设置 API 认证密钥，用于保护接口调用安全。
`enable-prefix-caching`	启用前缀缓存，通过缓存重复的上下文来减少计算量，提升效率。
`reasoning-parser`	指定推理解析器，用于处理模型的思维链或特定推理格式。
`enable-auto-tool-choice`	启用自动工具选择功能，允许模型根据意图自动判断是否调用工具。
`tool-call-parser`	指定工具调用解析器，用于解析模型输出的工具调用指令。

查看启动日志：docker logs -f --tail 100 vllm ，如果出现日志如下报错：

(EngineCore_DP0 pid=412) INFO 03-24 10:32:48 [kv_cache_utils.py:1314] GPU KV cache size: 130,144 tokens(EngineCore_DP0 pid=412) INFO 03-24 10:32:48 [kv_cache_utils.py:1319] Maximum concurrency for 131,072 tokens per request: 3.83xCapturing CUDA graphs (mixed prefill-decode, PIECEWISE): 100%|██████████| 51/51 [00:08<00:00, 6.20it/s]Capturing CUDA graphs (decode, FULL): 6%|▌ | 2/35 [00:02<00:40, 1.22s/it](Worker pid=613) (Worker_TP2 pid=613) ERROR 03-24 10:33:00 [multiproc_executor.py:880] WorkerProc hit an exception.(Worker pid=613) (Worker_TP2 pid=613) ERROR 03-24 10:33:00 [multiproc_executor.py:880] Traceback (most recent call last):(Worker pid=613) (Worker_TP2 pid=613) ERROR 03-24 10:33:00 [multiproc_executor.py:880] File "/usr/local/lib/python3.12/dist-packages/vllm/v1/executor/multiproc_executor.py", line 875, in

原因是：在 vLLM 启动过程中，"捕获 CUDA 图"（CUDA Graph Capture）这个动作本身会暂时消耗大量的显存，如果显存不够，程序会崩溃，但报错信息往往不会直接告诉你“显存不足”。gpu-memory-utilization 这个参数值调小一些，如从0.9 调整为0.8。

如果出现以下日志就说明运行成功了。

4、模型测试

启动后vLLM 默认采用 OpenAI 协议接口，可通过 /v1/models 接口可查看模型列表：

curl http://127.0.0.1:8000/v1/chat/completions \-H "Content-Type: application/json" \-H "Authorization: Bearer 你的key" \-d '{   "model": "Qwen3.5-35B",   "messages": [      {"role": "system", "content": "You are a helpful assistant."},      {"role": "user", "content": "硅基密码你认识吗？"}   ],   "chat_template_kwargs": {"enable_thinking": false} }'

三、Openclaw安装

Openclaw可以安装在windows、ubuntu、macOS等操作系统中，Openclaw能充分利用ubuntu、macOS系统命令行操作的先天优势，以及精确的安全控制，建议选择ubuntu、macOS安装，本文选择了ubuntu系统安装。

1、安装node

访问node官网(https://nodejs.org/zh-cn/download)，下载node，或者在线安装。

2、安装openclaw

选择官方版本安装

curl -fsSL https://openclaw.ai/install.sh | bash

注意，安装的用户要具有sudo的权限。

这里选择Yes，对于普通用户选择QuickStart。

这里我们使用的是私有部署模型，可以选Skip跳过。

我们要对接的钉钉不在官方的支持列表中，这里选择skip

搜索引擎，先跳过，后期有需要再安装。

技能也先跳过安装，后期这个可以在UI页面设置：

是否使用钩子，这里全部选上：

然后等待一会，它会自动执行脚本启动 GateWay 网关，并在浏览器打开UI页面

如果没打开或者打开页面访问不了，可在控制台输入如下命令，查看下 GateWay 的状态

openclaw gateway status

如果网关未启动，重新启动一下，然后再访问web ui

openclaw gateway restart

然后再web UI中可以直接与龙虾聊天和发出指令。

3、配置模型

修改openclaw 的配置文件，vi $HOME/.openclaw/openclaw.json,找到models 进行相应的配置。

"models": {

"providers": {

"vllm": {

"baseUrl": "http://localhost:8000/v1",

"apiKey": "模型key",

"api": "openai-completions",

"models": [

{

"id": "qwen3.5-35B",

"name": "qwen3.5-35B",

"contextWindow": 262000

}

]

}

四、钉钉对接

1、安装插件

openclaw 最新版本不要选择 “钉钉 OpenClaw 官方连接器”(https://github.com/DingTalk-Real-AI/dingtalk-openclaw-connector)。按照官方文档安装是成功，但是龙虾连接钉钉会报错，报错信息如下：

Cannot read properties of undefined (reading 'registry') dingtalk-connector

这是因为版本不兼容的问题。

openclaw 官网有另外一个插件，可以顺利安装。

插件地址：https://github.com/largezhou/openclaw-dingtalk

安装插件openclaw plugins install @largezhou/ddingtalk

2、创建钉钉机器人

• 访问钉钉开发者门户：https://open-dev.dingtalk.com/
• 点击 "应用开发"，立即创建
• 获取凭证

复制你的 AppKey（Client ID）复制你的 AppSecret（Client Secret）

⚠️ 重要：Client ID和 Client Secret是机器人的唯一凭证，要合理保存。

3、添加钉钉渠道

如果您已经完成了初始安装，可以用以下命令添加钉钉渠道：

openclaw channels add

然后根据交互式提示选择 DingTalk，输入 AppKey (Client ID) 和 AppSecret (Client Secret) 即可。

完成配置后，您执行以下命令：

• openclaw gateway status - 查看网关运行状态
• openclaw gateway restart - 重启网关以应用新配置
• openclaw logs --follow - 查看实时日志