拒绝手写代码!Openclaw+Skill一键部署Qwen3.5到算能边缘盒子

通义千问最新一代多模态大模型 Qwen3.5已成功适配能 BM1684X和 BM1688系列TPU芯片，2B、4B、9B 三个版本均已适配，从预编译 bmodel 可 LLM-TPU(附录链接(4))直接下载使用。本文介绍如何通过 Openclaw + Skill实现全自动部署——不写一行代码，不记一条命令，对话即部署。

关于Qwen3.5

Qwen3.5（附录链接（1））是阿里通义实验室推出的新一代多模态大语言模型，主要亮点包括：

多模态理解：原生支持图片和视频输入，可对图像内容进行精细化描述、文字识别、场景理解等
创新架构：采用 Full Attention + Linear Attention 混合架构，兼顾理解深度与推理效率
多语言支持：流畅支持超过100种语言
丰富的能力矩阵：文本生成、逻辑推理、视觉分析、代码开发、多语言对话等全面覆盖
多版本可选：提供2B、4B、9B等多种参数规模，满足不同场景需求

相对于上一代Qwen3VL，表现更加优异，如下：

Openclaw + Skill：对话即部署

传统部署流程需要手动拉代码、装依赖、编译扩展、下载模型、写启动脚本……每一步都可能踩坑。而通过Openclaw（附录链接（2））+ Skill，这一切只需两步：

第一步：添加技能

将 qwen3_5-bmodel Skill（附录链接（3））添加到Openclaw：

git clone https://github.com/baifengbai/skill_hub.gitln -s "$(pwd)/skill_hub/skills/qwen3_5-bmodel" ~/.Openclaw/skills/qwen3_5-bmodel

第二步：用自然语言描述需求

在 Openclaw 中输入：

帮我在 BM1684X 设备（IP: 192.168.150.2）上部署 Qwen3.5 多模态模型，启动 Web 服务

将替换为你的 BM1684X 设备实际 IP 地址。192.168.150.2

就这么简单。 Openclaw 自动读取 Skill 文档，全程接管：

通过 gssh 连接远程边缘盒子
拉取 LLM-TPU（附录链接（4））代码，编译 chat.so
下载预编译 bmodel（~2.3G）
上传 Flask Web 服务，配置 SSE 流式输出
建立端口转发，本地浏览器直接访问

部署完成后，打开即可体验图片/视频/文字多模态问答:

已关注

关注

重播分享赞

视频详情

为什么用 Skill？

Skill 不只是一个部署脚本。它沉淀了真实踩坑经验：

坑点	Skill 中的解决方案
系统 Python 3.8 无法加载 cpython-310 的 chat.so	自动使用 Python 3.10 虚拟环境
transformers 4.x 不识别 Qwen3.5 model_type	自动升级到 Transformers >= 5.x
config 缺少 processor_config.json 导致 Processor 回退	自动补全配置文件
dfss SFTP 模式下载新文件失败	自动切换 HTTP 模式
Dash 没有 disown，后台进程被杀	使用 setsid 脱离会话
前端 SSE 流第二轮无法发送	正确处理 reader.cancel（）

这些经验被结构化地写入 Skill 文档，AI Agent 读取后自动规避，让你不再重复踩坑。

完整 Skill 库见 skill_hub（附录链接（5）），已添加多个模型的skill一键部署：

技能	模型	说明
qwen3_5-bmodel	Qwen3.5-VL-2B	多模态图片/视频/文字问答
QWEN3-bmodel	Qwen3-4B	文本对话 LLM
Vila-bmodel	ViLA-1.5-3B	视觉语言模型
FunASR-bmodel	FunASR	语音识别
YOLOV5-bmodel	YOLOv5s	目标检测
ppocr-bmodel	PP-OCRv4	文字识别
ByteTrack-bmodel	YOLOv5s	多目标追踪

已适配版本

Qwen3.5 的 2B、4B、9B 三个参数版本均已完成适配，INT4 量化预编译 bmodel 可从 LLM-TPU（附录链接（4））直接下载，开箱即用：

版本	量化方式	平台
Qwen 3.5-2B	INT4自动回合 W4BF16	BM1684X / BM1688
Qwen3.5-4B	INT4自动回合 W4BF16	BM1684X / BM1688
Qwen3.5-9B	INT4自动回合 W4BF16	BM1684X / BM1688

更大参数版本（4B、9B）适合对精度要求更高的场景，用户可根据实际算力和业务需求灵活选择。

性能表现

基于 BM1684X 平台，INT4量化的 Qwen3.5-2B 模型实测表现：

指标	数值
首Token延迟（FTL）	~0.46s（图片输入） / ~0.10s（纯文本）
生成速度（TPS）	~27.7 tokens/s
视觉编码耗时	~0.2s

以一张768×768图片为例，仅占用约576个Token，高效平衡了图像理解精度与推理速度。

效果展示

下图展示了 Qwen3.5 在BM1684X上运行的实际效果，包括图片理解和纯文本对话：

模型能够对输入图片进行详细的场景描述（床、梳妆台、书架、植物、装饰等元素的精准识别），并在纯文本模式下流畅对话，展现出优秀的多模态理解能力。

应用场景

Qwen3.5在TPU上的适配，为以下场景提供了高性价比的端侧AI方案：

智能安防：实时视频流的场景理解与异常检测
智能零售：商品识别、货架分析、顾客行为理解
工业质检：产品外观缺陷检测与分析报告生成
智慧文档：合同、票据、表格等文档的OCR与结构化提取
教育科研：图表解读、论文辅助阅读与多语言翻译
边缘智能设备：机器人、无人机等嵌入式平台的多模态交互

总结

Qwen3.5成功落地算能BM1684X/BM1688平台，标志着国产大模型与国产AI芯片的又一次深度协同。通过 Openclaw + Skill 的自动化部署方案，开发者可以真正实现零代码、零门槛地将前沿多模态AI能力部署到边缘设备中。

想要极简体验？用Openclaw + Skill，对话即部署
想要深度定制？参考手动部署方式

手动部署方式

如果你更习惯手动操作，也可以按以下步骤部署。

模型编译

通过算能 TPU-MLIR 编译框架，仅需一条命令即可完成模型编译：

llm_convert.py -m Qwen3.5-2B-int4-AutoRound --max_input_length 1024 -s 2048 -c bm1684x --out_dir qwen3.5 --max_pixels 768,768

支持INT4量化（AutoRound/AWQ/GPTQ），在保持模型精度的同时大幅降低显存占用和推理成本。

下载预编译 bmodel

# BM1684Xpython3 -m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/qwen3.5-2b-int4-autoround_w4bf16_seq2048_bm1684x_1dev_dynamic_20260415_111517.bmodel# BM1688python3 -m dfss --url=open@sophgo.com:/ext_model_information/LLM/LLM-TPU/qwen3.5-2b-int4-autoround_w4bf16_seq2048_bm1688_2core_dynamic_20260415_212627.bmodel

Python 运行

访问 LLM-TPU Qwen3_5 目录（附录链接（4）），有 Python 和 C++ 两种 Demo：

pip3 install torchvision transformers qwen_vl_utilscd python_demomkdir build && cd build && cmake .. && make && cp *cpython* .. && cd ..python3 pipeline.py -m your_model.bmodel -c config

C++ 运行

cd cpp_demomkdir build && cd build && cmake .. && make && cp pipeline .. && cd .../pipeline -m your_model.bmodel -c config

适配与验证日期：2026年4月16日

附录

链接汇总

编号	地址
（1）	https://www.modelscope.cn/collections/Qwen/Qwen35
（2）	https://github.com/openclaw/openclaw
（3）	https://github.com/baifengbai/skill_hub/tree/main/skills/qwen3_5-bmodel
（4）	https://github.com/sophgo/LLM-TPU/tree/main/models/Qwen3_5
（5）	https://github.com/baifengbai/skill_hub