
一、它到底是什么?
JoyAI-VL-Interaction 是京东开源的实时视频语言交互系统。它不是单纯的“图片问答模型”,也不是普通的视频理解模型,而是面向摄像头、直播流、RTSP 视频流这类实时场景设计的视觉语言交互模型。
简单理解:普通多模态模型像客服,必须等你提问;JoyAI-VL-Interaction 更像一个在场的助手,它一直观察画面,发现重要事件时主动提醒,没有重要内容时保持安静,遇到复杂问题时交给后台 Agent。
一句话总结
这类模型的价值不是“看懂一张图”,而是“持续看着正在发生的世界,并在正确时间做出反应”。
二、为什么它值得关注?
很多 AI 视频助手看起来能实时对话,但本质仍然是回合制:用户说一句,系统截一帧或一段视频,然后模型回答。JoyAI-VL-Interaction 则把“何时说话、何时静默、何时委托”训练进模型内部。

三、模型和开源信息
Hugging Face 页面显示,JoyAI-VL-Interaction-Preview 属于 Video-Text-to-Text 任务,采用 Safetensors 权重,标注 qwen3_vl 架构,许可证为 Apache-2.0。页面还显示模型大小约 9B 参数,Tensor Type 为 BF16。
四、它能做哪些事情?
官方项目页列出了九类典型能力,核心都围绕“实时视频流”展开。它适合的不是一次性图片 OCR,而是持续变化的场景,比如摄像头画面、直播间、手机屏幕操作、比赛视频、课堂投屏。
五、系统架构:不只是一个模型,而是一套服务
JoyAI-VL-Interaction 的官方仓库不是只放模型权重,而是把推理服务、WebUI、ASR、TTS、后台 Agent 都放在一起。小白可以先跑 minimal 模式,只启动核心视频推理和 WebUI;熟悉后再打开语音输入、语音输出和后台 Agent。

六、安装前准备
官方中文入门文档建议环境为 Linux + NVIDIA GPU,CUDA 12.x,NVIDIA Driver 535+,Python 3.12。由于它面向实时视频流,显存压力比普通文本模型更高。vLLM-Omni Recipe 中提到默认 100 帧窗口和 131072 上下文需要约 48GB+ 显存;如果只有约 24GB,需要同时降低 chunk 帧数、上下文长度和图片限制,或尝试 fp8 权重加载。
七、官方仓库最小部署流程
先克隆 GitHub 仓库,然后执行官方安装脚本、下载模型权重,最后启动 minimal 核心服务。minimal 模式只启动视频推理和 WebUI,适合第一次验证。
git clone https://github.com/jd-opensource/JoyAI-VL-Interaction.git
cd JoyAI-VL-Interaction
# 安装依赖
./install/install.sh --with-all
# 下载所有模型权重
./install/download-models.sh --all
# 启动核心服务:webinfer + webui
./services/scripts/run.sh minimal启动完成后,在浏览器打开:
https://127.0.0.1:8099小白提醒
浏览器可能提示证书不安全,这是本地自签名 HTTPS 常见现象。确认是你自己的本机地址后,可以继续访问。
八、完整服务启动方式
如果需要语音输入、语音输出和后台 Agent,可以使用 all 模式。官方建议顺序是:webinfer → ASR → TTS → background-agent → WebUI。
# 一条命令启动完整服务集
./services/scripts/run.sh all
# 如果要关闭服务
./services/scripts/stop.sh all完整模式中,background-agent 需要 CODEX_HOME,并要求其中包含 config.toml 和 auth.json。用于个人测试时,建议先不启用后台 Agent,确认主流程跑通后再加。
九、vLLM-Omni 在线服务方式
如果你更偏工程部署,可以参考 vLLM-Omni 的 Recipe。它把模型本身用普通 vLLM serve 启动,再在前面加一个实时交互编排层。
# 1. 启动主模型,注意这里是普通 vLLM serve,不是 --omni
vllm serve jdopensource/JoyAI-VL-Interaction-Preview \
--served-model-name JoyAI-VL-Interaction-Preview \
--port 8061 \
--max-model-len 131072 \
--enable-prefix-caching \
--limit-mm-per-prompt '{"image":256,"video":1}'
# 2. 启动交互编排层,OpenAI 兼容接口默认 :8070
python -m vllm_omni.experimental.fullduplex.joyvl.serving.server \
--port 8070 \
--main-backend-url http://127.0.0.1:8061/v1 \
--main-model JoyAI-VL-Interaction-Preview如果显存较小,可以尝试 fp8 加载:
vllm serve jdopensource/JoyAI-VL-Interaction-Preview \
--served-model-name JoyAI-VL-Interaction-Preview \
--port 8061 \
--quantization fp8 \
--max-model-len 131072 \
--enable-prefix-caching \
--limit-mm-per-prompt '{"image":256,"video":1}' 十、OpenAI 兼容接口调用示例
交互编排层提供 OpenAI 兼容接口。每个视频帧可以作为一轮请求发送,并通过 x-session-id 维持会话。返回中会包含 interaction 字段,用来表示模型本轮选择了 silence、response 还是 delegate。
curl -s http://127.0.0.1:8070/v1/chat/completions \
-H 'x-session-id: s1' \
-H 'content-type: application/json' \
-d '{
"messages": [{
"role": "user",
"content": [
{"type": "text", "text": "Alert me if a fire breaks out"},
{"type": "image_url", "image_url": {"url": "data:image/jpeg;base64,..."}}
]
}]
}' | jq .interaction十一、下载地址汇总,可直接复制
下面这些地址建议直接放到公众号文章里,读者可以按需复制。

Hugging Face 模型主页
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
Hugging Face 文件列表
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/tree/main
模型 Git 克隆地址
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview
GitHub 官方仓库
https://github.com/jd-opensource/JoyAI-VL-Interaction
GitHub 中文 README
https://github.com/jd-opensource/JoyAI-VL-Interaction/blob/main/README.zh-CN.md
入门部署文档(中文)
https://github.com/jd-opensource/JoyAI-VL-Interaction/blob/main/doc/getting_started.zh-CN.md
系统架构文档(中文)
https://github.com/jd-opensource/JoyAI-VL-Interaction/blob/main/doc/architecture.zh-CN.md
Hugging Face 数据集
https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
项目演示页 / Blog
https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
arXiv 论文
https://arxiv.org/abs/2606.14777
vLLM-Omni 部署 Recipe
https://github.com/vllm-project/vllm-omni/blob/main/recipes/JD/JoyAI-VL-Interaction.md
vLLM-Omni 仓库
https://github.com/vllm-project/vllm-omni
模型分片直链
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00001-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00002-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00003-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00004-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model.safetensors.index.json
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/config.json
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/tokenizer.json
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/video_preprocessor_config.json
十二、模型文件直链
如果读者不熟悉 git lfs,也可以使用 Hugging Face 的 resolve 地址下载主要文件。模型较大,推荐使用支持断点续传的下载工具。
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00001-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00002-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00003-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model-00004-of-00004.safetensors
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/model.safetensors.index.json
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/config.json
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/tokenizer.json
https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview/resolve/main/video_preprocessor_config.json十三、适合做什么产品?
十四、局限和注意事项
第一,它是 8B/9B 级别的开放模型,不要把它理解成万能的超大模型。官方也提醒,Doubao 和 Gemini 背后是更大规模、更成熟的产品系统,JoyAI-VL-Interaction 的优势主要在视觉触发主动性、实时在场和时间感知这些场景。
第二,实时视频流非常吃显存和系统资源。普通 8GB、12GB 显卡不建议直接上完整默认配置。小显存机器可以降低帧窗口、上下文长度和图片数量,或者尝试 fp8。
第三,真实监控、医疗、安全生产等场景不能完全依赖模型判断。它适合作为辅助提醒,最终处置仍应由人类或专业系统确认。
十五、总结
JoyAI-VL-Interaction 最有意思的地方,不是又多了一个视频理解模型,而是把多模态 AI 从“等你问”推向“持续在场”。
它让模型学会三件很关键的事:重要时主动说,不重要时保持安静,复杂时委托后台 Agent。对于实时监控、直播解说、桌面视觉 Agent、App 操作陪跑等方向,这套思路非常值得关注。
最终结论
如果你想研究下一代实时多模态 Agent,JoyAI-VL-Interaction 值得重点收藏。它不是普通 OCR,也不是普通图片问答,而是面向“实时世界”的视觉语言交互模型。
夜雨聆风