乐于分享
好东西不私藏

Soul App 又又又开源了!这次是实时交互数字人,支持小时级长视频甚至无限时长!

Soul App 又又又开源了!这次是实时交互数字人,支持小时级长视频甚至无限时长!

最近 AI 数字人领域又热闹起来了。

前两天刷 GitHub,又发现 Soul App 新开源了一个名为 SoulX-LiveAct 的实时数字人项目。

这已经不知道是 Soul 开源的第几个数字人相关项目了。更别说在此之前还开源了 SoulX-Singer、SoulX-Podcast 等热门项目。

Soul App(Soul AI Lab)已经让我们见识到了什么叫”中国速度”。

而这一次的 SoulX-LiveAct 更让人惊叹的是它的技术实力:在双卡 H100/H200 上跑出 20 FPS 实时流式推理,延迟仅 0.94 秒,而且支持小时级甚至无限时长的实时交互数字人视频生成。

项目简介

SoulX-LiveAct 是 Soul App AI 团队开源的实时数字人生成框架,核心解决的是 AR(自回归)扩散模型在流式生成场景下的稳定性问题。

简单来说,传统的扩散模型生成视频是一帧一帧”画”出来的,但当你需要实时生成(比如直播场景)时,就会出现严重的画面抖动、人物变形、身份漂移等问题。

SoulX-LiveAct 通过多项核心技术——Neighbor Forcing长时一致性导向的自回归训练构造ConvKV Memory——彻底解决了这些痛点。

核心亮点

1、🎯 真正的实时吞吐

在 720×416 或 512×512 分辨率下,SoulX-LiveAct 仅需两张 H100/H200 GPU 就能实现 20 FPS 的实时流式推理,端到端延迟仅 0.94 秒

这背后是一整套极致的性能优化:

  • • 自适应 FP8 精度:在保证画质的前提下大幅降低计算量
  • • 序列并行(Sequence Parallelism):充分利用多卡算力
  • • 算子融合(Operator Fusion):减少内存访问开销

2、💾 恒定显存,小时级甚至无限时长生成

这是 SoulX-LiveAct 最革命性的突破之一。

传统的视频生成模型,生成时间越长,显存占用就越高,最终必然爆显存。

而 SoulX-LiveAct 通过 ConvKV Memory 机制,实现了恒定显存占用,理论上可以生成无限时长的视频。

ConvKV Memory 的核心思想是”短期精确 + 长期压缩”:

  • • 短期:保留最近几帧的高精度 KV Cache,确保画面连贯
  • • 长期:对历史帧进行轻量级压缩,用极低的显存代价保存长期信息

实测表明,这种压缩机制的 overhead 几乎可以忽略不计,但显存占用却能控制在恒定水平。

3、🧠 长时一致

AR 扩散模型在流式生成时的核心痛点是分布不一致:每一帧的生成条件(如扩散步数)不同,导致画面风格、亮度、细节出现跳变。

SoulX-LiveAct 提出的 Neighbor Forcing 技术,通过将相邻帧的扩散步对齐,强制保持生成过程的一致性。

这相当于给模型加了一个”稳定器”,让每一帧都在相同的”频道”上生成。

确保在小时级的长视频中,人物身份和关键细节始终保持稳定。

快速上手

环境准备

# 创建 conda 环境
conda create -n liveact python=3.10
conda activate liveact

# 安装基础依赖

pip install -r requirements.txt
conda install conda-forge::sox -y

安装 SageAttention(FP8 注意力支持)

git clone https://github.com/thu-ml/SageAttention.git
cd
 SageAttention
git checkout v2.2.0
python setup.py install

可选:安装 QKV 算子融合版本以获得更高性能:

git clone https://github.com/ZhiqiJiang/SageAttentionFusion.git
cd
 SageAttentionFusion
python setup.py install

安装 vLLM(FP8 GEMM 支持)

pip install vllm==0.11.0

安装 LightVAE

git clone https://github.com/ModelTC/LightX2V
cd
 LightX2V
python setup_vae.py install

下载模型权重

从 Hugging Face 或 ModelScope 下载 SoulX-LiveAct 模型:

  • • Hugging Face:https://huggingface.co/Soul-AI-Lab/SoulX-LiveAct
  • • ModelScope(魔搭):https://modelscope.cn/models/Soul-AI-Lab/SoulX-LiveAct

同时需要下载 chinese-wav2vec2-base 音频编码器。

运行推理

双卡 H100/H200 实时流式推理(推荐配置):

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-65535) \
    generate.py \
    --size 416*720 \
    --ckpt_dir MODEL_PATH \
    --wav2vec_dir chinese-wav2vec2-base \
    --fps 20 \
    --dura_print \
    --input_json examples/example.json \
    --steam_audio

支持动作/表情编辑的实时推理:

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0,1 \
torchrun --nproc_per_node=2 --master_port=$(shuf -n 1 -i 10000-65535) \
    generate.py \
    --size 512*512 \
    --ckpt_dir MODEL_PATH \
    --wav2vec_dir chinese-wav2vec2-base \
    --fps 24 \
    --input_json examples/example_edit.json

RTX 4090/5090 消费级显卡运行:

USE_CHANNELS_LAST_3D=1 CUDA_VISIBLE_DEVICES=0 \
python generate.py \
    --size 416*720 \
    --ckpt_dir MODEL_PATH \
    --wav2vec_dir chinese-wav2vec2-base \
    --fps 24 \
    --input_json examples/example.json \
    --fp8_kv_cache \
    --block_offload \
    --t5_cpu

注意:FP8 KV Cache 可能会对生成质量有轻微影响。

综合表现

在技术报告的对比实验中,SoulX-LiveAct 展现出了显著的优势:

对比维度
基线方法
SoulX-LiveAct
长时稳定性
随时间增长出现身份漂移、细节丢失
小时级保持身份一致,细节不”掉件”
显存占用
随视频长度线性增长,易爆显存
恒定显存,支持无限时长
实时性能
难以达到实时流式推理
20 FPS 实时流式,延迟 0.94s
口型同步
长视频后期口型逐步失配
长时间保持口型精准
配饰/纹理
饰品忽隐忽现、衣纹漂移
关键细节持续稳定

实测结论:在报告的长时对比中,基线方法普遍出现不同程度的身份漂移与细节不稳定;而 SoulX-LiveAct 能在更长时间窗口内保持身份一致性与关键细节持续稳定。

应用场景

  • • 🎙️ 播客/对话场景:双人对谈、访谈节目,实时生成自然的面部表情和口型同步。
  • • 🎤 音乐/脱口秀:支持唱歌、演讲等需要强表情管理的场景,情感表达丰富自然。
  • • 📱 FaceTime/视频通话:模拟真实的视频通话体验,可用于虚拟客服、在线教育等 B 端场景。

可以看出,Soul AI Lab 正在系统性地攻克实时数字人的各个技术难点:从低延迟到高帧率,从短片段到长视频,从服务器到消费级显卡。

写在最后

SoulX-LiveAct 的出现,标志着开源数字人技术进入了一个新阶段。

它不再是那种”看起来很酷但没法用”的 demo,而是一个真正可以落地到生产环境的工具。

无论是做直播、做客服、做内容创作,还是做虚拟社交,它都能提供稳定、实时、高质量的输出。

更重要的是,它是开源的。这意味着每一个开发者、每一个创业团队,都可以基于它构建自己的应用,而不必被闭源 API 的高昂成本和功能限制所束缚。

Soul AI Lab 这种持续开源的精神,也同样值得点赞。

GitHub:

https://github.com/Soul-AILab/SoulX-LiveAct

Hugging Face:

https://huggingface.co/Soul-AI-Lab/SoulX-LiveAct

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » Soul App 又又又开源了!这次是实时交互数字人,支持小时级长视频甚至无限时长!

猜你喜欢

  • 暂无文章