乐于分享
好东西不私藏

Soul App 开源实时交互数字人!SoulX-LiveAct:实现高质量、低延迟的数字人生成.

Soul App 开源实时交互数字人!SoulX-LiveAct:实现高质量、低延迟的数字人生成.

SoulX-LiveAct是Soul App AI Lab开源的一款实时数字人生成框架,它系统性地解决了自回归(AR)扩散模型在流式生成场景中长期存在的稳定性难题。

传统扩散模型在生成视频时采用逐帧生成方式,但在实时应用(如直播、视频通话)中,这种模式会导致严重的画面抖动、人物变形、身份漂移和细节不一致等问题。

SoulX-LiveAct通过一系列创新技术,实现了高质量、高稳定性、低延迟的实时数字人视频生成。

以下视频来源于
Soul社交

已关注

关注

重播 分享

功能特点

实时流式推理能力

在双卡H100/H200配置下,SoulX-LiveAct能够在720×416或512×512分辨率下实现20 FPS的实时生成速度,端到端延迟仅0.94秒。这一性能指标使其能够满足直播、实时对话等对延迟敏感的应用需求。

长时视频生成

框架支持小时级甚至理论上的无限时长视频生成,突破了传统视频生成模型随时长增加显存占用线性增长的技术瓶颈。实测表明,系统能够在长时间运行中保持稳定的性能表现。

精准的口型与表情同步

集成chinese-wav2vec2-base音频编码器,能够根据输入的音频信号实时生成高度匹配的口型动作和面部表情。在技术报告中,其口型同步准确率(Sync-C)达到9.40,显著优于同类方案。

已关注

关注

重播 分享

多分辨率支持与设备适配

除了服务器级H100/H200配置外,框架还针对消费级显卡进行了优化。在RTX 4090/5090上,通过启用FP8 KV Cache和块卸载等技术,仍能实现24 FPS的生成速度,大大降低了使用门槛。

已关注

关注

重播 分享

动作与表情编辑控制

支持通过JSON配置文件对数字人的动作和表情进行精细控制,为内容创作提供了更大的灵活性和创造性空间。

性能表现

根据技术报告的对比实验数据,SoulX-LiveAct在多个关键指标上均表现出显著优势:

口型同步质量

在HDTF数据集上,Sync-C指标达到9.40(越高越好),Sync-D指标降至6.76(越低越好),明显优于OmniAvatar(5.13/10.19)、InfiniteTalk(7.12/8.01)和Live-Avatar(7.68/8.38)。

人工评估分数

在VBench评估中,时序质量达到97.6,图像质量63.0,人类逼真度99.9,在所有对比方法中位列第一。

视频质量指标

FID(弗雷歇起始距离)仅为10.05,远低于其他对比方法(15.85-27.90),表明生成视频与真实视频的分布最为接近。FVD(弗雷歇视频距离)为69.43,同样大幅领先。

已关注

关注

重播 分享

推理效率对比

仅需2张GPU即可实现20 FPS吞吐和0.94秒延迟,每帧计算量(TFLOPs)仅为27.2。相比之下,InfiniteTalk需要8张GPU、3.20秒延迟和50.2 TFLOPs/帧;Live-Avatar需要5张GPU、2.89秒延迟和39.1 TFLOPs/帧。

长时稳定性验证

在长时间生成测试中,基线方法普遍出现身份漂移、细节丢失、口型失配、配饰忽隐忽现等问题,而SoulX-LiveAct能在更长时间窗口内保持身份一致性与关键细节稳定。

应用场景

播客与对话场景

适用于双人对谈、访谈节目、脱口秀等需要自然交互的场景。系统能够根据对话内容实时生成匹配的面部表情、眼神交流和口型动作,创造沉浸式的观看体验。

音乐表演与歌唱

支持需要强表情管理和情感表达的音乐表演场景。数字人能够根据歌曲的节奏、旋律和情感变化,生成相应的面部表情和身体语言,为虚拟歌手、音乐教学等应用提供技术支持。

已关注

关注

重播 分享

视频通话与远程交互

模拟真实的FaceTime体验,可用于虚拟客服、在线教育、远程医疗、企业培训等B端场景。低延迟特性确保了交互的实时性和自然性。

内容创作与媒体制作

为视频创作者、广告制作、游戏开发等提供高效的数字人生成工具。支持动作和表情编辑的功能,为创意表达提供了更多可能性。

GitHubhttps://github.com/Soul-AILab/SoulX-LiveAct
【招募兼职 AI 文案作者】
招募熟悉 AI 领域、有写作经验的兼职作者,负责AI相关文章创作。
按篇结算,稿费从优,要求对 AI 工具、AI 应用、行业动态有一定了解,文笔通顺、逻辑清晰。
有意者可添加VX:wenhuaijun94

欢迎扫码加入社群

一起交流AI前沿技术!

小编免费共享AI开源项目知识库,

实现大家的AI资讯自由!

直接扫码或点击链接即可查看!

AI开源项目知识库:https://qyxznlkmwx.feishu.cn/wiki/BwWIwsCOuiMWGmkUzNHcKLvPnPh

点击下方名片「关注我们」第一时间收到推送