Soul App 联合西工大等,正式开源了端到端多人对话转录模型 SoulX-Transcriber!

在 AI 技术爆发的当下，语音转文字（ASR）早已不再是陌生的技术。

从会议记录到播客字幕，从在线教育到社交媒体，几乎每一个与语音相关的场景都离不开转录技术的支持。

然而，当场景从单人演讲转向多人对话时，问题就变得棘手起来。

• 一场激烈的头脑风暴会议，几个人同时发言，你一言我一语，语速飞快还经常重叠；
• 一段精彩的播客访谈，主持人和嘉宾来回切换，突然打断插话是家常便饭；
• 一部精彩的电视剧，多幕场景切换，同一个人的声音在不同环境下差异巨大……

面对这些复杂情况，传统的转录系统要么混淆说话人身份，要么丢失重叠部分的内容，要么产生大量错误。

不过，就在这周，这一领域也迎来了一个重大突破：Soul App 联合西北工业大学 ASLP@NPU 团队及 Moonstep AI，正式开源了端到端多人对话转录模型 SoulX-Transcriber！

SoulX-Transcriber 是什么？

SoulX-Transcriber 是一款专门为长音频、多说话人场景设计的语音理解模型。

与传统依赖级联流水线的系统不同，它采用了统一的端到端架构，能够直接从多人对话音频中生成包含 时间戳、说话人身份、转录文本 的完整结构化结果。

这个项目由三方强强联合打造：

• Soul AI Lab：Soul App的 AI 技术团队，在语音技术领域有着深厚积累，此前还开源过SoulX-Podcast播客生成模型
• ASLP@NPU：西北工业大学音频语音与语言处理研究组，国内顶尖的语音技术研究团队
• Moonstep AI：专注于AI音频技术的创新公司

从技术路线来看，SoulX-Transcriber 摒弃了传统的 "说话人分割+语音识别" 分开处理的方式，而是将这两个任务融合在一个统一的大语言模型框架中。

这种端到端的设计让模型能够更自然地处理多人对话中常见的重叠、快速切换、同性别混淆等棘手问题。

三大核心亮点

1、性能登顶公开基准测试

在多人对话转录领域，有几个公认的权威基准测试数据集，比如 AISHELL-4、AliMeeting等。

SoulX-Transcriber在这些测试中都取得了碾压式的领先表现。

让我们看看具体数据（所有指标都是越低越好）：

甚至连 Gemini 3.1 Pro、Qwen3.5-Omni 这样的闭源大模型，在这些指标上也被 SoulX-Transcriber 大幅超越！

更令人印象深刻的是，在内部多领域测试（社交对话、影视剧、播客）中，SoulX-Transcriber 同样表现抢眼，在社交对话场景下DER甚至低至 1.32%。

2、说话人感知的多阶段训练

SoulX-Transcriber 的优秀表现不是偶然的，背后是创新的训练策略。

团队采用了 说话人感知的多任务持续预训练 + 有监督微调 的两阶段训练方法。

这种方法的好处是：

• 显著增强了模型对说话人特征的表示能力
• 大幅提升了对多人对话场景的鲁棒性
• 有效缓解了同性别说话人混淆、语音重叠、边界划分错误等常见问题

在传统系统中，这些问题往往需要复杂的后处理算法来解决，而 SoulX-Transcriber 通过端到端训练就能自然地处理这些情况。

3、更自然的对话生成与数据增强

为了提升模型在真实场景下的泛化能力，团队还提出了一套 基于说话人特征驱动的音频匹配流水线。

通过这种方式，团队能够生成海量高质量的多人对话训练数据，让模型在各种真实场景下都能有出色表现。

官方示例场景：

快速上手

首先，你需要克隆项目代码并创建Python环境：

git clone https://github.com/Soul-AILab/SoulX-Transcriber.git
cd SoulX-Transcriber

# 创建conda环境
conda create -n soulx_transcriber python=3.12 -y
conda activate soulx_transcriber

# 安装MS-Swift和依赖
pip install ms-swift

预训练模型权重已经在 Hugging Face 和 ModelScope 上开放下载：

• Hugging Face：https://huggingface.co/Soul-AILab/SoulX-Transcriber
• ModelScope：https://modelscope.cn/models/Soul-AILab/SoulX-Transcriber

使用 vLLM-Omni 进行推理，安装步骤如下：

cd your_env_path/

# 安装uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 创建新的uv环境（使用阿里云镜像）
uv venv vllm_omni --python 3.12 --seed --index-url https://mirrors.aliyun.com/pypi/simple/

# 激活uv环境
source vllm_omni/bin/activate

# 安装vLLM
uv pip install vllm --torch-backend=auto --index-url https://mirrors.aliyun.com/pypi/simple/

# 安装vllm-omni
uv pip install vllm-omni --index-url https://mirrors.aliyun.com/pypi/simple/

# 安装Gradio（可选，用于演示界面）
uv pip install 'vllm-omni[demo]' --index-url https://mirrors.aliyun.com/pypi/simple/

# 如果遇到"Undefined symbol"错误，可以从源码构建
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
uv pip install -e . --index-url https://mirrors.aliyun.com/pypi/simple/

下载模型权重后，运行推理脚本：

source your_env_path/vllm_omni/bin/activate
bash ./inference.sh

就这么简单！你可以用自己的多人对话音频来测试这个强大的模型。

应用场景

• 会议记录：自动生成带说话人标注的会议纪要，谁在什么时候说了什么一目了然
• 播客字幕：为播客节目自动生成精准的字幕，还能区分不同嘉宾
• 影视剧台词提取：自动提取电视剧、电影的台词，区分不同角色
• 在线教育：记录课堂讨论，生成结构化的学习资料
• 社交媒体内容分析：分析语音直播、语音聊天室的内容
• 法律取证：精准转录多人对话的录音材料，作为证据使用
• 医疗问诊记录：记录医患对话，生成结构化的病历

任何涉及多人语音对话的场景，SoulX-Transcriber都能大显身手！

写在最后

SoulX-Transcriber 的出现，标志着多人对话转录技术进入了一个新的阶段。

它用端到端的架构设计，解决了传统级联系统的诸多痛点，在公开基准测试中取得了碾压式的领先表现。

快去试试这个强大的模型吧！相信它会给你带来惊喜！