# 告别手动剪辑!这款 AI 说话人分离工具让多人音频处理自动化
## 你是否遇到过这些困扰?
- 会议录音长达数小时,需要整理每位发言人的内容
- 播客节目后期制作,要逐段区分不同主播的语音
- 采访音频需要按受访者分别归档
- 多人对话音频中重叠语音难以分离
传统做法需要人工反复听辨、标记时间轴、手动裁剪,耗时耗力还容易出错。
今天介绍一款开源工具 **RSFL(AI 说话人分离工具)**,让 AI 自动完成这些繁琐工作。
---
## RSFL 是什么?
RSFL 是一款基于 AI 的**图形界面说话人分离工具**,能够自动识别音频中不同说话人的语音片段,并按说话人分别导出。
简单来说:你只需丢进去一段多人对话音频,它就能自动把每个人的声音分开,输出独立的音频文件和详细的时间轴信息。
---
## 核心功能
### 🎯 AI 自动说话人分离
加载模型后自动分析音频,精准识别各说话人的语音时间轴,无需人工干预。
### 🔧 双重精度优化
**1. SpeakerRefiner(推荐)**
- 基于 MFCC 声纹特征聚类
- 修正重叠语音导致的误分配
- 适合大多数场景
**2. ClearVoice 语音分离(可选)**
- 将混合音频拆分为每人一路纯净音轨
- 彻底消除串音干扰
- 特别适合重叠语音严重的场景(目前支持 2 个说话人)
### 📊 灵活的输出格式
- **分段音频**:每个说话人的独立片段(`speaker_N_seg_xxx.wav`)
- **合并音频**:每位说话人的完整音频(`speaker_N.wav`)
- **JSON 时间轴**:包含每片段的说话人 ID、起止时间,方便后续处理
### ⚙️ 其他实用功能
- **说话人数量控制**:手动指定人数或让模型自动检测
- **取消支持**:处理过程中可随时中断
- **自动设备检测**:优先使用 CUDA GPU 加速,无 GPU 时自动回退到 CPU
---
## 技术栈
| 组件 | 技术 |
|------|------|
| GUI 框架 | PyQt6 |
| 说话人分离 | ModelScope `iic/speech_campplus_speaker-diarization_common` |
| 语音分离 | ClearVoice MossFormer2_SS_16K |
| 声纹精炼 | librosa + scikit-learn + NumPy |
| 音频处理 | pydub |
| 深度学习 | PyTorch(CUDA 自动检测) |
---
## 适用场景
- 🎙️ **播客制作**:快速分离不同主播的语音
- 📝 **会议记录**:自动区分发言人,辅助会议纪要整理
- 🎤 **采访后期**:按受访者分别归档音频
- 🎧 **语音数据分析**:为后续 ASR、情感分析等任务提供预处理
- 📚 **教学/培训**:区分讲师与学员的互动内容
---
## 快速上手
### 系统要求
- **操作系统**:Windows / Linux / macOS
- **Python**:3.10+
- **磁盘空间**:首次运行需下载约 2GB 模型
- **可选**:NVIDIA GPU(CUDA 加速)
### 安装步骤
**方式一:使用预配置环境(推荐)**
项目自带 Conda 环境,直接安装依赖:
```bash
zhlgx\python.exe -m pip install -r requirements.txt
```
如遇 modelscope 导入错误,补装:
```bash
zhlgx\python.exe -m pip install addict datasets simplejson hdbscan
```
**方式二:自行创建环境**
```bash
conda create -n rsfl python=3.12
conda activate rsfl
pip install -r requirements.txt
```
### 使用方法
```bash
python main.py
```
1. **选择音频文件**:支持 WAV、MP3、M4A、FLAC 格式
2. **设置输出目录**:默认在音频同级创建 `output_speakers` 文件夹
3. **设置说话人数量**:输入预期人数,留空或 0 则自动检测
4. **选择优化方式**:推荐"说话人标签精炼",重叠严重可选"ClearVoice"
5. **开始处理**:首次运行会自动下载模型,处理完成即可在输出目录查看结果
---
## 项目获取
🔗 **GitHub 地址**:[https://github.com/zhlgx/rslf](https://github.com/zhlgx/rslf)
欢迎 Star ⭐、Fork 🍴、提交 Issue 和 PR!
---
## 写在最后
RSFL 将复杂的说话人分离技术封装成简单易用的图形界面,让非专业用户也能轻松上手。无论是内容创作者、研究人员还是普通用户,都能从中受益。
如果你经常需要处理多人对话音频,不妨试试这款工具,让 AI 帮你解放双手!
---
*觉得有用?欢迎分享给有需要的朋友!*
链接:https://pan.quark.cn/s/35700499e865
夜雨聆风