# 告别手动剪辑!这款 AI 说话人分离工具让多人音频处理自动化

# 告别手动剪辑！这款 AI 说话人分离工具让多人音频处理自动化

## 你是否遇到过这些困扰？

- 会议录音长达数小时，需要整理每位发言人的内容

- 播客节目后期制作，要逐段区分不同主播的语音

- 采访音频需要按受访者分别归档

- 多人对话音频中重叠语音难以分离

传统做法需要人工反复听辨、标记时间轴、手动裁剪，耗时耗力还容易出错。

今天介绍一款开源工具 **RSFL（AI 说话人分离工具）**，让 AI 自动完成这些繁琐工作。

---

## RSFL 是什么？

RSFL 是一款基于 AI 的**图形界面说话人分离工具**，能够自动识别音频中不同说话人的语音片段，并按说话人分别导出。

简单来说：你只需丢进去一段多人对话音频，它就能自动把每个人的声音分开，输出独立的音频文件和详细的时间轴信息。

---

## 核心功能

### 🎯 AI 自动说话人分离

加载模型后自动分析音频，精准识别各说话人的语音时间轴，无需人工干预。

### 🔧 双重精度优化

**1. SpeakerRefiner（推荐）**

- 基于 MFCC 声纹特征聚类

- 修正重叠语音导致的误分配

- 适合大多数场景

**2. ClearVoice 语音分离（可选）**

- 将混合音频拆分为每人一路纯净音轨

- 彻底消除串音干扰

- 特别适合重叠语音严重的场景（目前支持 2 个说话人）

### 📊 灵活的输出格式

- **分段音频**：每个说话人的独立片段（`speaker_N_seg_xxx.wav`）

- **合并音频**：每位说话人的完整音频（`speaker_N.wav`）

- **JSON 时间轴**：包含每片段的说话人 ID、起止时间，方便后续处理

### ⚙️ 其他实用功能

- **说话人数量控制**：手动指定人数或让模型自动检测

- **取消支持**：处理过程中可随时中断

- **自动设备检测**：优先使用 CUDA GPU 加速，无 GPU 时自动回退到 CPU

---

## 技术栈

| 组件 | 技术 |

|------|------|

| GUI 框架 | PyQt6 |

| 说话人分离 | ModelScope `iic/speech_campplus_speaker-diarization_common` |

| 语音分离 | ClearVoice MossFormer2_SS_16K |

| 声纹精炼 | librosa + scikit-learn + NumPy |

| 音频处理 | pydub |

| 深度学习 | PyTorch（CUDA 自动检测） |

---

## 适用场景

- 🎙️ **播客制作**：快速分离不同主播的语音

- 📝 **会议记录**：自动区分发言人，辅助会议纪要整理

- 🎤 **采访后期**：按受访者分别归档音频

- 🎧 **语音数据分析**：为后续 ASR、情感分析等任务提供预处理

- 📚 **教学/培训**：区分讲师与学员的互动内容

---

## 快速上手

### 系统要求

- **操作系统**：Windows / Linux / macOS

- **Python**：3.10+

- **磁盘空间**：首次运行需下载约 2GB 模型

- **可选**：NVIDIA GPU（CUDA 加速）

### 安装步骤

**方式一：使用预配置环境（推荐）**

项目自带 Conda 环境，直接安装依赖：

```bash

zhlgx\python.exe -m pip install -r requirements.txt

```

如遇 modelscope 导入错误，补装：

```bash

zhlgx\python.exe -m pip install addict datasets simplejson hdbscan

```

**方式二：自行创建环境**

```bash

conda create -n rsfl python=3.12

conda activate rsfl

pip install -r requirements.txt

```

### 使用方法

```bash

python main.py

```

1. **选择音频文件**：支持 WAV、MP3、M4A、FLAC 格式

2. **设置输出目录**：默认在音频同级创建 `output_speakers` 文件夹

3. **设置说话人数量**：输入预期人数，留空或 0 则自动检测

4. **选择优化方式**：推荐"说话人标签精炼"，重叠严重可选"ClearVoice"

5. **开始处理**：首次运行会自动下载模型，处理完成即可在输出目录查看结果

---

## 项目获取

🔗 **GitHub 地址**：[https://github.com/zhlgx/rslf](https://github.com/zhlgx/rslf)

欢迎 Star ⭐、Fork 🍴、提交 Issue 和 PR！

---

## 写在最后

RSFL 将复杂的说话人分离技术封装成简单易用的图形界面，让非专业用户也能轻松上手。无论是内容创作者、研究人员还是普通用户，都能从中受益。

如果你经常需要处理多人对话音频，不妨试试这款工具，让 AI 帮你解放双手！

---

*觉得有用？欢迎分享给有需要的朋友！*

链接：https://pan.quark.cn/s/35700499e865