语音识别、说话人分离、字幕导出。和 DaVinci Resolve 集成,适合已经在用 Resolve 剪辑的人。
内置三个主流语音模型:Whisper、Parakeet、Moonshine。选哪个看你的机器配置和精度要求。
- ▶--
- ▶直接下安装包:https://github.com/tmoroney/auto-subs/releases,找到
.exe或.msi文件下载运行 - ▶或者用 winget:
winget install tmoroney.auto-subs - ▶--
- ▶--
- ▶5分钟音频:约 3-5 分钟
- ▶30分钟音频:约 20-30 分钟
- ▶有 NVIDIA 显卡 + CUDA:快 3-5 倍
- ▶--
- ▶原始录音越干净,分离越准
- ▶每个人至少要有 10-15 秒连续说话的内容,AI 才能区分开
- ▶人声重叠太多(比如同时说话)分离效果会下降
- ▶颜色可以在设置里自定义
- ▶--
- ▶--
- ▶--
- ▶--
- ▶--
Windows:
macOS:
```bash
brew install --cask auto-subs
```
或者去 Releases 页面下载 .dmg 文件。
Linux(Ubuntu/Debian):
```bash
wget https://github.com/tmoroney/auto-subs/releases/latest/download/AutoSubs-linux-x86_64.deb
sudo apt install ./AutoSubs-linux-x86_64.deb
```

装完第一次打开,界面会让你下载 AI 模型。这步跳不过,不下模型程序跑不起来。
选哪个模型:
| 模型 | 内存 | 速度 | 精度 |
| tiny | ~1GB | 最快 | 一般 |
| base | ~1GB | 快 | 够用 |
| medium | ~3GB | 中等 | 较好 |
| large-v3 | ~10GB | 慢 | 最好 |
建议先下 base,够用了。不够再换大的。
模型存放位置:Mac 是 ~/Library/Application Support/auto-subs/,Windows 是 %APPDATA%\auto-subs\。

独立使用(最常见)
1. 打开 AutoSubs,点 Import 导入视频(支持 MP4、MOV、MP3、WAV、MKV)
2. 选语言和模型
3. 勾选 "Speaker diarization" 开启说话人分离
4. 点 Transcribe,等 AI 处理
5. 在编辑界面检查字幕,可以手动微调时间轴
6. 导出 SRT 或 TXT
处理速度(4核CPU,无独显):
DaVinci Resolve 集成
前提:需要 DaVinci Resolve Studio 版,App Store 版本不支持脚本。
配置方法:
1. 关闭 Resolve
2. 把 AutoSubs 脚本复制到 Resolve 脚本目录
Windows:
```
C:\Program Files\Blackmagic Design\DaVinci Resolve\Scripts\
```
Mac:
```
/Library/Application Support/Blackmagic Design/DaVinci Resolve/Support/Scripts/
```
3. 打开 Resolve → Preferences → General → 勾选 "External scripting"
4. 重启 Resolve
5. 菜单栏:Workspace → Scripts → AutoSubs
脚本模式下可以直接读取时间线音频,生成的字幕带样式进时间线,支持逐词高亮动画。
批量处理
如果有一堆视频要处理,AutoSubs 支持文件夹导入,批量排队全自动跑。
适合:系列课程、每周固定更新的节目、矩阵号批量处理。

这是 AutoSubs 和大多数字幕工具拉开差距的地方。
原理:基于 Pyannote,AI 自动识别音频里有几个不同的人,每人的字幕段落标不同颜色。
用的时候注意:
编辑界面可以点击某个说话人的标签,一次选中这个人的所有字幕,统一改字体、颜色。
| 格式 | 适用场景 |
| SRT | 所有视频软件都兼容,行业标准 |
| VTT | 网页 / YouTube |
| TXT | 纯文本,用于脚本整理 |
| 剪贴板 | 快速复制到别的地方 |
| 直接发 Resolve | 无缝衔接剪辑工作流 |
提示 "No ffmpeg found"
某些 Linux 系统会报这个错。手动装一下:
```bash
sudo apt install ffmpeg
```
模型下载到一半卡住
国内网络拉 GitHub 模型容易超时。可以手动下载后放到模型目录,路径上面写过。也可以开代理。
说话人分离不准
先检查原始音频质量。如果背景音乐太大声,AI 容易混淆。可以先用 Audacity 或剪映降噪,再导入 AutoSubs。
支持中文吗
支持。选语言时选 "Chinese (Simplified)" 或 "Chinese (Traditional)",Whisper 和 Parakeet 对中文支持都还行。
Mac 上找不到脚本目录
确保用的是 DaVinci Resolve Studio 版,App Store 版本没有脚本支持权限。
这两个定位不太一样。
AutoSubs 有 GUI,可以拖入视频直接出字幕,还有说话人分离和 DaVinci 集成。Whisper 主要是命令行,用起来更灵活但配置也麻烦。
如果你要的是"做出能用的字幕文件"而不是"把音频转成文字",AutoSubs 更省事。如果你需要更精细的定制,可以折腾 Whisper。
1. 有 NVIDIA 显卡一定要开 CUDA加速:设置 → GPU Acceleration → ON。速度提升明显。
2. medium 模型在大多数场景下已经够用,不一定非要 large-v3。
3. 录音环境差的话,先降噪再导入。
4. 跑的时候关掉不需要的程序,给 AI 模型留足内存。
AutoSubs 的核心优势就两个:本地跑、DaVinci 集成。
不想把音频传给云服务商、又已经在用 Resolve 的人,装这个最合适。
下载:https://github.com/tmoroney/auto-subs/releases
魔法之翼,专注AI工具与实用技巧分享的平台。每周更新实用的AI工具测评、变现思路和操作教程,帮你用AI提升效率、开启副业。
更多内容,搜索关注公众号「魔法之翼」获取。
夜雨聆风