AutoSubs:本地AI字幕工具,视频创作者必备

AutoSubs：本地AI字幕工具，视频创作者必备

01、这东西能做什么

语音识别、说话人分离、字幕导出。和 DaVinci Resolve 集成，适合已经在用 Resolve 剪辑的人。

内置三个主流语音模型：Whisper、Parakeet、Moonshine。选哪个看你的机器配置和精度要求。

▶--

02、安装

Windows：

▶直接下安装包：https://github.com/tmoroney/auto-subs/releases，找到 .exe 或 .msi 文件下载运行
▶或者用 winget：winget install tmoroney.auto-subs

macOS：

```bash

brew install --cask auto-subs

```

或者去 Releases 页面下载 .dmg 文件。

Linux（Ubuntu/Debian）：

```bash

wget https://github.com/tmoroney/auto-subs/releases/latest/download/AutoSubs-linux-x86_64.deb

sudo apt install ./AutoSubs-linux-x86_64.deb

```

▶--

03、第一次打开：下模型

装完第一次打开，界面会让你下载 AI 模型。这步跳不过，不下模型程序跑不起来。

选哪个模型：

模型	内存	速度	精度
tiny	~1GB	最快	一般
base	~1GB	快	够用
medium	~3GB	中等	较好
large-v3	~10GB	慢	最好

建议先下 base，够用了。不够再换大的。

模型存放位置：Mac 是 ~/Library/Application Support/auto-subs/，Windows 是 %APPDATA%\auto-subs\。

▶--

04、三种用法

独立使用（最常见）

1. 打开 AutoSubs，点 Import 导入视频（支持 MP4、MOV、MP3、WAV、MKV）

2. 选语言和模型

3. 勾选 "Speaker diarization" 开启说话人分离

4. 点 Transcribe，等 AI 处理

5. 在编辑界面检查字幕，可以手动微调时间轴

6. 导出 SRT 或 TXT

处理速度（4核CPU，无独显）：

▶5分钟音频：约 3-5 分钟
▶30分钟音频：约 20-30 分钟
▶有 NVIDIA 显卡 + CUDA：快 3-5 倍

DaVinci Resolve 集成

前提：需要 DaVinci Resolve Studio 版，App Store 版本不支持脚本。

配置方法：

1. 关闭 Resolve

2. 把 AutoSubs 脚本复制到 Resolve 脚本目录

Windows：

```

C:\Program Files\Blackmagic Design\DaVinci Resolve\Scripts\

```

Mac：

```

/Library/Application Support/Blackmagic Design/DaVinci Resolve/Support/Scripts/

```

3. 打开 Resolve → Preferences → General → 勾选 "External scripting"

4. 重启 Resolve

5. 菜单栏：Workspace → Scripts → AutoSubs

脚本模式下可以直接读取时间线音频，生成的字幕带样式进时间线，支持逐词高亮动画。

批量处理

如果有一堆视频要处理，AutoSubs 支持文件夹导入，批量排队全自动跑。

适合：系列课程、每周固定更新的节目、矩阵号批量处理。

▶--

05、说话人分离怎么用

这是 AutoSubs 和大多数字幕工具拉开差距的地方。

原理：基于 Pyannote，AI 自动识别音频里有几个不同的人，每人的字幕段落标不同颜色。

用的时候注意：

▶原始录音越干净，分离越准
▶每个人至少要有 10-15 秒连续说话的内容，AI 才能区分开
▶人声重叠太多（比如同时说话）分离效果会下降
▶颜色可以在设置里自定义

编辑界面可以点击某个说话人的标签，一次选中这个人的所有字幕，统一改字体、颜色。

▶--

06、导出格式

▶--

格式	适用场景
SRT	所有视频软件都兼容，行业标准
VTT	网页 / YouTube
TXT	纯文本，用于脚本整理
剪贴板	快速复制到别的地方
直接发 Resolve	无缝衔接剪辑工作流

07、常见问题

提示 "No ffmpeg found"

某些 Linux 系统会报这个错。手动装一下：

```bash

sudo apt install ffmpeg

```

模型下载到一半卡住

国内网络拉 GitHub 模型容易超时。可以手动下载后放到模型目录，路径上面写过。也可以开代理。

说话人分离不准

先检查原始音频质量。如果背景音乐太大声，AI 容易混淆。可以先用 Audacity 或剪映降噪，再导入 AutoSubs。

支持中文吗

支持。选语言时选 "Chinese (Simplified)" 或 "Chinese (Traditional)"，Whisper 和 Parakeet 对中文支持都还行。

Mac 上找不到脚本目录

确保用的是 DaVinci Resolve Studio 版，App Store 版本没有脚本支持权限。

▶--

08、和 Whisper 比，哪个更好用

这两个定位不太一样。

AutoSubs 有 GUI，可以拖入视频直接出字幕，还有说话人分离和 DaVinci 集成。Whisper 主要是命令行，用起来更灵活但配置也麻烦。

如果你要的是"做出能用的字幕文件"而不是"把音频转成文字"，AutoSubs 更省事。如果你需要更精细的定制，可以折腾 Whisper。

▶--

09、性能优化

1. 有 NVIDIA 显卡一定要开 CUDA加速：设置 → GPU Acceleration → ON。速度提升明显。

2. medium 模型在大多数场景下已经够用，不一定非要 large-v3。

3. 录音环境差的话，先降噪再导入。

4. 跑的时候关掉不需要的程序，给 AI 模型留足内存。

▶--

10、总结

AutoSubs 的核心优势就两个：本地跑、DaVinci 集成。

不想把音频传给云服务商、又已经在用 Resolve 的人，装这个最合适。

下载：https://github.com/tmoroney/auto-subs/releases

关于公众号

魔法之翼，专注AI工具与实用技巧分享的平台。每周更新实用的AI工具测评、变现思路和操作教程，帮你用AI提升效率、开启副业。

更多内容，搜索关注公众号「魔法之翼」获取。