语音转文字神器来了!Buzz 上手指南(免费+离线+视频字幕一键生成)-夜雨聆风

语音转文字神器来了!Buzz 上手指南(免费+离线+视频字幕一键生成)

你一定遇到过这些语音转文字场景：

• 开会录音一大堆，整理成文字要花几个小时
• 做视频字幕，一句一句手敲到崩溃
• 上课/采访录音，想快速变成文稿却没工具
• 好不容易找到工具，却发现要收费、还要上传隐私内容

Buzz 是什么？适合谁用

Buzz 是一个开源的语音转文字（Speech-to-Text）桌面工具（基于 Whisper），核心特点是：尽量在本地完成转写，减少对云端的依赖。

如果你经常需要：

• 整理会议录音/电话录音/采访
• 把课程、播客、讲座内容变成可搜索的文字笔记
• 给视频快速生成字幕（SRT/VTT）
• 需要实时转写（活动、演讲、直播辅助）

那么Buzz这款开源工具你一定不能错过

主页地址：https://chidiwilliams.github.io/buzz/zh/docs

Buzz 的亮点（为什么值得装）

• 离线转写更安心：音频不必上传云端（更适合包含敏感信息的录音场景）
• 文件转写 + 实时转写：导入音视频，或用麦克风现场转写
• 导出字幕：TXT / SRT / VTT 一步到位
• 可加速：部分环境可用 GPU 加速（速度提升明显）
• 实用功能：搜索、回放定位、倍速、文件夹监听自动转写等

说明：不同系统/版本功能与加速方式可能略有差异，建议安装后先从默认配置跑通一次流程。

安装方式（按系统选一种）

优先推荐“安装包/应用商店”方式更省心；需要脚本/自动化时再选 Python 安装方式。

Windows

方式 A：winget 一条命令安装

winget install ChidiWilliams.Buzz --source winget

方式 B：下载安装包

• 到 Buzz 的官方发布页/安装说明下载 Windows 安装文件（按提示完成安装）

macOS

方式 A：winget 一条命令安装

brew install --cask buzz

方式 B：下载安装包

• 下载并安装 .dmg（官方安装说明里有入口）

Linux

Flatpak（Flathub）

flatpak install flathub io.github.chidiwilliams.Buzz

Snap

sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-modulesudo snap install buzz

Python 安装（适合脚本/自动化）

需要先安装 ffmpeg，并使用 Python 3.12 环境。

pip install buzz-captionspython -m buzz

安装入口**（建议收藏）**：

• GitHub：https://github.com/chidiwilliams/buzz
• 安装文档：https://chidiwilliams.github.io/buzz/docs/installation

5 分钟上手：从“导入”到“导出”

1）第一次打开建议先做这 3 件事

1. 在设置里选择语言（中文/英文等）
2. 选择一个模型大小（新手建议从 small 或 medium 起步）
3. 选择输出偏好：纯文本 or 字幕（SRT/VTT）

模型越大通常越准，但更慢、更吃资源：建议先从小模型跑通流程，再按需求升级。

2）导入音频/视频，一键转文字

1. 打开 Buzz → 选择导入文件
2. 选中你的 .mp3/.m4a/.wav/.mp4 等文件
3. 选择任务类型：

• Transcribe（转写）：同语种转文字
• Translate（翻译）：把语音内容翻译成另一种语言（例如转成英文）

4. 开始转写，等待完成

完成后你通常可以：

• 搜索关键词
• 点击时间轴回放定位，边听边校对
• 调整播放速度，提高校对效率

3）导出为 TXT / SRT / VTT（做字幕特别方便）

转写完成后选择导出格式：

• TXT：适合做纪要、笔记、资料归档
• SRT：最常见字幕格式（多数剪辑/字幕工具通用）
• VTT：网页视频/部分平台更常用

小建议：

• 做视频字幕：优先导出 SRT
• 做知识笔记：导出 TXT，再用标题/要点二次整理

4）麦克风实时转写：会议/演讲现场神器

1. 进入 Live transcription（实时转写）
2. 选择麦克风输入设备
3. 开始转写（可配合展示窗口做现场字幕辅助）

提升准确率的 6 个技巧（很实用）

• 明确指定语言：中文内容就选中文，别全程依赖 Auto
• 噪音大先处理：杂音越少，误识别越少（必要时先降噪/分离人声）
• 口音重/多人对话：尝试更大模型（如 medium/large），并预留校对时间
• 长录音先切段：1 小时录音切成 10–15 分钟段，更稳、更利于校对
• 术语/人名重点校对：专业词汇通常是“翻车重灾区”
• 能用加速就用：支持 GPU 的环境速度会提升明显

常见问题（快速排查）

• 转写很慢：换小一号模型；检查是否启用了加速后端/GPU
• 识别不准：指定正确语言；尝试更大模型；先处理噪音

结语：把音频变成你的“可搜索资产”

当市面上的转写工具越来越倾向订阅/按量收费、并把处理过程放在云端时，Buzz 这种开源 + 本地离线的方案，恰好能解决两个核心问题：长期成本可控、隐私更安心。

如果你觉得这篇文章有用，欢迎点赞、收藏，也欢迎转发分享给同样需要做会议纪要/字幕整理的朋友；你也可以在评论区留言你的使用场景，和大家一起交流使用技巧。