语音转文字神器来了!Buzz 上手指南(免费+离线+视频字幕一键生成)
你一定遇到过这些语音转文字场景:
-
• 开会录音一大堆,整理成文字要花几个小时 -
• 做视频字幕,一句一句手敲到崩溃 -
• 上课/采访录音,想快速变成文稿却没工具 -
• 好不容易找到工具,却发现要收费、还要上传隐私内容
Buzz 是什么?适合谁用
Buzz 是一个开源的语音转文字(Speech-to-Text)桌面工具(基于 Whisper),核心特点是:尽量在本地完成转写,减少对云端的依赖。
如果你经常需要:
-
• 整理会议录音/电话录音/采访 -
• 把课程、播客、讲座内容变成可搜索的文字笔记 -
• 给视频快速生成字幕(SRT/VTT) -
• 需要实时转写(活动、演讲、直播辅助)
那么Buzz这款开源工具你一定不能错过

主页地址:https://chidiwilliams.github.io/buzz/zh/docs
Buzz 的亮点(为什么值得装)
-
• 离线转写更安心:音频不必上传云端(更适合包含敏感信息的录音场景) -
• 文件转写 + 实时转写:导入音视频,或用麦克风现场转写 -
• 导出字幕:TXT / SRT / VTT 一步到位 -
• 可加速:部分环境可用 GPU 加速(速度提升明显) -
• 实用功能:搜索、回放定位、倍速、文件夹监听自动转写等
说明:不同系统/版本功能与加速方式可能略有差异,建议安装后先从默认配置跑通一次流程。
安装方式(按系统选一种)
优先推荐“安装包/应用商店”方式更省心;需要脚本/自动化时再选 Python 安装方式。
Windows
方式 A:winget 一条命令安装
winget install ChidiWilliams.Buzz --source winget
方式 B:下载安装包
-
• 到 Buzz 的官方发布页/安装说明下载 Windows 安装文件(按提示完成安装)
macOS
方式 A:winget 一条命令安装
brew install --cask buzz
方式 B:下载安装包
-
• 下载并安装 .dmg(官方安装说明里有入口)
Linux
Flatpak(Flathub)
flatpak install flathub io.github.chidiwilliams.Buzz
Snap
sudo apt-get install libportaudio2 libcanberra-gtk-module libcanberra-gtk3-modulesudo snap install buzz
Python 安装(适合脚本/自动化)
需要先安装
ffmpeg,并使用 Python 3.12 环境。
pip install buzz-captionspython -m buzz
安装入口**(建议收藏)**:
-
• GitHub:https://github.com/chidiwilliams/buzz -
• 安装文档:https://chidiwilliams.github.io/buzz/docs/installation
5 分钟上手:从“导入”到“导出”
1)第一次打开建议先做这 3 件事
-
1. 在设置里选择语言(中文/英文等) -
2. 选择一个模型大小(新手建议从 small或medium起步) -
3. 选择输出偏好:纯文本 or 字幕(SRT/VTT)
模型越大通常越准,但更慢、更吃资源:建议先从小模型跑通流程,再按需求升级。
2)导入音频/视频,一键转文字
-
1. 打开 Buzz → 选择导入文件 -
2. 选中你的 .mp3/.m4a/.wav/.mp4等文件 -
3. 选择任务类型: -
• Transcribe(转写):同语种转文字 -
• Translate(翻译):把语音内容翻译成另一种语言(例如转成英文) -
4. 开始转写,等待完成
完成后你通常可以:
-
• 搜索关键词 -
• 点击时间轴回放定位,边听边校对 -
• 调整播放速度,提高校对效率
3)导出为 TXT / SRT / VTT(做字幕特别方便)
转写完成后选择导出格式:
-
• TXT:适合做纪要、笔记、资料归档 -
• SRT:最常见字幕格式(多数剪辑/字幕工具通用) -
• VTT:网页视频/部分平台更常用
小建议:
-
• 做视频字幕:优先导出 SRT -
• 做知识笔记:导出 TXT,再用标题/要点二次整理
4)麦克风实时转写:会议/演讲现场神器
-
1. 进入 Live transcription(实时转写) -
2. 选择麦克风输入设备 -
3. 开始转写(可配合展示窗口做现场字幕辅助)
提升准确率的 6 个技巧(很实用)
-
• 明确指定语言:中文内容就选中文,别全程依赖 Auto -
• 噪音大先处理:杂音越少,误识别越少(必要时先降噪/分离人声) -
• 口音重/多人对话:尝试更大模型(如 medium/large),并预留校对时间 -
• 长录音先切段:1 小时录音切成 10–15 分钟段,更稳、更利于校对 -
• 术语/人名重点校对:专业词汇通常是“翻车重灾区” -
• 能用加速就用:支持 GPU 的环境速度会提升明显
常见问题(快速排查)
-
• 转写很慢:换小一号模型;检查是否启用了加速后端/GPU -
• 识别不准:指定正确语言;尝试更大模型;先处理噪音
结语:把音频变成你的“可搜索资产”
当市面上的转写工具越来越倾向订阅/按量收费、并把处理过程放在云端时,Buzz 这种开源 + 本地离线的方案,恰好能解决两个核心问题:长期成本可控、隐私更安心。
如果你觉得这篇文章有用,欢迎点赞、收藏,也欢迎转发分享给同样需要做会议纪要/字幕整理的朋友;你也可以在评论区留言你的使用场景,和大家一起交流使用技巧。
夜雨聆风