乐于分享
好东西不私藏

离线AI语音转文字工具:本地运行不限时长,支持GPU加速

离线AI语音转文字工具:本地运行不限时长,支持GPU加速

0507
上周接了个急活:把一段技术分享会的录屏(45分钟)整理成文字稿。打开剪映的”智能字幕”功能,提示”免费额度已用完,请开通会员”。我又试了某在线语音转文字网站,上传完等了两分钟,最后弹出来”试用版只转前3分钟,完整版99元/月”。
气得我直接关掉了。
后来在GitHub上逛到一个开源项目,作者打包好了一个本地工具——内置几十款AI大模型,支持中英文等多国语言,关键是不联网、不收费、准确率极高。我花了几分钟配置了一下,把那段45分钟的视频拖进去,不到5分钟就转完了全文,错别字极少,连专业术语都识别对了。
今天就把这台”本地离线语音转文字神器”分享给你们。
ENTERTITLE

这是一款基于AI大模型的本地语音转文字工具,支持将mp4、mov、mkv、avi等视频格式,以及mp3、wav、flac等音频格式,一键转换成文字或字幕文件。
内置了几十款优质AI大模型(比如Whisper系列的tiny、base、small、medium、large-v3等),可选中文、英文、日语、法语等多国语言发音。
核心优势:
  • 离线运行:模型首次下载后永久本地使用,断网也能转
  • 可切换GPU加速:有N卡的话把运算设备从CPU改成CUDA,速度翻几倍
  • 高准确率:作者实测宣称99%,我自己用下来至少95%以上,比在线免费工具强太多
  • 导出灵活:可输出纯文本(.txt)或字幕文件(.srt/.ass)
ENTERTITLE
使用教程
一、修改硬件加速配置(关键步骤)

打开文件夹,找到 set.ini 这个文件,用记事本打开。

找到这一行:devtype = cpu
如果你电脑有NVIDIA独立显卡,把 cpu 改成 cuda,保存。这样就会调用显卡来跑AI模型,速度会快很多。我的GTX 1660跑一个10分钟的视频只要40秒。

如果只有集成显卡或者AMD显卡,就保持 cpu 就行,也能跑,只是慢一点。

⚠️ 我当时第一次忘了改,用CPU跑一个半小时的视频等了快20分钟,改成CUDA后直接缩到3分钟。这个坑你们千万别踩。
二、以管理员身份运行主程序

右键点击工具的主exe文件 → “以管理员身份运行”。不然后面写入模型文件可能会权限不足。

三、设置语言和模型
打开界面后:
  • 发音语言:选”中文”(如果是英文视频选”英文”,可多国语言)
  • 选择模型:下拉菜单里有几十个模型。强烈推荐选 large-v3,这是目前准确率最高的版本。我试过对比 base 和 medium,large-v3 的标点符号和长句断句都明显更准。

注意:第一次选 large-v3 时,工具会自动下载模型文件(大约3GB),网速慢的话要等一会儿。但只下载一次,以后永远离线可用。

四、设置导出格式
“返回格式”里选:
  • 纯文字:适合整理成文档
  • 字幕格式(SRT/ASS):适合给视频加外挂字幕

我一般选纯文字,导出后粘贴到Word里再微调。

五、导入音视频,点击”立即识别”
把文件拖进去,点按钮。界面会显示进度条,处理速度非常快——作者给的示例是7分钟视频不到1分钟,我自己45分钟的视频用了4分半。

处理完成后,文本框里会直接显示识别出的文字。点”导出文本”,保存成.txt文件。

实测翻车点:
有一次我转一个背景有风扇噪音的采访录音,识别率掉到了80%左右。后来我把音频提前用AU降噪了一下再扔进去,又回到了95%以上。所以输入音频质量越高,准确率越高。
ENTERTITLE
优势
对比剪映、讯飞听见、网易见外等主流工具,这款本地工具有几个碾压级的优势:
✅ 完全免费,无任何次数/时长限制
剪映免费版只有每月10分钟,讯飞听见按小时收费(10元/小时)。这个素材随便转,转一整天也不花一分钱。
✅ 离线运行,私密数据不上云
开会录音、内部访谈、涉密内容,不敢上传到在线网站。这个完全跑在你的电脑上,网线拔了都能用,数据100%安全。
✅ 可选CPU/GPU加速,速度不输在线服务
只要有一块N卡,速度比很多在线网站还快。而且不用排队,不用等服务器响应。
✅ 内置几十款模型,可灵活切换
如果只求快不求准,可以换 tiny 或 base 模型,速度极快;如果要精校字幕,直接用 large-v3 跑一遍再人工修正,比从头敲键盘省下90%时间。
✅ 多语言+字幕导出
做双语视频、外文课程字幕时,直接导出SRT文件,导入剪辑软件就能用,省去重新打轴的时间。

两个需要注意的地方

  • 首次下载large-v3模型较慢:3GB左右,建议用空闲时间挂机下载,以后就不用联网了。
  • 对音频质量有要求:如果原文件背景嘈杂、音量过低或多个人同时说话,识别率会下降。可以先在Audacity里做降噪、音量标准化处理,再导入识别。
我现在已经把这款工具放在工作电脑的桌面上,每周处理访谈录音、会议记录、课程转写全靠它。
如果你也经常需要把音视频转成文字,又被在线工具的收费和隐私问题困扰,强烈推荐试试这个本地神器。
ENTERTITLE
0507

1./

2.

3.使24

4.广广