【场景工具】整理会议纪要太费时间?用AI极致提效(附离线语音转文字)

好久没更新了，5月真的忙到飞起……

但复盘过程中也惊喜的发现，如果没有AI，这些活我可能两个月都干不完。

其中最有获得感的事情之一，就是用AI辅助整理会议纪要。

如果大家做过这个事情，就知道有多麻烦……两个小时的录音，生生得整理一天，可能还得加班，才能完成。

不过都2026年了，这个事真的没必要古法手作了。

今天给大家一套完整的解决方案，并且附赠一个我自己vibe coding的离线录音转文字工具。

一、录音转文字工具

说到录音转文字，可能你想到的还是科大讯飞的录音笔，或者讯飞听见、通义听悟之类的软件。

但是这些产品也有一些问题：一是识别准确度不太高，特别是专有名词识别不准；二是会有大量的语气词等与会议无关的内容；三是有时录音涉密，不能联网处理，这些工具就基本不能用了。

有没有其他办法解决呢？

有的。其实语音转文字这个事，本质也是一个人工智能模型在完成的，这类模型叫做ASR模型（Automatic Speech Recognition）。

2026年了，ASR模型领域其实也有了长足的发展。

我专门去做了些功课，看了一些测评，发现现在最好的开源ASR模型竟然是——Mimo V2.5。

对，就是小米做的。

我实际测了一下，确实非常惊艳……基本没什么错误，甚至连地名村名都能识别对。

不过很可惜，这个模型目前似乎没有任何app或者网站可以直接使用。

不过没关系，我vibe coding写了一个带GUI界面的软件，可以使用这个模型。而且还是本地离线处理，还能解决录音不能上网的问题。

下载链接放在这里了：

https://share.fnnas.net/s/cfdd19d8409e432dac

二、工具使用教程

下载解压之后，双击这个exe文件就可以运行了。

界面是不是还挺好看的？应该是目前做的工具里最好看的一个了（感谢模型的进步）。

点选择文件，选择要处理的录音。我内置了一个音频格式转换功能，常见的音频格式都可以自动转换成ASR可以识别的格式。

拖动滑块选择录音识别的起止时间。然后选择运行方式，CPU或者GPU。如果有GPU的优先用GPU，会快很多，没有的话也可以选CPU，不过尽量不要用核显（第二个选项）。我用的12代i7，大概转换时间和录音时间1：1左右。具体取决于设备的内存、cpu线程或者gpu显存。

之后点“开始生成文字稿”，然后就可以把它最小化，去做别的事情了。

有了高质量的录音文字稿，再整理会议纪要就简单多了。当然，如果不涉密也可以交给AI整理。

一般来说，给大模型三个材料就可以了。

一是录音转出来的文字稿，这个比较全，但是不一定准。

二是会议议程，可以帮助大模型理解整个稿子的结构和发言人是谁。

三是现场的人工记录，当然，只需要记提纲、专有名词、数据之类的内容就可以了，负责校正录音识别不准确的部分。

然后可以把这三个材料扔给你的AI工作站，再丢给他一个提示词。

任务：整理xxx会议的会议纪要。

说明：附件1是录音转出来的文字稿，附件2是会议议程，附件3是我的现场记录。

要求：根据会议议程组织录音文字稿，修正录音文字稿中的错误，包括语音识别错误、语气词等，但不要做任何概括提炼，当词语或数据冲突时，以我的现场记录为准。

然后就可以无痛获得一份会议纪要了。

另外，这个工具我目前只做了windows版本的，如果大家需要我会再做个mac版本。国产电脑就算了，实在带不动，转起来太慢了。如果有条件大家还是用带gpu的电脑转哈。