好久没更新了,5月真的忙到飞起……
但复盘过程中也惊喜的发现,如果没有AI,这些活我可能两个月都干不完。
其中最有获得感的事情之一,就是用AI辅助整理会议纪要。
如果大家做过这个事情,就知道有多麻烦……两个小时的录音,生生得整理一天,可能还得加班,才能完成。
不过都2026年了,这个事真的没必要古法手作了。
今天给大家一套完整的解决方案,并且附赠一个我自己vibe coding的离线录音转文字工具。
一、录音转文字工具
说到录音转文字,可能你想到的还是科大讯飞的录音笔,或者讯飞听见、通义听悟之类的软件。
但是这些产品也有一些问题:一是识别准确度不太高,特别是专有名词识别不准;二是会有大量的语气词等与会议无关的内容;三是有时录音涉密,不能联网处理,这些工具就基本不能用了。
有没有其他办法解决呢?
有的。其实语音转文字这个事,本质也是一个人工智能模型在完成的,这类模型叫做ASR模型(Automatic Speech Recognition)。
2026年了,ASR模型领域其实也有了长足的发展。
我专门去做了些功课,看了一些测评,发现现在最好的开源ASR模型竟然是——Mimo V2.5。
对,就是小米做的。
我实际测了一下,确实非常惊艳……基本没什么错误,甚至连地名村名都能识别对。
不过很可惜,这个模型目前似乎没有任何app或者网站可以直接使用。
不过没关系,我vibe coding写了一个带GUI界面的软件,可以使用这个模型。而且还是本地离线处理,还能解决录音不能上网的问题。
下载链接放在这里了:
https://share.fnnas.net/s/cfdd19d8409e432dac
二、工具使用教程
下载解压之后,双击这个exe文件就可以运行了。

界面是不是还挺好看的?应该是目前做的工具里最好看的一个了(感谢模型的进步)。
点选择文件,选择要处理的录音。我内置了一个音频格式转换功能,常见的音频格式都可以自动转换成ASR可以识别的格式。

拖动滑块选择录音识别的起止时间。然后选择运行方式,CPU或者GPU。如果有GPU的优先用GPU,会快很多,没有的话也可以选CPU,不过尽量不要用核显(第二个选项)。我用的12代i7,大概转换时间和录音时间1:1左右。具体取决于设备的内存、cpu线程或者gpu显存。

之后点“开始生成文字稿”,然后就可以把它最小化,去做别的事情了。
三、会议纪要整理
有了高质量的录音文字稿,再整理会议纪要就简单多了。当然,如果不涉密也可以交给AI整理。
一般来说,给大模型三个材料就可以了。
一是录音转出来的文字稿,这个比较全,但是不一定准。
二是会议议程,可以帮助大模型理解整个稿子的结构和发言人是谁。
三是现场的人工记录,当然,只需要记提纲、专有名词、数据之类的内容就可以了,负责校正录音识别不准确的部分。
然后可以把这三个材料扔给你的AI工作站,再丢给他一个提示词。
任务:整理xxx会议的会议纪要。
说明:附件1是录音转出来的文字稿,附件2是会议议程,附件3是我的现场记录。
要求:根据会议议程组织录音文字稿,修正录音文字稿中的错误,包括语音识别错误、语气词等,但不要做任何概括提炼,当词语或数据冲突时,以我的现场记录为准。
然后就可以无痛获得一份会议纪要了。
另外,这个工具我目前只做了windows版本的,如果大家需要我会再做个mac版本。国产电脑就算了,实在带不动,转起来太慢了。如果有条件大家还是用带gpu的电脑转哈。
夜雨聆风