乐于分享
好东西不私藏

用AI做一个音频拆分、合并、转码软件(有源码+软件)

用AI做一个音频拆分、合并、转码软件(有源码+软件)

  前两天用AI做了一个绘本软件,配音的时候发现如果是一页一页文字的用AI进行配音,虽然选的参数是一样的,但是输出的音频还是有一些差异,能够听出来不像是一个人读的,如果是全本配音的话,又不能让绘本自动翻到哪一页读哪一页的内容,于是像想到了先正本配音,然后再将音频切分成多段的这个想法,下面就是这个软件的制作过程。
 其实过程简单到离谱,就是有手就行,就是给AI发了提示词说了下要的功功能,提示词如下:
写一个windows的桌面软件,用rust或者python写,能打包成桌面软件即可,需要有gui界面,功能是可以切分音频文件支持多种格式如mp3、wav等音频导入,进行播放,然后打标记,可以根据标记点进行切分导出,设置名称前缀如 切分音频,则导出的音频就是 切分音频1,切分音频2,可以设置切分时长如60s则整体按照这个时长进行切分,可以设置导出音频的格式。同理需要有音频合并的功能,上传多个音频进行排序之后合并导出,UI界面要美观大气
AI初版的界面如下:
这个初版的功能就基本的都完成了,可以说是完成了95%的功能,只是用的过程中发现了一个小问题,就是添加标记可以用按钮添加,也可以用鼠标点击音频播放区添加,但是鼠标点击添加标记之后在标记区不显示,就没法删除,于是把这个问题反馈给AI让他进行修改。
讲一下怎么使用

 三步上手,有手就会(源码启动,想要修改功能用这个)

  1. 1

    安装依赖环境

    需要 Python 3.x 环境,然后安装三个库:pydub(音频处理)、pygame(播放)、numpy(波形计算)。FFmpeg 也需要安装并加入系统 PATH(用于格式转码)。

  2. 2

    导入音频文件

    点击「导入音频文件」按钮,选择要处理的音频。支持 MP3、WAV、FLAC、AAC、OGG 等主流格式。导入后波形图会自动生成。

  3. 3

    标记/切分/导出

    在波形上点击添加标记点,或直接设置等长切分时长。选择导出目录,点击「按标记切分导出」或「按时长切分导出」,搞定!

pip install pydub pygame numpy

安装包使用(简单方便用这个)

  • 1

    下载之后在dist目录下有个exe文件,直接双击就能使用

 技术亮点(给好奇宝宝)

整个软件基于 Python Tkinter 构建,界面组件全部自定义绘制(圆角按钮、卡片式布局、树形列表)。波形显示通过降采样算法将音频数据压缩到 2000 个采样点绘制,保证流畅不卡顿。

播放功能使用 Pygame 的 mixer 模块,导出临时 WAV 文件播放,避免格式兼容问题。切分和合并底层由 pydub 处理,这个库封装了 FFmpeg 的命令行调用,让代码非常简洁。

 适合谁用?

🎙️播客主:长录音分段发布,片头片尾合并
🎬视频创作者:提取音频、批量处理配音素材
🎵音乐爱好者:歌曲串烧制作、铃声裁剪
📚教师/学生:课堂录音整理、听力材料分段
💼办公族:会议录音归档、重点片段截取

源码和软件获取
如果需要如果只是切分或者合并音频(切分或者合并后输出的音频还是原来的格式),就只需要安装这个软件即可,下面这段也可以忽略,源码和软件在最后,如果要转码比如导入的是.wav格式想要输出.mp3格式就需要安装ffmpeg 并添加到系统PATH;具体可以参考这次一起发的另外一篇文章,很多人应该都用不到就写在这里浪费大家时间了,有需要的再去看吧。

源码和软件我都打包放到网盘了,后面是连接地址,之前一直都是用关键字回复发地址的,很多朋友老是复制错误,拿不到软件,我试下直接放链接可以发表成功不。

通过网盘分享的文件:audio.zip

链接: https://pan.baidu.com/s/1YBIVYadlkOvos-Olk9U2Yw?pwd=ig7y 提取码: ig7y

喜欢的朋友可以多多点赞、关注支持下,谢谢。