雷哥玩 AI · 实战 开源 AI 做歌,0 元 配置不高也能玩转! |
Spotify 一天之内连发 4 条 AI 大动作——AI 翻唱合法化、AI 播客问答、AI 有声书、AI 摘要。音乐行业的 AI 化已经不是"将来时",是"进行时"了。 然后我做了一件事:用开源模型 HeartMuLa,本地跑了 3 首歌。成本 0 元。用的显卡是 RTX 5060 Ti,16GB 显存。 效果怎么样?说实话,有惊喜也有槽点。先上结论,再展开。 |
📦 项目卡片 HeartMuLa Apache-2.0 开源 · 可商用 开源版 Suno,根据歌词+风格标签生成完整歌曲。3B/7B 两个版本,支持多语言。 |
先听结果 我写了 3 首不同风格的歌词,让 HeartMuLa 3B 模型生成: 第一首「AI 打工人之歌」——电子流行风,讲"AI 不是工具是搭档"。节奏感强,适合公众号传播。生成出来有电子乐的味道,男声,咬字基本能听清,但个别字有点含糊。 第二首「蕾兮的扇子」——中国风 R&B,虚拟导游蕾兮的主题曲。"山没变高,城市长高了"这句做副歌。这个最惊喜,二胡+古筝的音色居然出来了,女声偏柔,情绪对味了。 第三首「早安河马」——Acoustic 轻快风,做早晨推送的 BGM。吉他+钢琴,轻松。这个最稳,旋律流畅,但说实话听起来更像"配乐诗朗诵"而不是"唱歌"。 时长都在 1分半 到 2分半,文件大小 1.5MB-2.2MB。 |
怎么装的 过程不复杂,但踩了几个坑。记录一下,想自己跑的照着来就行。 第一步:装环境 Python 3.10,uv 装依赖。官方要求 3.10,别用 3.11 或 3.12,会报兼容问题。 第二步:下模型 3 个模型,总共 20 多 GB。国内用 hf-mirror.com 镜像,不然下不动。3B 模型 15GB,Codec 6GB,还有一个小的。 第三步:打补丁 这个必须做,不然跑不起来。两个地方要改: 一是 RoPE 缓存的问题。模型在 meta device 上初始化时跳过了缓存构建,加载到真实 GPU 后需要手动重新初始化。不改的话 setup_caches 会报错。 二是 HeartCodec 的 VQ codebook 尺寸 mismatch。checkpoint 里是 [1] 形状,模型定义是 [],数据一样但维度不一致。加一行 ignore_mismatched_sizes=True 就行。 第四步:改保存方式 官方代码用 torchaudio.save,但 torchaudio 依赖 torchcodec,torchcodec 又依赖 libavutil.so.57——WSL Ubuntu 22.04 只有 libavutil.so.56,版本不匹配。我绕过 torchaudio,用 scipy 写 WAV 再 ffmpeg 转 MP3,搞定。 |
运行命令 python run_music_generation.py \--model_path=./ckpt \--version="3B" \--lyrics="./lyrics.txt" \--tags="./tags.txt" \--save_path="./output.mp3" \--lazy_load true |
花了多久 下载模型:20 多分钟(hf-mirror 镜像,不算快) 第一首歌:约 3 分钟(加载模型 9 秒 + 生成 2 分钟 + 转码 10 秒) 第二、三首:每首约 2-10 分钟不等(取决于歌词长度,lazy_load 模式下模型要重复加载卸载) 硬件成本:电费。软件成本:0 元。时间成本:不到半小时。 |
真实体验 优点先说: 完全免费,Apache-2.0 可商用。Suno 一个月 10 刀起,这个 0 元。跑一次省 10 刀。 本地运行,不需要联网。生成速度在 GPU 上可以接受,一首歌 2-10 分钟。批量跑的话效率还可以。 歌词控制力强。你写什么它就唱什么,结构完全按你的 [Verse]/[Chorus]/[Bridge] 来。 再说缺点: 中文咬字不太准。HeartMuLa 主要用英文训练,中文歌词偶尔含糊,有些字听不清在唱什么。3B 模型音质中等,跟 Suno 比有差距。7B 会更好但 16GB 显存跑不动。 风格标签(tags)影响比较弱。你写 "chinese traditional R&B" 和写 "acoustic pop",听感差异没有 Suno 那么大。歌词结构对结果的主导权比风格标签强得多。 |
行业判断 Spotify 一天 4 连击,HeartMuLa 开源可用。两个信号指向同一个方向:音频 AI 化正在加速,而且门槛在快速降低。 我们视频工厂已经有 TTS + AI 配音管线。横向扩展到 AI 音乐内容,技术上只差一步。Suno 模式已经被验证了——用户愿意为"一句话生成一首歌"付费。 开源方案的意义在于:不用等 Suno 开放 API,自己就能跑。音质差距在缩小,成本差距已经是 0 vs 10 刀/月。 下一步我会用 7B 模型重制(音质更好,但需要换卡),也会试试 Suno API 做精修版对比。哪个效果好,后续内容就用哪个。 |
🎁 福利 想要一键安装脚本 + 3 首歌词模板?关注公众号「雷哥玩 AI」,后台回复 AI音乐,自动发你。 包含:一键安装脚本(国内镜像)+ HeartMuLa 补丁 + 3 首歌词模板 + 踩坑文档。直接跑就能出歌。 |
你觉得 AI 做的歌能听吗? 去评论区说说你的看法。觉得有用的,转发给做音乐的朋友。 |
🤖 本作品包含 AI 创作 雷哥玩 AI · 每日实测 · 不吹不黑 |
夜雨聆风