开源AI做歌,0元

雷哥玩 AI · 实战

开源 AI 做歌，0 元配置不高也能玩转！

Spotify 一天之内连发 4 条 AI 大动作——AI 翻唱合法化、AI 播客问答、AI 有声书、AI 摘要。音乐行业的 AI 化已经不是"将来时"，是"进行时"了。

然后我做了一件事：用开源模型 HeartMuLa，本地跑了 3 首歌。成本 0 元。用的显卡是 RTX 5060 Ti，16GB 显存。

效果怎么样？说实话，有惊喜也有槽点。先上结论，再展开。

📦 项目卡片

HeartMuLa

Apache-2.0 开源 · 可商用

开源版 Suno，根据歌词+风格标签生成完整歌曲。3B/7B 两个版本，支持多语言。

先听结果

我写了 3 首不同风格的歌词，让 HeartMuLa 3B 模型生成：

第一首「AI 打工人之歌」——电子流行风，讲"AI 不是工具是搭档"。节奏感强，适合公众号传播。生成出来有电子乐的味道，男声，咬字基本能听清，但个别字有点含糊。

第二首「蕾兮的扇子」——中国风 R&B，虚拟导游蕾兮的主题曲。"山没变高，城市长高了"这句做副歌。这个最惊喜，二胡+古筝的音色居然出来了，女声偏柔，情绪对味了。

第三首「早安河马」——Acoustic 轻快风，做早晨推送的 BGM。吉他+钢琴，轻松。这个最稳，旋律流畅，但说实话听起来更像"配乐诗朗诵"而不是"唱歌"。

时长都在 1分半到 2分半，文件大小 1.5MB-2.2MB。

怎么装的

过程不复杂，但踩了几个坑。记录一下，想自己跑的照着来就行。

第一步：装环境

Python 3.10，uv 装依赖。官方要求 3.10，别用 3.11 或 3.12，会报兼容问题。

第二步：下模型

3 个模型，总共 20 多 GB。国内用 hf-mirror.com 镜像，不然下不动。3B 模型 15GB，Codec 6GB，还有一个小的。

第三步：打补丁

这个必须做，不然跑不起来。两个地方要改：

一是 RoPE 缓存的问题。模型在 meta device 上初始化时跳过了缓存构建，加载到真实 GPU 后需要手动重新初始化。不改的话 setup_caches 会报错。

二是 HeartCodec 的 VQ codebook 尺寸 mismatch。checkpoint 里是 [1] 形状，模型定义是 []，数据一样但维度不一致。加一行 ignore_mismatched_sizes=True 就行。

第四步：改保存方式

官方代码用 torchaudio.save，但 torchaudio 依赖 torchcodec，torchcodec 又依赖 libavutil.so.57——WSL Ubuntu 22.04 只有 libavutil.so.56，版本不匹配。我绕过 torchaudio，用 scipy 写 WAV 再 ffmpeg 转 MP3，搞定。

运行命令

python run_music_generation.py \--model_path=./ckpt \--version="3B" \--lyrics="./lyrics.txt" \--tags="./tags.txt" \--save_path="./output.mp3" \--lazy_load true

花了多久

下载模型：20 多分钟（hf-mirror 镜像，不算快）

第一首歌：约 3 分钟（加载模型 9 秒 + 生成 2 分钟 + 转码 10 秒）

第二、三首：每首约 2-10 分钟不等（取决于歌词长度，lazy_load 模式下模型要重复加载卸载）

硬件成本：电费。软件成本：0 元。时间成本：不到半小时。

真实体验

优点先说：

完全免费，Apache-2.0 可商用。Suno 一个月 10 刀起，这个 0 元。跑一次省 10 刀。

本地运行，不需要联网。生成速度在 GPU 上可以接受，一首歌 2-10 分钟。批量跑的话效率还可以。

歌词控制力强。你写什么它就唱什么，结构完全按你的 [Verse]/[Chorus]/[Bridge] 来。

再说缺点：

中文咬字不太准。HeartMuLa 主要用英文训练，中文歌词偶尔含糊，有些字听不清在唱什么。3B 模型音质中等，跟 Suno 比有差距。7B 会更好但 16GB 显存跑不动。

风格标签（tags）影响比较弱。你写 "chinese traditional R&B" 和写 "acoustic pop"，听感差异没有 Suno 那么大。歌词结构对结果的主导权比风格标签强得多。

行业判断

Spotify 一天 4 连击，HeartMuLa 开源可用。两个信号指向同一个方向：音频 AI 化正在加速，而且门槛在快速降低。

我们视频工厂已经有 TTS + AI 配音管线。横向扩展到 AI 音乐内容，技术上只差一步。Suno 模式已经被验证了——用户愿意为"一句话生成一首歌"付费。

开源方案的意义在于：不用等 Suno 开放 API，自己就能跑。音质差距在缩小，成本差距已经是 0 vs 10 刀/月。

下一步我会用 7B 模型重制（音质更好，但需要换卡），也会试试 Suno API 做精修版对比。哪个效果好，后续内容就用哪个。

🎁 福利

想要一键安装脚本 + 3 首歌词模板？关注公众号「雷哥玩 AI」，后台回复 AI音乐，自动发你。

包含：一键安装脚本（国内镜像）+ HeartMuLa 补丁 + 3 首歌词模板 + 踩坑文档。直接跑就能出歌。

你觉得 AI 做的歌能听吗？

去评论区说说你的看法。觉得有用的，转发给做音乐的朋友。

🤖 本作品包含 AI 创作

雷哥玩 AI · 每日实测 · 不吹不黑