上和弦匠心设计全新校区
Audio Matrix









本文作者:辰谙
最近,SONY正式开源了一款专为音效领域设计的基础模型Woosh,为声音创作者、游戏开发者和影视后期工作者提供了一个全新的创作工具。

01
Woosh的介绍和部署
Woosh是SONY AI于近期开源的专门针对音效生成优化的基础大模型,不仅支持文本生成音频,还能根据视频画面自动生成同步音效,适用于影视后期、游戏开发、视频创作等场景。
Woosh的部署方法有多种,首先是官方源代码部署,这是最直接的部署方式,适合有一定Python开发经验的用户。

我们可以直接进到Woosh在GitHub上的发布界面,然后下载对应文件到本地,在对应的环境中部署即可。
第二种是ComfyUI插件部署。ComfyUI是目前最流行的AI生成工具可视化平台,Woosh有专门的社区插件支持,有着直观的图形化界面。

第三种是一键整合包部署。对于不想进行复杂环境配置的用户,社区已经提供了一键整合包,解压即可使用,目前比较推荐这种方式。
需要注意的是,Woosh对硬件有明确的要求,主要依赖NVIDIA GPU进行加速计算,推荐配置为NVIDIA RTX 3060/4060,8GB显存以上。
02
Woosh的使用
以B站大神生活作弊码发布的一键整合包的部署为例,下载后我们会得到几个压缩包,解压后就会得到三个不同的bat启动程序,分别是“一键启动视频转音效.bat”“一键启动文本转音效_极速模式.bat”和“一键启动文本转音效_质量模式.bat”。

这三个启动程序分别对应了不同的音效生成方式,其中前一种对应视频生音效,后两种对应文本生音效,后两种的区别则在于极速模式是蒸馏模型,生成速度极快,而质量模式生成较慢,但质量比极速模式高。
首先我们看文本转音效的极速模式,启动之后,我们会看到模型的WebUI:

页面中最重要的就是左上方的“中文描述”的输入框,我们可以在这里输入任意想要的音效的中文提示词:

提示词的结构可以是:[物体]+[动作]+[环境]+[质感],比如”雨水落在铁皮屋顶上,轻柔而清脆“。
由于这个整合包已经内嵌了翻译工具,所以我们可以直接点击右上方的“翻译成英文”:

这时“提示词”框内就会出现对应的英文翻译。当然,直接在“提示词”框内输入英文提示词也是可以的。
除此之外,下方还有三个参数可供我们调整,其中”生成数量“就是一次性生成几条音效,”提示词引导系数“建议3~7,值越高越贴合提示词,但可能会降低自然度,“随机种子”建议保持-1,不做更改。

之后,我们直接点击“立即生成”即可,生成的音效可以在UI内预览,也可以下载。
然后我们看视频转音效,我们点击“一键启动视频转音效.bat”启动WebUI:

可以看到,视频转音效的可调参数和文本转音效的没有太大差别,主要就是左边多了一个上传视频的框:

在这个视频框里上传视频后,我们像文本转音效那样在右边的参数栏输入想要的参数,然后点击“立即生成”即可。
当然,由于这个是视频转音效,所以右边的提示词我们也可以选择不填,这款工具会根据视频内容智能地生成匹配的音效。
03
资源获取
目前,Woosh已经在GitHub上开源,地址如下:
https://github.com/SonyResearch/Woosh
B站大神生活作弊码发布的Woosh的一键整合包的下载链接如下:
https://pan.quark.cn/s/2b783e2e99c9
此外,就算我们本地没有NVIDIA GPU,也有一些线上的AI服务可以使用,比如RunningHub等:

SONY AI团队表示未来将继续优化Woosh模型,计划未来会支持立体声和多声道音频生成,并延长视频生成的最大时长。

作者往期文章(向上滑动阅览)
音乐文化|音乐审美|音乐教育|音乐学习|五线谱|民族记谱法|和声|卡农|古典音乐|交响乐|爵士乐|摇滚乐队|噪音音乐|夜曲|指弹|民乐|强力集团|钞票上的音乐家(上)|钞票上的音乐家(下)|中国摇滚|不插电|电子音乐|Lo-Fi音乐 | 8bit音乐|音乐评论|ASMR|阿卡贝拉|City Pop|蒸汽波|R&B|Funk|灵魂乐|Future Bass|雷鬼|黑胶唱片|
音乐理论|国际标准音|十二平均律|五度相生律/纯律|中国古代律制|二十四大小调|中古调式|大小调|转调|固定唱名法/首调唱名法|和弦标记|转位和弦|中国民族调式|日本民族调式|三分损益法/五度相生律|通奏低音|平行五度/平行八度|三全音|谱号|五度圈|人声音域|王道进行|Leading Bass和声进行 | 三种小调 | 旋律大调/和声大调 | 复合和弦 | 负面和声 | Alt音阶|Swing|“So What”|增六和弦|那不勒斯六和弦|六声音阶 | 终止式 | 超级玛丽终止式|调式互换|调式音乐|切分节奏|单对双的节奏|延伸音 | “Back Door”和声进行 | Slash Chord |刹车和弦|“Lady Bird”和声进行 | 半音趋近变化|Rhythm Changes|多利亚调式|利底亚调式|
乐器及演奏|管弦乐团配器|乐器音域|管风琴|钢琴|键盘类|古琴|木吉他|电吉他|电吉他效果器|指弹吉他|CAGED System|3NPS|贝斯|贝斯Slap技巧|手风琴|特雷门|中提琴|低音提琴|单簧管/双簧管|三角铁|架子鼓|定音鼓|唢呐|移调乐器|钢琴伴奏织体|提琴揉弦|T1213121|大横按|钢琴踏板Ⅰ|钢琴踏板Ⅱ|萨克斯风|打击乐器|
现代音乐|混音/母带|母带|百万调音师|MIDI|音频格式|DJ|声音设计|作曲/写歌|旋律创作|流行音乐的曲式结构|作曲/编曲|传统和声/流行和声|人声和声|虚拟歌手|杜比音效|记录旋律|听力|翻唱/改编|相位抵消|相位问题的解决方案|模拟信号/数字信号| 人耳的声源定位 |立体声录音|虚拟低频|谢帕德音调|Hi-Res|削波|不同颜色的噪声|混叠|等响曲线|掩蔽效应|硬削波/软削波|AI作曲|谐波失真|过载/失真/法兹|吉他类乐器的录音 |钢琴类乐器的录音|架子鼓的录音|录音的响度电平控制|多普勒效应|家庭录音室的工作台方位设置|低频陷阱/驻波问题|抖动|MIDI 2.0|立体声兼容单声道|dBFS和LKFS/LUFS|自动化处理|家庭录音室的噪声|响度提升|减法合成/加法合成|粒子合成|波表合成|MIDI钢琴人性化设置|噪音在音乐制作中的应用|编曲时要不要加效果器|音乐app对音乐文件的处理|编曲师需不需要懂混音|现代音乐制作VS传统和声规则|免费制作AI歌手|半开麦/假唱|
音乐设备|声卡|动圈麦克风/电容麦克风|麦克风的指向性|动圈耳机/动铁耳机|监听耳机|808鼓|监听音箱|倒相孔|啸叫|家庭录音室|MIDI设备|电子键盘|二分频/三分频|大三芯/卡侬头/大二芯/莲花头|调音台的接口|调音台的旋钮和按钮|调音台的类型|监听扬声器的类型|音量推子|话筒放大器|通道条|磁带模拟|不同阻抗的耳机|耳放|声卡和调音台的取舍|无源音箱/有源音箱|平衡/非平衡|数字麦克风/模拟麦克风|数字音频时钟|低音炮|推子前/推子后|
音乐软件|建模钢琴Pianoteq 9|L系列限制器|DAWproject|Pro Tool更新|Suno|传统DAW和AI|Fabfilter Pro-MB的向上压缩|解决立体声声相问题的工具|Cubase 15解决CSS弦乐的延迟|Ozone 12的母带实时拆分技术|Valhalla FutureVerb|Gemini 3|iZotope Insight 2|UAD插件|RipX DAW 8|Vovious|Waves Curves Resolve|FabFilter Pro-C3|OTT|Polarity-MD|Future MB|DynAssist|Stacks Audio插件|AI音频分离工具|ACE-Step 1.5|SoulX-Singer|OpenTune|ALLCOMP|iZotope RX 12|VoiceAssist|Soothe 3|
音乐制作|音频分析|耳机混音|导出分轨|混响|混响效果器|卷积混响/IR|混响效果器的类型|弹簧混响|抽吸效果|滤波器|EQ/动态EQ/多段压缩|EQ效果器的Q值|EQ效果器的扩展功能|压缩器的参数|压缩效果器的类型|多段压缩器|压缩器的Attack和Release|压缩效果器的扩展功能|饱和效果器|限幅器|噪声门|降噪|声像调整|调制类效果器|扩展器|效果器的连接方式|M/S处理|dBSPL/dBm/dBu/dBV/dBFS|基本波形|采样精度|采样率|延迟效果器|延迟效果器的延迟时间|摇滚混音|人声和声的混音|压缩效果器处理人声|低频处理|电脑性能节省|测算和修改BPM|失真电吉他的混音|卧室制作人的母带制作Tips|声场扩大|混音融合度|混音增强鼓的打击感|侧链压缩的应用|
⬆️上和弦地理位置
详情咨询请戳👇

夜雨聆风