10秒声音克隆!微软这款AI工具,让你的声音开口说任何话
你有没有遇到过这种情况——录了一段视频旁白,但录到第三遍还是嗓子哑了,说出来的话又卡又别扭,根本不像自己想要的效果。或者你做播客,明明稿子写好了,但一录音就紧张,说话节奏全乱。
更麻烦的是,你总不能一直守在麦克风旁边,有时候内容量大,光是配音就能耗掉你一整个下午。
这种事我身边很多做内容的朋友都抱怨过。上周微软悄悄发布了一个新工具,我用了几天,感觉这个问题以后可能真的不用再烦了。
它是什么
MAI-Voice-1,微软发布的语音生成 AI。简单说,就是给它10秒的你的声音,它就能帮你开口说任何文字——语调、情绪、停顿节奏,跟你本人录的几乎没区别。
它还内置了700多种预设声音,如果你不想用自己的声音,直接选一个也行。生成速度很快,1秒不到就能出一段60秒的音频,我自己测试的时候确实没等多久。
三个让我觉得有点意思的功能
克隆自己的声音,不用一直守着录音
这个功能对做长期内容输出的人特别实用。你只需要提前录好10秒左右的声音样本,MAI-Voice-1 就会学习你的音色。之后你只要把稿子输进去,它就能用「你的声音」把内容念出来。
比如你是一个每天更新的财经博主,今天临时嗓子不舒服,但内容不能断更——以前只能推迟或者用别的声音凑合,现在你的克隆声音随时都在。
700+ 预设声音,情绪也能控制
如果你不需要用自己声音,微软内置的声音库里有700多个可选,男女老少都有,适合做有声书、产品介绍、广告配音。更有意思的是,这些声音支持情绪调节,你可以指定它说话时是「兴奋的」「温柔的」还是「专业播报感的」,生成出来的音频会有明显差异,不是那种千篇一律的机器腔。
我测试了一段英文客服对话,指定了「亲切」的语气,听起来确实比普通 TTS 自然很多,不再是那种读电话号码的感觉。
生成速度快到出奇
官方说法是「60秒音频不到1秒生成」,我实测下来基本符合。跟以前用过的一些语音工具比,等待感几乎没有。如果你要批量处理大量音频内容,这个速度差距还是很明显的。
三步上手,小白也能操作
第一步:进入 MAI Playground 免费体验
直接在浏览器搜索「MAI Playground Microsoft」,或者去 Azure 官网找到 AI Foundry 入口。微软目前提供免费试用,不需要付钱就能先感受一下效果。注册微软账号就行,国内的账号可以用。
第二步:选择声音或上传你的声音样本
进去之后会看到两个选项:用预设声音,或者上传自己的音频来克隆。如果你只是想试试效果,先从预设声音开始。选好声音之后,在文本框里输入你想让它念的内容,点生成就行了。
注意:声音克隆功能需要提交申请,通过审核才能用。这是微软的负责任 AI 政策,目的是防止声音被滥用。申请流程不复杂,填个表单说明你的使用场景即可。
第三步:下载音频,直接用
生成完成后可以直接下载 MP3 格式,拖进你的剪辑软件就能用。格式兼容主流的视频剪辑工具,不需要额外转码。
用下来的真实感受
说一个明显的优点:声音的自然度是我用过的同类工具里比较高的。尤其是情绪控制这块,指定「兴奋」和指定「平静」生成出来的音频,语调变化是真实能听出来的,不是贴个标签但没啥区别那种。
说一个客观的局限:克隆声音的申请流程比较麻烦,而且目前主要支持英文,中文语音克隆的效果还在优化中。如果你是做中文内容的,现阶段可能只能用预设声音,还不能克隆自己的中文声音。这点是真实情况,不是说说而已。
另外它目前处于公开预览阶段,不建议现在直接用于商业项目的关键部分,稳定性方面还要再观察。
最适合谁用
做内容但不想长时间录音的人,用这个工具可以省掉很多时间。播客主播、视频博主、教培机构的课程录制,这些场景里它都能发挥不小的作用。
如果你是做英文内容的,效果会更好,中文内容目前只能用预设声音。
学生党想给课堂展示或者项目视频加旁白,直接调一个预设声音把稿子念出来,也比自己上阵录好几遍省事多了。
总结一句话:不是所有人都需要它,但如果你经常要处理音频配音工作,值得花半小时去 MAI Playground 试一试,免费的,不亏。
夜雨聆风