我刷到一个视频——有人用AI把自己的声音克隆了,然后让「另一个自己」替他开会。视频里那个AI声音跟本人几乎一模一样,连停顿的习惯都一样。
我当时就愣住了。
这玩意儿现在这么离谱了?我寻思了一下我没寻思明白,就想知道这东西到底是怎么弄的、效果怎么样、普通人能不能玩。
然后我就开始挖。
我查了一圈,发现现在主流的AI声音克隆技术大概有两种路径。
第一种是录一个小时以上的真声素材,让AI去学习你的音色、语调、停顿习惯,然后生成一个你的「声音模型」。这种方式效果好,但门槛高——你得录至少一小时高质量音频。
第二种是用少量的样本(几分钟甚至几秒),通过算法去推断你的声音特征。这种方式更快,但效果会差一些。
我看到好几个平台都支持第二种——你随便说几句话,它就能克隆出一个七八十分像的声音。对于我这种只是想试试的人来说,够用了。
我选了三个平台测
第一个是字节的豆包
我先试的豆包。操作很简单,下载App,找到声音克隆的入口,然后念一段话给它。官方要求是「阅读一段文字,时长2分钟以上」,我就随便念了点东西。
念完之后,等了大概五分钟,它告诉我声音模型训练完成了。
我迫不及待地试了一下——用克隆的声音读一段新闻。
怎么说呢……七十分像吧。音调有点像,但听起来就是有点「平」,少了点灵魂。停顿习惯也没学到,我平时说话会有些口头禅,但AI读出来的就像在念课文。
不过考虑到我只录了两分钟,这个效果我已经有点震惊了。
第二个是11labs
这是一个国外的平台,据说效果是目前最好的。
我过去注册了一个账号,它也让我录一段话。大概是让我读一段英文,录完之后等了大概十分钟——比豆包久多了。
训练完成后,我让它用我的声音读了一段中文。
你们猜怎么着——比豆包更像。
不是那种「七十分像」的像,是真的有停顿、有语调起伏、有那种「这就是一个人说话的感觉」的像。我当时就愣住了,心想这技术发展也太快了。
但问题来了——它读英文的时候,比读中文自然很多。毕竟是国外的模型,对中文的支持还是差点意思。有时候会有一些奇怪的音调,像是在模仿老外说中文的感觉。
我后来想了想,可能跟训练数据有关。英文的音素它学得更多,中文毕竟不是它的母语。
第三个是一个开源项目
名字我就不说了,免得像打广告。我是在GitHub上找的,自己部署了一个。
这个过程比较折腾——你得懂一点技术,会用命令行,会配环境。我吭哧吭哧弄了两天,中间还踩了几个坑。
但跑起来之后,效果是真的好。
可能是因为我录的时间更长(大概十分钟),也可能是因为开源项目没有那么多商业化的限制。总之,最后克隆出来的声音,我觉得有八十五分以上了。
我自己听的时候,有时候都会有点恍惚——这真的是AI生成的声音吗?
然后我开始「作死」
声音克隆出来了,我肯定要搞事情啊。
我想试试看,能不能用这个声音去骗人。
我先给朋友发了一条微信语音——内容是「在吗?借我两千块钱」,用克隆的声音说的。他后来说,他真的差点信了。
我又让我妈给我打了个电话——用克隆的声音接的。结果你们猜——我妈直接问我「你感冒了?声音怎么这样?」
她没被骗到,但也没觉得是AI,就是觉得我声音不对劲。
这个细节挺有意思的。人在面对「声音不对劲」的时候,第一反应不是「这是假的」,而是「对方可能身体不舒服」。我们对「真人」的这个信任度,比我想象的要高得多。
我还试了一个更骚的操作——让AI用我的声音去打电话。我跟朋友说,我今天不方便接电话,你打过来我用AI接。
他真的打了。
结果呢?朋友说,聊了两句就觉得不对劲了。太「顺」了,没有任何情绪波动,就像在念台词。我说,这就是AI和真人的区别——AI会完美,但真人不会。
聊聊更深的
写到这里,我突然想到一个问题——
这种技术成熟之后,最先影响的可能是哪些人?
我觉得不是那些「害怕被AI替代」的人,而是那些「靠声音吃饭」的人。
你想想,配音演员、有声书主播、电话销售、甚至婚介所的红娘……声音是他们的生产资料。现在这个生产资料可以被完美复制了,而且成本极低——你不用给「AI版的我」发工资,它也不会累。
这事儿说起来有点残酷,但这就是技术进步的一面。你没法阻止它,只能适应它。
我那天晚上跟我一个做配音演员的朋友聊这个,他说了一句让我印象很深的话——
「以后这个行业的门槛就不在声音了,在演技。」
我觉得他说得挺对的。声音可以被复制,但表演不行。你让AI读一段悲伤的独白,它可以模仿语调,但它很难真的「进入」那个情绪。停顿可以学,但那个停顿背后的东西——悲伤、犹豫、心碎——AI学不会。
最后说个有点细思极恐的
我在研究这个话题的时候,看到一个说法——
有人预测,未来每个人都会有一个「声音分身」。你上班的时候,你的AI分身在开会;你睡觉的时候,你的AI分身在接电话;你带娃的时候,你的AI分身在跟客户沟通。
听起来很美好对不对?你的时间被解放了。
但我那天晚上躺床上想这件事的时候,突然有一点点不寒而栗。
如果连声音都可以完美克隆,那你怎么证明「你」是「你」?
你接到的电话,你不知道对面是不是真的你朋友。你收到的语音消息,你不确定是不是真的本人说的。甚至——你自己跟自己对话的时候,你都不知道这是不是你的「分身」在跟你聊天。
这种「真实」的边界,正在被技术一点点模糊掉。
我不知道这是好事还是坏事。我只是觉得,在享受这些便利的同时,我们可能也需要开始思考——当「真实」变得不再可靠的时候,我们靠什么来建立信任?
这个问题我没有答案。但我觉得,它值得我们每一个人去想。
写到最后
回到开头。
那天晚上我看到这个视频愣住的时候,我只是想知道「这东西怎么弄的、效果怎么样」。结果一路写下来,发现自己想多了——技术原理其实不复杂,效果也比我预期的要好。
但真正让我「愣」住的,不是技术本身。
是那个问题——当你的声音可以被完美复制的时候,「你」还是「你」吗?
我不知道。
但我知道的是,不管技术怎么变,我的声音可以被复制,但我说话时脑子里想的那些东西——那些只有「当下的我」会想的东西——暂时还复制不了。
可能这也是我们最后的那点「不可替代」吧。
你有没有遇到过「声音被AI克隆」的事情?或者你有没有想过,如果有一天你的声音被克隆了,你会有什么感觉?评论区聊聊。
夜雨聆风