AI换脸换声,自媒体创作的新门槛
上个月有个做科普视频的朋友跟我说,他花了三天时间录了一段解说,结果发现自己普通话口音太重,剪辑完感觉很出戏。
上个月有个做科普视频的朋友跟我说,他花了三天时间录了一段解说,结果发现自己普通话口音太重,剪辑完感觉很出戏。他试着用ElevenLabs克隆了自己的声音,再稍微调了一下发音,最后那条视频播放量是他以前的三倍。他说,「我以前觉得这是作弊,现在觉得这是工具。」
这句话我反复想了很久。
AI换脸换声这件事,在自媒体圈子里已经不是新鲜话题了,但大多数人还停留在「哇好厉害」或者「这不是造假吗」两种反应里。真正值得聊的,是它正在重新定义一件事,那就是内容创作的门槛到底在哪里。
说到底,自媒体这条赛道从来都不是公平竞争。早期是设备门槛,有没有好摄像机;后来是剪辑门槛,会不会用PR和AE;再后来是运营门槛,懂不懂算法和选题。每一次技术迭代,都会把一批人挡在门外,同时让另一批人冲进来。AI换脸换声不过是这个逻辑的最新一轮演绎,只不过这次动的是「人」本身,所以争议更大。
HeyGen、Synthesia、CapCut的AI配音这些工具你可能都听说过。它们做的事情,粗暴来讲就是把「人的形象」和「人的声音」从内容里剥离出来,变成可以独立调配的参数。一个不上镜的人可以用数字人出镜,一个普通话不好的人可以换一个标准发音,一个没有时间录制的博主可以用克隆声音批量生产内容。这听起来很颠覆,但你想想看,这和请配音演员、请模特拍广告,逻辑上有多大区别?区别在于成本,以前这些是大公司才玩得起的东西,现在一个人在宿舍里就能搞定。技术民主化的本质,就是把专业工具的使用权往下移。
但这里有个很真实的矛盾摆在那,观众的信任感是建立在「真实感」上的。你关注一个博主,很大程度上是因为喜欢他这个人,他的语气、他的表情、他讲错话时的那种小尴尬。如果有一天你发现这个「人」是一个数字合成体,那你的关注还有没有意义?这不是哲学问题,是非常现实的用户心理问题。B站上有过几个案例,博主用AI生成内容被发现之后,评论区翻车得非常难看,掉粉速度比任何一次塌房都快。观众不是不接受AI工具,他们不接受的是被欺骗。
这里就出现了一个微妙的分水岭。透明使用AI和偷偷使用AI,结果完全不同。那些明确标注「本视频使用AI配音/数字人」的创作者,反而收获了很多好感,因为观众觉得这个人诚实,也觉得这个内容有技术含量。相反,把AI生成的内容包装成「真人出镜」的,一旦被识破,信任崩塌得毫无余地。坦率的讲,这个行业正在形成一套新的潜规则,用AI不丢人,藏着掖着才丢人。平台侧也在跟进,抖音、YouTube都陆续出台了AI内容标注的相关要求,虽然执行力度还参差不齐,但方向已经定了。
顺着这个再聊聊创作能力本身的问题。有人担心AI换脸换声会让劣质内容大量涌现,因为「人设」的成本降低了。这个担心有道理,但只说对了一半。工具降低的是呈现门槛,不是内容门槛。一个没有观点、没有信息量、没有选题能力的人,给他再好的数字人和克隆声音,做出来的东西还是一盘散沙。真正被AI工具放大的,是那些本来就有内容能力但受限于形象或声音的人。我认识几个做财经解读的作者,文字功底极强,但就是不适合出镜,以前只能做图文,现在用数字人做视频,内容密度和质量反而比很多颜值博主高出一截。工具不制造创作者,只筛选创作者。
说实话,我也不确定这个赛道最后会走向哪里。可能会出现一批完全由AI生成、但内容极度精准的垂直账号,靠算法分发活得很好;也可能会出现反弹,观众越来越渴望「真实感」,真人出镜反而成为稀缺溢价。这两种趋势现在都有苗头,而且可能同时存在于不同的内容品类里。娱乐向的内容,观众可能不在乎真假,只要好看好玩;知识向和情感向的内容,观众对「真实的人」的需求会更强。
•回到那个做科普的朋友,他后来跟我说了一句话让我觉得挺准的,他说,「AI帮我解决了我最弱的那一块,但没法帮我想选题、查资料、搞清楚那个知识点到底对不对。那些东西还是我自己的事。」
这话听着有点朴素,但其实把问题说得很清楚了。AI换脸换声,说到底是在帮创作者做「最后一公里」的呈现,而不是替代整个创作过程。那些觉得有了这些工具就能「躺赢」的人,大概率还是会在内容层面被淘汰。那些把它当成放大器而不是替代品的人,才是真正抓住了这波红利。
门槛变了,但值得跨过门槛的理由,一直都没变。
门槛变了,但值得跨过门槛的理由,一直都没变。
夜雨聆风