3000万人没听出是AI?TTS六大门派混战,我直接暴力测试
事情是这样的。
最近几个月,我但凡打开视频号或者抖音,总被一个侃侃而谈的“科技大佬”刷屏。
这哥们叫「硅基大司马」,专门讲中国硬核科技,从芯片到光刻机,从新能源到机器人,啥都懂,啥都聊。

最离谱的是他的更新频率和产量,高得不像人类,
整个矩阵,每天有20-30篇他的科技科普视频产出!我以为,又是哪个MCN机构捧出来的卷王。
结果有人告诉我,这背后压根不是「人」?
我当时就愣了。
那语气的抑扬顿挫、自然的气息律动,那种讲到中国科技时不自觉挺直腰杆的劲儿,太像一个真的科技大佬坐在你面前吹牛了。
我查了下,大司马在全网几十个矩阵账号,已经有3000 万粉丝,半年时间涨粉就2200 万,每月 2 亿观看量,企业家 IP 榜上排在他后面的是周鸿祎、余承东、俞敏洪一众大佬。
这就不是玩票了,这是一场社会实验级别的行为艺术。
我立刻来了兴趣。能撑起这种千万级粉丝盘、让人完全听不出看不出破绽的AI,是什么妖怪技术?
顺藤摸瓜,我挖到了硅基大司马背后的声音引擎——Smart Voice 1.0,号称“一次成型、无需返工”。口说无凭,既然要测,那就玩把大的!
然后,我拉上了目前市面上号称SOTA级别TTS,做了一场惨无人道的暴力横向测试。
TTS六大门派围攻光明顶,谁在裸泳?
我在网上找的司马华鹏的采访,这放出来你们好有个对照。
先从om**开始,这家的效果出来,好像一个没有感情的读稿机器,语调平直得像一根绷直的线,没有什么情绪的起伏。
接着是Min****,这家失真的有点离谱,机械感很重。喉咙里像卡着东西,声音像从一根生锈的钢管里传出来的。
然后是Qw**,对比前面几家,这家起码声音没失真,不过在断句节奏上有点不稳定,还是会有机械感。
再然后,火**,这一家,和原声偏差很大,完全不像本人。听起来就像10年前打10086客服,电话那头传来的语音。
好,重头戏来了。
Elev*****,你知道我最期待哪家吗?就是它。全球TTS市场份额第一,我满心以为它会给我一个惊喜,结果呢?
太心酸了。听起来像是一个外国人在讲中文,那种努力想模仿中国人讲话,但发音但每个音都不在点子上的外国人。
最后, Smart Voice 1.0
我去,这才是该有的样子。
和本人声线、音色的一致度,一字就是“像”。再有就是那种停顿时的呼吸感,全都在,甚至还有人讲话时候那种犹豫感!
一次成型,不需要返工,这才是关键。
说到这个「一次成型」,我必须多聊几句。
很多人可能不知道,传统流程做一分钟商业级音频,成本有多离谱。
我查了一下。
专业语音审核质检人员,日薪大概650到1100元。处理1小时音频需要4到8小时,也就是说一天只能处理约1到2小时音频。折算每分钟审核成本,约10到37元。
如果算配音费用那更贵了,日薪2000到5000元。
更重要的是时间。音频出来了要听,听完要改,改完要再审。调音、改稿、审核。如果再加上返工,传统流程做一分钟商业级音频,成本轻松过百。
Smart Voice 1.0呢?10元每分钟。一次生成,不需要听审,不用返工,直接上线。
「硅基大司马」几十个矩阵账号,半年涨粉2200万,累计粉丝3000万。每月2个亿流量,单条视频4000万播放。
榜单连续三个月TOP3,周鸿祎、余承东、何小鹏、俞敏洪、
魏建军一票大佬都在他后面。
这不是实验室demo,是真实战场上的真刀真枪。

说到这,大家盲听试试吧。
最后我也会在留言区公布揭晓。
Smart Voice 1.0 的出现,意味着AI语音赛道正在从“实验室的玩具”向“工业级的拳头产品”转变。那些只会“念字”的TTS产品,如果不赶紧跟上,眼看就要被甩出几条街。
最后,我知道很多做内容、搞IP、做企业品牌的朋友已经对这个技术饥渴难耐了。我帮你们要了个福利。
这是我从官方拿到的,Smart Voice 1.0内测通道。

最后,我想回到开头那个视频。
我现在知道了,它是AI合成的。
但讽刺的是,我知道这个事实之后,再去听他的视频,反而觉得更震撼了。
1880年代电力刚开始普及的时候,大部分人只是把电力当成一种更干净的蜡烛替代品,用来点灯。
但真正吃到电力红利的人,是最早想明白电力到底能干什么的人,工厂不用再围着蒸汽机布局了,流水线的形态整个被重塑了。
AI语音现在就像那个阶段。很多人还在拿它当「便宜的配音替代品」,但接下来几年,声音会变成无限供给的基础设施,所有依赖真人声音的商业模式都会被重构。
当声音可以无限供给的时候,内容和传媒产业才真正具备了规模化的条件。
这才是这次测试最让我震撼的地方。
夜雨聆风