我和大家说。
今天早上煎鸡蛋,我对着某AI语音助手喊,帮我报一下番茄肥牛面的做法。
刚听了两句,我翻鸡蛋的功夫停顿了两秒,跟身边的人说了句帮我拿瓶生抽。
它直接断了播报,开始对着生抽两个字乱回复。
反复搞了几次。
我直接把火关了,火大的比锅里的油还旺。
懂的都懂,现在的AI语音助手,十个里有九个都是对讲机逻辑。
你必须一口气把话说完,不能停顿,不能卡壳,不能跟身边人说半句话,背景不能有噪音。
但凡你喘口气,它立马抢话。
但凡有点杂音,它直接乱套。
跟真人聊天的自然感,一点都沾不上。
结果我就赶巧刷到,豆包的实时语音通话功能,直接升级了全双工语音模型Seeduplex。

说能做到边听边讲,该倾听就倾听,该说话就说话,还能抗人声环境干扰,跟真人面对面聊天几乎没差。
这模型能有那么好用吗?
抱着挑刺的心态,我对它进行了极端严格的测试。
最先测的,就是我最痛的点。
我拿着手机,对着豆包的打电话功能故意卡壳,忘词,重复,改口,模拟真人日常说话最自然的状态,看它到底会不会抢话。
我和豆包说:我想做一个,嗯…那个…就是…生日蛋糕,不对,是纸杯蛋糕,需要准备什么基础材料。
全程我卡了四次,改口两次,最长的停顿有三秒。
它全程没插一句话,安安静静的等我把整句话说完,才给我报了完整的材料清单。
说真的,就这一下,我早上憋的火,直接消了一半。
我们跟人聊天的时候,本来就会停顿,会卡壳,会想半天词。
不是写演讲稿,必须一字不差一口气念完。
能安安静静等你把话说完,不抢话,不插话,这是属于AI的礼貌。
说到这个,我直接上了难度。
日常用语音助手,最容易翻车的,就是有背景噪音的场景。
办公室里同事聊天,咖啡厅里人声嘈杂,家里开着电视。
之前的AI,但凡背景里有第二个人说话,直接就废了。
我直接做了个噪音测试,我把噪音分了五级,一级一级往上加。
先从一级噪音开始,背景只有一些歌曲的声音。
我跟它说,帮我做一个青岛周末出游攻略。
它顺顺利利的播报完,全程没出任何问题。
二级噪音,我把音乐声音继续开大,大到有点刺耳的程度。
我让它播报青岛饭店攻略,中途我故意跟身边的人说了句,帮我递杯水。
它连一点停顿都没有,安安稳稳的把整段攻略播报完,完全没被我跟别人说的话干扰。
三级噪音,我特意赶到菜市场,对豆包进行测试。
我对着手机问,三个人周末去青岛玩两天,人均预算大概多少。
完全没有被菜市场的嘈杂干扰到。
四级噪音,我直接大声播放人声说话视频,这个难度就大了,就看它能不能识别出,哪句话是真正我说的了。
我问它深圳必吃的本地小吃,不要网红店,它全程没被误打断,也没乱回复,我说的话,它全接住了。
五级噪音,我直接把音量开大,大到比我的音量还要大很多。
结果我对着手机说,给我推荐三个好看的喜剧电影,还是一如既往的稳定输出。
它最牛的地方不是能在噪音里听见你说话。
是它能分清,什么话是对它说的,什么话是跟别人说的,什么话不是对它说的。
哪怕周围再吵,它也能精准的抓住你的声音,只听你说的话,只回应你的需求。
顺着上面的再聊聊,测完抗干扰,我就想试试它的反应速度。
毕竟很多时候,我们用语音助手,就是要个快字。
玩个词语接龙,快问快答,慢半拍都没意思。
我直接开了词语接龙,跟它说,我们玩词语接龙,我先说,线段。
我段字的音刚落,它立刻就接,段落。
一点延迟都没有,跟真人面对面玩接龙的节奏一模一样。
连续玩了几轮,每一轮都是我话音刚落,它立刻就接上,没有一次慢半拍,没有一次接错。
我又试了快问快答,连续几个常识问题,几乎没有间隔,一句接一句的往外蹦。
它每个问题都能快速给出准确的答案,没有因为我问的快就漏题,也没有出现延迟堆积,节奏非常稳。
测到这里,我已经很服气了。
之前的AI,都把精力放在了怎么说的更好,却忘了先学会怎么好好听。
而豆包这次的全双工模型,最打动人的地方,是它终于把AI语音对话,从对讲机式的一问一答,变成了真人式的面对面聊天。
它终于学会了,先好好听人说话,再好好回应。
它终于有了,跟人聊天的那种分寸感。
AI时代最稀缺的,从来都不是滴水不漏的完美回答。
是活人感。
是那种,跟你聊天的,不是一个设定好程序的机器人,而是一个有分寸,懂礼貌,能接住你所有话的,活生生的人。
不用围着AI的规则转,不用特意迁就它,不用憋着一口气说话,不用找安静的角落,不用怕被打断。
你就按照你平时说话的方式,跟它聊天就行。
它会等你,会听你,会懂你。
夜雨聆风