跟AI说话要憋死!不能停顿、不能有噪音,全双工才是人用的

我和大家说。

今天早上煎鸡蛋，我对着某AI语音助手喊，帮我报一下番茄肥牛面的做法。

刚听了两句，我翻鸡蛋的功夫停顿了两秒，跟身边的人说了句帮我拿瓶生抽。

它直接断了播报，开始对着生抽两个字乱回复。

反复搞了几次。

我直接把火关了，火大的比锅里的油还旺。

懂的都懂，现在的AI语音助手，十个里有九个都是对讲机逻辑。

你必须一口气把话说完，不能停顿，不能卡壳，不能跟身边人说半句话，背景不能有噪音。

但凡你喘口气，它立马抢话。

但凡有点杂音，它直接乱套。

跟真人聊天的自然感，一点都沾不上。

结果我就赶巧刷到，豆包的实时语音通话功能，直接升级了全双工语音模型Seeduplex。

说能做到边听边讲，该倾听就倾听，该说话就说话，还能抗人声环境干扰，跟真人面对面聊天几乎没差。

这模型能有那么好用吗？

抱着挑刺的心态，我对它进行了极端严格的测试。

最先测的，就是我最痛的点。

我拿着手机，对着豆包的打电话功能故意卡壳，忘词，重复，改口，模拟真人日常说话最自然的状态，看它到底会不会抢话。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

我和豆包说：我想做一个，嗯…那个…就是…生日蛋糕，不对，是纸杯蛋糕，需要准备什么基础材料。

全程我卡了四次，改口两次，最长的停顿有三秒。

它全程没插一句话，安安静静的等我把整句话说完，才给我报了完整的材料清单。

说真的，就这一下，我早上憋的火，直接消了一半。

我们跟人聊天的时候，本来就会停顿，会卡壳，会想半天词。

不是写演讲稿，必须一字不差一口气念完。

能安安静静等你把话说完，不抢话，不插话，这是属于AI的礼貌。

说到这个，我直接上了难度。

日常用语音助手，最容易翻车的，就是有背景噪音的场景。

办公室里同事聊天，咖啡厅里人声嘈杂，家里开着电视。

之前的AI，但凡背景里有第二个人说话，直接就废了。

我直接做了个噪音测试，我把噪音分了五级，一级一级往上加。

先从一级噪音开始，背景只有一些歌曲的声音。

我跟它说，帮我做一个青岛周末出游攻略。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

它顺顺利利的播报完，全程没出任何问题。

二级噪音，我把音乐声音继续开大，大到有点刺耳的程度。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

我让它播报青岛饭店攻略，中途我故意跟身边的人说了句，帮我递杯水。

它连一点停顿都没有，安安稳稳的把整段攻略播报完，完全没被我跟别人说的话干扰。

三级噪音，我特意赶到菜市场，对豆包进行测试。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

我对着手机问，三个人周末去青岛玩两天，人均预算大概多少。

完全没有被菜市场的嘈杂干扰到。

四级噪音，我直接大声播放人声说话视频，这个难度就大了，就看它能不能识别出，哪句话是真正我说的了。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

我问它深圳必吃的本地小吃，不要网红店，它全程没被误打断，也没乱回复，我说的话，它全接住了。

五级噪音，我直接把音量开大，大到比我的音量还要大很多。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

结果我对着手机说，给我推荐三个好看的喜剧电影，还是一如既往的稳定输出。

它最牛的地方不是能在噪音里听见你说话。

是它能分清，什么话是对它说的，什么话是跟别人说的，什么话不是对它说的。

哪怕周围再吵，它也能精准的抓住你的声音，只听你说的话，只回应你的需求。

顺着上面的再聊聊，测完抗干扰，我就想试试它的反应速度。

毕竟很多时候，我们用语音助手，就是要个快字。

玩个词语接龙，快问快答，慢半拍都没意思。

我直接开了词语接龙，跟它说，我们玩词语接龙，我先说，线段。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

我段字的音刚落，它立刻就接，段落。

一点延迟都没有，跟真人面对面玩接龙的节奏一模一样。

连续玩了几轮，每一轮都是我话音刚落，它立刻就接上，没有一次慢半拍，没有一次接错。

我又试了快问快答，连续几个常识问题，几乎没有间隔，一句接一句的往外蹦。

以下视频来源于

AI变革

已关注

关注

重播分享赞

视频详情

它每个问题都能快速给出准确的答案，没有因为我问的快就漏题，也没有出现延迟堆积，节奏非常稳。

测到这里，我已经很服气了。

之前的AI，都把精力放在了怎么说的更好，却忘了先学会怎么好好听。

而豆包这次的全双工模型，最打动人的地方，是它终于把AI语音对话，从对讲机式的一问一答，变成了真人式的面对面聊天。

它终于学会了，先好好听人说话，再好好回应。

它终于有了，跟人聊天的那种分寸感。

AI时代最稀缺的，从来都不是滴水不漏的完美回答。

是活人感。

是那种，跟你聊天的，不是一个设定好程序的机器人，而是一个有分寸，懂礼貌，能接住你所有话的，活生生的人。

不用围着AI的规则转，不用特意迁就它，不用憋着一口气说话，不用找安静的角落，不用怕被打断。

你就按照你平时说话的方式，跟它聊天就行。

它会等你，会听你，会懂你。