豆包AI告别“机械感”
AI语音,终于学会了“察言观色”。
字节跳动发布原生全双工语音大模型Seeduplex,已在豆包App全量上线。该模型实现边听边说、理解思考停顿、精准抗干扰,让AI语音交互告别“机械感”,更像真人。
核心观点
●Seeduplex通过联合语音和语义特征,判断用户是“说完了”还是“在思考”
●Seeduplex能主动忽略背景噪音和无关对话,误回复率和误打断率降低一半
●Seeduplex在判停、打断、对话流畅度三项核心指标上均领先于行业主流App
字节SeeduplexAI告别机械音
字节跳动发布Seeduplex语音大模型
Seeduplex发布与上线情况
字节跳动Seed团队于4月9日正式发布原生全双工语音大模型Seeduplex,并已在豆包App全量上线。这意味着全双工语音技术首次走出实验室,实现了规模化落地。
Seeduplex模型具备持续倾听能力,能解析声学环境,主动忽略背景噪音和无关对话。在复杂场景下,其误回复率和误打断率比半双工模型减少一半。
Seeduplex模型联合语音和语义特征,综合判断用户是说完了还是在思考。它能耐心倾听用户思考犹豫,并在用户说完后快速响应,抢话比例相对下降40%。
Seeduplex的整体交互体验跨越式提升,判停MOS分提高了8%,对话流畅度MOS分更是大幅提升12%。用户反馈中“抢话”、“响应慢”、“误打断”等问题提及比例明显下降。
Seeduplex让AI语音交互更像真人,能够边听边说、等待用户思考、被用户打断,并听懂咖啡馆里的对话。这种体验让AI不再是机械的乖学生,而是更懂分寸的对话搭子。
大规模A/B实验数据显示,Seeduplex在用户通话时长、留存等核心指标上均实现正向提升,整体通话满意度绝对值提升了8.34%。
Seeduplex使用方式
用户需将豆包App更新至最新版本,进入App后点击右上角打电话图标,即可开启语音通话体验。在对话框内选择“打电话”也可进入语音通话界面。
Seeduplex技术原理与突破
传统半双工模式的局限
传统的半双工语音AI在复杂场景下力不从心,它在你停顿思考时抢话,或在嘈杂环境中胡言乱语。这种模式下,AI必须等你完全说完才能处理,且说话时听不见用户,无法感知背景。
全双工模式的优势
全双工模式下,用户和AI可以同时说、同时听,对话节奏自然流转。AI能同时听用户、思考自身、决定是否开口,解决了传统模式的硬伤。
Seeduplex不再是“语音转文字再理解”的流水线,而是直接对原始音频信号做特征提取,能在声学层面分辨出“哪句是冲我来的”。它将声学特征和语义状态一起纳入判断,不仅听用户有没有停,还判断用户为什么停。
Seeduplex抛弃了传统ASR→LLM→TTS的三段式拼接,构建了贴合语音实时对话原生特性的端到端架构。它通过海量语音数据预训练和多任务后训练,协同优化对话智能、超低延迟、节奏控制、抗干扰和指向性理解五项能力。
字节团队通过投机采样、量化等手段极致压榨推理性能,在成本和延迟之间找到平衡点,确保Seeduplex能全量上线。同时,他们解决了收音卡顿、播报卡顿等工程问题,确保大流量下系统稳定运行。
Seeduplex应用场景与行业意义
车载场景是最直接的应用,司机无需规矩说话,Seeduplex能在复杂声学环境里稳住主线,快速切换状态,精准交互。
教育场景如口语练习、面试模拟、陪练辅导和课堂互动,将从“语音播放器”升级为“互动对象”。模型能理解犹豫、等待思考、保持节奏,让陪练体验更沉浸。
客服与企业服务将受益于Seeduplex在多人、噪声、插话、情绪波动中稳住对话的能力,实现高价值语音系统。
Seeduplex的全量上线,可能就是语音交互领域的“GPT-3.5时刻”。它让普通人第一次感受到“和AI说话是自然的”,将语音交互从“回合制问答”推进到“实时自然交流”。
全双工的本质是AI第一次有了“对话流控制能力”,它知道何时该听、何时该说、何时该停、何时该等。这种能力是AI从“工具”走向“伙伴”的必经之路。
未来展望
持续提升模型能力
字节跳动Seed团队将继续提升模型的音频理解能力,深度优化在多人对话、智能硬件等复杂交互场景中的表现。同时,通过数据Scaling和算法优化,持续提升模型的对话节奏多样性和控制能力。
引入主动能力与多模态融合
未来,Seeduplex将在“边听边说”基础上引入模型主动能力,如在倾听中附和用户、结合声学环境和对话语境主动交互。还将实现更深度的多模态融合,引入视觉模态,实现“边听、边看、边说”的多维协同。
感知、思考、执行一体化
团队将进一步探索“边听边想”、“边听边搜”等方案,让模型具备更深度的思考和执行能力,继续提升语音交互的流畅度。以全双工为起点,期望AI能不断进化,在感知、交互与行动的闭环中,真正实现听、看、想、说、做的协同。
参考链接
字节跳动发布全双工语音大模型Seeduplex!豆包率先接入
http://www.techweb.com.cn/it/2026-04-09/2974067.shtml
字节跳动发布全双工语音大模型Seeduplex!豆包率先接入
http://www.techweb.com.cn/it/2026-04-09/2974067.shtml
https://m.cnbeta.com.tw/view/1557188.htm
字节发布全双工语音大模型 Seeduplex,豆包打电话能边听边讲、交流更自然
https://www.ithome.com/0/937/362.htm
字节跳动Seed团队发布全双工语音大模型Seeduplex
https://www.pingwest.com/w/312792
字节发布全双工语音大模型 Seeduplex,豆包打电话能边听边讲、交流更自然
https://www.ithome.com/0/937/362.htm
字节跳动推出全双工语音大模型Seeduplex 字节跳动 ByteDance
https://www.cnbeta.com.tw/articles/tech/1557188.htm
字节跳动Seed团队发布全双工语音大模型Seeduplex
https://www.pingwest.com/w/312792
字节跳动Seed团队发布全双工语音大模型Seeduplex
https://www.pingwest.com/w/312792
字节跳动发布原生全双工语音大模型 Seeduplex:懂倾听、抗干扰
https://www.aibase.com/zh/news/26973
http://mp.weixin.qq.com/s?__biz=MzIyMTk2MTc2Nw==&mid=2247485882&idx=1&sn=0cb39a554dc7fa69a266095e8e79d5cd&scene=4#wechat_redirect
字节发布全双工语音大模型Seeduplex,已在豆包全量上线
https://view.inews.qq.com/a/20260409A04JWN00
字节发布全双工语音大模型 Seeduplex,豆包打电话能边听边讲
https://www.donews.com/news/detail/1/6504435.html
https://m.cnbeta.com.tw/view/1557188.htm
http://mp.weixin.qq.com/s?__biz=MzYyMTY1NDA0Nw==&mid=2247516959&idx=1&sn=09e54dc2ccfae6d1308f7dbb72cb9e27&scene=4#wechat_redirect
http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652690715&idx=1&sn=4145b4f80a7a7f55ad04ccf26975ff31&scene=4#wechat_redirect
http://mp.weixin.qq.com/s?__biz=MzkzMDY5MzYxNg==&mid=2247493425&idx=1&sn=17f358623af26cbdf1de4117eb4688eb&scene=4#wechat_redirect
http://mp.weixin.qq.com/s?__biz=Mzg3Nzc3MzI4NQ==&mid=2247509910&idx=3&sn=e04fbf3edfbf539247284a3f6db396a9&scene=4#wechat_redirect
http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247544943&idx=1&sn=65aeb4047a7cbe92b3c45310547fbf89&scene=4#wechat_redirect
http://mp.weixin.qq.com/s?__biz=MjM5MzgzNjkxNA==&mid=2651815882&idx=3&sn=add597633caa8addd25fe3db2c08d46e&scene=4#wechat_redirect
字节跳动Seed团队发布全双工语音大模型Seeduplex
https://www.pingwest.com/w/312792
字节跳动发布全双工语音大模型Seeduplex!豆包率先接入:打电话可边听边讲快科技
https://news.mydrivers.com/1/1114/1114623.htm