你有没有过这种经历——跟智能音箱说话,刚说到一半突然想起来忘了关空调,插了一句"帮我关空调",结果音箱愣了两秒,回你一句"抱歉,我没听懂"? 😅
或者更离谱的,你让Siri从1数到10,数到7的时候你突然喊停,它要么装听不见继续数,要么干脆从头再来。这种"你说你的,我说我的"的单向对话体验,人类忍了快十年。
但今天,情况可能要变了。
6月23日,部分眼尖的ChatGPT用户发现,网页版和App版的模型选择器里突然多了一个新面孔——Bidi 1。这玩意儿跟标准语音、高级语音并列出现,看起来是OpenAI憋的大招。虽然官方还没发新闻稿,但已经有用户实测:你可以边说话边监听,随时打断,AI不会生气,也不会掉线。更夸张的是,你让它从1数到10,数到一半喊"倒数",它能立刻反应过来,从10开始往回数。中间没有延迟,没有"请再说一遍",没有那种让人抓狂的"我在听"提示音。
一、导语:今天AI圈发生了什么
今天的AI圈,表面上风平浪静,实际上暗流涌动。OpenAI悄悄把一个叫"Bidi 1"的语音模型塞进了ChatGPT的模型选择器里。没开发布会,没发推特,没让Altman出来吹一波,就这么低调上线——这很不OpenAI。
要知道,这家公司上次发布GPT 模型的时候,可是搞了一场堪比苹果发布会的直播,Sam Altman亲自站台,实时演示语音对话,现场让模型唱歌、讲睡前故事、做数学题,恨不得把"我们牛逼"四个字刻在每个观众的脑门上。
这次却悄无声息。为什么?有两种可能:一是这个模型还没完全准备好,先放出来小范围测测;二是OpenAI学聪明了,知道现在市场对"发布会疲劳"很严重,不如让产品自己说话。
不管哪种,Bidi 1的出现都标志着一个关键转折点:AI语音交互,终于要从"对讲机模式"进化到"电话模式"了。
二、事件回顾
2.1 Bidi 1是什么来头
先从名字说起。"Bidi"这个词,懂点通信协议的应该眼熟——它是"Bidirectional"(双向)的缩写。在通信领域,bidi通常指的是双向传输,也就是数据可以同时在两个方向流动。
把这个概念搬到语音AI上,意思就很明确了:以前你跟AI说话,是半双工的——你说的时候AI听着,AI说的时候你听着,两边不能同时开口。Bidi 1要实现的,是全双工的实时双向语音交互。
有用户已经做了实测:让Bidi 1从1数到10,数到5的时候突然喊"倒数!",模型立刻切换,开始10、9、8、7倒数。没有延迟,没有"请再说一遍",没有那种让人抓狂的"我在听"提示音。
这种体验,说人话就是:终于像跟真人聊天了。
另一个更实用的场景是:你让AI写一封邮件,写到一半你插嘴"等等,先帮我查一下那个客户的资料",它能立刻停下来去查,而不是傻乎乎继续写邮件或者重新问你"您刚才说什么"。
2.2 上线时间和范围
根据IT之家的报道,Bidi 1最早在6月23日出现在部分用户的ChatGPT界面中。注意,是"部分用户",不是所有。这意味着OpenAI正在做灰度测试(Canary Release),先让一小撮人试试水,看看有没有bug,再决定是否扩大范围。
这种策略在硅谷很标准。Google推新功能、Apple放iOS beta版,都是这个套路。OpenAI过去几个月因为产品节奏太激进,没少被骂——Sora跳票、SearchGPT翻车、GPT-4o的"Her"语音功能延期,每一次都让社区失望。
所以这次他们学乖了:低调测试,没问题再官宣。
2.3 和现有语音功能的区别
目前ChatGPT的语音功能分三档:
- 标准语音:基于传统TTS(文本转语音),延迟高,语气生硬,像导航语音。
- 高级语音(Advanced Voice):GPT-4o原生音频能力,能捕捉情绪、语调、非语言声音(比如叹息、笑声),体验已经很不错。
- Bidi 1:在高级语音的基础上,加入了实时双向流式处理和打断能力。
打个比方:标准语音是发微信语音,你说完我再回;高级语音是打微信电话,能听出对方情绪;Bidi 1则是面对面聊天,可以随时插嘴、抢话、改主意。
三、深度分析:为什么重要
3.1 技术层面的突破
咱聊点干的。双向语音交互在技术上到底难在哪?
首先,回声消除(AEC)是个硬骨头。如果AI一边说话一边听你说话,它自己的声音会通过麦克风回传给自己,形成循环。人类大脑能自动过滤这种干扰,但机器不行。没有好的回声消除,AI会听到自己的声音,误以为是用户在说话,直接乱套。
其次,语音活动检测(VAD)要极其灵敏。传统VAD只需要判断"用户在说话还是没说话",但双向模式下,系统要同时判断"用户在说话"、"AI在说话"、"用户在打断AI"、"用户在自言自语"——这复杂度直接指数级上升。
再次,低延迟的流式处理。GPT-4o高级语音的延迟已经控制在几百毫秒,但那是单通道的。双向意味着要同时处理输入和输出两个音频流,对算力和网络的要求翻倍。OpenAI能把这做到让用户感知不到卡顿,说明底层基础设施已经做了大量优化。
还有一个隐藏难点:语义打断的理解。用户打断的时候,说的可能不是完整句子,而是一个词、一个语气词、甚至一声"欸"。AI要瞬间理解这是"停止"、"换个话题"、还是"我有问题",这需要极强的上下文理解能力。这恰恰是GPT-4o级别的模型才能做到的。
3.2 用户体验的革命
技术上再牛,体验不行也是白搭。Bidi 1真正值得期待的地方,是它改变了人机交互的"社交契约"。
以前你跟AI对话,本质上是在执行一个命令-响应的循环。你说清楚需求,AI给答案,然后下一个。这种模式效率不低,但不自然。人类的对话是混乱的——我们会插嘴、会跑题、会突然想起别的事、会同时说好几件事。
Bidi 1让AI能够适应这种混乱。你让它写邮件,写到一半你说"等等,先帮我查一下那个客户的资料",它不会傻乎乎继续写邮件,而是立刻切换。你跟它讨论周末计划,突然想起来忘回老板消息,插一句"先帮我草拟个请假申请",它也能接住。
这种无缝上下文切换的能力,是迈向真正"AI助手"的关键一步。不是你在适应AI的节奏,而是AI在适应你的节奏。
3.3 竞争格局的变化
OpenAI不是唯一一家做这件事的。
Google在I/O 2024上展示了Gemini的实时语音交互,Demo很惊艳,但实际产品还没大规模铺开。Meta的AI Studio也有语音功能,但主要面向创作者,不是通用助手。国内的豆包、文心一言、通义千问也在推语音交互,但大多数还停留在"语音输入+语音输出"的阶段,离真正的双向对话还有距离。
OpenAI这次如果能率先把Bidi 1做稳、做好、做大规模,就等于在语音交互这个赛道上又抢了一个身位。要知道,语音是AI普及的终极入口——手机可以不看,键盘可以不用,但说话是人的本能。谁搞定了语音,谁就搞定了下一个十亿用户。
四、影响评估:谁会受影响
4.1 对普通用户
最直接的影响:你的ChatGPT App会变得更像电影《Her》里的Samantha。
开车的时候不用再等AI说完才能发新指令;做饭的时候手上沾着面粉也能随时插嘴改菜谱;半夜失眠跟AI聊天,不用担心说话被打断的机械感让你更烦躁。你甚至可以让AI帮你边改简历边提建议,不用等它念完一段再插话。
简单说,就是更自然、更爽、更像个人。
4.2 对开发者和创业者
Bidi 1如果真的开放API,那语音交互类应用的开发门槛会大幅降低。以前你要做一个能打断、能双向对话的语音助手,需要自研AEC、VAD、ASR、TTS、LLM,技术栈长得让人绝望。现在可能只需要调OpenAI的一个API。
这对客服机器人、教育辅导、老年陪伴、语言学习这些场景是巨大利好。但也意味着,OpenAI可能会像吃掉文字类应用一样,吃掉大量语音类应用的市场空间。创业者得想想清楚:自己的护城河在哪?是场景深度、数据积累、还是客户关系?
4.3 对竞争对手
压力最大的当然是Google。Gemini的实时语音功能如果还不能大规模上线,就会在用户体验上被拉开差距。Apple的Siri更是要捏把汗——WWDC 2024上Apple Intelligence的语音能力,说实话,还没看到让人惊艳的实机演示。Siri已经被嘲笑了快十年,如果Apple再不拿出点真东西,用户耐心真的要耗尽了。
国内厂商也不能看热闹。OpenAI一旦验证了双向语音的市场价值,用户预期会被瞬间拉高。到时候再追赶,就又是"人有我无"的尴尬局面。
五、我的观点
说实话,我对Bidi 1的期待大于担忧,但也不是无脑吹。
先泼点冷水。
双向语音交互最大的风险不是技术,而是用户预期管理。现在Demo看起来很美,但大规模上线后,网络波动、口音差异、环境噪音、多轮打断的上下文丢失,都会让体验打折扣。OpenAI之前GPT-4o的"Her"语音功能延期,据说就是因为在真实场景中稳定性不够。
另外,打断能力如果做得太激进,也可能适得其反。想象一下你跟AI聊天,它随时可能因为你咳嗽一声就停下来——这也很烦。怎么在"灵敏"和"稳定"之间找到平衡,是Bidi 1要过的第一关。
但长期来看,我倾向于乐观。
因为双向语音不只是个功能升级,它是AI从"工具"变成"伙伴"的关键一跃。工具是你去适应它,伙伴是它来适应你。Bidi 1的方向是对的——让AI更像人,而不是让人更像机器。
还有一个有趣的观察:OpenAI这次选择低调测试,说明他们的产品策略在成熟。以前是靠发布会驱动预期,现在是靠产品本身驱动口碑。这种转变对一个处于风暴中心的公司来说,是健康的。
最后想说一句:技术再酷,也要回归人本身。我们要的不是更会说话的机器,而是更能理解我们的伙伴。Bidi 1能不能做到后者,比它能不能实时打断重要一百倍。
六、结语
Bidi 1的悄悄上线,像极了OpenAI的风格——要么轰轰烈烈搞个大新闻,要么一声不吭放个大招。
这次属于后者。
双向语音交互这个赛道,2024年下半年一定会热闹起来。Google会跟,Apple会跟,国内大厂也会跟。但最终谁能赢,不只看谁先发布,更看谁能让用户每天愿意多聊十分钟。
AI语音的竞争,本质上不是技术竞争,而是信任竞争。你愿不愿意在开车时把导航交给它?在深夜把心事说给它听?在重要决策前问它的意见?
Bidi 1迈出了重要的一步。下一步,看它能走多远。
— 本文由 AI 科技观察员编写 —
如有问题欢迎留言交流
夜雨聆风