AI 前沿
10亿用户,可以"开口说话"了OpenAI Realtime Audio正式上线
语音AI迎来iPhone时刻
10亿月活用户,从今天起可以直接对ChatGPT开口说话。
延迟<320毫秒,比你和真人打电话还快。
6月5日,OpenAI把Realtime Audio正式塞进ChatGPT主入口,同步把Codex代码模型也合并进来。Sam Altman发推一句话定调:"AI从软件向硬件全栈延伸。"
业内人士一夜没睡——这不是一次产品迭代,是人机交互方式的换轨。
● ● ●
01 Realtime Audio:AI第一次跟人聊天,像聊天
先说技术层面最关键的一个数字:延迟<320毫秒。
这是什么概念?人类正常对话的反应时间在200-400毫秒之间。也就是说,ChatGPT开口回应你的速度,已经追平了真人。
之前的语音AI是什么体验?你说一句,等3秒,它"嗯——"一下,再开始回答。中间那段尴尬的空白,让所有人都知道:"哦,我在跟机器说话。"
现在不一样了。Realtime Audio打开后,整套能力是这样的:
🎙️ Realtime Audio 五大核心能力
•实时双向语音:你说一半它能接,它说一半你能打断
•24种语言无缝切换:中英混杂、粤语夹普通话,全部HOLD得住
•情感识别:你语气低沉,它会放缓节奏;你兴奋,它会陪着燃
•打断恢复:被打断后能记住断点,智能接续
•背景音处理:地铁里、餐厅里、开车时,照样听得清
最炸的是Voice Engine:50+种声音可选,从温柔知性到东北大哥,语气语速情绪曲线全部可调。
一位硅谷产品经理在内测后给了一句到位的评价:"之前的语音AI是'语音控制',现在是'真聊天'。"
这不是参数升级,是体验级别的换代。
02 Codex×ChatGPT合体:写代码的和写文章的,都要重新学习
Realtime Audio抢了大部分头条,但Codex回归ChatGPT这件事,影响一点不小。
简单说:以后你在ChatGPT对话框里,可以直接写代码、运行代码、debug代码——不用切到Cursor,不用打开VSCode。
支持的语言列表也够诚意:Python、JavaScript、TypeScript、Go、Rust、Java……主流的全覆盖。
这意味着什么?
• 对普通用户:让ChatGPT做个数据分析图表,它能边对话边写脚本边出结果
• 对开发者:从需求讨论到原型实现,一个窗口搞定
• 对Cursor、Copilot这些工具:原来的差异化优势被显著压缩
细节值得玩味——Codex两年前就有,中间被剥离做了独立产品,现在又塞回ChatGPT主入口。逻辑很清楚:
OpenAI不想再做"工具组合",要做"超级入口"。
10亿用户、统一对话界面、文字+语音+视频+代码全打通——这才是Sam Altman想要的"全栈智能体平台"。一个ChatGPT,把多个赛道的需求都吃掉。
03 硬件全栈:Sam Altman卖的不是软件,是新的人机交互方式
Sam Altman这次说得很直白:"AI从软件向硬件全栈延伸"。
翻译一下:ChatGPT不会只是一个app,它会长在一切设备里。
OpenAI已经布好的局,你可以掰着手指数:
Jony Ive,前苹果首席设计官,iPhone、Mac、AirPods的灵魂人物。他和Sam Altman合作做硬件,已经融了60多亿美元,估值站到500亿美元——还没有任何产品发售。
光凭"OpenAI+Jony Ive"这个组合,市场就给了500亿估值。资本市场已经认定:下一代消费电子的核心,是AI原生设备。
而Realtime Audio,是这一切的软件基座。iPhone之于触屏,AI耳机/眼镜之于语音,是同一个逻辑。
"打字提问"这个习惯,可能就是这一代用户最后一次大规模使用了。
04 传统语音助手赛道:从功能型走向对话型的拐点
把视角拉到整个语音助手赛道。
过去7年,智能音箱在全球累计出货量超过几亿台,成为家庭场景的重要入口。功能型、场景型,定位很清晰。
但从这周开始,赛道的逻辑正在改变。
之前传统语音助手的核心卖点是什么?听歌、查天气、控制家电、给孩子讲故事。指令式、单轮交互,体验上限很明显。
但Realtime Audio的能力一上来,对比就出来了:
国内大厂的语音AI产品线也在快速跟进,豆包、通义等都已上线类似的对话式语音能力,但实时延迟、上下文连贯性、多轮对话表现仍有提升空间。
更现实的变化是:用户的体验预期,已经被Realtime Audio重新定义了。一旦尝过"和AI聊天像聊天"的体验,再回头用指令式语音助手,落差感会非常明显。
有产品经理朋友直言:"智能音箱火了7年,正在被新形态产品重新定义需求。"
当然,传统语音助手厂商也有机会。本地化、家庭场景、方言适配、低成本硬件——这些都是护城河。但护城河需要更高的墙了。
05 苹果Siri的对照组:单一公司路线面临挑战
聊完国内,再看一个更有戏剧性的对比——苹果Siri。
库克最近承认了一件事:Siri的智能化升级,已经离不开外部模型。
公开信息显示,苹果Apple Intelligence后端,部分能力依赖Gemini和ChatGPT。Siri团队据报道经历了人员调整。
据LinkedIn公开评论,有从业者感叹:"我们花了13年想做好一个语音助手,OpenAI用了2年。"
这话有点扎心,但也反映出一个行业现实:
单一公司路线面临挑战,生态协作成为新常态。
哪怕是苹果这种万亿美元市值、几乎无限资源的公司,也选择了合作而非硬刚。这也说明AI赛道的协作生态正在形成,单点突破之外,开放合作成为另一种可能。
这给所有玩家一个信号:
• 要么你是平台型公司(OpenAI、Google),自己做大模型
• 要么你是应用型公司,接好API、做透垂直场景
中间地带(自己做模型但又做不大)的厂商,会更需要找准生态位。
06 语音AI的iPhone时刻:从工具到伙伴的临界点
Realtime Audio不是一个"功能更新",是一个用户习惯的换轨。
类比一下:
📱iPhone之前:手机是用来打电话的
📱iPhone之后:手机是用来上网、看视频、玩游戏的,顺便打电话
🎙️Realtime Audio之前:AI是用来打字提问的工具
🎙️ Realtime Audio之后:AI是用来聊天、陪伴、协作的伙伴
这个定位转换,是最关键的变化。具体场景已经有人在跑:同声传译、电话客服替代、驾驶全语音操作、儿童教育陪聊、老人陪伴+健康监护。
定价上,OpenAI也没藏着掖着:
免费用户每天60分钟——这个量已经足够让大部分人养成新习惯。
养成新习惯,才是OpenAI最在乎的事。
● ● ●
写在最后
当AI可以和你聊天像朋友,"打字提问"就成了过去式。
10亿用户的语音AI时代,第一次真正到来。下一代人机交互入口的争夺,正式开始。Sam Altman卖的不是软件,是新的人机交互方式。
Realtime Audio不是技术升级,是用户习惯的重塑。
下一个十年的人机交互,可能就从这周开始换轨了。
● ● ●
👍 点在看,让更多人看到
💬 你最期待用Realtime Audio做什么?评论区聊聊
📤 转发给关心AI和未来交互的朋友
— END —
夜雨聆风