10亿用户开口聊AI!OpenAI Realtime Audio上线,延迟低至320毫秒!

AI 前沿

10亿用户，可以"开口说话"了OpenAI Realtime Audio正式上线

语音AI迎来iPhone时刻

10亿月活用户，从今天起可以直接对ChatGPT开口说话。

延迟<320毫秒，比你和真人打电话还快。

6月5日，OpenAI把Realtime Audio正式塞进ChatGPT主入口，同步把Codex代码模型也合并进来。Sam Altman发推一句话定调："AI从软件向硬件全栈延伸。"

业内人士一夜没睡——这不是一次产品迭代，是人机交互方式的换轨。

● ● ●

01 Realtime Audio：AI第一次跟人聊天，像聊天

先说技术层面最关键的一个数字：延迟<320毫秒。

这是什么概念？人类正常对话的反应时间在200-400毫秒之间。也就是说，ChatGPT开口回应你的速度，已经追平了真人。

之前的语音AI是什么体验？你说一句，等3秒，它"嗯——"一下，再开始回答。中间那段尴尬的空白，让所有人都知道："哦，我在跟机器说话。"

现在不一样了。Realtime Audio打开后，整套能力是这样的：

🎙️ Realtime Audio 五大核心能力

•实时双向语音：你说一半它能接，它说一半你能打断

•24种语言无缝切换：中英混杂、粤语夹普通话，全部HOLD得住

•情感识别：你语气低沉，它会放缓节奏；你兴奋，它会陪着燃

•打断恢复：被打断后能记住断点，智能接续

•背景音处理：地铁里、餐厅里、开车时，照样听得清

最炸的是Voice Engine：50+种声音可选，从温柔知性到东北大哥，语气语速情绪曲线全部可调。

一位硅谷产品经理在内测后给了一句到位的评价："之前的语音AI是'语音控制'，现在是'真聊天'。"

这不是参数升级，是体验级别的换代。

02 Codex×ChatGPT合体：写代码的和写文章的，都要重新学习

Realtime Audio抢了大部分头条，但Codex回归ChatGPT这件事，影响一点不小。

简单说：以后你在ChatGPT对话框里，可以直接写代码、运行代码、debug代码——不用切到Cursor，不用打开VSCode。

支持的语言列表也够诚意：Python、JavaScript、TypeScript、Go、Rust、Java……主流的全覆盖。

这意味着什么？

• 对普通用户：让ChatGPT做个数据分析图表，它能边对话边写脚本边出结果

• 对开发者：从需求讨论到原型实现，一个窗口搞定

• 对Cursor、Copilot这些工具：原来的差异化优势被显著压缩

细节值得玩味——Codex两年前就有，中间被剥离做了独立产品，现在又塞回ChatGPT主入口。逻辑很清楚：

OpenAI不想再做"工具组合"，要做"超级入口"。

10亿用户、统一对话界面、文字+语音+视频+代码全打通——这才是Sam Altman想要的"全栈智能体平台"。一个ChatGPT，把多个赛道的需求都吃掉。

03 硬件全栈：Sam Altman卖的不是软件，是新的人机交互方式

Sam Altman这次说得很直白："AI从软件向硬件全栈延伸"。

翻译一下：ChatGPT不会只是一个app，它会长在一切设备里。

OpenAI已经布好的局，你可以掰着手指数：

产品	合作方	预计时间
AI耳机	Jony Ive团队	2026 Q4
AI Glass智能眼镜	自研+合作	原型阶段
AI Pin胸前设备	自研	测试中
机器人接口	Figure	已落地

Jony Ive，前苹果首席设计官，iPhone、Mac、AirPods的灵魂人物。他和Sam Altman合作做硬件，已经融了60多亿美元，估值站到500亿美元——还没有任何产品发售。

光凭"OpenAI+Jony Ive"这个组合，市场就给了500亿估值。资本市场已经认定：下一代消费电子的核心，是AI原生设备。

而Realtime Audio，是这一切的软件基座。iPhone之于触屏，AI耳机/眼镜之于语音，是同一个逻辑。

"打字提问"这个习惯，可能就是这一代用户最后一次大规模使用了。

04 传统语音助手赛道：从功能型走向对话型的拐点

把视角拉到整个语音助手赛道。

过去7年，智能音箱在全球累计出货量超过几亿台，成为家庭场景的重要入口。功能型、场景型，定位很清晰。

但从这周开始，赛道的逻辑正在改变。

之前传统语音助手的核心卖点是什么？听歌、查天气、控制家电、给孩子讲故事。指令式、单轮交互，体验上限很明显。

但Realtime Audio的能力一上来，对比就出来了：

维度	传统语音助手	新一代对话式AI
对话自然度	指令识别为主	接近真人对话
多模态能力	以语音为主	语音+视频+文字
知识深度	基础问答+技能调用	通用知识覆盖
多语言	单语言或简单切换	24种语言无缝切

国内大厂的语音AI产品线也在快速跟进，豆包、通义等都已上线类似的对话式语音能力，但实时延迟、上下文连贯性、多轮对话表现仍有提升空间。

更现实的变化是：用户的体验预期，已经被Realtime Audio重新定义了。一旦尝过"和AI聊天像聊天"的体验，再回头用指令式语音助手，落差感会非常明显。

有产品经理朋友直言："智能音箱火了7年，正在被新形态产品重新定义需求。"

当然，传统语音助手厂商也有机会。本地化、家庭场景、方言适配、低成本硬件——这些都是护城河。但护城河需要更高的墙了。

05 苹果Siri的对照组：单一公司路线面临挑战

聊完国内，再看一个更有戏剧性的对比——苹果Siri。

库克最近承认了一件事：Siri的智能化升级，已经离不开外部模型。

公开信息显示，苹果Apple Intelligence后端，部分能力依赖Gemini和ChatGPT。Siri团队据报道经历了人员调整。

据LinkedIn公开评论，有从业者感叹："我们花了13年想做好一个语音助手，OpenAI用了2年。"

这话有点扎心，但也反映出一个行业现实：

单一公司路线面临挑战，生态协作成为新常态。

哪怕是苹果这种万亿美元市值、几乎无限资源的公司，也选择了合作而非硬刚。这也说明AI赛道的协作生态正在形成，单点突破之外，开放合作成为另一种可能。

这给所有玩家一个信号：

• 要么你是平台型公司（OpenAI、Google），自己做大模型

• 要么你是应用型公司，接好API、做透垂直场景

中间地带（自己做模型但又做不大）的厂商，会更需要找准生态位。

06 语音AI的iPhone时刻：从工具到伙伴的临界点

Realtime Audio不是一个"功能更新"，是一个用户习惯的换轨。

类比一下：

📱iPhone之前：手机是用来打电话的
📱iPhone之后：手机是用来上网、看视频、玩游戏的，顺便打电话
🎙️Realtime Audio之前：AI是用来打字提问的工具
🎙️ Realtime Audio之后：AI是用来聊天、陪伴、协作的伙伴

这个定位转换，是最关键的变化。具体场景已经有人在跑：同声传译、电话客服替代、驾驶全语音操作、儿童教育陪聊、老人陪伴+健康监护。

定价上，OpenAI也没藏着掖着：

版本	价格	Realtime Audio额度
Free	0	每天60分钟
Plus	$20/月	不限量
Pro	$200/月	不限量+优先级
企业版	$60/座/月	含API

免费用户每天60分钟——这个量已经足够让大部分人养成新习惯。

养成新习惯，才是OpenAI最在乎的事。

● ● ●

写在最后

当AI可以和你聊天像朋友，"打字提问"就成了过去式。

10亿用户的语音AI时代，第一次真正到来。下一代人机交互入口的争夺，正式开始。Sam Altman卖的不是软件，是新的人机交互方式。

Realtime Audio不是技术升级，是用户习惯的重塑。

下一个十年的人机交互，可能就从这周开始换轨了。

● ● ●

👍 点在看，让更多人看到

💬 你最期待用Realtime Audio做什么？评论区聊聊

📤 转发给关心AI和未来交互的朋友

— END —