试想一下:你打一个跨国电话,对面说的是法语,你听到的是中文——实时翻译,零延迟。这不是科幻,这是昨天发生的事。
一夜三发,OpenAI这次玩真的
5月8日,OpenAI一口气发布了三款语音AI模型。不是PPT,不是预告,是真真切切能调用的API。
三款模型分别叫什么?
- GPT-Realtime-2
— 首款GPT-5级推理语音模型,能处理复杂请求、工具调用、甚至你说话时打断它 - GPT-Realtime-Translate
— 实时同步翻译,70多种输入语言,13种输出语言 - GPT-Realtime-Whisper
— 低延迟流式转录,说话即转文字

GPT-Realtime-2:不只是听懂你说话
这是三款里最重磅的。为什么?因为它是第一个把GPT-5级别的推理能力装进语音交互的模型。
以前的语音助手是什么体验?"嘿Siri,设个闹钟"——简单指令勉强能听,稍微复杂点就"我在网上找到了这些信息"。
GPT-Realtime-2不一样。你可以跟它说:"帮我订明天下午3点飞上海的机票,要靠窗的,价格不超过1500。"它会自己查航班、比较价格、完成预订——全程语音,不用你碰一下屏幕。
更绝的是,它支持打断。你说到一半突然改主意,"等等,改成后天吧",它能无缝接住,不会像以前的语音助手那样傻掉。
价格呢?音频输入$32/百万Token,输出$64/百万Token。对开发者来说不算便宜,但考虑到能力,值。
实时翻译:70种语言,零等待
第二款模型,GPT-Realtime-Translate,专门解决一个古老的问题——语言障碍。
支持70多种输入语言,翻译成13种输出语言。实时同步,不是"你说完我翻",而是"你边说我边翻"。
$0.034/分钟。一分钟三分四厘钱。打一个跨国商务电话,翻译费可能比电话费还便宜。
这意味着什么?意味着以后跟外国客户开会、跟海外团队协作,再也不需要翻译人员了。AI直接帮你搞定。

实时转写:说话即文字
第三款,GPT-Realtime-Whisper。名字有点长,但功能很简单——你说话,它实时转成文字。
$0.017/分钟,不到两分钱。会议纪要、采访记录、课堂笔记……这些曾经需要人工花几个小时做的事,现在AI实时搞定。
而且它已经集成进了Realtime API,开发者可以直接调用。不需要额外对接,一套接口搞定语音对话、翻译、转写三件事。
语音AI的iPhone时刻?
把这三款模型放在一起看,你会发现OpenAI在下很大的一盘棋。
之前的ChatGPT是文字交互。GPT-4o加了图片理解。现在,语音这块拼图也补上了。
而且不是那种"能用但不好用"的语音——是真正的GPT-5级推理+实时翻译+流式转录。三合一。
有人说这是语音AI的"iPhone时刻"。我觉得这个比喻不太准确。更准确的说法是:这是语音AI从"玩具"变成"工具"的时刻。
说实话,这三款模型让我最兴奋的不是技术本身,而是价格。实时翻译$0.034/分钟,实时转写$0.017/分钟——这个价格,已经低到普通用户都用得起了。技术再强,贵得离谱也没用。OpenAI显然意识到了这一点。当AI语音服务比一杯咖啡还便宜的时候,真正的普及才算开始。而这一天,可能比我们想象的来得更快。
作者:cDesign-天渊 | 发布日期:2026年5月9日
夜雨聆风