大家好,我是林之愿。
5月7号,OpenAI一口气发了三个语音模型。
我当时看到消息的第一反应是,又发模型?最近OpenAI的发布节奏快到让人有点麻木了,GPT-5.5 Instant刚出来两天,这边又来三个语音模型。
但等我仔细看完技术细节之后,我的态度变了。
这次不是常规迭代,是一个信号,一个很明确的信号,语音AI要进入下一个阶段了。
先说说发了什么。三个模型,GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper,全部通过Realtime API提供。同时,Realtime API正式退出Beta,转为正式版。
三个模型各司其职。GPT-Realtime-2是旗舰,OpenAI自己说是「首个具备GPT-5级推理能力的语音模型」。GPT-Realtime-Translate做实时翻译,支持70多种输入语言,13种输出语言。GPT-Realtime-Whisper做流式语音转文字,边说边转。

这里面真正让人兴奋的是GPT-Realtime-2。
你可能会问,之前的Realtime API不也能语音对话吗?ChatGPT的Voice Mode不也用了好一阵子了?
对,但这次不一样。
你先想想过去两年语音AI的格局。2023年ChatGPT Voice Mode出来的时候,大家确实被惊艳到了,终于能跟AI自然聊天了。但说实话,那个「自然」是有水分的。它说到底还是一个文字模型在背后跑,先把你说的话转成文字,文字模型处理完,再把回复转成语音。中间有一个转录到合成的管线,延迟在那里,推理能力也受限制。
更关键的是,它不能「做事」。你跟它聊天可以,但你让它帮你查个日程、订个餐厅、调个API,它做不了。它只是一个能说话的聊天机器人。
GPT-Realtime-2把这个架构打破了。
它是一个原生的语音对语音模型,音频进来,音频出去,推理在音频循环内部完成,不是在转录和合成之间的夹缝里挤出来的。OpenAI官方的说法是,这个模型能「边听、边推理、边调用工具、边处理打断」,全程不中断对话。
你品品这几个词,「边听边推理边调用工具边处理打断」,这不是在描述一个语音助手,这是在描述一个能听懂你在说什么、同时在后台帮你干活的同事。
这里有个概念值得展开聊聊。OpenAI提出了三种语音交互模式,Voice-to-Action、Systems-to-Voice、Voice-to-Voice。
Voice-to-Action最直观,你用嘴巴说出需求,AI推理之后调用工具去执行。比如你说「帮我看看明天下午三点有没有空,有的话就约个会」,它听懂了,去查你的日历,发现有空,直接帮你创建会议。全程语音,不需要你掏手机打字。
Voice-to-Voice是实时跨语言对话。Demo里展示了一个场景,两个人同时说不同语言,GPT-Realtime-Translate实时把双方的话翻译成对方能听懂的语言,连第三个人加入说第三种语言也没问题。
Systems-to-Voice是反过来,后台系统主动用语音通知你。比如你的航班延误了,系统不是发一条短信,而是直接用语音告诉你,还帮你查了改签方案。
三种模式加在一起,覆盖了语音交互的主要场景。这是第一次有一个统一的技术框架把这些场景全部打通。
说到技术细节,几个数字值得关注。
GPT-Realtime-2的上下文窗口是128K tokens。什么概念呢,一场正常的对话大概也就几千到一两万tokens,128K意味着它能记住很长很长的对话历史,不会聊着聊着就忘了前面说过什么。
推理强度可调节。你可以设置high、medium、low甚至minimal。推理越强,回答越聪明,但延迟也越高。Artificial Analysis测的数据是,high reasoning模式下首音频延迟2.33秒,minimal模式下1.12秒。这个延迟水平,说实话跟真人对话的反应速度还有差距,但已经是可以接受的范围了。
定价方面,音频输入每小时1.15美元,音频输出每小时4.61美元。换算成token计价的话,音频输入每百万tokens 32美元,音频输出每百万tokens 64美元。缓存输入的价格是每百万tokens 0.40美元,只有实时价格的八十分之一。这个缓存折扣力度很大,说明OpenAI很清楚,高频率重复调用的场景会是主要市场。
你可能会觉得这个价格不便宜。但你算一笔账,一个真人客服的时薪大概是15到25美元,还得加上培训成本、管理成本、办公场地成本。GPT-Realtime-2的音频输出每小时4.61美元,大概是一个真人客服成本的四分之一到五分之一。而且AI不需要休息,不需要社保,不会情绪化,不会离职。

当然,AI客服目前还不能完全替代真人,特别是在处理复杂投诉、需要同理心的场景。但作为一个「第一道防线」,处理80%的常规问题,把真正复杂的case转给真人,这个方案已经非常有吸引力了。
还有一个细节值得说说隐私和安全。OpenAI在公告里特别提到,Realtime API完全支持EU Data Residency,也就是欧盟的数据驻留要求。这对企业客户来说是个硬性要求,GDPR合规不是可选项,是必须的。OpenAI在这个时间点强调这一点,说明他们很清楚企业市场的门槛在哪里。
另外,Realtime API还支持企业隐私承诺,企业可以放心地把敏感数据交给这个API处理,不用担心数据被拿去训练模型或者被第三方访问。
再看基准测试。
Big Bench Audio是一个语音对语音推理测试。GPT-Realtime-1.5在这个测试上的分数是81.4%,GPT-Realtime-2直接跳到了96.6%。从81到96,这不是渐进优化,是代际跃迁。

Conversational Dynamics基准测试,GPT-Realtime-2拿了96.1%。
但也有不那么亮眼的数字。Audio MultiChallenge测试的是多轮对话中的复杂推理能力,GPT-Realtime-1.5是34.7%,GPT-Realtime-2提升到了48.5%。48.5%,刚过半,说明在真正复杂的真实多轮对话场景里,AI还是会犯错的。Awesome Agents的评价很直接,「still fails most hard audio reasoning tasks」。
这个数据其实挺重要的。它提醒我们,虽然GPT-Realtime-2在单项测试上表现亮眼,但在真实世界的复杂场景中,它离「完美」还远。我们在兴奋的同时也要保持清醒。
说到竞品,不得不提Google。
Google的Gemini 3.1 Flash Live在Big Bench Audio上也拿到了96.6%,跟GPT-Realtime-2持平。而且Google一直把自己定位成更低成本的替代方案。所以如果你是开发者在选平台,OpenAI和Google现在在基准测试上打了个平手,选择可能更多取决于生态系统、定价、和你已有的技术栈。

Apple这边就比较尴尬了。Siri的定位一直是设备控制优化,设闹钟、打电话、定闹钟。eMarketer在2026年2月有一份报告,标题就很说明问题,「How ChatGPT OpenAI are eclipsing Siri and Alexa」。传统语音助手面临的不是竞争问题,是生存问题。

你想想,Siri从2011年发布到现在,15年了,还是那个「帮你设个闹钟」的水平。ChatGPT Voice Mode从2023年到现在才三年,已经能跟你自然对话了。GPT-Realtime-2更是直接跳到了「边听边想边做事」的层次。这不是弯道超车,是降维打击。
Amazon的Alexa也是一样的困境。它们当年的愿景是「语音优先」,但技术限制让这个愿景一直停留在「语音命令」的层面。现在OpenAI用大模型的能力,真正实现了「语音智能」。传统语音助手如果不做根本性的架构升级,被淘汰只是时间问题。
不过也要公平地说一句,Apple和Amazon的优势在于硬件生态。Siri集成在每一台iPhone里,Alexa集成在每一台Echo里。OpenAI目前还没有自己的硬件入口,ChatGPT的语音能力是通过App和API提供的。如果Apple哪天决定接入GPT-Realtime-2级别的能力,凭借它的硬件生态,还是有一战之力的。
但问题是,Apple会这么做吗?还是会坚持自己的路线?这可能是2026年下半年最值得关注的科技战略决策之一。
还有一个很有趣的角度。The Next Web的报道提到了一个行业痛点,过去企业要部署语音Agent,得自己拼四五个组件,Whisper或Deepgram做转录,ElevenLabs或Cartesia做文字转语音,GPT-4或Claude做推理,中间还得自己写轮换和打断逻辑。GPT-Realtime-2是一个模型干了所有这些活,音频输入音频输出,推理在内部完成,中间不需要你自己去拼管线。
这对开发者来说是真正的效率提升。
举个具体的例子。假设你是一个创业公司的CTO,想给自己的App加一个语音客服功能。按照以前的做法,你得先选一个语音转文字服务,再选一个文字转语音服务,再选一个大语言模型做推理,然后自己写中间的编排逻辑,处理轮换、打断、上下文切换这些棘手问题。整套系统搭下来,没有三五个月搞不定,还得养一个专门的团队去维护。
现在呢,一个API调用,GPT-Realtime-2全部搞定。音频进去,音频出来,中间的推理、工具调用、打断恢复,模型自己处理。你只需要定义好工具的接口,告诉它「查日历就调这个API」「订餐厅就调那个API」,剩下的它自己来。
这不是效率的量变,是质变。
再看一个更直观的场景。Digital Trends在报道里展示了一个Demo,三个人同时说三种语言,英语、西班牙语、中文,GPT-Realtime-Translate实时把每个人的话翻译成另外两个人能听懂的语言。没有延迟,没有卡顿,就像联合国的同声传译,但不需要那个玻璃房子里的翻译官。
过去这种实时翻译能力是高端会议的专属,价格贵得离谱。现在一个API就能实现,成本可能比请一个翻译实习生还低。
还有一个场景我觉得特别值得关注,医疗问诊。想象一下,一个农村诊所的医生,面对一个说方言的患者,双方语言不通。以前要么找翻译,要么比划。现在手机上开一个语音Agent,患者说方言,AI实时翻译成普通话给医生听,医生说普通话,AI实时翻译成方言给患者听。同时AI还能在后台做初步的症状分析,提醒医生注意某些关键指标。
这个场景不是科幻,是GPT-Realtime-2和GPT-Realtime-Translate组合起来就能实现的事情。
教育领域也是一样。传统的在线教育是看视频、做题、看答案。有了实时语音AI,可以变成真正的互动教学。学生说「我不理解这个概念」,AI不是弹出一段文字解释,而是用语音跟你对话,根据你的回答动态调整讲解方式,直到你真正理解为止。
这比任何录播课都有效,因为它是真正的一对一辅导。
当然,普通用户最关心的问题,什么时候能在ChatGPT里用上这个级别的语音能力?
坦率的讲,目前这三个模型只在API里提供,是给开发者用的。ChatGPT的Voice Mode什么时候升级到GPT-Realtime-2,官方没有给出时间表。但你想想,既然API已经GA了,模型能力已经就位了,ChatGPT端的升级应该不会太远。
我个人猜测,可能在未来一两个月内,ChatGPT的Voice Mode就会有一次大的升级。但这个纯属个人判断,没有官方依据,标注一下「待验证」。
回到这篇文章的核心观点。
语音AI的演进可以分成三代。第一代是命令式,Siri、Alexa、小爱同学,你跟它说一句,它回一句,不会上下文,不会推理。第二代是对话式,ChatGPT Voice Mode为代表,能自然聊天了,但还是一个「说话的聊天机器人」,不能帮你做事。第三代是推理式,GPT-Realtime-2就是这一代的开端,它能边听边想边说,能在对话中调用工具、处理打断、执行复杂任务。

从命令到对话,花了十多年。从对话到推理,只用了两年。
这个速度,说实话,有点吓人。
但Audio MultiChallenge的48.5%也在提醒我们,这个「同事」目前只考了个及格分。它能处理大部分日常场景,但在复杂多轮推理、微妙语境理解、突发状况处理上,还有不小的提升空间。
不要急着把所有客服都裁掉。
也不要觉得这跟自己没关系。
我觉得最合理的姿态是,开始关注,开始试用,找到自己领域里语音交互能解决的具体问题。你是做客服的,试试用GPT-Realtime-2搭一个demo看看效果。你是做教育的,想想实时语音辅导的场景。你是做跨境业务的,GPT-Realtime-Translate可能就是你一直在等的那个同声传译方案。
技术的临界点往往不是某一天突然到来的,而是你回头一看,发现它已经悄悄到了。
语音交互的临界点,我觉得已经到了。
回想一下,2023年ChatGPT Voice Mode出来的时候,大家的反应是「哇,AI居然能说话了」。2024年各种语音模型陆续发布,大家的反应是「嗯,语音AI在进步」。2026年GPT-Realtime-2出来,我的反应是「完了,语音AI真的要改变一切了」。
从「能说话」到「能聊天」到「能做事」,每一步都比上一步快得多。技术演进的速度在加速,而我们适应的速度往往跟不上。
所以我的建议是,不要等到所有人都在用的时候才开始关注。现在就去试试,现在就开始想,你的领域里有哪些场景可以用语音AI来优化。早一步行动的人,往往能拿到最大的红利。
这篇文章写完的时候,我突然想到一件事。十年前我们还在用诺基亚的按键手机发短信,十年后我们可能对着空气说话就能完成所有工作。技术的变化总是比我们想象的快,而我们能做的就是保持关注,保持学习,保持行动。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
/ 作者:林之愿
/ 投稿或爆料,请联系邮箱:1626440040@qq.com
- • [GPT-Realtime-2技术规格、定价、API文档](来源:OpenAI:https://developers.openai.com/api/docs/models/gpt-realtime-2)
- • [Big Bench Audio 96.6%、Conversational Dynamics 96.1%、首音频延迟数据](来源:Artificial Analysis:https://x.com/ArtificialAnlys/status/2052486470469140777)
- • [三个模型详细解读与行业分析](来源:The Next Web:https://thenextweb.com/news/openai-gpt-realtime-2-voice-models)
- • [Audio MultiChallenge基准测试与S2S模型评估](来源:Scale Labs:https://labs.scale.com/leaderboard/audiomc)
- • [传统语音助手被ChatGPT超越的行业分析](来源:eMarketer:https://www.emarketer.com/content/faq-on-voice-ai--how-chatgpt-openai-eclipsing-siri-alexa)
夜雨聆风