
👆点击上方蓝色字关注我们👆
人工智能巨头 OpenAI 再次刷新了语音交互的技术边界,正式推出了三款全新的实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。这三款模型目前已集成至 Realtime API 供开发者使用,旨在从底层技术上攻克语音交互中长期存在的延迟高、无法自然打断以及多语言支持难等痛点。

作为此次发布的重头戏,GPT-Realtime-2 被定义为目前最智能的 AI 语音模型,也是首个具备 GPT-5 级推理能力的语音工具。与传统的语音助手不同,它在保持对话极度自然流畅的同时,能够实时进行复杂的逻辑推理、灵活调用外部工具,并能精准识别且处理用户的打断或纠正。这一突破意味着未来的语音助手将不再只是简单的指令执行者,而是能处理多步骤复杂任务的实时协作伙伴。
在定价策略上,GPT-Realtime-2 的音频输入费用设定为每百万 Token 32 美元(约合人民币 218 元),输出费用为 64 美元(约合人民币 436 元),而缓存输入的成本显著降低,仅需 0.4 美元。
除了核心推理模型,另外两款功能性模型也各具特色。GPT-Realtime-Translate 展现了强大的翻译性能,支持 70 种输入语言与 13 种输出语言的即时转换,其翻译速度几乎与说话者同步,能够胜任跨国会议等高要求的实时沟通场景。而 GPT-Realtime-Whisper 则专注于追求极致的流式转录,实现了“音随人动”的低延迟体验,极大缩短了会议记录和实时字幕的等待时间。这两款模型的计费方式更为灵活,分别按分钟计费,价格为每分钟 0.034 美元和 0.017 美元。
业内分析认为,OpenAI 这一系列动作标志着 AI 语音交互正从“简单响应”向“深度实时理解”跨越,进一步巩固了其在智能时代的技术领先地位。

今天的文章就到这里,编辑整理不易,看到这里的你,去右下角给小编点亮“在看”吧!你的支持是我不断努力的动力
,欢迎底部留言功能,为了更好搭建线下交流平台,欢迎扫一扫底部二维码留言互动或加小编个人微信二维码,进行线下交流、分享和互动
。

欢迎点击底部点赞+分享+推荐+留言+在看!


此文系综合自网络相关信息和本公众号综合编辑;公众号转载、摘抄、引用部分内容出于传递更多信息之目的,致谢资源及信息来源,部分观点不代表本号观点,对文中观点保持中立,对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证,不对文章观点负责,仅作学习参考了解应用之用,敬请留意最新资料。文章内容仅供参考用,如本网站转载的作品涉及版权问题,请原作者持相应版权证明与本公众号联系,侵删。
夜雨聆风