OpenAI近日一口气发布三款实时语音模型——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,全面升级语音交互能力,为AI语音应用落地按下加速键。
GPT-Realtime-2:首款GPT-5级推理语音模型
作为本次发布的旗舰产品,GPT-Realtime-2首次将GPT-5级别的推理能力引入语音交互。该模型支持128K超长上下文窗口,可在复杂长对话中保持连贯性,并能实时调用外部工具、处理用户打断。性能测试显示,其音频理解准确率达96.6%,较前代产品提升15.2%。
翻译与转录:覆盖70+语言
GPT-Realtime-Translate支持超过70种输入语言实时翻译成13种输出语言,翻译速度与说话者语速同步,实现"同声传译"效果。GPT-Realtime-Whisper则专注于低延迟流式转录,转录延迟较前代降低67%,错误率下降41%。
商业落地:Zillow、Priceline、德国电信抢先测试
这些模型已集成到Realtime API供开发者调用,定价策略灵活:GPT-Realtime-2按Token计费(输入32美元/百万Token,输出64美元/百万Token),翻译和转录模型按分钟计费,分别为0.034美元/分钟和0.017美元/分钟。
Zillow用它构建可理解住房条件并安排看房的语音助手,Priceline测试旅游预订场景,德国电信则用于多语言客服。这些应用表明,语音交互正在从"能说"进化到"会做"。
OpenAI CEO奥特曼评价这是"相当大的一步前进"。语音正在成为人与AI之间最自然的交互界面。
夜雨聆风