IT之家 5 月 8 日消息,OpenAI 发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于 Realtime API 供开发者调用。这三款模型为实时语音应用提供底层技术支撑,目标解决语音交互中的延迟、打断处理和多语言支持难题。
GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。

定价方面,GPT-Realtime-2 音频输入定价为每百万 Token 费用 32 美元(IT之家注:现汇率约合 218.1 元人民币),输出为 64 美元(现汇率约合 436.2 元人民币),缓存输入仅需 0.4 美元。
GPT-Realtime-Translate 支持 70 种输入语言转 13 种输出语言,翻译速度与说话者同步,适用于跨国会议或实时沟通场景。
GPT-Realtime-Whisper 则专注于低延迟流式转录,音频随说随转,让实时字幕和会议记录能跟上对话节奏,减少等待时间。翻译和转录模型按分钟计费,分别为每分钟 0.034 美元和 0.017 美元。
来源:IT之家

律甄知产
您身边的知识产权管理专家
联系我们
电话:+86 592 5138357
邮箱:info@lesip.com.cn
网址:www.lesip.com.cn
地址:福建省厦门市湖里区岐山北路508号清华海峡研究院A栋3层

免责声明:本微信文章中的信息仅供一般参考之用,不构成律甄知产的专业建议或服务。本公司不对任何主体因使用本文内容而导致的任何损失承担法律责任。
您可以全文转载,但不得修改,且须附注以上全部声明。如转载本文时修改任何内容,您须在发布前取得厦门律甄知产的书面同意。
夜雨聆风