OpenAI凌晨甩出三大王炸!70种语言实时同声翻译,GPT 5推理塞进耳朵里

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

今天凌晨1点，OpenAI一口气发布了三个全新重磅产品，并且已经可以在API中使用了。

这三个分别是GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

GPT Realtime 2

咱们先聊聊这次的主菜GPT Realtime 2。这玩意直接塞进去了GPT 5级别的推理能力，可以理解为它不光耳朵好使，脑子也终于跟上了。

以前你跟语音助手说话，顶多算是个传声筒，你问啥它搜啥。现在不一样了，能在跟你聊天的过程中自己琢磨事儿。

比如你让它帮你找个房子，它不仅听懂你的预算和位置要求，还能自己去查房源、排时间，遇到你临时改主意它也不会死机，而是顺着你新给的条件继续往下聊。

已关注

关注

重播分享赞

而且说话比以前像个人了，遇到难题会随口说一句我查一下，而不是在那干瞪眼。

最让我觉得贴心的是那个可调节的推理强度，这就好比开车挂挡，简单的闲聊就用低档位省点算力反应快点，真遇到那种需要做战略复盘的复杂问题，直接挂到最高档，就会老老实实深度思考。

说到这顺便提一嘴它那个长上下文能力，直接从3.2万蹦到了12.8万。

现在能记住你聊了很久的内容，不会再出现聊到后面它就把前面说的事全忘了这种尴尬情况。

GPT Realtime Translate和GPT Realtime Whisper

紧接着要说的这个GPT Realtime Translate真的是让我眼前一亮。以前做翻译软件，基本都是先把你说的变成字，再把字翻译成外语，最后再用机器合成声音念出来。

这套流程走下来，那种磕磕绊绊的机翻感根本藏不住。这回OpenAI直接搞了个端到端的模型，声音进去声音出来，中间省了那些繁琐的转换步骤。

你说话快它翻得快，你停顿它也停顿，甚至连你说话时候那种激动或者无奈的小情绪都给你保留下来了。

有团队拿它去测各种带口音的方言，错误率比别的模型低了10%，并且能够识别70多种语言，整个对话流程也非常丝滑不会突然卡壳。

已关注

关注

重播分享赞

以后看那种国外的产品教程视频，估计直接开个翻译就能当母语视频看了，不用再苦等别人做中文版。

光能听能说能翻译还不够，还得能把字留下来。这个GPT Realtime Whisper干的就是这个活，是个流式转录模型。

大白话讲就是你嘴巴在动，屏幕上的字就已经跟着往外蹦了。

以前那种语音转文字总得等你说完一句话它才开始处理，这种体验放在直播字幕或者开会纪要里其实挺耽误事的。

已关注

关注

重播分享赞

现在有了GPT Realtime Whisper，那些需要实时看字幕的直播、上课记笔记、甚至连带客服质检这种后续流程，全都可以跟着语音节奏同步跑了，反应快得惊人。

不过说实话，这东西越聪明咱们心里其实越得有点底。毕竟它能听能说还能自己调用工具操作，安全问题不能马虎。

OpenAI这回在底层加了挺多道锁的，只要它察觉到聊天内容踩了红线或者有啥恶意，直接就给你掐断了。

最后聊点大家最关心的实际东西，到底是怎么收费的。这三个模型现在都已经在实时API里能用了。

GPT Realtime 2是按token算钱的，输入一百万个音频token是32美元，输出是64美元。

翻译和转录是按分钟计费，翻译一分钟0.034美元，纯转录一分钟0.017美元。

我看完这次全部更新，最大的感受就是语音AI终于摆脱了玩具属性。过去咱们总觉得语音助手华而不实，只能用来闲聊查天气，现在这套全新模型真正做到落地实用。

不管是日常便捷交互、跨境语言沟通，还是办公文字记录，都能给到成熟完善的解决方案，尤其是对于语音AI智能体来说是个很大进步。

想系统掌握AI核心技能、获取行业认可资质？

CAIE注册人工智能工程师认证

助你拓宽职业赛道，成为AI领域持证实力派

企业、高校及渠道合作

请联系微信：FYLlaoshi