今天凌晨1点,OpenAI一口气发布了三个全新重磅产品,并且已经可以在API中使用了。
这三个分别是GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

GPT Realtime 2
咱们先聊聊这次的主菜GPT Realtime 2。这玩意直接塞进去了GPT 5级别的推理能力,可以理解为它不光耳朵好使,脑子也终于跟上了。
以前你跟语音助手说话,顶多算是个传声筒,你问啥它搜啥。现在不一样了,能在跟你聊天的过程中自己琢磨事儿。
比如你让它帮你找个房子,它不仅听懂你的预算和位置要求,还能自己去查房源、排时间,遇到你临时改主意它也不会死机,而是顺着你新给的条件继续往下聊。
而且说话比以前像个人了,遇到难题会随口说一句我查一下,而不是在那干瞪眼。
最让我觉得贴心的是那个可调节的推理强度,这就好比开车挂挡,简单的闲聊就用低档位省点算力反应快点,真遇到那种需要做战略复盘的复杂问题,直接挂到最高档,就会老老实实深度思考。

说到这顺便提一嘴它那个长上下文能力,直接从3.2万蹦到了12.8万。
现在能记住你聊了很久的内容,不会再出现聊到后面它就把前面说的事全忘了这种尴尬情况。
GPT Realtime Translate和GPT Realtime Whisper
紧接着要说的这个GPT Realtime Translate真的是让我眼前一亮。以前做翻译软件,基本都是先把你说的变成字,再把字翻译成外语,最后再用机器合成声音念出来。
这套流程走下来,那种磕磕绊绊的机翻感根本藏不住。这回OpenAI直接搞了个端到端的模型,声音进去声音出来,中间省了那些繁琐的转换步骤。
你说话快它翻得快,你停顿它也停顿,甚至连你说话时候那种激动或者无奈的小情绪都给你保留下来了。
有团队拿它去测各种带口音的方言,错误率比别的模型低了10%,并且能够识别70多种语言,整个对话流程也非常丝滑不会突然卡壳。
以后看那种国外的产品教程视频,估计直接开个翻译就能当母语视频看了,不用再苦等别人做中文版。
光能听能说能翻译还不够,还得能把字留下来。这个GPT Realtime Whisper干的就是这个活,是个流式转录模型。
大白话讲就是你嘴巴在动,屏幕上的字就已经跟着往外蹦了。
以前那种语音转文字总得等你说完一句话它才开始处理,这种体验放在直播字幕或者开会纪要里其实挺耽误事的。
现在有了GPT Realtime Whisper,那些需要实时看字幕的直播、上课记笔记、甚至连带客服质检这种后续流程,全都可以跟着语音节奏同步跑了,反应快得惊人。
不过说实话,这东西越聪明咱们心里其实越得有点底。毕竟它能听能说还能自己调用工具操作,安全问题不能马虎。
OpenAI这回在底层加了挺多道锁的,只要它察觉到聊天内容踩了红线或者有啥恶意,直接就给你掐断了。

最后聊点大家最关心的实际东西,到底是怎么收费的。这三个模型现在都已经在实时API里能用了。
GPT Realtime 2是按token算钱的,输入一百万个音频token是32美元,输出是64美元。
翻译和转录是按分钟计费,翻译一分钟0.034美元,纯转录一分钟0.017美元。
我看完这次全部更新,最大的感受就是语音AI终于摆脱了玩具属性。过去咱们总觉得语音助手华而不实,只能用来闲聊查天气,现在这套全新模型真正做到落地实用。
不管是日常便捷交互、跨境语言沟通,还是办公文字记录,都能给到成熟完善的解决方案,尤其是对于语音AI智能体来说是个很大进步。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

夜雨聆风