5月8日,OpenAI一口气甩出三款实时语音模型。
名字很朴素——GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。但功能,一个比一个狠。
翻译每分钟只要2毛5。
人类同声传译一天多少钱?市场价几千到上万块是有的,顶尖的更贵。需要2-3人轮换,每人每15-20分钟就要休息,否则质量下滑。全球专业同传人才,拢共就那么几千人。
现在,OpenAI用2毛5/分钟的价格,把这事儿给办了。
📜 01 三个模型,三个工种
先说GPT-Realtime-2。
它的定位是"语音Agent"。不只听懂你说的,还能边听边想边调用工具。
128K上下文,能处理对话中的打断和话题切换。OpenAI说它具备"GPT-5级推理能力"。最关键的是,它能调工具。你让它查个天气、订个会议室,它说完就给你办了。
这是第一款把GPT-5级推理能力塞进语音里的模型。
价格是每百万Token音频输入32美元、输出64美元。贵,但值。
然后是GPT-Realtime-Translate。
这个是重头戏。
它做的是实时翻译——70多种语言进来,13种语言输出。不是先转文字再翻译,而是端到端,语调、情感、停顿全部保留。
Sam Altman在X上说了一句"相当大的一步前进"。
每分钟多少钱?0.034美元,约合人民币2毛5。
对比一下:专业同声传译每分钟收费几十元到上百元不等。AI的成本,是这个数字的百分之一到千分之一。
最后是GPT-Realtime-Whisper。
专注转写,流式输出,延迟极低。会议记录、实时字幕,靠它。
价格是每分钟0.017美元,约合人民币1毛2。
📜 02 同声传译:这个行业有多贵?
你可能觉得"AI翻译"不是什么新鲜事。手机APP早就有了。
但同声传译不一样。
它的难度在于"实时"和"连贯"。演讲者说到一半,你不能等他说完了再翻——你得在他说的同时翻,还得翻得准、翻得自然、翻出语气和情感。
这对人类来说,需要多年专业训练。这个群体长期服务于大型国际会议、外交场合、高端商务谈判。
门槛高、供给少,价格自然贵。遇到多语言代表团需要多人协作时,成本还要往上走。
而AI来了。
GPT-Realtime-Translate用2毛5/分钟的价格,做的是同样的事。还能7×24小时不休息,不会疲劳、不会出错、不会因为紧张而卡壳。
📜 03 语音Agent大战开打
OpenAI不是唯一入场的玩家。
语音AI赛道早就热起来了。ElevenLabs是声音克隆领域的头部公司,主打情感表达。Deepgram以低延迟著称。
但OpenAI有独特的优势——统一开发者平台。
过去做语音AI应用,你需要从多家供应商拼凑技术:语音识别找一家、翻译找一家、TTS再找一家。集成成本高,调试周期长。
现在GPT-Realtime-2管对话推理,GPT-Realtime-Translate管翻译,GPT-Realtime-Whisper管转写。OpenAI一个平台全包了。
这对开发者吸引力很大。
行业正从"声音像不像人"转向"实时性能有多强"。
📜 04 翻译职业要失业了?
这是最现实的问题。
先说结论:短期内不会,但中长期会分化。
顶级同传的不可替代性在于:对复杂语境的理解、对专业术语的把握、对文化差异的敏感度,以及在高压场景下的应变能力。这些能力,AI目前还不能完全复制。
但中低端翻译市场,受冲击会很明显。
商务陪同口译、普通会议翻译、一般性多语言主持——这些场景,AI翻译的成本和效率优势太大了。
而且别忘了迭代速度。今天GPT-Realtime-Translate是70多种语言,很快可能就是140种。今天是13种输出语言,很快可能覆盖更多。
对于从业者来说,要么往高端走,强化专业背景和跨文化沟通能力;要么学会用AI工具,把AI变成自己的放大器。
📜 05 几个数字
差距是几十倍到上百倍。
📜 06 接下来会发生什么?
可以预见几件事:
1. 中低端国际会议的同传需求会下降。 价格差太大了,没理由不用AI。 2. 语音Agent应用会爆发。 做一个多语言客服机器人、多语言直播助手、跨语言会议工具,门槛大幅降低。创业机会很多。 3. 同声传译培训行业会萎缩。 需求少了,学的人自然少。这个职业会慢慢变成真正的"高端小众"职业。 4. 但高端同传会更贵。 物以稀为贵。当大部分翻译被AI接手,顶级的、有经验的专业人才,反而会更抢手。
AI消灭了一批工作,也会创造一批新的。关键是——你站在哪一边。
数据来源:本文数据来自IT之家、36氪、腾讯新闻2026年5月8日报道,基于OpenAI官方发布信息及公开市场调研。部分数字为行业估算值,供参考。
夜雨聆风