点击关注「智能折叠」
AI趋势与工具,每天前沿资讯
5月12日,OpenAI宣布推出"OpenAI部署公司",同时在API中上线三款全新语音模型——GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。这是继GPT-5发布之后,OpenAI在企业级AI部署和语音智能领域的又一重磅动作。
OpenAI宣布成立"OpenAI部署公司"(The OpenAI Deployment Company),首批获得超40亿美元投资,由TPG、Advent、Bain Capital、Brookfield等19家全球顶级投资机构联合支持。同时,OpenAI收购了企业级AI咨询公司Tomoro,将约150名部署工程师纳入麾下。
这意味着什么?过去企业买OpenAI的API,是"租工具自己装修";现在是OpenAI直接派工程师驻场,帮你从诊断、工作流重构到上线一站式搞定。首批合作伙伴包括贝恩、凯捷、麦肯锡三大咨询巨头,以及高盛、软银等金融资本,覆盖全球数万家企业客户。
核心要点:这不是普通的"AI咨询",是OpenAI第一次把自家工程师(FDE,Forward Deployed Engineers)直接嵌入企业,帮你把AI做成持久的生产系统,而非一次性试点。
三款新模型中,GPT-Realtime-2是绝对主角——它是OpenAI首款在语音场景中融入GPT-5级别推理能力的模型,相比上一代GPT-Realtime-1.5,在Big Bench Audio基准测试中得分提升15.2%,在Audio MultiChallenge复杂多轮对话测试中提升13.8%。
Zillow是第一批吃螃蟹的企业。Zillow的SVP Josh Weisberg透露,在最严苛的对抗性测试中,接入GPT-Realtime-2后电话成功率从69%跃升至95%,提升26个百分点。更重要的是,Fair Housing(公平住房)合规能力也大幅提升,这是房地产AI应用的核心门槛。
GPT-Realtime-2的核心升级点:
核心要点:上下文窗口从32K扩充到128K,支持复杂多轮任务;推理强度可调节(minimal/low/medium/high/xhigh);工具调用可并行并"出声"告知用户;更强的容错恢复能力,说"我这边暂时有困难"替代直接崩溃。
这是一款同声传译模型,支持70多种输入语言翻译成13种输出语言,延迟极低,能跟上说话者的语速。Deutsche Telekom(德国电信)正在用它构建跨国客服语音支持——用户用自己的母语说话,AI实时翻译给客服,双方无感切换语言。
结合GPT-Realtime-2,这意味着:以后的国际会议、旅游、跨境电商客服,不再需要等翻译,AI实时"同声传译",延迟以秒计。
不同于OpenAI原有的Whisper批量转写,Whisper是流式实时转录——说话的同时文字就在生成,适用于会议记录、字幕生成、电话质检等场景。搭配GPT-Realtime-2,企业可以构建完整的"语音输入-AI理解-自动处理"语音助手链路。
场景1:智能客服升级
过去语音客服是"播放选项-用户按键-转人工"的老套路,现在用GPT-Realtime-2,可以做到:用户说"我要改机票,顺便查一下酒店能不能退",AI听完整句,调用航司和酒店系统,完成两个操作,用自然语言回复结果。全程不需要用户等,不需要按键。
场景2:跨国会议实时翻译
用GPT-Realtime-Translate搭配GPT-Realtime-Whisper,可以构建会议双语字幕+同声传译系统。发言者说英文,观众听到中文译文,或者在屏幕上看到双语字幕。
场景3:房产中介语音助手
Zillow已经在这么用。买家说"我要找100万以内、三居室、不要主路、离好学区近的房子",AI理解后搜索数据库,直接回复"找到5套符合条件的,最快周六能看的是这套……"——用嘴找房,比打字快10倍。
三款模型已上线OpenAI API,开发者现在就能用。具体步骤:
第一步:在OpenAI开发者后台切换到新的音频模型端点,GPT-Realtime-2使用 gpt-4o-realtime-audio 模型标识。
第二步:调用 Realtime API 建立WebSocket连接,设置推理强度参数 reasoning_effort。
第三步:接入语音输入输出组件。推荐用前端库 @openai/realtime-client,或者通过 Twilio、Agora 等通信平台接入真实电话。
这一波动作说明AI的竞争已经从"模型能力"扩展到"落地能力"。OpenAI不只想做底层模型,要做企业AI的"总包商";而语音模型的进化,让AI第一次真正意义上接管了"听说"这个最自然的交互界面。
对普通用户来说,最直观的感受可能是:以后打电话给客服,那头是AI在处理,而且比人工还靠谱。对开发者来说,语音助手这件事终于从"玩具"变成了"可以上生产"的级别。
#AI资讯#人工智能#ChatGPT
来源:智能折叠|作者:智能折叠|关注后每天收到AI趋势推送
夜雨聆风