OpenAI 实时语音模型来了:每分钟 2 毛多,先被改写的不是翻译,而是企业服务入口昨晚看到 OpenAI Realtime 这一组资料时,我第一反应不是“同传要降价了”,而是:企业软件的入口又要被改一次。以前我们做系统,默认入口是菜单、表单、按钮、列表、工单。人要先把现场发生的事整理成文字,再点进系统里填。实时语音模型成熟以后,这个顺序会变:人先说,系统边听边理解,必要时查业务系统、调用工具、生成记录,再把关键动作交给人确认。这不是语音助手升级这么简单。真正变化是:一段话开始有机会变成可执行、可审计、可接入工作流的业务输入。▲ 能力地图:实时对话、同传、转写三条路线01 这次值得看的,不只是“它会说话”OpenAI 官方现在把 Realtime 拆成几条清晰路线:低延迟语音 Agent、实时翻译、实时转写。对应的模型也不是一个大而全的“语音模型”概念,而是有不同用途。gpt-realtime-2 更像语音 Agent 的核心:它可以处理实时对话、推理、工具选择和长会话状态。官方提示里还特别强调,不要把它当普通语音机器人写 prompt,而要把它当“会思考、会调用工具、会说短前置提示”的语音 Agent 来设计。gpt-realtime-translate 更像实时同传底座。它走专门的 realtime translation endpoint,按音频时长计费,官方模型页显示价格是每分钟 0.034 美元。gpt-realtime-whisper 则面向实时转写,适合会议、客服、直播、现场记录这类需要边说边留文字的场景。我的判断是:普通人会先被“同传便宜了”吸引,企业真正要看的却是“语音入口能不能接到业务系统里”。▲ 价格冲击:同传先被看见,成本结构先被重估02 每分钟 2 毛多,先冲击的是成本想象0.034 美元一分钟,按汇率粗算就是人民币 2 毛多。这个数字很容易让人兴奋,因为它把“多语言实时服务”从高端会议、专业同传、跨境大客户支持,拉到了普通业务流程能试一试的成本区间。但这里不能写成“人类同传马上没用了”。法律、医疗、外交、重大商务谈判、高价值客户签约,这些场景里,语言不是唯一问题,责任、语境、情绪、立场和风险判断都很重。AI 可以辅助,但不应该静默替人承担承诺。更现实的第一批场景,反而是低风险、高频、多语言、可复核的流程:• 跨境客服先听懂客户问题,生成工单草稿;• 外籍客户会议先做实时字幕和摘要,方便会后确认;• 海外供应商沟通先转写、翻译、提取待办;• 培训、直播、远程支持先生成多语言记录;• 内部巡检、现场口述、售后回访先变成结构化文本。这些地方,AI 不需要一上来替人拍板,只要把“听不懂、记不全、整理慢”这三件事压下来,就已经有价值。03 企业真正要接的,不是语音,是工作流我最担心的一种误解是:老板看到价格以后,马上说“那我们做个 AI 客服,把人省掉”。这句话太快了。真正落地时,语音只是一层入口。后面至少还有四层东西要接:第一层是身份。谁在说话?是客户、司机、业务员、客服、供应商,还是内部管理人员?第二层是上下文。这个人对应哪个客户、哪张订单、哪台车、哪个项目、哪份合同?第三层是工具。模型需要查 CRM、工单、日历、订单、合同、知识库,还是只做摘要?第四层是确认。哪些动作可以自动执行,哪些动作必须先让人点头?比如一个客户在电话里说:“上次那批货明天上午能不能再送一车?价格按上次来。”一个成熟的语音 Agent 不应该只是回答“好的”。它应该先查客户、查历史订单、查库存或排班,生成一个待确认的业务草稿。涉及价格、交期、合同、付款、对外承诺时,必须让业务员或负责人确认。语音入口越自然,越容易让人忽略责任边界。这个地方我反而建议保守一点:先做受控助手,再谈全自动闭环。▲ 企业落地链路:语音入口、工具调用、人工确认、审计留痕04 技术负责人先问四个问题如果一个团队准备试 Realtime voice,我建议不要先问“模型准不准”,先问四个更工程化的问题。第一,入口在哪?用户是在电话里说、会议里说、网页麦克风里说、小程序里说,还是在现场终端旁边说?入口不同,传输方式也不同。浏览器和移动端通常更适合 WebRTC;服务器已经拿到音频流,比如电话系统、广播或后台 worker,才更适合 WebSocket。第二,接什么工具?如果只是同传或转写,工程复杂度相对低。只要开始接 CRM、工单、订单、合同、日历、知识库,就要设计权限、参数、失败重试和审计日志。工具调用不是炫技,它决定这套东西能不能进入真实业务。第三,谁来确认?影响客户承诺、资金、合同、数据状态的动作,不能让模型静默执行。可以让模型生成建议、填好草稿、列出依据,但最后一步要有人确认。尤其是企业内部,出了问题不能回答“是 AI 自己点的”。第四,证据怎么留?原始音频、转写文本、模型摘要、工具调用参数、人工确认记录,最好能串起来。没有证据链,这套系统上线后就很难排障,也很难对客户和管理层解释。▲ 技术负责人落地前先问四个问题05 成本不会只按一分钟算还有一个容易被忽略的点:Realtime voice 不只是音频分钟费用。OpenAI 的成本说明里提到,语音 Agent 会在文本、音频、图像等模态上累积输入和输出 token;普通对话式 Realtime session 是一轮一轮 Response,服务端维护 conversation,后面的轮次会带上前面的上下文,所以长会话会越来越贵。翻译和转写又是另一种计费形态,更多按音频时长来估。也就是说,不能只拿一个“每分钟多少钱”去拍脑袋算全年成本。我会把成本拆成三块看:• 音频时长成本:每通电话、每场会议、每次同传;• 上下文成本:长会话、复杂指令、工具结果、历史记录;• 工程成本:接电话系统、权限、工具、审计、人工确认、监控告警。真正适合先试的,不是最长、最复杂、风险最高的场景,而是短链路、可复核、能量化节省时间的场景。06 我的落地建议:先做“三不自动”如果要在企业里做第一版,我会设一个很土但很有用的规则:三不自动。不自动对外承诺。不自动改关键业务状态。不自动处理资金、合同和高风险数据。第一版可以让 AI 做这些事:• 听懂客户说了什么;• 生成转写和摘要;• 提取客户诉求、时间、地点、金额、产品、联系人;• 查知识库和历史记录;• 生成工单、回访记录、会议纪要、待办草稿;• 给人一个“建议怎么处理”的卡片。但最后的发送、确认、改状态、承诺交期、确认金额,交给人。这不是保守,是为了让系统能进真实业务。很多 AI 项目失败,不是因为模型不聪明,而是因为一开始就把责任边界做糊了。07 一个可以直接复用的小模板技术负责人可以先拿这个表去评估场景:问题 / 要填的答案用户在哪说话 / 电话、会议、网页、小程序、现场终端需要模型做什么 / 同传、转写、问答、摘要、工具调用需要接哪些系统 / CRM、工单、订单、合同、知识库、日历哪些动作必须确认 / 发消息、改状态、报价、付款、合同、客户承诺需要留哪些证据 / 音频、转写、摘要、工具调用、确认人、时间怎么衡量效果 / 省多少整理时间、减少多少漏记、响应快多少、错误率多少如果这张表填不清楚,不建议直接上生产。08 参考资料• OpenAI Realtime and audio guide:Realtime 会话类型、传输方式、GA 接口迁移说明。• OpenAI Voice agents guide:语音 Agent 的 live audio 和 chained voice pipeline 两种架构。• OpenAI Realtime model prompting guide:gpt-realtime-2 的推理、preamble、工具行为和长上下文提示设计。• OpenAI gpt-realtime-translate model page:实时语音翻译模型说明与每分钟 0.034 美元价格。• OpenAI Realtime costs guide:Realtime 会话、音频时长、上下文增长与成本估算方式。我的观点很简单:这轮 OpenAI Realtime 真正有冲击力的地方,不是“AI 更像人说话了”,而是企业可以把一段自然语言,变成有上下文、有工具、有确认、有留痕的业务输入。能听见只是开始。能接进工作流,才是门槛。