OpenAI 实时语音模型来了:每分钟 2 毛多,先被改写的不是翻译,而是企业服务入口

昨晚看到 OpenAI Realtime 这一组资料时，我第一反应不是“同传要降价了”，而是：企业软件的入口又要被改一次。

以前我们做系统，默认入口是菜单、表单、按钮、列表、工单。人要先把现场发生的事整理成文字，再点进系统里填。实时语音模型成熟以后，这个顺序会变：人先说，系统边听边理解，必要时查业务系统、调用工具、生成记录，再把关键动作交给人确认。

这不是语音助手升级这么简单。真正变化是：一段话开始有机会变成可执行、可审计、可接入工作流的业务输入。

▲ 能力地图：实时对话、同传、转写三条路线

01 这次值得看的，不只是“它会说话”

OpenAI 官方现在把 Realtime 拆成几条清晰路线：低延迟语音 Agent、实时翻译、实时转写。对应的模型也不是一个大而全的“语音模型”概念，而是有不同用途。

gpt-realtime-2 更像语音 Agent 的核心：它可以处理实时对话、推理、工具选择和长会话状态。官方提示里还特别强调，不要把它当普通语音机器人写 prompt，而要把它当“会思考、会调用工具、会说短前置提示”的语音 Agent 来设计。

gpt-realtime-translate 更像实时同传底座。它走专门的 realtime translation endpoint，按音频时长计费，官方模型页显示价格是每分钟 0.034 美元。

gpt-realtime-whisper 则面向实时转写，适合会议、客服、直播、现场记录这类需要边说边留文字的场景。

我的判断是：普通人会先被“同传便宜了”吸引，企业真正要看的却是“语音入口能不能接到业务系统里”。

▲ 价格冲击：同传先被看见，成本结构先被重估

02 每分钟 2 毛多，先冲击的是成本想象

0.034 美元一分钟，按汇率粗算就是人民币 2 毛多。这个数字很容易让人兴奋，因为它把“多语言实时服务”从高端会议、专业同传、跨境大客户支持，拉到了普通业务流程能试一试的成本区间。

但这里不能写成“人类同传马上没用了”。法律、医疗、外交、重大商务谈判、高价值客户签约，这些场景里，语言不是唯一问题，责任、语境、情绪、立场和风险判断都很重。AI 可以辅助，但不应该静默替人承担承诺。

更现实的第一批场景，反而是低风险、高频、多语言、可复核的流程：

• 跨境客服先听懂客户问题，生成工单草稿；

• 外籍客户会议先做实时字幕和摘要，方便会后确认；

• 海外供应商沟通先转写、翻译、提取待办；

• 培训、直播、远程支持先生成多语言记录；

• 内部巡检、现场口述、售后回访先变成结构化文本。

这些地方，AI 不需要一上来替人拍板，只要把“听不懂、记不全、整理慢”这三件事压下来，就已经有价值。

03 企业真正要接的，不是语音，是工作流

我最担心的一种误解是：老板看到价格以后，马上说“那我们做个 AI 客服，把人省掉”。

这句话太快了。

真正落地时，语音只是一层入口。后面至少还有四层东西要接：

第一层是身份。谁在说话？是客户、司机、业务员、客服、供应商，还是内部管理人员？

第二层是上下文。这个人对应哪个客户、哪张订单、哪台车、哪个项目、哪份合同？

第三层是工具。模型需要查 CRM、工单、日历、订单、合同、知识库，还是只做摘要？

第四层是确认。哪些动作可以自动执行，哪些动作必须先让人点头？

比如一个客户在电话里说：“上次那批货明天上午能不能再送一车？价格按上次来。”

一个成熟的语音 Agent 不应该只是回答“好的”。它应该先查客户、查历史订单、查库存或排班，生成一个待确认的业务草稿。涉及价格、交期、合同、付款、对外承诺时，必须让业务员或负责人确认。

语音入口越自然，越容易让人忽略责任边界。这个地方我反而建议保守一点：先做受控助手，再谈全自动闭环。

▲ 企业落地链路：语音入口、工具调用、人工确认、审计留痕

04 技术负责人先问四个问题

如果一个团队准备试 Realtime voice，我建议不要先问“模型准不准”，先问四个更工程化的问题。

第一，入口在哪？

用户是在电话里说、会议里说、网页麦克风里说、小程序里说，还是在现场终端旁边说？入口不同，传输方式也不同。浏览器和移动端通常更适合 WebRTC；服务器已经拿到音频流，比如电话系统、广播或后台 worker，才更适合 WebSocket。

第二，接什么工具？

如果只是同传或转写，工程复杂度相对低。只要开始接 CRM、工单、订单、合同、日历、知识库，就要设计权限、参数、失败重试和审计日志。工具调用不是炫技，它决定这套东西能不能进入真实业务。

第三，谁来确认？

影响客户承诺、资金、合同、数据状态的动作，不能让模型静默执行。可以让模型生成建议、填好草稿、列出依据，但最后一步要有人确认。尤其是企业内部，出了问题不能回答“是 AI 自己点的”。

第四，证据怎么留？

原始音频、转写文本、模型摘要、工具调用参数、人工确认记录，最好能串起来。没有证据链，这套系统上线后就很难排障，也很难对客户和管理层解释。

▲ 技术负责人落地前先问四个问题

05 成本不会只按一分钟算

还有一个容易被忽略的点：Realtime voice 不只是音频分钟费用。

OpenAI 的成本说明里提到，语音 Agent 会在文本、音频、图像等模态上累积输入和输出 token；普通对话式 Realtime session 是一轮一轮 Response，服务端维护 conversation，后面的轮次会带上前面的上下文，所以长会话会越来越贵。

翻译和转写又是另一种计费形态，更多按音频时长来估。也就是说，不能只拿一个“每分钟多少钱”去拍脑袋算全年成本。

我会把成本拆成三块看：

• 音频时长成本：每通电话、每场会议、每次同传；

• 上下文成本：长会话、复杂指令、工具结果、历史记录；

• 工程成本：接电话系统、权限、工具、审计、人工确认、监控告警。

真正适合先试的，不是最长、最复杂、风险最高的场景，而是短链路、可复核、能量化节省时间的场景。

06 我的落地建议：先做“三不自动”

如果要在企业里做第一版，我会设一个很土但很有用的规则：三不自动。

不自动对外承诺。

不自动改关键业务状态。

不自动处理资金、合同和高风险数据。

第一版可以让 AI 做这些事：

• 听懂客户说了什么；

• 生成转写和摘要；

• 提取客户诉求、时间、地点、金额、产品、联系人；

• 查知识库和历史记录；

• 生成工单、回访记录、会议纪要、待办草稿；

• 给人一个“建议怎么处理”的卡片。

但最后的发送、确认、改状态、承诺交期、确认金额，交给人。

这不是保守，是为了让系统能进真实业务。很多 AI 项目失败，不是因为模型不聪明，而是因为一开始就把责任边界做糊了。

07 一个可以直接复用的小模板

技术负责人可以先拿这个表去评估场景：

问题 / 要填的答案

用户在哪说话 / 电话、会议、网页、小程序、现场终端

需要模型做什么 / 同传、转写、问答、摘要、工具调用

需要接哪些系统 / CRM、工单、订单、合同、知识库、日历

哪些动作必须确认 / 发消息、改状态、报价、付款、合同、客户承诺

需要留哪些证据 / 音频、转写、摘要、工具调用、确认人、时间

怎么衡量效果 / 省多少整理时间、减少多少漏记、响应快多少、错误率多少

如果这张表填不清楚，不建议直接上生产。

08 参考资料

• OpenAI Realtime and audio guide：Realtime 会话类型、传输方式、GA 接口迁移说明。

• OpenAI Voice agents guide：语音 Agent 的 live audio 和 chained voice pipeline 两种架构。

• OpenAI Realtime model prompting guide：gpt-realtime-2 的推理、preamble、工具行为和长上下文提示设计。

• OpenAI gpt-realtime-translate model page：实时语音翻译模型说明与每分钟 0.034 美元价格。

• OpenAI Realtime costs guide：Realtime 会话、音频时长、上下文增长与成本估算方式。

我的观点很简单：这轮 OpenAI Realtime 真正有冲击力的地方，不是“AI 更像人说话了”，而是企业可以把一段自然语言，变成有上下文、有工具、有确认、有留痕的业务输入。

能听见只是开始。

能接进工作流，才是门槛。