OpenAI 背后的语音专家:Parloa 如何定义新一代企业级服务智能体?

揭秘 Parloa 如何利用 OpenAI 模型构建全球领先的语音 AI 平台，通过“评估优先”策略实现 80% 人工替代率。

在 Parloa 成立之初，联合创始人 Stefan Ostwald 曾在一家保险公司的呼叫中心待了一整天。他的团队当时正在那里构建早期的语音交互体验。

坐在坐席人员身边，他听到同样的对话一遍又一遍地重复：重置密码、保单咨询、常规变更。他意识到，这些工作中的大部分其实都可以实现自动化。💡

在那次经历之后，总部位于柏林的 Parloa 开始构建基于规则的语音智能体，以处理高流量的客户交互。随着 ChatGPT 的出现，该公司进化到了现在的阶段：构建基于新一代模型（包括 GPT-5.4）的 AI 智能体管理平台（AMP）。🚀

AMP 为企业提供了一种大规模设计、部署和管理客户服务交互的方式。团队不再需要绘制僵化的意图和流程图，而是用自然语言定义行为，连接内部系统，并利用内置的模拟和评估功能快速迭代。

Parloa 端到端地运行这些交互，处理从简单的路由到复杂的、多步骤的请求。其核心重点在于生产环境的一致性，其中性能、延迟和边缘案例至关重要。为了达到这一目标，Parloa 在部署模型之前，会持续针对真实客户场景进行测试。

“只有在生产环境中发挥作用的模型才有意义。我们与 OpenAI 密切合作，致力于让模型足够快速和可靠，以支持实时对话。” —— Ciaran O’Reilly Ibañez，Parloa 工程经理

🛠️ 为企业构建者设计 AMP

Parloa 的智能体管理平台（AMP）专为业务用户和领域专家设计，让他们无需编写代码即可构建 AI 智能体。

“有了 AMP，我们可以让来自不同业务部门的领域专家实际构建智能体并连接 API，这种方式更加精简和简单，”O’Reilly 说道。

从高层级来看，AMP 允许品牌管理整个 AI 智能体的生命周期。它为非技术团队提供了一种更简单的方式，在智能体上线之前定义其行为。领域专家无需编写代码或绘制复杂的意图树，而是用自然语言设定智能体的角色、指令、工具和边界。这种配置构成了模型提示词的基础，并决定了系统在生产环境中的行为方式。

一旦定义完成，智能体在部署前会经过严格测试。Parloa 使用 GPT-5.4 等模型模拟客户对话，其中一个模型充当拨打者，另一个运行配置好的智能体。团队可以直接检查这些交互，针对现实场景测试变更，并在上线前进行迭代。

随后，同样的模型被用于评估这些对话，结合了确定性检查和 LLM-as-a-judge（大模型即评判者） 评分。这能展示智能体是否遵循了指令、是否正确使用了工具，以及是否按预期完成了任务。✅

在实时对话过程中，AMP 的编排层会根据智能体配置和对话上下文提示 OpenAI 模型，以生成回复、通过 RAG 检索信息，或触发工具与客户后端系统交互。Parloa 会不断更新这一层，引入最新一代的模型，只要它们在现实世界的性能中表现出明显的提升。

对话结束后，独立的 OpenAI 驱动的工作流会总结交互、分类客户意图，并根据定义的规则评估表现。

随着智能体变得越来越复杂，维护单一的、庞大的提示词变得越来越困难。微小的改变可能会引入意想不到的副作用。为了解决这个问题，Parloa 引入了模块化方法。认证、预订变更或账户更新等任务可以拆分为不同的子智能体（Sub-agents），从而提高指令遵循能力，并使系统更容易随时间进化。

同时，平台在对可靠性要求最高的地方加入了确定性控制。企业可以定义结构化的 API 链和基于事件的逻辑，以确保关键步骤按正确顺序发生，在对话的灵活性与执行的可预测性之间取得平衡。⚖️

🔍 “评估优先”的方法论

Parloa 主要与大型企业合作，在这些企业中，一致性与能力同样重要。

“每当新模型发布时，我们都会运行我们的基准测试套件，”资深应用科学家 Matthäus Deutsch 表示，“对我们来说，事情不仅在理论基准测试中有效，在实际用例中也能发挥作用，这非常重要。”

Parloa 不依赖抽象的基准测试，而是镜像真实的生产智能体，并让它们通过模拟和评估流水线。这些测试衡量指令遵循的可靠性、API 调用的一致性、延迟以及在现实条件下的整体性能。

这些评估决定了哪些模型可以进入生产环境。只有在真实客户场景中表现可靠的模型才会被部署。

“企业客户面临着真实的迁移成本，”Deutsch 说道，“一旦系统在生产环境中稳定运行，他们就会保持稳定，只有在收益明确时才会切换。”

因此，即使在大规模环境下，系统在生产中的行为也是可预测的。在数百万次客户交互中，大多数对话都能顺畅解决。即使电话被转接给人工客服，也极少是因为系统故障。在一次部署中，一家全球旅游公司将人工客服请求减少了 80%。📉

这种“评估优先”的思维方式已成为核心竞争力，让 Parloa 在不牺牲生产环境可靠性的情况下快速行动。

🌐 为全球规模的语音交互而建

语音交互引入了与文本聊天完全不同的一组约束。每一次交互都运行在一个低延迟流水线中：语音转文字（STT）、模型推理、文字转语音（TTS）。

这个流水线使得延迟变得至关重要。即使是模型层微小的延迟，也会累积成拨打者能明显察觉的停顿，这决定了模型的选择和优化方式。

Parloa 与 OpenAI 密切合作，优化实时场景下的性能，重点关注延迟、响应质量和指令遵循。团队在将新模型迭代推向实时客户交互之前，会在类生产环境中持续评估并进行压力测试。🧪

Parloa 独立评估语音栈的每个组件：

语音转文字（STT）
：测试单词错误率（WER），特别是针对保单号或账号等敏感输入。
文字转语音（TTS）
：通过盲听测试评估声音对真实用户的自然程度。
语音转语音（STS）
：目前正在评估其生产就绪情况，重点关注延迟、准确性和成本。

从一开始，这些系统就是为全球部署而设计的。基准测试涵盖多种语言，客户分布在全球各个地区。这种多语言的严谨性既反映了 Parloa 的欧洲根源，也满足了企业客户的期望——他们要求在不同市场（而不仅仅是单一语言或地区）都能保持一致的表现。🌍

如今，Parloa 的智能体处理着零售、旅游和保险等行业的数百万次对话，支持从支持自动化到电视购物等增收流程的各种用例。

🔮 变革技术，变革客户旅程

Parloa 认为客户服务正在演变成一种完全多模态的体验。

一段对话可能从电话开始，在聊天中继续，并在过程中包含链接或交互式元素。AMP 的设计初衷不是将每一步视为单独的流程，而是将其作为一个单一的交互来处理。随着时间的推移，AI 智能体可能会像网站和移动应用一样，成为客户旅程的核心。

随着企业转向自动化日益增长的客户交互份额，Parloa 致力于让 AI 智能体足够可靠、灵活且值得信赖，从而在全球规模内运行。

笔者锐评

看完 Parloa 的案例，最触动我的是他们“评估优先（Evaluation-first）”的理念。

在国内的 AI 浪潮中，我们经常看到企业急于“跑通”一个 Demo 或上线一个智能体，却往往忽略了在真实生产环境中的极端边界测试。Parloa 告诉我们：模型本身并不代表产品，能通过模拟真实场景并由 LLM 充当裁判进行大规模自动化评估的体系，才是企业级 AI 应用的护城河。

此外，他们将复杂任务拆解为“子智能体（Sub-agents）”的模块化架构，也完美契合了当下大模型从“单一全能”向“协作专家”转型的趋势。对于国内想要落地 AI 语音服务的企业来说，与其追求最顶尖的模型，不如先构建一套属于自己的、基于真实业务逻辑的评估流水线。

求点赞 👍 求关注 ❤️ 求收藏 ⭐️你的支持是我更新的最大动力！