揭秘 Parloa 如何利用 OpenAI 模型构建全球领先的语音 AI 平台,通过“评估优先”策略实现 80% 人工替代率。
在 Parloa 成立之初,联合创始人 Stefan Ostwald 曾在一家保险公司的呼叫中心待了一整天。他的团队当时正在那里构建早期的语音交互体验。
坐在坐席人员身边,他听到同样的对话一遍又一遍地重复:重置密码、保单咨询、常规变更。他意识到,这些工作中的大部分其实都可以实现自动化。💡
在那次经历之后,总部位于柏林的 Parloa 开始构建基于规则的语音智能体,以处理高流量的客户交互。随着 ChatGPT 的出现,该公司进化到了现在的阶段:构建基于新一代模型(包括 GPT-5.4)的 AI 智能体管理平台(AMP)。🚀
AMP 为企业提供了一种大规模设计、部署和管理客户服务交互的方式。团队不再需要绘制僵化的意图和流程图,而是用自然语言定义行为,连接内部系统,并利用内置的模拟和评估功能快速迭代。
Parloa 端到端地运行这些交互,处理从简单的路由到复杂的、多步骤的请求。其核心重点在于生产环境的一致性,其中性能、延迟和边缘案例至关重要。为了达到这一目标,Parloa 在部署模型之前,会持续针对真实客户场景进行测试。
“只有在生产环境中发挥作用的模型才有意义。我们与 OpenAI 密切合作,致力于让模型足够快速和可靠,以支持实时对话。” —— Ciaran O’Reilly Ibañez,Parloa 工程经理
🛠️ 为企业构建者设计 AMP
Parloa 的智能体管理平台(AMP)专为业务用户和领域专家设计,让他们无需编写代码即可构建 AI 智能体。
“有了 AMP,我们可以让来自不同业务部门的领域专家实际构建智能体并连接 API,这种方式更加精简和简单,”O’Reilly 说道。
从高层级来看,AMP 允许品牌管理整个 AI 智能体的生命周期。它为非技术团队提供了一种更简单的方式,在智能体上线之前定义其行为。领域专家无需编写代码或绘制复杂的意图树,而是用自然语言设定智能体的角色、指令、工具和边界。这种配置构成了模型提示词的基础,并决定了系统在生产环境中的行为方式。
一旦定义完成,智能体在部署前会经过严格测试。Parloa 使用 GPT-5.4 等模型模拟客户对话,其中一个模型充当拨打者,另一个运行配置好的智能体。团队可以直接检查这些交互,针对现实场景测试变更,并在上线前进行迭代。
随后,同样的模型被用于评估这些对话,结合了确定性检查和 LLM-as-a-judge(大模型即评判者) 评分。这能展示智能体是否遵循了指令、是否正确使用了工具,以及是否按预期完成了任务。✅
在实时对话过程中,AMP 的编排层会根据智能体配置和对话上下文提示 OpenAI 模型,以生成回复、通过 RAG 检索信息,或触发工具与客户后端系统交互。Parloa 会不断更新这一层,引入最新一代的模型,只要它们在现实世界的性能中表现出明显的提升。
对话结束后,独立的 OpenAI 驱动的工作流会总结交互、分类客户意图,并根据定义的规则评估表现。
随着智能体变得越来越复杂,维护单一的、庞大的提示词变得越来越困难。微小的改变可能会引入意想不到的副作用。为了解决这个问题,Parloa 引入了模块化方法。认证、预订变更或账户更新等任务可以拆分为不同的子智能体(Sub-agents),从而提高指令遵循能力,并使系统更容易随时间进化。
同时,平台在对可靠性要求最高的地方加入了确定性控制。企业可以定义结构化的 API 链和基于事件的逻辑,以确保关键步骤按正确顺序发生,在对话的灵活性与执行的可预测性之间取得平衡。⚖️
🔍 “评估优先”的方法论
Parloa 主要与大型企业合作,在这些企业中,一致性与能力同样重要。
“每当新模型发布时,我们都会运行我们的基准测试套件,”资深应用科学家 Matthäus Deutsch 表示,“对我们来说,事情不仅在理论基准测试中有效,在实际用例中也能发挥作用,这非常重要。”
Parloa 不依赖抽象的基准测试,而是镜像真实的生产智能体,并让它们通过模拟和评估流水线。这些测试衡量指令遵循的可靠性、API 调用的一致性、延迟以及在现实条件下的整体性能。
这些评估决定了哪些模型可以进入生产环境。只有在真实客户场景中表现可靠的模型才会被部署。
“企业客户面临着真实的迁移成本,”Deutsch 说道,“一旦系统在生产环境中稳定运行,他们就会保持稳定,只有在收益明确时才会切换。”
因此,即使在大规模环境下,系统在生产中的行为也是可预测的。在数百万次客户交互中,大多数对话都能顺畅解决。即使电话被转接给人工客服,也极少是因为系统故障。在一次部署中,一家全球旅游公司将人工客服请求减少了 80%。📉
这种“评估优先”的思维方式已成为核心竞争力,让 Parloa 在不牺牲生产环境可靠性的情况下快速行动。
🌐 为全球规模的语音交互而建
语音交互引入了与文本聊天完全不同的一组约束。每一次交互都运行在一个低延迟流水线中:语音转文字(STT)、模型推理、文字转语音(TTS)。
这个流水线使得延迟变得至关重要。即使是模型层微小的延迟,也会累积成拨打者能明显察觉的停顿,这决定了模型的选择和优化方式。
Parloa 与 OpenAI 密切合作,优化实时场景下的性能,重点关注延迟、响应质量和指令遵循。团队在将新模型迭代推向实时客户交互之前,会在类生产环境中持续评估并进行压力测试。🧪
Parloa 独立评估语音栈的每个组件:
- 语音转文字(STT)
:测试单词错误率(WER),特别是针对保单号或账号等敏感输入。 - 文字转语音(TTS)
:通过盲听测试评估声音对真实用户的自然程度。 - 语音转语音(STS)
:目前正在评估其生产就绪情况,重点关注延迟、准确性和成本。
从一开始,这些系统就是为全球部署而设计的。基准测试涵盖多种语言,客户分布在全球各个地区。这种多语言的严谨性既反映了 Parloa 的欧洲根源,也满足了企业客户的期望——他们要求在不同市场(而不仅仅是单一语言或地区)都能保持一致的表现。🌍
如今,Parloa 的智能体处理着零售、旅游和保险等行业的数百万次对话,支持从支持自动化到电视购物等增收流程的各种用例。
🔮 变革技术,变革客户旅程
Parloa 认为客户服务正在演变成一种完全多模态的体验。
一段对话可能从电话开始,在聊天中继续,并在过程中包含链接或交互式元素。AMP 的设计初衷不是将每一步视为单独的流程,而是将其作为一个单一的交互来处理。随着时间的推移,AI 智能体可能会像网站和移动应用一样,成为客户旅程的核心。
随着企业转向自动化日益增长的客户交互份额,Parloa 致力于让 AI 智能体足够可靠、灵活且值得信赖,从而在全球规模内运行。
笔者锐评
看完 Parloa 的案例,最触动我的是他们“评估优先(Evaluation-first)”的理念。
在国内的 AI 浪潮中,我们经常看到企业急于“跑通”一个 Demo 或上线一个智能体,却往往忽略了在真实生产环境中的极端边界测试。Parloa 告诉我们:模型本身并不代表产品,能通过模拟真实场景并由 LLM 充当裁判进行大规模自动化评估的体系,才是企业级 AI 应用的护城河。
此外,他们将复杂任务拆解为“子智能体(Sub-agents)”的模块化架构,也完美契合了当下大模型从“单一全能”向“协作专家”转型的趋势。对于国内想要落地 AI 语音服务的企业来说,与其追求最顶尖的模型,不如先构建一套属于自己的、基于真实业务逻辑的评估流水线。
求点赞 👍 求关注 ❤️ 求收藏 ⭐️你的支持是我更新的最大动力!
夜雨聆风