从搜索到聊天:AI时代重新审视语音交互这件事

如果看过我最早的文章，你可能记得我曾说过：限制语音交互发展的主要因素通常并非技术，而是场景。例如，在办公室等公开场合，人们通常不会选择与机器进行语音对话，也不会频繁使用语音输入；而在车内、家中等相对私密的环境里，用户会更倾向于使用语音输入。

这个观点在过去是成立的。但我慢慢发现，人们对于语音交互，或者说语音输入这件事情的态度，在这几个月里，正在逐渐发生变化。当越来越多的程序员甚至文科生口喷代码的时候，当大疆的麦克风悄悄从直播网红蔓延到程序员手中的时候，一些微妙的变化就开始了。

春江水暖鸭先知，离语音交互最近的，其实是语音输入法。软件上，有 Wispr Flow、Typeless、闪电说、豆包语音输入法等等；硬件上，也有越来越多的人开始关注如何为用户提供更加便捷、丝滑的输入方式，比如无线麦克风、4G 录音设备，甚至所谓的“龙虾对讲机”。

从我自己的观察来看，短短几个月里，我发现周围的同事越来越习惯使用语音输入，也越来越喜欢使用语音交互。为什么会发生这样的变化？这篇文章，我想从技术、产品和场景等多个维度来分析这个现象。

本质还是一个关于效率的问题

当我们判断一个需求是否是真需求时，大多数工具类产品，都可以从“是否能够帮助用户节省时间”这个极其简单的维度来思考。

正常语速下，每秒钟大概可以说出 5 到 6 个字，也就是说，1 分钟可以语音输入 300 多个字。而普通人用键盘打字的速度，1 分钟最多也就 60 个字左右。在理想情况下，语音输入相比文字输入，可以带来五倍以上的效率提升。

基于这样的数据，我们可以认定，语音输入实际上是一个真需求，因为它确确实实能够提高人们交互的效率。

那为什么明明这是一个真实需求，却仍然让人感觉使用场景很受限制？比如，我们可能会考虑隐私问题，考虑识别准确率，也会考虑具体的使用场景。这些问题现在就完全消失了吗？当然不能说已经完全解决。但针对“场景”这个问题，我发现了一个非常明显的变化。

场景变迁：从 Query 到 Chat

在过去的语音输入法时代，一个非常大的使用场景是语音搜索。比如在谷歌关于语音识别优化的论文中，经常会用到 query 这个词。query 直觉上是什么意思？是一次查询。而一次查询往往意味着它非常短。

但是自从大模型出现之后，人们的使用焦点逐渐从一行文本搜索栏，变成了一个对话框。从 Query 到 Chat，这个过程意味着我们的输入内容和上下文都变得越来越长。

单次 query 查询毕竟很短，所以提升输入效率的紧迫性并不强。但在大模型时代，用户不再满足于单次查询，而是进入了多轮聊天。我想使用过 AI 的人，应该都已经有了这样的感受：当我们需要大量输入、反复交流的时候，输入效率就变得至关重要。

在 Chat 时代，我发现周围的同事会买几百元甚至上千元的无线麦克风，为的就是能够用“嘴”写代码。以前那些不爱说话、偏内向的程序员，现在开始每天对着电脑说个不停。

之前我觉得很奇怪的场景，正在慢慢变成一种常态。甚至还有朋友分享说，自己戴着智能眼镜去博物馆旅游时，经常会对着眼镜自言自语。但对于他自己来说，获取知识变得非常便捷了，这种价值交互就是超预期的。

这些都是技术变革推动场景变化的例子。当产品能够带来效率提升和体验提升时，即使场景并不完美，用户也会自发地克服一些困难。慢慢地，这些“奇怪”的使用方式，会被更多人接受，并最终变成常态。类似的例子，在商业上成功的案例比比皆是，这也是创新的魅力所在。

产品背后，本质上是在和用户进行某种形式的价值交换。用户付出的可能是金钱、时间，甚至是对某些 bug 的忍耐、对某种使用习惯的改变；作为交换，优秀的产品一定有一个点，能够让用户觉得自己的付出得到了超值回报。

之前我也提到过，在大模型之前的 AI 时代，人与机器的地位是极其不平等的。虽然我们也在使用语音交互，但基于 query 的语音交互往往是指令型的，人处于一个高高在上的位置，去控制这台机器。

但当大模型出现之后，我们发现机器的智能有了质的飞跃，人类不敢再“小瞧”机器了。人机关系不再只是上下级关系，而是逐渐变成了平等协作关系，甚至是陪伴关系。

这种变化，是技术提升带来的全新用户体验，也必然会催生新的产品形态，用来满足更自然、更高质量的交互需求。基于大模型的全语音链路交互，让智能体验、自然度和流畅度都达到了一个新的高度。基于海量数据和大模型的语音合成，在某些场景下已经达到了真假难辨的程度，头部大厂也仍在持续加码实时语音和多模态交互。

当用户开始高频使用，数据飞轮转动起来，自然又会推动产品迭代和体验升级，形成正向循环。

如果从这个角度继续发散，我们也可以看到，现在做 AI 陪伴类硬件产品的团队越来越多。虽然目前还没有看到真正意义上的爆款出现，但我们都在等待这样一个爆款的到来。而这本身也说明，市场确实已经来到了爆发的前夕。

我们可以说，人类幻想中的理想人机交互时代，才刚刚开始。

从技术角度来看，基于大模型范式的交互也仅仅发展了两到三年。更重要的是，大模型让产品落地变得极其简单，开发者能够非常快速地迭代、试错，并螺旋式地提升用户体验。

过去，语音交互常常被困在“能不能用”的问题里；而现在，它正在逐渐进入“好不好用”“值不值得用”“用户愿不愿意主动用”的阶段。这个变化非常关键。

因为一旦用户愿意主动改变自己的习惯，愿意为新的交互方式付出成本，语音交互就不再只是一个技术演示，也不再只是某个特定场景下的补充能力。它会开始成为一种新的默认入口，一种更自然的人机协作方式。

未来的人机交互，可能不会只有键盘、鼠标、触屏，也不会只是简单地把语音当作输入法的替代品。它更有可能是一种融合了语音、视觉、上下文理解和长期记忆的综合体验。

而我们现在看到的这些变化，也许正是这个新时代最早的信号。