如果看过我最早的文章,你可能记得我曾说过:限制语音交互发展的主要因素通常并非技术,而是场景。例如,在办公室等公开场合,人们通常不会选择与机器进行语音对话,也不会频繁使用语音输入;而在车内、家中等相对私密的环境里,用户会更倾向于使用语音输入。
这个观点在过去是成立的。但我慢慢发现,人们对于语音交互,或者说语音输入这件事情的态度,在这几个月里,正在逐渐发生变化。当越来越多的程序员甚至文科生口喷代码的时候,当大疆的麦克风悄悄从直播网红蔓延到程序员手中的时候,一些微妙的变化就开始了。
春江水暖鸭先知,离语音交互最近的,其实是语音输入法。软件上,有 Wispr Flow、Typeless、闪电说、豆包语音输入法等等;硬件上,也有越来越多的人开始关注如何为用户提供更加便捷、丝滑的输入方式,比如无线麦克风、4G 录音设备,甚至所谓的“龙虾对讲机”。
从我自己的观察来看,短短几个月里,我发现周围的同事越来越习惯使用语音输入,也越来越喜欢使用语音交互。为什么会发生这样的变化?这篇文章,我想从技术、产品和场景等多个维度来分析这个现象。
本质还是一个关于效率的问题
当我们判断一个需求是否是真需求时,大多数工具类产品,都可以从“是否能够帮助用户节省时间”这个极其简单的维度来思考。
正常语速下,每秒钟大概可以说出 5 到 6 个字,也就是说,1 分钟可以语音输入 300 多个字。而普通人用键盘打字的速度,1 分钟最多也就 60 个字左右。在理想情况下,语音输入相比文字输入,可以带来五倍以上的效率提升。
基于这样的数据,我们可以认定,语音输入实际上是一个真需求,因为它确确实实能够提高人们交互的效率。
那为什么明明这是一个真实需求,却仍然让人感觉使用场景很受限制?比如,我们可能会考虑隐私问题,考虑识别准确率,也会考虑具体的使用场景。这些问题现在就完全消失了吗?当然不能说已经完全解决。但针对“场景”这个问题,我发现了一个非常明显的变化。
场景变迁:从 Query 到 Chat
在过去的语音输入法时代,一个非常大的使用场景是语音搜索。比如在谷歌关于语音识别优化的论文中,经常会用到 query 这个词。query 直觉上是什么意思?是一次查询。而一次查询往往意味着它非常短。
但是自从大模型出现之后,人们的使用焦点逐渐从一行文本搜索栏,变成了一个对话框。从 Query 到 Chat,这个过程意味着我们的输入内容和上下文都变得越来越长。
单次 query 查询毕竟很短,所以提升输入效率的紧迫性并不强。但在大模型时代,用户不再满足于单次查询,而是进入了多轮聊天。我想使用过 AI 的人,应该都已经有了这样的感受:当我们需要大量输入、反复交流的时候,输入效率就变得至关重要。
价值交换:用户愿意为有价值的产品付出一定成本
在 Chat 时代,我发现周围的同事会买几百元甚至上千元的无线麦克风,为的就是能够用“嘴”写代码。以前那些不爱说话、偏内向的程序员,现在开始每天对着电脑说个不停。
之前我觉得很奇怪的场景,正在慢慢变成一种常态。甚至还有朋友分享说,自己戴着智能眼镜去博物馆旅游时,经常会对着眼镜自言自语。但对于他自己来说,获取知识变得非常便捷了,这种价值交互就是超预期的。
这些都是技术变革推动场景变化的例子。当产品能够带来效率提升和体验提升时,即使场景并不完美,用户也会自发地克服一些困难。慢慢地,这些“奇怪”的使用方式,会被更多人接受,并最终变成常态。类似的例子,在商业上成功的案例比比皆是,这也是创新的魅力所在。
产品背后,本质上是在和用户进行某种形式的价值交换。用户付出的可能是金钱、时间,甚至是对某些 bug 的忍耐、对某种使用习惯的改变;作为交换,优秀的产品一定有一个点,能够让用户觉得自己的付出得到了超值回报。
人机地位:从主从式关系到平等式关系
之前我也提到过,在大模型之前的 AI 时代,人与机器的地位是极其不平等的。虽然我们也在使用语音交互,但基于 query 的语音交互往往是指令型的,人处于一个高高在上的位置,去控制这台机器。
但当大模型出现之后,我们发现机器的智能有了质的飞跃,人类不敢再“小瞧”机器了。人机关系不再只是上下级关系,而是逐渐变成了平等协作关系,甚至是陪伴关系。
这种变化,是技术提升带来的全新用户体验,也必然会催生新的产品形态,用来满足更自然、更高质量的交互需求。基于大模型的全语音链路交互,让智能体验、自然度和流畅度都达到了一个新的高度。基于海量数据和大模型的语音合成,在某些场景下已经达到了真假难辨的程度,头部大厂也仍在持续加码实时语音和多模态交互。
当用户开始高频使用,数据飞轮转动起来,自然又会推动产品迭代和体验升级,形成正向循环。
如果从这个角度继续发散,我们也可以看到,现在做 AI 陪伴类硬件产品的团队越来越多。虽然目前还没有看到真正意义上的爆款出现,但我们都在等待这样一个爆款的到来。而这本身也说明,市场确实已经来到了爆发的前夕。
最后
我们可以说,人类幻想中的理想人机交互时代,才刚刚开始。
从技术角度来看,基于大模型范式的交互也仅仅发展了两到三年。更重要的是,大模型让产品落地变得极其简单,开发者能够非常快速地迭代、试错,并螺旋式地提升用户体验。
过去,语音交互常常被困在“能不能用”的问题里;而现在,它正在逐渐进入“好不好用”“值不值得用”“用户愿不愿意主动用”的阶段。这个变化非常关键。
因为一旦用户愿意主动改变自己的习惯,愿意为新的交互方式付出成本,语音交互就不再只是一个技术演示,也不再只是某个特定场景下的补充能力。它会开始成为一种新的默认入口,一种更自然的人机协作方式。
未来的人机交互,可能不会只有键盘、鼠标、触屏,也不会只是简单地把语音当作输入法的替代品。它更有可能是一种融合了语音、视觉、上下文理解和长期记忆的综合体验。
而我们现在看到的这些变化,也许正是这个新时代最早的信号。
夜雨聆风