试了5款电脑端语音输入法之后,我有一个感受:好用的不需要你学习,需要学习的往往不好用。
我的电脑上曾经同时装了不下5个语音输入软件,现在常用的只有2个。主要原因是,多数语音输入法,都在让你"适应它"。而我想要的是"用它",不是去迁就它。
事情要从Typeless说起。
我本身有刷公众号的习惯,对软件工具和AI比较感兴趣。今年1月份看到一篇介绍Typeless的文章,说这是一款语音转文字的工具,说话就能出文字,即开即用。我正困于长篇文稿的键盘输入疲劳,手指敲得发酸,看到这个,像是抓到了一根稻草。
下载,装好,按住快捷键,说了一句话。
文字出来了。
准确,流畅,几乎没有延迟。
更让我惊讶的是,它不只是把语音转成文字这么简单——它会自动帮我分段。根据我说话的内容和逻辑,自动划分出一级标题、二级标题,把一大段话拆成有结构的篇章。
它是真的在理解你说话的逻辑,然后帮你搭好骨架。
第一次体验的感受,可以用“惊艳”来形容。而且有一种感觉——工具本该这样。它不该让你感觉到它的存在,它只是在那里,安静地把你说的话变成文字,甚至变成结构。
· · ·
当然,免费额度很快用完。看到他昂贵的月费,我犹豫了一下,然后开始找替代品。
于是我的电脑上,开始了一场小型的语音输入法"试验"。
闪电说,我体验得比较早。当时就是想找一款能替代Typeless的国产软件,搜到了这个。刚开始识别准确率不太高,但也能用。
后来它更新了,可以接入第三方模型,功能看起来更强了。但实际操作起来反而更复杂了。软件界面也变得繁杂,各种选项堆在一起,我没太深入研究。再后来它推出了会员版本,学习成本有点高,就慢慢用得少了。
智谱AI输入法,思路很有意思,它可以模拟不同沟通对象的表达风格。理论上,你对着它说话,它帮你调整成"给领导的邮件风格"或者"给朋友的聊天风格"。
但问题也在这里。每一次说话之前,我都得先想一下——今天的对话对象是谁?用什么风格?这个"预设角色"的动作,在即时沟通的场景里,成本远大于它带来的增益。我连想说什么都还没想清楚,就得先想"用谁的口气说",这不对。即便有快捷键可以切换不同说话对象,我也懒得记住那么多快捷键。
其他几款也试了。Open Whispr太本地化了,识别率撑不住日常办公。微信内置的语音输入,字边说你边看,"嗯""啊"全蹦出来,我看着别扭。豆包也出了语音输入法,但Windows版还没上,暂时观望。还有什么Sayso、handy等等。
· · ·
折腾了一圈,桌面常驻的,最后只剩两个:秘塔回响,和Typeless。
准确地说,"同时装两个"这个想法太简单了。实际遇到的问题比这复杂。
比如快捷键冲突。
语音输入法几乎都喜欢用Alt键作为触发键,但Alt键又跟很多常用快捷键组合冲突。你正按Alt+Tab切换窗口,或者Alt+F4关闭程序,不小心多按了一下,语音输入就跳出来了。
所以我选择工具的时候,快捷键的分配是硬约束。在这个前提下,再考虑它们各自擅长的领域,以及我的具体使用场景,灵活切换。
目前的主力是秘塔回响。免费,准确,反应快,我日常的大部分语音输入都靠它完成。Typeless则留在那些需要更深度的逻辑梳理和结构搭建的场景。
在准确、高效、性价比这几个维度上,它们刚好形成了互补。
我需要的不是"最强的工具",而是"在特定场景里,最不让我操心的那个"。
也就是说,不要找一个全能的工具,找两个各干一件事的工具。
秘塔回响用的是右Alt键,这个位置相对"偏僻",跟日常快捷键重叠的概率小很多。我用了几个月,现在几乎不会遇到误触。这一点看起来很小,但在实际工作中,直接关系到你能不能"无感"地使用它。
秘塔回响,我用它处理绝大多数事情。
按住右Alt键,说话,松开,文字就出来了。双击右Alt,进入连续输入模式,不用一直按着。这个设计,我一开始没觉得有多厉害,用了几天才发现——它把"思考到输入"之间的物理阻隔,降到了最低。
它的界面也贯彻了这种"工具隐身"的理念。简洁到近乎枯燥,但你要的功能都有:自定义词库、润色选项(我一般选"保守"那档,其他的基本不碰)、语音触发搜索——功能都有,但界面干净,不吵。

微信对话、邮件草拟、短文本修改——这些场景,秘塔回响够用了。它像一个安静的数字秘书,你要什么,它给你什么,不给多余的。
关键是,秘塔回响最近也在进步。长文本的连贯性越来越好,也能进行段落划分。如果不是那种需要深度结构优化的文章,秘塔回响已经能胜任大部分"创作"场景。

而当我需要系统地阐述一个方案,或者对着一篇已经想好的草稿,想要做深度的结构性优化、重新划分段落、梳理逻辑——这种时候,我会打开Typeless。
我选择右侧Control加空格键,触发语音输入。右侧Control加左Alt键,对选定文本进行整理或问答。
前面提到的那个自动分段,就是在Typeless里实现的。长文本的结构优化,它确实更在行。
它的会员收费不便宜,每月12美元,一年下来将近一千块。但它每周的免费额度,基本够用。
所以我平时尽量用秘塔回响,Typeless的免费额度能省则省,只在真正需要的时候才打开。
本来想用Typeless打主力,秘塔回响做辅助的,目前却逐步形成了相反的使用习惯。
Typeless更像是那个"关键时刻才出场"的搭档,平时省着用,需要的时候才请它上。

· · ·
当然,电脑语音输入也不是没有问题。
开放式办公环境里,你对着电脑持续口喷,旁边的同事会看你。总感觉有点别扭。
目前的妥协方案是,需要长篇输入的时候,移到会议室去。
· · ·
最近看到不少关于AI语音输入法的横向评测,参数对比、功能列表、识别准确率测试——都很专业,但也都很"远"。
我这篇不是评测。
它只是一个普通用户,在自己的电脑上,真实地用了一段时间之后,留下的一点记录。
如果你也被"海量信息"和"频繁试错"劝退过,不想再花时间一个个去试——我的结论或许可以帮你省点事:
我的建议是,两个都用。以秘塔回响为主,Typeless为辅,组合起来,足以覆盖绝大部分语音输入的使用场景。
而且随着秘塔回响越来越强大,我估计Typeless被打开的次数会越来越少。
不需要功能无限膨胀的"瑞士军刀",你需要的是一个能精准切入你的工作流、默默生效的"杠杆点"。
语音输入法的价值,不在于它展示了多么前沿的模型能力,而在于它是否真正缩短了从思维到文本的"最后一公里"。
它让思考,更流畅地奔涌。
· · ·
你试过对着电脑说话输入文字吗?感觉怎么样?
如果你身边也有那种"写个材料先敲两小时键盘"的同事,转发给他,可能正好是他需要的。
夜雨聆风