最近 AI 语音输入法突然火了起来,朋友圈和技术群里到处都在讨论。程序员们在 AI 的帮助下,继不自己动手写代码之后,连字都懒的打了,用 AI 语音输入法动动嘴就把代码写了。
我也心动了。但看完一圈价格之后,感觉都挺贵的。
最近,发现自己除了模型的钱随便花以外,其他的钱都不舍得花了,所以我决定自己写一个。
起因:不想写代码了,也不想打字了
事情是这样的。
最近这段时间,在 AI 的辅助下,我对写代码的热情越来越高了。打字打的也越来越多,手都打疼了,而且有时候总是感觉自己的手速跟不上脑子的思路。
前面试过用搜狗等输入法的语音输入,效果都不是很好。
直到昨天,我实在是不想再打字了。
于是我就又去找好用的语音输入法,最后终于找到了一个体验很不错的软件。
但是看了下价格,竟然需要 30 美元每个月。一个语音输入功能,一年下来需要好几千块??
我心想:这玩意儿不就是调个语音识别接口,再加个 AI 润色吗?我自己来不就行了。
然后我就打开了过年写的那个小工具,花了点时间,给它加了一个 AI 语音输入功能。按个快捷键开始录音,说完自动识别,识别完直接插入到光标位置。
2个多小时就开发完了,就这么简单。
我对 AI 语音输入法的理解
用了一整天之后,我对 AI 语音输入这件事有了一些新的理解,也理解了为什么最近这么火。
首先,中文语音识别的门槛确实降下来了。
以前中文语音输入最大的痛点是识别不准,尤其是技术术语、中英混合场景。但现在不管是阿里云、讯飞还是其他引擎,中文识别准确率已经相当高了。我在日常使用中,纯中文场景基本不需要修改,中英混合也能处理得七八成。
其次,真正拉开差距的不是识别,而是润色。
语音转出来的文字,口语化很重,直接用的话读起来很别扭。AI 润色就是把口语化的内容自动整理成书面表达,这一步才是体验的关键。不只是把语言组织的有条有序,而且再也不怕会打错字了。
最后,最影响体验的其实是交互方式。
市面上大部分 AI 语音输入法,要么需要切换输入法,要么需要打开一个独立窗口,打断感很强。你正在写文档,突然要切出去录个音,再切回来粘贴,想想都麻烦。
所以我给自己的工具设计了一个很简单的交互:
在任意应用里按
Ctrl+Alt+I,弹出一个小悬浮窗开始录音说完话,自动识别转文字
直接插入到当前光标位置
不需要切应用、不需要切输入法、不需要复制粘贴,几秒钟就完成了。这个"无打断"的体验,用了一天之后我就回不去了。
尤其是写长文档的时候,先用语音把想法说出来,再稍微改改,比从零开始打字快得多。
等等,这个工具好像不只是语音输入
加完语音输入之后,到了晚上,我突然回过神来:这个工具好像已经不只是一个给自己用的玩具了。
我数了数,这个工具目前已经有了这些功能:
全局搜索面板:Alt+Space 呼出,聚合了应用启动、书签搜索、进程管理、翻译、时间戳转换、IP 查询、编解码、UUID 生成、二维码生成、JSON 格式化等一堆日常工具
剪贴板历史:自动记录文本/图片/文件的复制记录,支持搜索和预览
Snippet 文本片段:配置常用文本,输入关键词自动展开,还支持模板变量和修饰符链
翻译 + 命名助手:中英互译,自动转 camelCase、snake_case 等命名格式,程序员的刚需
系统命令控制:锁屏、音量、亮度、深色模式、Wi-Fi 开关……直接在搜索框里输入就能控制
项目命令面板:自动识别 Git 项目,一键执行 build/test/deploy
待办 + 外部数据小组件:悬浮球展示待处理数量,支持对接自定义接口
AI 语音输入:快捷键录音,实时识别,支持 AI 润色,直接插入光标位置
这些功能,每一个单拎出来可能都不算什么新鲜事。但把它们整合到一个统一的快捷键面板里,体验确实比我想象中好很多。


为什么要做这个工具
说回最初的动机。
在我第一次看到 Alfred 的时候,就被它惊艳到了,当天就下单买了终身会员。但是用了这么多年之后,越来越觉得不那么顺手了,虽然我也已经定制了很多 workflow,解决了自己很多日常工作。
怎奈 Alfred 没什么上进心啊,这么多年来,功能和 UI 基本上没有什么调整。
最关键的是,作为一个程序员,我总想按自己的习惯来。比如我想要在 Alfred 里加一个 JSON 格式化的面板,但是做不到啊;比如我想要更方便的用 goland 等工具打开项目,也是做不到啊。
这些小需求,单个都不难,但市面上很难找到一个工具能把它们全部串起来。
所以过年在家,我就决定自己写一个。用的是 Avalonia 框架,跨平台的,macOS 和 Windows 都能用。
写的时候其实没想太多,就是自己用着爽就行。但功能越加越多,慢慢地也就成了现在这个样子。
写在最后
说实话,我自己都没想到事情会发展成这样。
过年写这个工具的时候,纯粹就是不想用 Alfred 了,想自己造个轮子玩玩。后来加了翻译、加了剪贴板、加了 Snippet……每次都觉得"再加一个功能就够了"。
直到昨天因为嫌 AI 语音输入法太贵,自己动手加了一个,用了一整天之后,我才突然意识到:这个东西可能不只是我一个人需要。
虽然做的还比较粗糙,但是我实在是太激动了,所以迫不及待的想要分享给大家,欢迎大家试试看。
目前支持 macOS(Apple Silicon / Intel)和 Windows,可以在这里下载和查看使用文档:
👉 YuAI Tools:https://yuai.life/yuai-tools
如果你也在找一个好用又不贵的 AI 语音输入方案,或者你也是那种喜欢用快捷键搞定一切、不想在各种小工具之间来回切换的人,相信你会喜欢的。
有任何问题或建议,随时告诉我。这个工具还在持续迭代中,你的反馈对我来说非常重要。
最后,本项目 UI 使用的是 AtomUI 实现的,这是一款 Ant Design 官方认可的 .NET 版本实现的桌面跨端方案,项目质量真的很高,项目地址 https://github.com/AtomUI/AtomUI ,也推荐大家关注!
祝好
夜雨聆风