30美元/月的AI语音输入,我用2小时平替了,顺便把Alfred也干掉了

最近 AI 语音输入法突然火了起来，朋友圈和技术群里到处都在讨论。程序员们在 AI 的帮助下，继不自己动手写代码之后，连字都懒的打了，用 AI 语音输入法动动嘴就把代码写了。

我也心动了。但看完一圈价格之后，感觉都挺贵的。

最近，发现自己除了模型的钱随便花以外，其他的钱都不舍得花了，所以我决定自己写一个。

起因：不想写代码了，也不想打字了

事情是这样的。

最近这段时间，在 AI 的辅助下，我对写代码的热情越来越高了。打字打的也越来越多，手都打疼了，而且有时候总是感觉自己的手速跟不上脑子的思路。

前面试过用搜狗等输入法的语音输入，效果都不是很好。

直到昨天，我实在是不想再打字了。

于是我就又去找好用的语音输入法，最后终于找到了一个体验很不错的软件。

但是看了下价格，竟然需要 30 美元每个月。一个语音输入功能，一年下来需要好几千块？？

我心想：这玩意儿不就是调个语音识别接口，再加个 AI 润色吗？我自己来不就行了。

然后我就打开了过年写的那个小工具，花了点时间，给它加了一个 AI 语音输入功能。按个快捷键开始录音，说完自动识别，识别完直接插入到光标位置。

2个多小时就开发完了，就这么简单。

我对 AI 语音输入法的理解

用了一整天之后，我对 AI 语音输入这件事有了一些新的理解，也理解了为什么最近这么火。

首先，中文语音识别的门槛确实降下来了。

以前中文语音输入最大的痛点是识别不准，尤其是技术术语、中英混合场景。但现在不管是阿里云、讯飞还是其他引擎，中文识别准确率已经相当高了。我在日常使用中，纯中文场景基本不需要修改，中英混合也能处理得七八成。

其次，真正拉开差距的不是识别，而是润色。

语音转出来的文字，口语化很重，直接用的话读起来很别扭。AI 润色就是把口语化的内容自动整理成书面表达，这一步才是体验的关键。不只是把语言组织的有条有序，而且再也不怕会打错字了。

最后，最影响体验的其实是交互方式。

市面上大部分 AI 语音输入法，要么需要切换输入法，要么需要打开一个独立窗口，打断感很强。你正在写文档，突然要切出去录个音，再切回来粘贴，想想都麻烦。

所以我给自己的工具设计了一个很简单的交互：

在任意应用里按 Ctrl+Alt+I，弹出一个小悬浮窗开始录音
说完话，自动识别转文字
直接插入到当前光标位置

不需要切应用、不需要切输入法、不需要复制粘贴，几秒钟就完成了。这个"无打断"的体验，用了一天之后我就回不去了。

尤其是写长文档的时候，先用语音把想法说出来，再稍微改改，比从零开始打字快得多。

等等，这个工具好像不只是语音输入

加完语音输入之后，到了晚上，我突然回过神来：这个工具好像已经不只是一个给自己用的玩具了。

我数了数，这个工具目前已经有了这些功能：

全局搜索面板：Alt+Space 呼出，聚合了应用启动、书签搜索、进程管理、翻译、时间戳转换、IP 查询、编解码、UUID 生成、二维码生成、JSON 格式化等一堆日常工具
剪贴板历史：自动记录文本/图片/文件的复制记录，支持搜索和预览
Snippet 文本片段：配置常用文本，输入关键词自动展开，还支持模板变量和修饰符链
翻译 + 命名助手：中英互译，自动转 camelCase、snake_case 等命名格式，程序员的刚需
系统命令控制：锁屏、音量、亮度、深色模式、Wi-Fi 开关……直接在搜索框里输入就能控制
项目命令面板：自动识别 Git 项目，一键执行 build/test/deploy
待办 + 外部数据小组件：悬浮球展示待处理数量，支持对接自定义接口
AI 语音输入：快捷键录音，实时识别，支持 AI 润色，直接插入光标位置

这些功能，每一个单拎出来可能都不算什么新鲜事。但把它们整合到一个统一的快捷键面板里，体验确实比我想象中好很多。

为什么要做这个工具

说回最初的动机。

在我第一次看到 Alfred 的时候，就被它惊艳到了，当天就下单买了终身会员。但是用了这么多年之后，越来越觉得不那么顺手了，虽然我也已经定制了很多 workflow，解决了自己很多日常工作。

怎奈 Alfred 没什么上进心啊，这么多年来，功能和 UI 基本上没有什么调整。

最关键的是，作为一个程序员，我总想按自己的习惯来。比如我想要在 Alfred 里加一个 JSON 格式化的面板，但是做不到啊；比如我想要更方便的用 goland 等工具打开项目，也是做不到啊。

这些小需求，单个都不难，但市面上很难找到一个工具能把它们全部串起来。

所以过年在家，我就决定自己写一个。用的是 Avalonia 框架，跨平台的，macOS 和 Windows 都能用。

写的时候其实没想太多，就是自己用着爽就行。但功能越加越多，慢慢地也就成了现在这个样子。

写在最后

说实话，我自己都没想到事情会发展成这样。

过年写这个工具的时候，纯粹就是不想用 Alfred 了，想自己造个轮子玩玩。后来加了翻译、加了剪贴板、加了 Snippet……每次都觉得"再加一个功能就够了"。

直到昨天因为嫌 AI 语音输入法太贵，自己动手加了一个，用了一整天之后，我才突然意识到：这个东西可能不只是我一个人需要。

虽然做的还比较粗糙，但是我实在是太激动了，所以迫不及待的想要分享给大家，欢迎大家试试看。

目前支持 macOS（Apple Silicon / Intel）和 Windows，可以在这里下载和查看使用文档：

👉 YuAI Tools：https://yuai.life/yuai-tools

如果你也在找一个好用又不贵的 AI 语音输入方案，或者你也是那种喜欢用快捷键搞定一切、不想在各种小工具之间来回切换的人，相信你会喜欢的。

有任何问题或建议，随时告诉我。这个工具还在持续迭代中，你的反馈对我来说非常重要。

最后，本项目 UI 使用的是 AtomUI 实现的，这是一款 Ant Design 官方认可的 .NET 版本实现的桌面跨端方案，项目质量真的很高，项目地址 https://github.com/AtomUI/AtomUI ，也推荐大家关注！

祝好