这两天我又看到一种很典型的“AI 效率税”。
不是模型订阅,不是图片额度,而是语音输入。
一旦你习惯了对着电脑说话,让它自动把文字打进微信、Slack、ChatGPT、Notion 或编辑器里,确实很难再回到纯键盘模式。但问题也很现实:这类工具很容易变成一笔每个月都在扣的钱。
以 Wispr Flow 为例,官方现在的 Flow Pro 是 15 美元/月。如果你每天都在重度用,也许值;但如果你只是想把“语音转文字”这件事跑通,很多人最后买到的,其实是一种并没有完全用满的方便。
所以我这次盯上的,不是又一个新模型,而是一个刚更新到最近 48 小时窗口里的开源项目:TypeWhisper for Mac。
它最吸引我的地方不是“功能最多”,而是这几个关键词几乎都打在了痛点上:
免费离线系统级热键支持本地模型真的能直接装起来用
换句话说,它不是那种“看起来很强,但你最后懒得配”的项目,而是有机会直接替掉一部分语音输入订阅费的工具。

图:TypeWhisper 的首页界面,项目本身自带完整 GUI,不是那种只能在终端里折腾的 demo。
这东西到底能帮你省什么钱
如果你只是想要下面这类能力:
按一个热键开始说话 松开后自动转成文字 文字直接贴进当前输入框 尽量别把语音上传云端
那很多收费产品卖给你的,本质上也是这一层体验。
而 TypeWhisper 现在已经把这条链路做得很完整了。它支持:
本地模型和云端 API 二选一 系统级听写 文件转录 历史记录 自定义 Prompt 处理文本 按 App 配不同配置
对大多数普通用户来说,真正常用的可能只有前两层:全局热键 + 本地转写。但也正因为这样,它才更像一个“能替订阅”的工具,而不是另一个玩具。
我觉得最值得抄的,是它这 4 步上手路径
这项目的 README 写得很完整,真正照着做并不难。
第一步:先装上
最省事的是两种方式:
直接下最新 DMG或者用 Homebrew:
brew install --cask typewhisper/tap/typewhisper如果你是普通用户,直接装 DMG 就够了。项目本身也明确说了,1.0 的目标就是“可直接下载、直接用”,不是只给开发者看的实验品。
第二步:先把权限给对
这一步很关键。因为所有“全局热键听写工具”最后卡住的地方,通常不是模型,而是权限。
按它现在的默认流程,你至少要给两类权限:
MicrophoneAccessibility
没有这两个权限,它就没法监听你的说话,也没法把转好的文字自动贴进当前 App。
第三步:选一个适合你机器的引擎
这是它比很多“极简听写工具”更强的一点。
它不是只有一种识别方式,而是给了多套引擎:
WhisperKitParakeet TDT v3Apple SpeechAnalyzerQwen3 ASRVoxtral以及 Groq/OpenAI 这类云端方案
如果你就是想省钱,那最直接的做法其实很简单:
优先选 本地引擎先不要接任何 API 先把“离线可用”跑通
它在 README 里还给了很实用的模型建议:
8GB 以下:从 Whisper Tiny / Base开始8GB-16GB:可以试 Whisper Small或Large v3 Turbo16GB 以上:再考虑更大的模型
这一步的核心不是“选最强”,而是先选一套你电脑真能稳定跑起来的组合。

图:TypeWhisper 的录音与热键界面。它不是“先转完再想办法粘贴”的思路,而是直接把全局热键做成核心入口。
第四步:把你的第一次听写跑通
它给的 Quick Start 很短,基本就是:
装好 开权限 选引擎、下载本地模型 触发全局热键,说一句话
如果你只是想验证“这东西够不够替代订阅工具”,做到这里其实就够了。
因为你真正要判断的不是它有没有 100 个功能,而是下面这三个问题:
延迟你能不能接受 识别准确率够不够你日常用 贴进微信、浏览器、编辑器时顺不顺
这三个一旦成立,它就已经开始替你省钱了。
它为什么比很多“免费替代品”更像真的能用
我觉得关键不在“免费”,而在它没有停留在那种最原始的开源项目状态。
你能明显看出来它在往“可日常使用”靠:
有完整 GUI 有历史记录 有按 App 配不同规则 有文件转录 甚至还有本地 HTTP API 和 CLI
这意味着它不是只想做一个语音转文字的小壳子,而是想把“语音输入”做成一层真正能嵌进工作流的基础设施。
如果你只是偶尔说两句话,那也许无所谓。
但如果你已经开始频繁把语音当输入方式,这种差别会很明显:你要的不是一个 demo,而是一个不会每两天就逼你换回键盘的工具。

图:TypeWhisper 的通用设置页。可以看出它已经在往“长期使用的桌面工具”做,而不是单一功能的临时脚本。
这类工具最适合哪种人
我觉得最适合 3 类人:
已经在为语音输入工具付月费,但其实只是用核心转写功能的人对隐私比较敏感,不想把语音一直发到云端的人本来就习惯在 Mac 上用热键驱动工作流的人
当然,它也不是没有门槛。
比如它目前还是更适合:
macOS 14+最好 Apple Silicon至少 8GB RAM
而且如果你特别看重“开箱即用、零配置、跨设备同步”,那商业产品还是会更省心。
但如果你现在的核心目标是这句:
先别再为一件已经能本地跑通的事继续交月费。
那这类项目就很值得你试一次。
如果你今晚就想试,按这 3 步就够了
装上 TypeWhisper只给它 Microphone + Accessibility先选一个本地模型,直接做一次全局热键听写
先别研究高级功能,也别急着调最复杂的模型。
先确认一件事:
你现在每个月花钱买的那层“语音输入体验”,是不是其实已经能被一个免费离线工具顶掉大半。
如果答案是“能”,那这篇文章对你最重要的意义就不是又认识了一个开源项目,而是你可能真的少了一笔以后每个月都会被扣的钱。
夜雨聆风