
免费的语音输入,有多好用?
一开始,我用的是手机上自带的语音输入——讯飞语音输入法、苹果自带的语音输入,这些都免费。但用下来问题不少:
标点符号识别不准:经常是一大段文字没有标点,或者标点错乱 转换精度不高:特别是一些专业词汇,经常识别错误 输入时长有限:很多工具单次输入有时长限制 稳定性一般:有时候转录到一半就卡住了
所以日常使用中,我一般不用这些语音转录工具。
Whisper 本地模型:理想很丰满,现实很骨感
后来了解到 OpenAI Whisper 开源模型,可以下载到本地免费使用。这听起来很美好——离线就能用,还免费。
但实际体验下来,问题很明显:太吃硬件了。
我有一个 32G 内存的 MacBook M 系列芯片,按理说性能不错。但问题在于,作为主力电脑,我不可能只运行语音转录这一个软件。Chrome、IDE、Obsidian……一堆东西开着,留给 Whisper 的内存和系统资源就很少了。
这导致什么结果呢?转录一个 10 分钟的语音,可能需要两三分钟。 这对我来说是不可接受的——总不能每次发完语音就干等着吧?
而且很多这类工具不支持后台转录,只能傻傻地盯着进度条。这体验,说实话有点折磨人。
Whisper API:效果好,但不够便捷
调用 OpenAI Whisper 在线 API 效果确实好,加上 AI 润色也能满足需求。但问题在于:在手机端和电脑端使用都很麻烦。
没有 Typeless 那么丝滑的跨设备体验,也没有那么方便的快捷启动方式。效果达标,但便捷性差了点。
2. Typeless:好用,但太贵了
直到我发现了 Typeless。这工具确实香:
手机、电脑端无缝切换 转录速度极快——8 分钟的语音,大概 1 分钟搞定 转录质量也相当满意
但问题来了:每月 30 美元,年付也要 12 美元/月。这个价格,让我肉疼了一下。
不过转念一想,我日常使用语音转录的频率非常高——每天很多次。算下来,它确实帮我省了很多时间和精力,文本质量也不错。所以咬咬牙,还是订阅了,用了大概一个月。
Typeless 的小遗憾
用了一段时间后,发现它有个局限:过于智能的格式化。
它会根据不同应用自动调整文本格式。比如在邮件中会添加抬头和结尾,在 Obsidian 中会精简内容。但这反而让我不舒服——
我想记录的是完整的思考过程,是详细的口述稿,而不是润色后的精简版条目。很多时候我就是想保存那个"一气呵成"的原始状态,细节很重要。
这时候我就开始琢磨:有没有更好的方案?
3. 意外的惊喜:TypeNo + 阿里 SenseVoice
后来我发现了 TypeNo——一个开源工具,可以在电脑上使用。
它的特点非常打动我:
完全免费使用 转录速度极快,和 Typeless 不相上下 支持中文、英文等语言,完全离线
你可能会问:体积这么小,效果能好吗?
我的实际体验是:惊!喜!
它的底层调用的是阿里开源的 SenseVoice 模型。虽然体积小(150MB 左右),但转录速度和准确率都非常让我满意。
我估计 Typeless 内部也是用的类似方案——先用小体积的离线模型快速转录,然后再用大模型(如 OpenAI)进行文本润色和格式适配。这么一想,很多商业工具的实现逻辑也就那么回事。
方案对比
4. 核心配置过程
技术架构
整个方案的架构是这样的:
语音输入:通过 Telegram 发送语音消息 转录引擎:优先使用阿里 SenseVoice 离线模型;如果失败,自动 fallback 到 OpenAI Whisper 在线模型 文本润色:通过 OpenClaw 接入的大语言模型进行润色——调整标点、段落、提取标题等 存储:直接写入 Obsidian Vault,通过 Obsidian Sync 同步到所有设备
为什么选择这个组合?
免费:离线转录不花钱;润色用的是账号绑定的大模型,也不额外收费 快速:SenseVoice 转录速度极快 灵活:可以自定义提示词,保留原始细节而不是过度精简
具体怎么实现的?
我在 OpenClaw 的目标电脑上配置了所有功能。逻辑如下:
1
语音消息 → SenseVoice 离线转录 → (失败则 Whisper API) → 大模型润色 → 写入 Obsidian日常使用中,转录成功率非常高,我用了好几天几乎没有失败过,也基本没花过钱。
5. 实际使用体验
现在的使用流程是这样的:
在 Telegram 中进入一个专门的 Group Topic 发送语音消息 不需要等待,可以立刻去做其他事情
然后 OpenClaw 会在后台:
自动转录语音 润色文本(标点、段落、标题提取) 添加 front matter(时间戳、标签等) 自动提取任务:如果笔记中提到了待办事项,也会提取出来
完成后,它会告诉我:
笔记保存的路径 单词数量 转录方式(本地/在线) 费用(通常是 0)
每次看到费用是 0,都非常快乐 😂
跨设备同步
笔记会直接写入 Obsidian Vault,而那个 Vault 配置了 Obsidian Sync,所以:
主力电脑能看到 手机端能看到 所有设备同步
整个过程行云流水,非常流畅。
对比以前的记录方式
现在就是:发送语音,然后该干嘛干嘛去。
6. 后续优化方向
这篇文章本身就是用这个工作流生成的。发送语音 → 自动转录 → 稍作调整 → 搞定。
接下来还想探索的方向:
📌 任务提取的优化:让 AI 更准确地识别和提取待办事项 📌 笔记链接的优化:让 AI 自动链接其他相关的笔记
有兴趣的朋友可以关注一下,后续可能会分享更多细
7. 总结
这套工作流带给我的核心价值是:
✅ 免费:离线转录 + 账号绑定的大模型,基本不花钱 ✅ 快速:1 分钟后台转录,不用干等 ✅ 完整:保留所有细节,不过度精简
如果你也有类似的记录需求,希望这个方案能给你一些启发。有问题欢迎评论区交流~
夜雨聆风