OpenClaw + 阿里 SenseVoice + Obsidian:免费语音笔记工作流实战

1. 那些年我用过的语音转录方案

免费的语音输入，有多好用？

一开始，我用的是手机上自带的语音输入——讯飞语音输入法、苹果自带的语音输入，这些都免费。但用下来问题不少：

标点符号识别不准：经常是一大段文字没有标点，或者标点错乱
转换精度不高：特别是一些专业词汇，经常识别错误
输入时长有限：很多工具单次输入有时长限制
稳定性一般：有时候转录到一半就卡住了

所以日常使用中，我一般不用这些语音转录工具。

Whisper 本地模型：理想很丰满，现实很骨感

后来了解到 OpenAI Whisper 开源模型，可以下载到本地免费使用。这听起来很美好——离线就能用，还免费。

但实际体验下来，问题很明显：太吃硬件了。

我有一个 32G 内存的 MacBook M 系列芯片，按理说性能不错。但问题在于，作为主力电脑，我不可能只运行语音转录这一个软件。Chrome、IDE、Obsidian……一堆东西开着，留给 Whisper 的内存和系统资源就很少了。

这导致什么结果呢？转录一个 10 分钟的语音，可能需要两三分钟。 这对我来说是不可接受的——总不能每次发完语音就干等着吧？

而且很多这类工具不支持后台转录，只能傻傻地盯着进度条。这体验，说实话有点折磨人。

Whisper API：效果好，但不够便捷

调用 OpenAI Whisper 在线 API 效果确实好，加上 AI 润色也能满足需求。但问题在于：在手机端和电脑端使用都很麻烦。

没有 Typeless 那么丝滑的跨设备体验，也没有那么方便的快捷启动方式。效果达标，但便捷性差了点。

2. Typeless：好用，但太贵了

直到我发现了 Typeless。这工具确实香：

手机、电脑端无缝切换
转录速度极快——8 分钟的语音，大概 1 分钟搞定
转录质量也相当满意

但问题来了：每月 30 美元，年付也要 12 美元/月。这个价格，让我肉疼了一下。

不过转念一想，我日常使用语音转录的频率非常高——每天很多次。算下来，它确实帮我省了很多时间和精力，文本质量也不错。所以咬咬牙，还是订阅了，用了大概一个月。

Typeless 的小遗憾

用了一段时间后，发现它有个局限：过于智能的格式化。

它会根据不同应用自动调整文本格式。比如在邮件中会添加抬头和结尾，在 Obsidian 中会精简内容。但这反而让我不舒服——

我想记录的是完整的思考过程，是详细的口述稿，而不是润色后的精简版条目。很多时候我就是想保存那个"一气呵成"的原始状态，细节很重要。

这时候我就开始琢磨：有没有更好的方案？

3. 意外的惊喜：TypeNo + 阿里 SenseVoice

后来我发现了 TypeNo——一个开源工具，可以在电脑上使用。

它的特点非常打动我：

完全免费使用
转录速度极快，和 Typeless 不相上下
支持中文、英文等语言，完全离线

你可能会问：体积这么小，效果能好吗？

我的实际体验是：惊！喜！

它的底层调用的是阿里开源的 SenseVoice 模型。虽然体积小（150MB 左右），但转录速度和准确率都非常让我满意。

我估计 Typeless 内部也是用的类似方案——先用小体积的离线模型快速转录，然后再用大模型（如 OpenAI）进行文本润色和格式适配。这么一想，很多商业工具的实现逻辑也就那么回事。

方案对比

方案	费用	速度	精度	便捷性	离线
手机自带输入法	免费	快	差	高	✓
Whisper 本地	免费	慢	好	低	✓
Typeless	$12-30/月	快	好	高	✗
SenseVoice + OpenClaw	免费	快	好	中	✓

4. 核心配置过程

技术架构

整个方案的架构是这样的：

语音输入：通过 Telegram 发送语音消息
转录引擎：优先使用阿里 SenseVoice 离线模型；如果失败，自动 fallback 到 OpenAI Whisper 在线模型
文本润色：通过 OpenClaw 接入的大语言模型进行润色——调整标点、段落、提取标题等
存储：直接写入 Obsidian Vault，通过 Obsidian Sync 同步到所有设备

为什么选择这个组合？

免费：离线转录不花钱；润色用的是账号绑定的大模型，也不额外收费
快速：SenseVoice 转录速度极快
灵活：可以自定义提示词，保留原始细节而不是过度精简

具体怎么实现的？

我在 OpenClaw 的目标电脑上配置了所有功能。逻辑如下：

语音消息 → SenseVoice 离线转录 → (失败则 Whisper API) → 大模型润色 → 写入 Obsidian

日常使用中，转录成功率非常高，我用了好几天几乎没有失败过，也基本没花过钱。

5. 实际使用体验

现在的使用流程是这样的：

在 Telegram 中进入一个专门的 Group Topic
发送语音消息
不需要等待，可以立刻去做其他事情

然后 OpenClaw 会在后台：

自动转录语音
润色文本（标点、段落、标题提取）
添加 front matter（时间戳、标签等）
自动提取任务：如果笔记中提到了待办事项，也会提取出来

完成后，它会告诉我：

笔记保存的路径
单词数量
转录方式（本地/在线）
费用（通常是 0）

每次看到费用是 0，都非常快乐 😂

跨设备同步

笔记会直接写入 Obsidian Vault，而那个 Vault 配置了 Obsidian Sync，所以：

主力电脑能看到
手机端能看到
所有设备同步

整个过程行云流水，非常流畅。

对比以前的记录方式

以前	现在
打开 Drafts → 记录 → 同步到 Obsidian	发送语音 → 搞定
先创建笔记 → 用 Typeless 输入 → 改名称 → 手动添加时间戳	发送语音 → 搞定
多个步骤，效率低	一个动作，全部自动完成

现在就是：发送语音，然后该干嘛干嘛去。

6. 后续优化方向

这篇文章本身就是用这个工作流生成的。发送语音 → 自动转录 → 稍作调整 → 搞定。

接下来还想探索的方向：

📌 任务提取的优化：让 AI 更准确地识别和提取待办事项
📌 笔记链接的优化：让 AI 自动链接其他相关的笔记

有兴趣的朋友可以关注一下，后续可能会分享更多细

7. 总结

这套工作流带给我的核心价值是：

✅ 免费：离线转录 + 账号绑定的大模型，基本不花钱
✅ 快速：1 分钟后台转录，不用干等
✅ 完整：保留所有细节，不过度精简

如果你也有类似的记录需求，希望这个方案能给你一些启发。有问题欢迎评论区交流～