VoxClaw:给 AI 助手装上嘴巴,让它开口说话
你那个跑在服务器上的 AI 助手,其实也可以”开口说话”?不是那种冷冰冰的文本回复,而是真真切切地——读出来给你听。
今天要介绍的这款开源工具叫 VoxClaw,作者是 malpern。它是一个 macOS 菜单栏应用 + CLI 工具,专门解决一个问题:让 AI 的文字输出变成语音。
它解决了一个真实的需求
很多极客玩家喜欢把 OpenClaw 这类 AI 助手跑在服务器、树莓派、或者 Mac Mini 上——安静、省电、不占用主力电脑。但问题来了:AI 回复了一长段文字,你得盯着屏幕看。
VoxClaw 就是来解决这个体验痛点的。它可以在你的 Mac 上运行,接收来自网络中任何设备的文字,然后把文字朗读出来。无论你的 AI 跑在哪个角落,只要在同一局域网内,就能把语音推送到你面前的 Mac 上。

三种语音引擎,总有一款适合你
这是我觉得 VoxClaw 设计得最聪明的地方——分层体验,按需付费。
Apple TTS(免费):内置的 macOS 语音,完全免费,零配置。VoxClaw 会自动调用 AVSpeechSynthesizer,中文支持也相当不错。适合日常随手用,不花钱就是香。
OpenAI TTS(BYOK):只要填入你的 API Key,就能用上 gpt-4o-mini-tts 的神经语音。那个质感,比 Apple TTS 强了一个时代。适合对语音质量有追求的用户。
ElevenLabs TTS(BYOK):如果你想克隆特定音色,或者做多语言合成,ElevenLabs 是目前消费级最强的选择。VoxClaw 同样支持,API Key 自己填,完全去中心化。
更贴心的是:万一云端语音认证失败,VoxClaw 会自动降级回 Apple TTS——从不让你干等着说不出话。
提词器模式:看 + 听,双重输入
VoxClaw 有一个我认为非常加分的特性:提词器悬浮面板(Teleprompter Overlay)。
当 AI 朗读文字时,界面上会同步高亮当前正在读的词。这个功能看似简单,实际上对信息吸收效率有奇效——我之前看视频就发现很多博主也在用提词器,读和听双通道输入,理解速度明显更快。
而且这个悬浮面板支持大量自定义:字体、颜色、透明度、背景模糊……完全可以调成你喜欢的样子。

不只是 GUI,还有完整的 CLI 和网络 API
对于极客来说,GUI 是给人类用的,CLI 才是真爱。VoxClaw 提供了一个完整的命令行工具 voxclaw,支持:
voxclaw "Hello, this is a test."# 直接读echo"Read this"| voxclaw # 管道输入voxclaw --clipboard # 读剪贴板voxclaw --listen # 网络监听模式voxclaw --send "Hello from CLI"# 发送文字
网络监听模式是最有用的场景:在 Mac 上跑 voxclaw --listen,它就会在 4140 端口监听来自局域网的请求。然后在任何其他设备上:
curl -X POST http://192.168.1.50:4140/read \ -H 'Content-Type: application/json'\ -d '{"text": "Hello from my phone", "voice": "nova", "rate": 1.3}'
一条 curl,你的手机就能让 Mac 开口说话。
这意味着,AI 助手(跑在服务器上)→ 通过 API → VoxClaw(在 Mac 上)→ 语音输出给用户,这个完整链路是零门槛搭建的。
技术栈:Swift 6 + 现代并发
从开发角度,VoxClaw 也值得关注。它用 Swift 6 写的,严格并发模式(strict concurrency),代码质量相当高。架构设计很清晰:
输入(参数/stdin/文件/剪贴板/URL/网络) → InputResolver 解析文字 → ReadingSession 协调会话 → SpeechEngine(Apple | OpenAI | ElevenLabs,含降级策略) → AudioPlayer 调度 AVAudioEngine 缓冲区 → Timing pipeline 映射播放位置到单词索引 → FloatingPanelView 高亮当前单词
底层用的是 AVAudioEngine 做低延迟音频播放,Network.framework 做局域网服务发现(Bonjour _voxclaw._tcp),Keychain 做 API Key 安全存储。Swift Argument Parser 做 CLI 参数解析——全是苹果生态里最标准的工具链。
为什么这个项目值得关注
说实话,Text-to-Speech 的工具一搜一大把,但 VoxClaw 真正做对了几件事:
第一,网络优先。大多数 TTS 工具只能在本地用,VoxClaw 把”让远程机器发声”这件事做得很顺滑。对于多设备用户来说,这个价值是独特的。
第二,开源 + 自带 iOS App。作者把 iPhone companion app 的代码也一并开源了(VoxClawIOS/),这在同类工具里很少见。说明作者是真的在认真做产品,不是扔个半成品上来。
第三,API 设计干净。POST /read、GET /status、GET /claw,三个端点搞定一切,没有过度设计。对于想集成到其他工具里的开发者来说,上手成本极低。
如果你用 OpenClaw 或者类似需要语音反馈的 AI 系统,VoxClaw 是目前 macOS 上最顺滑的语音出口。它不是那种”能用就行”的凑合方案,而是真正把体验、架构、扩展性都考虑到了的开源作品。

↓ 点击阅读原文,查看相关链接
夜雨聆风