当AI学会＂打电话＂:OpenClaw语音功能深度体验

导读：这篇文章介绍了 OpenClaw 的语音功能，核心是通过 STT（识别）和 TTS（合成）实现免打字交互，支持多种主流模型与系统原生语音，覆盖了开车、做饭等解放双手的实用场景。

‍‍

关注非典型理科男，回复：AI资料获取《AI资料合集》

点击阅读：OpenClaw合集

Start

当AI学会"打电话"：OpenClaw语音功能深度体验

从打字到说话，AI助手的交互方式正在发生质变。用了一个月OpenClaw的语音功能，我发现这才是AI该有的样子。

一、打字累了，让AI听你说话

说实话，用了这么多年AI助手，我最烦的就是打字。

尤其是那些复杂的任务描述——要写一大段Prompt，还得组织语言、加各种格式。有时候脑子想的，手打出来就变味了。

直到我用上OpenClaw的语音功能，才发现：原来跟AI说话，比打字爽太多了。

你可以躺在沙发上，随口说一句："帮我查查明天上海的天气，然后告诉我穿什么合适"，AI就帮你搞定了。全程不用动一根手指。

这让我想起第一次用Siri的感觉——但这次是真的好用。

二、OpenClaw语音功能到底能干啥？

OpenClaw的语音功能其实分成两块：语音输入和语音输出。

1. 语音输入（STT）

OpenClaw支持语音识别（Speech-to-Text），你可以直接对着手机或电脑说话，AI会自动转成文字理解。

目前支持的语音识别方式：

系统语音识别
：macOS/iOS自带的Siri语音识别
Whisper API
：OpenAI的Whisper模型，准确率很高
本地Whisper
：可以本地部署，数据不上云（隐私党狂喜）

信息来源：OpenClaw官方文档 nodes/audio 章节

2. 语音输出（TTS）

AI回复你时，可以直接用语音读出来。这个功能在开车、做饭、运动的时候特别实用。

OpenClaw支持的语音合成提供商（TTS Provider）包括：

提供商	特点	适用场景
ElevenLabs	音质顶级，声音自然	英语内容，追求质量
Fish Audio	支持声音克隆，中文不错	个性化语音，中文场景
MiniMax	中文语音质量高	中文对话，国内用户
火山引擎（ByteDance）	豆包语音，中文自然	国内用户，性价比高
小米MiMo	即将支持	小米生态用户
系统TTS	免费，无需API Key	省钱首选，基础够用

信息来源：OpenClaw GitHub PR #56891、#55641、#49894、#55614

三、怎么配置语音功能？

配置其实比你想的简单。

语音输入配置

在OpenClaw的配置文件里，加上这几行就行：

{messages:{speech:{stt:{provider:"openai",// 或 "whisper" | "system"openai:{apiKey:"your-openai-api-key",model:"whisper-1"}}}}}

语音输出配置

以ElevenLabs为例：

{messages:{tts:{provider:"elevenlabs",elevenlabs:{apiKey:"your-elevenlabs-api-key",voiceId:"pNInz6obpgDQGcFmaJgB",// 选一个你喜欢的声音model:"eleven_multilingual_v2"}}}}

信息来源：OpenClaw官方文档 nodes/talk-mode

一个省钱小技巧

如果你不想花钱买API，可以只用系统TTS。macOS和iOS自带的语音合成虽然没那么自然，但日常用完全够了。

{messages:{tts:{provider:"system",system:{voice:"com.apple.voice.compact.zh-CN.TingTing"// 中文婷婷音}}}}

四、语音功能的三大实用场景

场景一：开车时查信息

以前开车时想查个东西，得停车、掏手机、打字。现在直接喊一嗓子：

"OpenClaw，帮我查一下前面那个服务区的充电桩"

AI会用语音回复你："前方5公里服务区有8个快充桩，当前空闲4个..."

全程手不离方向盘。

场景二：做饭时"听"菜谱

做饭的时候手是湿的，看手机不方便。你可以让AI把菜谱读出来：

"帮我找一下红烧肉的做法，然后一步步读给我听"

AI会像个小助手一样，每做完一步你让它继续，它才会念下一步。

场景三：睡前"听"文章

看到一篇长文章不想看？让AI读给你听，闭眼休息。

"把这篇文章总结成要点，然后用语音读给我听"

这比那些机械朗读的新闻App舒服多了——因为OpenClaw用的是ElevenLabs这种高质量的语音合成，听起来更像真人。

五、语音功能的使用体验

用了一个月，说说真实感受：

优点

解放双手
：做饭、开车、运动时也能用AI
更快表达
：说话比打字快，复杂任务描述更自然
ElevenLabs音质确实顶
：英语内容听起来几乎像真人

缺点

中文TTS还有提升空间
：ElevenLabs的中文有点"洋味"，Fish Audio和MiniMax更适合中文
需要环境安静
：背景太吵的话语音识别会出错
消耗API额度
：ElevenLabs和Whisper都是按量计费，重度使用有点烧钱

六、语音功能的未来想象

现在的语音功能，还只是"文字到语音"的转换。但我能想象到的未来场景更酷：

实时电话助手
：AI帮你接电话、筛选推销电话
多轮语音对话
：不用每次喊唤醒词，像真人聊天一样连续对话
情感语音
：AI能根据内容调整语气，开心时兴奋，悲伤时低沉

其实OpenClaw的Talk Mode已经在往这个方向走了——它支持连续语音对话，不需要每次唤醒。

信息来源：OpenClaw README.md - Voice Wake + Talk Mode

七、给你的配置建议

如果你也想试试OpenClaw的语音功能，我的建议是：

用户类型	推荐配置
英语用户	ElevenLabs TTS + OpenAI Whisper STT
中文用户	MiniMax 或火山引擎 TTS + 系统/Whisper STT
省钱党	系统TTS + 系统STT
隐私党	本地Whisper + 系统TTS