乐于分享
好东西不私藏

[OpenClaw进阶玩法1] 让你的小龙虾能听声音and会讲话

[OpenClaw进阶玩法1] 让你的小龙虾能听声音and会讲话

一、引言

1.1 从「打字聊天」到「开口说话」

养虾第一阶段,大家多半是用文字和龙虾打交道:你打字,它回字。用久了自然会想:要是它能像人一样听得懂我说的话,再用声音回我一句,该多好。眼睛不用盯着屏幕,手上忙别的也能问一句「今天日程有啥」,这才是和 AI Agent 更自然、更接近真人的交互方式。

1.2 不止「能说」:多角色、有性格、有陪伴

一旦上了语音,玩法就多了。

多 Agent 场景:你可以给不同角色配不同音色,比如运营用女声、客服用男声、代码助手用另一种腔调。用户不用看屏幕,光听声音就能分辨「现在是谁在说话」,多任务并行时效率会高很多。

人格感:给某只龙虾固定一个你喜欢的音色,它在心理上会更像「一个具体的人」,而不是一串文字。互动会更有趣,也更容易投入。

情感陪伴与娱乐:睡前听它念一段、开车时和它聊几句,语音把 Agent 从「工具」往「伙伴」那边推了一步。

今天我们就从 OpenClaw 的语音入口(STT)和出口(TTS)怎么接、怎么配,一路说到配置技巧和进阶方向。


二、语音在 OpenClaw 里的位置:整体流程

OpenClaw 里,是两条线,在架构里各占一块。

  • 语音输入(STT/ASR)
    :用户发来的语音消息或附件里的音频,先被转成文字(转录),再把这串文字当「用户说的一句话」喂给 Agent。配置在 tools.media.audio,包括用哪个模型/服务转写、大小限制、是否把转录结果回显到聊天里等。
  • 语音输出(TTS)
    :Agent 的回复(或其中一段)被转成音频,再通过渠道发出去,比如 Telegram 的语音气泡。配置在 messages.tts,包括用哪个 TTS 服务、默认音色、是否自动把每条回复都读出来等。

流程可以简化为:

三、TTS:让小龙虾「会讲话」

3.1 方案大致分两类

本地方案(不依赖云、不花 API 钱):

  • Edge TTS
    :用微软 Edge 的在线神经 TTS,通过 node-edge-tts 调用,不需要 API Key,音质不错。适合入门、不想折腾密钥的人。
  • mlx-audio
    :Apple Silicon 上跑的本地 TTS,延迟低,隐私好,适合 Mac 用户想完全本地的场景。
  • mac-tts
    :基于系统 say 命令,零配置,音色和效果比较基础,适合「能出声就行」的快速验证。

云端方案(按量付费、音色多、效果稳定):

  • 腾讯云、阿里云、AWS 等都有 TTS 能力;不少用户反馈腾讯云 TTS 价格便宜,国内接入也方便。阿里、AWS 类似,按需选。

第一次玩语音回复,建议先用 Edge TTS 把链路跑通,再按需要换成本地(mlx-audio)或云(如腾讯云)。

3.2 配置写在哪:messages.tts

TTS 的配置节点是 messages.tts,写在 openclaw.json(或你用的配置里)。下面是一个「自动语音 + Edge 为主」的示例:

{  "messages": {    "tts": {      "auto": "always",      "provider": "edge",      "edge": {        "enabled": true,        "voice": "zh-CN-XiaoxiaoNeural",        "lang": "zh-CN",        "outputFormat": "audio-24khz-48kbitrate-mono-mp3",        "rate": "+0%",        "pitch": "+0%"      }    }  }}
  • auto: "always"
    :每条回复都转成语音。还可选 "inbound"(只有你发语音时才回语音)、"tagged"(仅带 [[tts]] 的回复才读)、"off"(关掉自动)。
  • provider: "edge"
    :优先用 Edge TTS;不配 API Key 时 OpenClaw 默认也是 Edge。
  • edge.voice
    :音色,如普通话女声「晓晓」zh-CN-XiaoxiaoNeural、粤语女声「晓曼」zh-HK-HiuMaanNeural。更多音色查微软文档或社区技能。

3.3 交给龙虾来配

不想手改 JSON 的话,可以直接对龙虾说人话,让它帮你改配置或给出可粘贴的片段。

例如:

默认语音:zh-CN-XiaoxiaoNeural(晓晓,普通话女声);粤语语音:zh-HK-HiuMaanNeural(晓曼,粤语女声);所有回复自动语音。

3.4 找现成方案:clawhub / skillhub 搜 tts

社区里已经有人把各种 TTS(Edge、腾讯云、mlx-audio 等)做成技能或配置片段。在 clawhub 或 skillhub 里搜 tts,可以找到一键配置、音色列表、故障排查等,比自己从零查文档快。


四、STT(ASR):让小龙虾「能听」

4.1 方案大致分两类

本地方案

  • mlx-whisper
    :Apple Silicon 上跑的 Whisper,速度快、隐私好,Mac 用户首选
  • faster-whisper、openai-whisper
    :经典转录方案,跨平台,需要自己装环境和模型。

云端方案

  • 腾讯云 tencentcloud-asr、阿里云、AWS 等,按分钟或按次计费。国内入门可以优先试 tencentcloud-asr,价格相对友好。

STT 在 OpenClaw 里归在 音频理解(audio understanding):语音/音频附件当作媒体输入,由 tools.media.audio 里配置的模型列表依次尝试转写。

4.2 配置写在哪:tools.media.audio

STT 相关配置在 tools.media.audio,其中 models 决定「用谁来转写、按什么顺序试」。

示例(先云端再本地 CLI):

{  "tools": {    "media": {      "audio": {        "enabled": true,        "maxBytes": 20971520,        "language": "zh",        "models": [          { "provider": "openai", "model": "gpt-4o-mini-transcribe" },          {            "type": "cli",            "command": "whisper",            "args": ["--model", "base", "{{MediaPath}}"],            "timeoutSeconds": 45          }        ]      }    }  }}
  • enabled: true
     打开音频理解;不发语音可以关掉。
  • models
     是一个有序列表:先试第一个(例如 OpenAI 转写),失败或跳过再试下一个(例如本机 whisper CLI)。把 tencentcloud-asrmlx-whisper 等配成 provider 或 CLI 条目即可,具体字段以社区技能或文档为准。

不配 models 时,OpenClaw 会按默认顺序自动检测(本地 CLI、Gemini、OpenAI 等),本机有对应命令且没关掉 tools.media.audio 就会尝试用。

4.3 交给龙虾来配(例如 mlx-whisper)

你可以用自然语言让龙虾帮你写 STT 配置,例如:

用 mlx-whisper 做语音转文字,本机优先,转写超时 60 秒。

龙虾会根据你当前环境(是否 Mac、是否已装 mlx-whisper)给出 tools.media.audio.models 片段,你贴进配置即可。

4.4 找现成方案:clawhub / skillhub 搜 stt 或 asr

在 clawhub 或 skillhub 里搜 stt 或 asr,可以找到 tencentcloud-asr、mlx-whisper、faster-whisper 等现成配置或技能,直接套用或改几项即可。


五、进阶:方言、声音克隆与更多

如果你有方言、多语种、声音克隆等需求,可以往这些方向看:

  • NoizAI:提供高质量克隆/定制音色的服务,可对接 OpenClaw 的 TTS 能力(通过自定义 provider 或技能)。
  • 各大云厂商也有「定制发音人」「声音复刻」类产品,按厂商文档配置到 messages.tts 的对应 provider 即可。

这类算进阶玩法,先把 Edge + 腾讯云 ASR 或 mlx-whisper 跑顺,再按需加一层。


六、小结:方案对比与怎么选

维度
本地(Edge / mlx-whisper 等)
云端(腾讯云 / 阿里 / AWS 等)
成本
无持续 API 费(Edge)或仅算力
按量付费,腾讯云 ASR/TTS 较便宜
隐私
数据不出机/少出机
音频走厂商,需看合规要求
音色/效果
Edge 够用;mlx 看模型
音色多、可定制、稳定
适用场景
入门、个人、不想掏钱
正式环境、多角色、要方言/克隆

建议

  • 先打通
    :Edge TTS + 任一本机或云端 STT(如 mlx-whisper 或 tencentcloud-asr),保证「能听、能说」。
  • 再优化
    :按需求换音色、加多角色、上云端或本地高阶方案。
  • 找现成
    :clawhub / skillhub 搜 ttssttasr,省时间。

七、结语:从「打字」到「对话」

和龙虾打交道,已经可以从「只能打字」变成「你说它听、它说你听」。

多 Agent 时用不同音色区分角色,单 Agent 时用固定音色增加真实感;往后还会有更自然的打断、情绪和多轮节奏。

先把听和说的链路在 OpenClaw 里跑起来,再往「更像人」的方向慢慢调,小龙虾就能从「能听声音 and 会讲话」一步步变成你习惯的那种语音伙伴。


延伸阅读

  • Text-to-Speech(TTS 配置与命令)
  • Audio and Voice Notes(音频理解与 STT 配置)
  • clawhub / skillhub 搜索:ttssttasr