让 OpenClaw 灵动起来,真的“跳出屏幕”

OpenClaw 不该只会打字，我把它一步步拉出了终端”

OpenClaw 这种 agent 如果只能打字，味道还是差一截。命令能跑，任务能做，但它始终像个被困在黑框里的苦力。

我这次折腾的目标很简单：给它补上形象、声音和耳朵。做完之后，那种“它终于活过来一点”的感觉，真挺强。

环节	之前的状态	我最后的做法
形象	只可以用图片表达自己	用 ModelScope 生一个固定视觉形象
声音	只能输出文本	用 MiniMax TTS 直接合成语音
耳朵	只能收文字	录音转文字，接回 agent 流程

让openclaw有自己的声音样貌

最表层的三件事：形象、声音、输入方式一补齐，OpenClaw 给人的感受会瞬间变掉，后面很多产品决策也会跟着顺下来。

毕竟一个对话工具和一个有声音和形象的龙虾差距真的很大

第一步：先给 OpenClaw 一张脸

我这次用的是 ModelScope 上的 Tongyi-MAI/Z-Image-Turbo。

我选它，因为它参数容易上手，轻，中文提示词表现好，接进现有流程也流畅。

ModelScope 还有个现实优势，它是阿里体系里的开源平台，国内网络环境下顺手很多。拿一个通用 API Key，就能先把图生这一段打通。

我这边实际验证过的调用方式，就是异步提交任务，再轮询结果。

# 1. 提交异步生成任务curl -X POST "https://api-inference.modelscope.cn/v1/images/generations" \  -H "Authorization: Bearer <YOUR_MODELSCOPE_KEY>" \  -H "Content-Type: application/json" \  -H "X-ModelScope-Async-Mode: true" \  -d "{\"model\":\"Tongyi-MAI/Z-Image-Turbo\",\"prompt\":\"数字水墨风格，人工智能精神化身，飘逸灵动，4K\",\"n\":1,\"size\":\"1024x1024\"}"# 2. 轮询结果curl "https://api-inference.modelscope.cn/v1/tasks/<TASK_ID>" \  -H "Authorization: Bearer <YOUR_MODELSCOPE_KEY>" \  -H "X-ModelScope-Task-Type: image_generation"

我给 OpenClaw 设的视觉方向是“数字水墨里的 AI 精神化身”。这个方向有点冒险，但我自己挺喜欢，因为它有一种很轻的东方感，不像很多默认 AI 头像那样一股塑料未来风。

如果后面要做公众号、播客封面、甚至短视频口播，这张脸都会反复出现。前面这一步看着像装饰，后面其实是在给整个内容系统立锚点。

第二步：再给它一条声音

有了脸还不够，OpenClaw 还得开口。

我这次推荐的是 MiniMax。大家现在听到这家公司下意识都觉得他是一家市值超过百度主打ai编程的公司实则不然在minimax因为编程火之前他的tts模型本来就算是首屈一指 lailuo ai（海螺视频）也相当能打尤其是最近的minimanx codingplan 最近竟然根据档位赠送了生图和tts 额度可以说非常香了

🚀 MiniMax Token Plan 惊喜上线！新增语音、音乐、视频和图片生成权益。邀请好友享双重好礼，助力开发体验！

好友立享 9折专属优惠 + Builder 权益，你赢返利 + 社区特权！

👉 立即参与：https://platform.minimaxi.com/subscribe/token-plan?code=EisFPS1bcN&source=link

我这边跑通的是 WebSocket 流式接口，地址是 wss://api.minimaxi.com/ws/v1/t2a_v2。这条线是minimax的官方url，边生成边收音频，流程顺得多，不用傻等整段文本全部结束。

# 1. 建立 WebSocket 连接ws = await websockets.connect("wss://api.minimaxi.com/ws/v1/t2a_v2",    headers={"Authorization": f"Bearer {API_KEY}"},    ssl=ssl_context,)# 2. 发 task_startawait ws.send(json.dumps({"event": "task_start","model": "speech-2.8-hd","voice_setting": {"voice_id": "female-tianmei","speed": 1,"vol": 1,"pitch": 0,"english_normalization": False    },"audio_setting": {"sample_rate": 32000,"bitrate": 128000,"format": "mp3","channel": 1    }}))# 3. 发正文await ws.send(json.dumps({"event": "task_continue","text": TEXT}))

我是plus极速版模型，当时把几个模型都过了一遍，最后只有 speech-2.8-hd 在这个账户上稳定跑通。大家要根据自己的plan档位看好对应的模型

模型	结果
`speech-2.6-turbo`	账户不支持
`speech-2.8-turbo`	账户不支持
`speech-02-turbo`	无音频返回
`speech-02-hd`	无音频返回
`speech-2.6-hd`	无音频返回
`speech-2.8-hd`	成功，返回约 1.2MB 音频

语音这一步不是锦上添花。

文字是工具，声音是陪伴。前者适合执行，后者更容易把系统推到真实使用场景里。

第三步：最后给它一双耳朵

如果 OpenClaw 只能看、只能说，还不太够，得能听。

这一步我现在会分两条线看。想快，直接用现成工具。想长期掌控，就上开源方案。

如果是先把流程跑起来，我会先看 Typeless 这类近期很热的工具，或者直接用飞书聊天窗口 App 自带的语音转文字。优点就是快，代价是系统边界在别人手里。

也可以用最近很火的typeless 这个每个月会赠送固定的额度

如果预算敏感，或者对于隐私要求很高，我更推荐看微软开源的VibeVoice

“AI播客”爆发， VibeVoice刚好是底层能力 AI播客（自动对话），AI视频配音，AI主播它可以直接生成“多人对话语音”

最长 90分钟连续语音支持最多4人对话有停顿、呼吸、情绪（不像机器人）对话连贯角色一致性强

总之：微软开源的VIbe Voice我非常推荐出海做项目这个是最好的这个项目甚至因为deepfake（太真实了）一度面临下架

支持0.5，1.5，7B参数分别适配8，16，16+GB显存不过这个目前是英文友好虽然支持中文但是商用的话差一点

我最后的组合建议

我现在比较认的一套，是这样配：

形象层用 ModelScope 先跑通，固定一套视觉提示词。
语音层用 MiniMax 先拿到稳定效果，别在第一天就掉进开源工程坑里。
语音转录这条线，再逐步换到 VibeVoice + Qwen3-ASR 这种更可控的组合。

这套路线的好处，是每一步都能独立见效。不会出现那种全栈都想抓，结果每一段都卡住的局面。

我自己最强的感受是，OpenClaw 一旦有了脸、有了声音、有了耳朵，它就不再只是一个在终端里执行命令的东西了。

它开始有一点“跳出屏幕”的意思。

写在最后

给 agent 补形象、声音和耳朵，看着像表层包装，实际上是在补人与系统之间最关键的那层感知接口。

最后再次推荐一下minimax的coding plan 是目前国内coding plan唯一的一个套餐生图语音编程全部囊括的plan

max版本还支持海螺视频模型完全可以打造自己的内容矩阵

可以扫描我的专属二维码领取优惠哦

我是木乔，致力于把 AI 调教成"全自动打工仔"的开发者和产品经理。关注我，一起探索让 AI 更懂你的方式。

引用来源

平台	资源	链接
ModelScope	Tongyi-MAI/Z-Image-Turbo 模型页	https://www.modelscope.cn/models/Tongyi-MAI/Z-Image-Turbo
MiniMax	Speech T2A WebSocket 文档	https://platform.minimaxi.com/docs/guides/speech-t2a-websocket
Microsoft	VibeVoice GitHub 仓库	https://github.com/microsoft/VibeVoice
arXiv	VibeVoice 论文	https://arxiv.org/abs/2508.19205
Qwen Team	Qwen3-ASR GitHub 仓库	https://github.com/QwenLM/Qwen3-ASR
arXiv	Qwen3-ASR 技术报告	https://arxiv.org/abs/2601.21337