OPENCLAW图像与声音生成能力总结

本文档详细说明当前配置的图像生成和语音合成能力，包括无需API Key的可选方案。

一、图像生成能力

1. 豆包图片生成器（推荐 - 无需API Key）

技能名称: doubao-image-generator

特点: 无需API Key，通过浏览器自动化，支持海报、插画、贴纸、头像，需要Chrome浏览器和豆包账号

触发方式: "生成一张卡通蚕宝宝图片"、"帮我画一个日出风景"、"做一张科技感海报"

配置要求: Chrome浏览器已安装 + 豆包账号（doubao.com）

安装位置: ~/.openclaw/workspace/skills/doubao-image-generator/

2. Wuli艺术平台（需要API Token）

技能名称: wuli

特点: 17+ AI模型（通义万相、可灵、Seedream等），支持文生图、图生图、文生视频，无水印下载

环境变量: export WULI_API_TOKEN="your-token-here"

获取Token: https://wuli.art 左下角「API入口」

使用示例:

python3 skill.py --action image-gen --prompt "一只可爱的熊猫" python3 skill.py --action txt2video --prompt "海浪夕阳"

模型列表:

文生图：Qwen Image、Seedream、通义万相
图生图：支持多参考图
文生视频：可灵、Seedance、MiniMax Hailuo

3. 豆包图片API（需要API Key）

技能名称: doubao-image

环境变量: export VOLCENGINE_IMAGE_API_KEY="your-key-here"

获取Key: https://console.volces.com 应用与插件 API Key

支持尺寸: 1024x1024, 1280x720, 720x1280, 1024x768, 768x1024

使用方式: "生图：一只可爱的小猫"

4. OpenAI图片生成（需要API Key）

技能名称: openai-image-gen

配置: 使用OpenClaw内置的DALL-E集成

二、声音生成能力

1. Edge TTS（推荐 - 免费无需API Key）

特点: 完全免费，无需API Key，使用微软Edge在线语音服务，支持70+语音，多语言，Python库开源免费

安装: pip install edge-tts

使用示例:

# 列出所有语音 edge-tts --list-voices # 生成语音 edge-tts --text "你好，欢迎使用" --write-media hello.mp3 # 指定语音 edge-tts --voice zh-CN-XiaoxiaoNeural --text "你好" --write-media hello.mp3

可选语音:

中文：zh-CN-XiaoxiaoNeural（晓晓）、zh-CN-YunxiNeural
英文：en-US-JennyNeural、en-US-GuyNeural
更多可用 edge-tts --list-voices 查看

2. Noiz AI（免费额度）

官网: https://noiz.ai/

特点: 免费AI语音生成，支持语音克隆、语音设计，多语言支持

使用方式: 访问 https://noiz.ai/ 注册账号，在网页端生成语音或查看API文档集成

3. ElevenLabs TTS（需要API Key）

技能名称: sag

环境变量: export ELEVENLABS_API_KEY="your-key-here"

特点: 高质量语音合成，支持多语言、音色丰富，可通过sag命令行使用

使用示例:

sag "Hello there" sag voices sag speak -v "Roger" "Hello"

获取Key: https://elevenlabs.io/

4. Sherpa-ONNX TTS（完全离线无需API Key）

技能名称: sherpa-onnx-tts

特点: 完全本地离线运行，无需API Key，支持多语言、多音色，支持系统: macOS、Linux、Windows

环境变量:

export SHERPA_ONNX_RUNTIME_DIR="/path/to/sherpa-onnx-runtime" export SHERPA_ONNX_MODEL_DIR="/path/to/models"

使用示例: "朗读：今天天气真好" / "语音合成：欢迎来到殡葬服务系统"

三、零API Key安装指南

如果暂时没有API Key，推荐使用以下组合：

能力	方案	所需
图片生成	doubao-image-generator	Chrome + 豆包账号
语音合成	edge-tts	Python + pip

快速启用无需Key的方案

1. 豆包图片生成器:

cp -r ~/.nvm/versions/node/v22.22.1/lib/node_modules/openclaw/skills/doubao-image-generator ~/.openclaw/workspace/skills/

2. Edge TTS:

pip install edge-tts edge-tts --text "测试语音" --write-media test.mp3

四、完整配置示例

无API Key最小配置:

skills:   doubao-image-generator:     enabled: true

有API Key完整配置:

# 环境变量 export VOLCENGINE_IMAGE_API_KEY="your-volcengine-key" export WULI_API_TOKEN="your-wuli-token" export ELEVENLABS_API_KEY="your-elevenlabs-key"

五、技能位置汇总

技能	路径
doubao-image-generator	~/.openclaw/workspace/skills/doubao-image-generator/
doubao-image	~/.openclaw/workspace/skills/doubao-image/
wuli	~/.openclaw/workspace/skills/wuli/
sag	~/.nvm/.../openclaw/skills/sag/
sherpa-onnx-tts	~/.nvm/.../openclaw/skills/sherpa-onnx-tts/

六、验证安装

# 测试图片生成 openclaw exec "生成一张风景图" # 测试语音合成 edge-tts --text "测试语音" --write-media test.mp3

本文档最后更新: 2026-03-27