本文档详细说明当前配置的图像生成和语音合成能力,包括无需API Key的可选方案。
一、图像生成能力
1. 豆包图片生成器(推荐 - 无需API Key)
技能名称: doubao-image-generator
特点: 无需API Key,通过浏览器自动化,支持海报、插画、贴纸、头像,需要Chrome浏览器和豆包账号
触发方式: "生成一张卡通蚕宝宝图片"、"帮我画一个日出风景"、"做一张科技感海报"
配置要求: Chrome浏览器已安装 + 豆包账号(doubao.com)
安装位置: ~/.openclaw/workspace/skills/doubao-image-generator/
2. Wuli艺术平台(需要API Token)
技能名称: wuli
特点: 17+ AI模型(通义万相、可灵、Seedream等),支持文生图、图生图、文生视频,无水印下载
环境变量: export WULI_API_TOKEN="your-token-here"
获取Token: https://wuli.art 左下角「API入口」
使用示例:
python3 skill.py --action image-gen --prompt "一只可爱的熊猫" python3 skill.py --action txt2video --prompt "海浪夕阳"模型列表:
文生图:Qwen Image、Seedream、通义万相 图生图:支持多参考图 文生视频:可灵、Seedance、MiniMax Hailuo
3. 豆包图片API(需要API Key)
技能名称: doubao-image
环境变量: export VOLCENGINE_IMAGE_API_KEY="your-key-here"
获取Key: https://console.volces.com 应用与插件 API Key
支持尺寸: 1024x1024, 1280x720, 720x1280, 1024x768, 768x1024
使用方式: "生图:一只可爱的小猫"
4. OpenAI图片生成(需要API Key)
技能名称: openai-image-gen
配置: 使用OpenClaw内置的DALL-E集成
二、声音生成能力
1. Edge TTS(推荐 - 免费无需API Key)
特点: 完全免费,无需API Key,使用微软Edge在线语音服务,支持70+语音,多语言,Python库开源免费
安装: pip install edge-tts
使用示例:
# 列出所有语音 edge-tts --list-voices # 生成语音 edge-tts --text "你好,欢迎使用" --write-media hello.mp3 # 指定语音 edge-tts --voice zh-CN-XiaoxiaoNeural --text "你好" --write-media hello.mp3可选语音:
中文:zh-CN-XiaoxiaoNeural(晓晓)、zh-CN-YunxiNeural 英文:en-US-JennyNeural、en-US-GuyNeural 更多可用 edge-tts --list-voices 查看
2. Noiz AI(免费额度)
官网: https://noiz.ai/
特点: 免费AI语音生成,支持语音克隆、语音设计,多语言支持
使用方式: 访问 https://noiz.ai/ 注册账号,在网页端生成语音或查看API文档集成
3. ElevenLabs TTS(需要API Key)
技能名称: sag
环境变量: export ELEVENLABS_API_KEY="your-key-here"
特点: 高质量语音合成,支持多语言、音色丰富,可通过sag命令行使用
使用示例:
sag "Hello there" sag voices sag speak -v "Roger" "Hello"获取Key: https://elevenlabs.io/
4. Sherpa-ONNX TTS(完全离线无需API Key)
技能名称: sherpa-onnx-tts
特点: 完全本地离线运行,无需API Key,支持多语言、多音色,支持系统: macOS、Linux、Windows
环境变量:
export SHERPA_ONNX_RUNTIME_DIR="/path/to/sherpa-onnx-runtime" export SHERPA_ONNX_MODEL_DIR="/path/to/models"使用示例: "朗读:今天天气真好" / "语音合成:欢迎来到殡葬服务系统"
三、零API Key安装指南
如果暂时没有API Key,推荐使用以下组合:
快速启用无需Key的方案
1. 豆包图片生成器:
cp -r ~/.nvm/versions/node/v22.22.1/lib/node_modules/openclaw/skills/doubao-image-generator ~/.openclaw/workspace/skills/2. Edge TTS:
pip install edge-tts edge-tts --text "测试语音" --write-media test.mp3四、完整配置示例
无API Key最小配置:
skills: doubao-image-generator: enabled: true有API Key完整配置:
# 环境变量 export VOLCENGINE_IMAGE_API_KEY="your-volcengine-key" export WULI_API_TOKEN="your-wuli-token" export ELEVENLABS_API_KEY="your-elevenlabs-key"五、技能位置汇总
六、验证安装
# 测试图片生成 openclaw exec "生成一张风景图" # 测试语音合成 edge-tts --text "测试语音" --write-media test.mp3本文档最后更新: 2026-03-27
夜雨聆风