先说结论
OpenClaw能做以下类型的AI视频:
- 文字转语音 + 静态图配音:输入文案 → AI配音 → 匹配图片/视频片段
- 数字人视频:照片 + 文字/语音 → 会说话的数字人
- 图文转视频:文章/文案 → 自动生成配图 + 配音 + 字幕
- 视频素材拼接:批量视频素材 + 规则 → 自动剪辑成片
本文重点讲第1种和第3种,覆盖90%的日常需求。
核心能力
OpenClaw制作AI视频的链路:
文案撰写 → 语音合成 → 素材匹配 → 画面生成 → 字幕处理 → 合成输出
| 步骤 | 技能 | 作用 |
|---|---|---|
| 文案 | 大模型直接写 | GPT/Claude/通义帮你写脚本 |
| 语音 | edge-tts / kokoro-tts | 文字转语音,多音色可选 |
| 配图 | 图像生成(DALL-E/Midjourney) | 或静态图库 |
| 视频 | ffmpeg-master | 帧级合成、字幕、拼接 |
| 自动化 | OpenClaw Agent | 串联全流程,一键执行 |
实战案例:一条AI口播视频怎么做
步骤1:写文案
直接让AI帮你写:
提示词:我需要一条30秒的产品介绍口播文案,面向小白用户,语言通俗易懂
输出示例:
大家好,今天教你怎么用AI做视频。其实很简单,不需要会剪辑,不需要熬夜,只需要3步……
步骤2:语音合成
用 edge-tts 或 kokoro-tts 把文案变成语音。
edge-tts 示例:
edge-tts --text "你的文案" --voice "zh-CN-XiaoxiaoNeural" --output audio.mp3
可选音色:
- zh-CN-XiaoxiaoNeural — 女声,温柔
- zh-CN-YunxiNeural — 男声,正式
- zh-CN-YunyangNeural — 男声,新闻感
步骤3:配图/素材
两种思路:
A. AI生成配图(适合概念类视频)
用 DALL-E 3 或 Midjourney 生成与文案匹配的静态图。
B. 视频素材库(适合教程类)
用开源素材站(Pexels/Pixabay)下载相关素材,用关键词匹配。
步骤4:合成视频
用 ffmpeg 把 audio + image 合成视频:
ffmpeg -loop 1 -i image.jpg -i audio.mp4 -c:v libx264 -tune stillimage -c:a aac -b:a 192k -shortest output.mp4
进阶:加字幕、背景音乐、片头片尾。
进阶:数字人视频怎么做
方案一:低成本方案(免费)
用 SadTalker 或 Wav2Lip:
- 准备一张照片(正面照效果最好)
- 准备一段语音
- 模型让照片对口型
方案二:商业方案(付费)
- HeyGen:效果最好,按分钟计费
- D-ID:支持API批量生成
- Runway Gen-2:文生视频,可做动态
OpenClaw可以调用这些API实现自动化。
自动化:一条指令生成视频
把上面步骤串联成Agent:
def make_ai_video(topic, duration=30):
script = gpt.write_script(topic, duration)
audio = tts.generate(script, voice="xiaoxiao")
images = image_gen.batch_generate(script)
video = ffmpeg.compile(audio, images)
upload(video)
return video然后在OpenClaw里配置成Skill,一句话就能跑完整条链路。
常见问题
Q1:视频卡顿怎么办?
- 检查帧率设置,建议 30fps
- 素材分辨率统一后再合成
Q2:语音和画面不同步?
- 用 ffmpeg 的 -itsoffset 调整音画偏移
- 或先确定音频时长,再按比例裁剪图片
Q3:字幕怎么加?
- 用 ffmpeg 的 subtitles 滤镜
- 或用 whisper 自动生成字幕文件
Q4:免费素材哪里找?
- Pexels / Pixabay(视频+图片)
- Coverr / Videvo
总结
OpenClaw做AI视频的核心:
- 文案 → 语音:edge-tts
- 语音 → 画面:ffmpeg 合成
- 自动化:用 Agent 串联全链路
不需要Premiere,不需要AE,会写文案就能做。
下期预告:如何用OpenClaw批量生产100条AI视频?(流水线搭建篇)
夜雨聆风