不剪辑、不熬夜,用OpenClaw在家做AI视频

先说结论

OpenClaw能做以下类型的AI视频：

文字转语音 + 静态图配音：输入文案 → AI配音 → 匹配图片/视频片段
数字人视频：照片 + 文字/语音 → 会说话的数字人
图文转视频：文章/文案 → 自动生成配图 + 配音 + 字幕
视频素材拼接：批量视频素材 + 规则 → 自动剪辑成片

本文重点讲第1种和第3种，覆盖90%的日常需求。

核心能力

OpenClaw制作AI视频的链路：

文案撰写 → 语音合成 → 素材匹配 → 画面生成 → 字幕处理 → 合成输出

步骤	技能	作用
文案	大模型直接写	GPT/Claude/通义帮你写脚本
语音	edge-tts / kokoro-tts	文字转语音，多音色可选
配图	图像生成(DALL-E/Midjourney)	或静态图库
视频	ffmpeg-master	帧级合成、字幕、拼接
自动化	OpenClaw Agent	串联全流程，一键执行

实战案例：一条AI口播视频怎么做

步骤1：写文案

直接让AI帮你写：

提示词：我需要一条30秒的产品介绍口播文案，面向小白用户，语言通俗易懂

输出示例：

大家好，今天教你怎么用AI做视频。其实很简单，不需要会剪辑，不需要熬夜，只需要3步……

步骤2：语音合成

用 edge-tts 或 kokoro-tts 把文案变成语音。

edge-tts 示例：

edge-tts --text "你的文案" --voice "zh-CN-XiaoxiaoNeural" --output audio.mp3

可选音色：

zh-CN-XiaoxiaoNeural — 女声，温柔
zh-CN-YunxiNeural — 男声，正式
zh-CN-YunyangNeural — 男声，新闻感

步骤3：配图/素材

两种思路：

A. AI生成配图（适合概念类视频）
用 DALL-E 3 或 Midjourney 生成与文案匹配的静态图。

B. 视频素材库（适合教程类）
用开源素材站（Pexels/Pixabay）下载相关素材，用关键词匹配。

步骤4：合成视频

用 ffmpeg 把 audio + image 合成视频：

ffmpeg -loop 1 -i image.jpg -i audio.mp4 -c:v libx264 -tune stillimage -c:a aac -b:a 192k -shortest output.mp4

进阶：加字幕、背景音乐、片头片尾。

进阶：数字人视频怎么做

方案一：低成本方案（免费）

用 SadTalker 或 Wav2Lip：

准备一张照片（正面照效果最好）
准备一段语音
模型让照片对口型

方案二：商业方案（付费）

HeyGen：效果最好，按分钟计费
D-ID：支持API批量生成
Runway Gen-2：文生视频，可做动态

OpenClaw可以调用这些API实现自动化。

自动化：一条指令生成视频

把上面步骤串联成Agent：

def make_ai_video(topic, duration=30):
    script = gpt.write_script(topic, duration)
    audio = tts.generate(script, voice="xiaoxiao")
    images = image_gen.batch_generate(script)
    video = ffmpeg.compile(audio, images)
    upload(video)
    return video

然后在OpenClaw里配置成Skill，一句话就能跑完整条链路。

常见问题

Q1：视频卡顿怎么办？

检查帧率设置，建议 30fps
素材分辨率统一后再合成

Q2：语音和画面不同步？

用 ffmpeg 的 -itsoffset 调整音画偏移
或先确定音频时长，再按比例裁剪图片

Q3：字幕怎么加？

用 ffmpeg 的 subtitles 滤镜
或用 whisper 自动生成字幕文件

Q4：免费素材哪里找？

Pexels / Pixabay（视频+图片）
Coverr / Videvo

总结

OpenClaw做AI视频的核心：

文案 → 语音：edge-tts
语音 → 画面：ffmpeg 合成
自动化：用 Agent 串联全链路

不需要Premiere，不需要AE，会写文案就能做。

下期预告：如何用OpenClaw批量生产100条AI视频？（流水线搭建篇）