2026-03-23 · 实战干货
做视频内容,最贵的从来不是剪辑,而是真人出镜。
拍一条3分钟的真人出镜视频,从协调演员、租场地、打灯光、反复NG,到最后剪辑调色——没有大几千块下不来。如果你要批量生产内容,这个成本就直接劝退了。
所以当我发现这条流水线完整跑通的时候,第一反应不是兴奋,而是冷静下来把它写成可复用的SOP。因为我知道,这套东西一旦固化下来,批量生产视频内容的成本将直接降到一个可忽略的数量级。
本文核心问题:本地模型 + OpenClaw,能否撑起一条完整的数字人视频流水线?答案是:能。
一、为什么我要验证这条流水线
数字人视频的方案一抓一大把,但大多数方案有个致命问题:按调用次数计费。一条30秒的视频,云服务可能要收你几块钱甚至几十块。听起来不贵,但你要日更100条呢?月产3000条呢?成本直接爆炸。
API不是长久之计,真正的落地必须本地部署。 所以我这次验证的核心问题不是"哪个云平台效果好",而是:本地开源模型 + OpenClaw 自动化调度,这套组合能不能跑通?
如果能跑通,意味着:批量生产,成本等于电费;不受第三方平台限制,不涨价不断供。
二、完整技术流程(验证成功,直接复用)
Step 1:文案生成 · 工具:video-script
你只需要给出一个主题或产品卖点,video-script会自动生成适合数字人播报的文案结构——包含开场hook、正文逻辑、结尾引导。输出的文案是口语化表达,无需二次修改直接可用。
实测:生成一条1分钟口播文案,耗时 < 30秒
Step 2:TTS音频 + 音色克隆 · 工具:video-tts
音色克隆是数字人视频的灵魂——你需要AI用"特定人物的声音"来播报文案。
CosyVoice2 支持音色克隆,只需要上传一段参考音频(30秒以上效果最佳),AI就能用同样的音色读任何文本。
标准操作流程:
上传参考音频(目标人物的真人录音)到 upload-voice输入文案 调用 CosyVoice2 执行TTS,输出音频文件
关键能力:CosyVoice2 支持自然语言指令控制语速和情绪——"语速放慢20%"、"情绪更积极"、"专业播报感",直接写在提示词里就行。
实测:音色还原度在安静环境下接近85%+,非专业录音也能用
Step 3:场景合成 · 工具:video-portrait
很多人做数字人视频会踩的坑是:换场景的时候脸也跟着变了。
video-portrait的核心能力是脸保换场景——只替换背景环境,人的面部特征完全保留不动。
输入原真人素材(或高质量照片)+ 目标场景描述 → 执行编辑 → 输出脸部identity不变、背景已替换的新素材
实测:原图质量越高,输出效果越好。建议使用1080p及以上素材作为输入。
Step 4:视频生成(口型对齐) · 工具:video-gen
最后一步,把音频和已经合成好的场景素材结合,生成最终视频。
video-gen的audio-to-video模式会根据音频内容自动生成人物口型,让数字人看起来像在真实说话。
输入:Step 2的TTS音频 + Step 3合成的场景人脸素材输出:完整视频,口型自动对齐音频
实测:音频越清晰、人物面部越正面,视频生成效果越好
三、项目目录结构
digital-human-pipeline/ ├── 01_scripts/ # 文案脚本 ├── 02_audio/ # TTS音频文件 ├── 03_reference/ # 音色克隆参考音频 ├── 04_portrait/ # 场景合成后人像素材 ├── 05_video/ # 最终输出视频 ├── prompts/ # 各步骤提示词模板 └── config.yaml # 流水线全局配置命名规范:日期_主题序号_版本号,例如 20260323_topic01_v1.mp4
四、关键参数与经验值
| 视频单次最长时长 | 20秒 | |
| CosyVoice2 语速控制 | ||
| 音色克隆参考音频 | ||
| 场景合成输入素材 |
五、已验证可用的Skills清单
基于OpenClaw平台,以下Skills已全部验证通过,可以直接调用组成完整流水线:
video-script | |
video-tts | |
video-portrait | |
video-gen | |
video-pipeline |
六、结论
核心链路验证成功。
从文案 → 音频 → 场景 → 视频,四步全流程跑通,输出质量达到生产级别可用标准。
更重要的是:这套流水线基于本地开源模型 + OpenClaw 自动化调度。不受第三方API成本绑架,不按次计费,批量生产的成本等于电费。
API方案适合技术验证阶段,真正要规模化生产、降低成本,必须走本地部署这条路。现在验证完毕,可以正式跑主题了。
本文涉及模型:CosyVoice2(语音合成)、nano-banana-2(图像编辑)、LTX-2.3(视频生成)等开源模型,均支持本地部署。
夜雨聆风