AI Video Workflow Skill:从想法到成片的自动化短视频工作流

一句话做成短视频：我把 AI 视频工作流做成了一个 Skill

大家好, 我是诺亚。

我过去做 AI 短视频时，最容易卡住的地方往往不是“模型不会生成”，而是流程太散：

选竖屏还是横屏、脚本有没有确认、素材从哪里来、配音多长、画面怎么跟声音对齐、字幕什么时候生成、最后有没有检查成片……

这些步骤只要漏掉一个，成片就很容易出现问题：画面和旁白不同步、字幕提前或滞后、素材重复、比例不对，甚至还没确认脚本就已经开始乱找素材。

所以我把自己的这套制作经验，整理成了一个 AI Video Workflow。

我做它的目标，不是包装一个“点一下就魔法出片”的玩具，而是把短视频生产中真正容易出错的步骤，变成一套可执行、可检查、可复用的工作流。

它解决的不是生成，而是流程失控

我看过很多 AI 视频工具，它们都强调“输入一句话，生成一个视频”。

但我自己实际做内容时，更需要的是一条稳定链路：

先确认视频格式
再确认脚本
根据脚本规划镜头和素材
优先寻找免费/免版税素材
先生成旁白音频
按真实旁白时长裁剪画面
锁定时间线后再做字幕
合成音乐、字幕和最终视频
最后检查比例、时长、字幕和音画同步

我做 AI Video Workflow Skill 的核心价值，就是强制把这条链路跑完整。

我特意让它避免一个常见错误：脚本还没确认，就开始下载素材、配音、渲染。这样看似快，其实后面一改脚本，前面很多工作都要重做。

这个 Skill 的两个硬门槛

我在 Skill 里加了两个非常重要的“刹车”。

1. 没有确定格式，不进入脚本

如果用户只是说“帮我做一个短视频”，Skill 不会直接开始写脚本，而是先确认格式：

竖屏 9:16，适合抖音、视频号、Reels、Shorts
横屏 16:9，适合 B 站、YouTube、课程视频
自定义比例或尺寸

这个步骤看起来简单，但非常关键。

因为视频比例会影响素材搜索、画面裁剪、字幕位置和最终导出参数。

2. 脚本没有确认，不进入制作

格式确定后，我让 Skill 先输出一个脚本确认包，包括：

工作标题
目标受众与语气
预计时长
开头钩子
分镜旁白
结尾或 CTA

用户确认后，它才会进入素材、配音、字幕和渲染。

这是我做这个 Skill 时最在意的一点：让 AI 视频制作从“边想边做”变成“先定稿，再生产”。

为什么优先使用免费素材拼接

这次我也给文章做了 3 条样例视频，全部采用我在 Skill 里推荐的“免费素材拼接”思路：

视频/图片素材：Pexels 或 Pixabay
背景音乐：Jamendo
音效：Freesound
旁白：本地 TTS
字幕：基于最终音频/视频重新识别生成 ASS 字幕
合成：ffmpeg

这样做有几个好处。

第一，速度快。

很多短视频并不需要从 0 生成每一帧。旅行、咖啡馆、城市夜景、自然风景、商务办公等主题，本身就有大量可用的免费素材。

第二，画面更稳定。

公开视频素材往往比临时生成的视频更少出现奇怪形变，也更适合做真实感内容。

第三，成本更低。

当免费素材足够表达主题时，就没有必要把每个镜头都交给视频生成模型。

我给这个 Skill 设定的策略是：优先用免费/免版税素材；只有素材不足、不合适，或场景需要定制画面时，才考虑生成图片或视频。

样例 1：周末去海边

第一条样例用的是海浪、日落、海岸、公路等免费素材，展示“旅行类短视频”如何从一句主题变成成片。

已关注

关注

重播分享赞

视频详情

这条视频的脚本很短：

想做旅行短视频，不一定要自己拍素材。输入主题，先确认脚本和节奏。AI 会寻找海浪、日落、公路这些免费素材，再按旁白时长裁剪拼接，加上字幕和音乐。

样例 2：咖啡馆的一天

第二条样例我做得更偏生活方式内容，用咖啡、拉花、街角、行人等镜头，模拟探店或品牌氛围片。

已关注

关注

重播分享赞

视频详情

我想用它展示另一类常见需求：用户可能只有一句“做一个咖啡馆氛围短片”，但成片仍然需要完整流程。

先定竖屏格式，再确认脚本，然后找免费镜头。旁白生成后，画面不是随便拼，而是跟着真实音频时长重新裁剪。

样例 3：未来城市感

第三条样例我做成了科技感方向，用城市夜景、交通、光影素材来做节奏。

已关注

关注

重播分享赞

视频详情

我用这条视频想说明一个点：科技感视频并不一定每次都要从空白画面生成。

城市夜景、交通流、灯光、玻璃反射，本来就是很适合做科技产品、AI 工具、个人品牌介绍的素材。

关键设计：音频优先，而不是画面优先

短视频制作里，一个很容易被忽略的问题是：旁白音频的真实时长，通常和脚本预估时长不完全一致。

如果先把画面剪好，再生成旁白，很容易出现：

旁白讲完了，画面还没结束
画面切走了，上一句字幕还在
字幕根据原脚本生成，和最终配音不同步

所以我在这个 Skill 里采用“音频优先”的规则：

先根据确认脚本生成最终旁白
测量旁白真实时长
按音频时长裁剪、循环或延长画面
锁定最终时间线
再根据最终音频或最终视频生成字幕
最后把字幕烧录到视频中

这也是我认为这个 Skill 最重要的部分。

我不希望它只是会“找素材”，而是要尽量保证音画同步。

它适合哪些场景

我设计这个 Skill 时，主要面向这些任务：

把一个主题做成竖屏短视频
把一篇文章改成讲解视频
做金句视频或读书推介视频
做产品介绍、课程预告、工具演示
做生活方式、旅行、探店、氛围短片
用免费素材快速拼一个可发布样片
为后续更精细的视频制作打底稿
也可以自己提供素材进行混剪

如果你只是想做非常强风格化、完全原创画面的动画短片，它也能参与流程规划，但素材环节可能会更多依赖图像/视频生成工具。这也是我给它保留“素材不足时再生成”的原因。

使用前需要配置什么

如果你要让我这个 Skill 自动搜索和下载免费素材，需要在本地配置素材平台 API key。

Skill 内置了兼容脚本：

scripts/pexels.ts
scripts/pixabay.ts
scripts/jamendo.ts
scripts/freesound.ts

配置文件模板是：

config.example.json

注意：不要在聊天里粘贴原始 API key。更好的方式是放在本地配置文件或环境变量中。

在哪里下载

我已经把这个 Skill 放到了下面几个地方：

ClawHub：https://clawhub.ai/darknoah/ai-short-video-workflow
ModelScope：https://www.modelscope.cn/skills/darknoah00/ai-video-workflow
GitHub：https://github.com/skills-router/skills-store/blob/main/skills/ai-video-workflow/SKILL.md

如果你已经在用 Aime Chat，可以导入技能 skills-router/skills 后选择 ai-video-workflow，然后在需要做短视频时直接调用，注意需要选择音频工具才能更好地制作配音。

aime-chat github: https://github.com/DarkNoah/aime-chat

aime-chat 官网: https://darknoah.github.io/aime-chat

我对这个工作流的理解

我越来越觉得，AI 内容生产的关键不是“让 AI 一次性做完所有事”，而是把任务拆成更可靠的步骤。

短视频尤其如此。

一个主题到成片，中间有很多看似琐碎、但非常影响质量的环节：格式、脚本、素材、配音、字幕、音乐、合成、检查。

我做 AI Video Workflow Skill，就是想把这些环节变成一条清晰的路径。

所以我让它不要跳过确认，也不要在没检查成片前就声称完成。

这听起来不够“魔法”，但对真正要发布内容的人来说，这种稳定性反而更重要。

小结

我做这个 AI Video Workflow Skill，是想把短视频制作中容易混乱的部分流程化：

先确认格式
再确认脚本
优先使用免费素材
先生成旁白，再按真实时长剪画面
最终字幕基于真实音频/视频生成
输出前检查比例、时长、字幕和同步

如果你经常想把一个想法、一篇文章、一个产品说明，快速变成短视频，这个 Skill 会是一个很实用的起点。

这是我希望它带来的改变：让 AI 不只是“会生成”，而是更像一个按流程工作的短视频制作助理。