一句话做成短视频:我把 AI 视频工作流做成了一个 Skill

大家好, 我是诺亚。
我过去做 AI 短视频时,最容易卡住的地方往往不是“模型不会生成”,而是流程太散:
选竖屏还是横屏、脚本有没有确认、素材从哪里来、配音多长、画面怎么跟声音对齐、字幕什么时候生成、最后有没有检查成片……
这些步骤只要漏掉一个,成片就很容易出现问题:画面和旁白不同步、字幕提前或滞后、素材重复、比例不对,甚至还没确认脚本就已经开始乱找素材。
所以我把自己的这套制作经验,整理成了一个 AI Video Workflow。
我做它的目标,不是包装一个“点一下就魔法出片”的玩具,而是把短视频生产中真正容易出错的步骤,变成一套可执行、可检查、可复用的工作流。
它解决的不是生成,而是流程失控
我看过很多 AI 视频工具,它们都强调“输入一句话,生成一个视频”。
但我自己实际做内容时,更需要的是一条稳定链路:
先确认视频格式 再确认脚本 根据脚本规划镜头和素材 优先寻找免费/免版税素材 先生成旁白音频 按真实旁白时长裁剪画面 锁定时间线后再做字幕 合成音乐、字幕和最终视频 最后检查比例、时长、字幕和音画同步
我做 AI Video Workflow Skill 的核心价值,就是强制把这条链路跑完整。
我特意让它避免一个常见错误:脚本还没确认,就开始下载素材、配音、渲染。这样看似快,其实后面一改脚本,前面很多工作都要重做。
这个 Skill 的两个硬门槛
我在 Skill 里加了两个非常重要的“刹车”。
1. 没有确定格式,不进入脚本
如果用户只是说“帮我做一个短视频”,Skill 不会直接开始写脚本,而是先确认格式:
竖屏 9:16,适合抖音、视频号、Reels、Shorts 横屏 16:9,适合 B 站、YouTube、课程视频 自定义比例或尺寸
这个步骤看起来简单,但非常关键。
因为视频比例会影响素材搜索、画面裁剪、字幕位置和最终导出参数。
2. 脚本没有确认,不进入制作
格式确定后,我让 Skill 先输出一个脚本确认包,包括:
工作标题 目标受众与语气 预计时长 开头钩子 分镜旁白 结尾或 CTA
用户确认后,它才会进入素材、配音、字幕和渲染。
这是我做这个 Skill 时最在意的一点:让 AI 视频制作从“边想边做”变成“先定稿,再生产”。
为什么优先使用免费素材拼接
这次我也给文章做了 3 条样例视频,全部采用我在 Skill 里推荐的“免费素材拼接”思路:
视频/图片素材:Pexels 或 Pixabay 背景音乐:Jamendo 音效:Freesound 旁白:本地 TTS 字幕:基于最终音频/视频重新识别生成 ASS 字幕 合成:ffmpeg
这样做有几个好处。
第一,速度快。
很多短视频并不需要从 0 生成每一帧。旅行、咖啡馆、城市夜景、自然风景、商务办公等主题,本身就有大量可用的免费素材。
第二,画面更稳定。
公开视频素材往往比临时生成的视频更少出现奇怪形变,也更适合做真实感内容。
第三,成本更低。
当免费素材足够表达主题时,就没有必要把每个镜头都交给视频生成模型。
我给这个 Skill 设定的策略是:优先用免费/免版税素材;只有素材不足、不合适,或场景需要定制画面时,才考虑生成图片或视频。
样例 1:周末去海边
第一条样例用的是海浪、日落、海岸、公路等免费素材,展示“旅行类短视频”如何从一句主题变成成片。
这条视频的脚本很短:
想做旅行短视频,不一定要自己拍素材。输入主题,先确认脚本和节奏。AI 会寻找海浪、日落、公路这些免费素材,再按旁白时长裁剪拼接,加上字幕和音乐。
样例 2:咖啡馆的一天
第二条样例我做得更偏生活方式内容,用咖啡、拉花、街角、行人等镜头,模拟探店或品牌氛围片。
我想用它展示另一类常见需求:用户可能只有一句“做一个咖啡馆氛围短片”,但成片仍然需要完整流程。
先定竖屏格式,再确认脚本,然后找免费镜头。旁白生成后,画面不是随便拼,而是跟着真实音频时长重新裁剪。
样例 3:未来城市感
第三条样例我做成了科技感方向,用城市夜景、交通、光影素材来做节奏。
我用这条视频想说明一个点:科技感视频并不一定每次都要从空白画面生成。
城市夜景、交通流、灯光、玻璃反射,本来就是很适合做科技产品、AI 工具、个人品牌介绍的素材。
关键设计:音频优先,而不是画面优先
短视频制作里,一个很容易被忽略的问题是:旁白音频的真实时长,通常和脚本预估时长不完全一致。
如果先把画面剪好,再生成旁白,很容易出现:
旁白讲完了,画面还没结束 画面切走了,上一句字幕还在 字幕根据原脚本生成,和最终配音不同步
所以我在这个 Skill 里采用“音频优先”的规则:
先根据确认脚本生成最终旁白 测量旁白真实时长 按音频时长裁剪、循环或延长画面 锁定最终时间线 再根据最终音频或最终视频生成字幕 最后把字幕烧录到视频中
这也是我认为这个 Skill 最重要的部分。
我不希望它只是会“找素材”,而是要尽量保证音画同步。
它适合哪些场景
我设计这个 Skill 时,主要面向这些任务:
把一个主题做成竖屏短视频 把一篇文章改成讲解视频 做金句视频或读书推介视频 做产品介绍、课程预告、工具演示 做生活方式、旅行、探店、氛围短片 用免费素材快速拼一个可发布样片 为后续更精细的视频制作打底稿 也可以自己提供素材进行混剪
如果你只是想做非常强风格化、完全原创画面的动画短片,它也能参与流程规划,但素材环节可能会更多依赖图像/视频生成工具。这也是我给它保留“素材不足时再生成”的原因。
使用前需要配置什么
如果你要让我这个 Skill 自动搜索和下载免费素材,需要在本地配置素材平台 API key。
Skill 内置了兼容脚本:
scripts/pexels.tsscripts/pixabay.tsscripts/jamendo.tsscripts/freesound.ts
配置文件模板是:
config.example.json注意:不要在聊天里粘贴原始 API key。更好的方式是放在本地配置文件或环境变量中。
在哪里下载
我已经把这个 Skill 放到了下面几个地方:
ClawHub:https://clawhub.ai/darknoah/ai-short-video-workflow ModelScope:https://www.modelscope.cn/skills/darknoah00/ai-video-workflow GitHub:https://github.com/skills-router/skills-store/blob/main/skills/ai-video-workflow/SKILL.md
如果你已经在用 Aime Chat,可以导入技能 skills-router/skills 后选择 ai-video-workflow,然后在需要做短视频时直接调用,注意需要选择音频工具才能更好地制作配音。
aime-chat github: https://github.com/DarkNoah/aime-chat
aime-chat 官网: https://darknoah.github.io/aime-chat
我对这个工作流的理解
我越来越觉得,AI 内容生产的关键不是“让 AI 一次性做完所有事”,而是把任务拆成更可靠的步骤。
短视频尤其如此。
一个主题到成片,中间有很多看似琐碎、但非常影响质量的环节:格式、脚本、素材、配音、字幕、音乐、合成、检查。
我做 AI Video Workflow Skill,就是想把这些环节变成一条清晰的路径。
所以我让它不要跳过确认,也不要在没检查成片前就声称完成。
这听起来不够“魔法”,但对真正要发布内容的人来说,这种稳定性反而更重要。
小结
我做这个 AI Video Workflow Skill,是想把短视频制作中容易混乱的部分流程化:
先确认格式 再确认脚本 优先使用免费素材 先生成旁白,再按真实时长剪画面 最终字幕基于真实音频/视频生成 输出前检查比例、时长、字幕和同步
如果你经常想把一个想法、一篇文章、一个产品说明,快速变成短视频,这个 Skill 会是一个很实用的起点。
这是我希望它带来的改变:让 AI 不只是“会生成”,而是更像一个按流程工作的短视频制作助理。
夜雨聆风