我用 AI 搭了一套短视频自动化流水线,一天真能出 100 条
你养了 10 个号,每个号每天发 3 条,一个月就是 900 条视频。光是写口播文案,就得搭进去两个人。更不用说写完之后还要想画面、找素材、剪辑、加字幕、调音乐……
很多人以为做矩阵靠的是”团队执行力”,其实真正卡住你的是”内容产能”。
那能不能不靠扩招,就用 AI + 一套自动化的工作流,把短视频生产变成流水线?
完全可以。今天这篇,我把整个过程拆给你看。
这套系统能做什么
简单说,它把短视频制作从”创意作坊”变成了”自动化工厂”:
- 输入:产品卖点 + 目标客户画像
- 输出:带配音、带字幕、带 BGM 的成品视频
- 中间过程:AI 写文案、AI 写分镜、AI 匹配素材、自动剪辑,全部无人干预
我从一天 5 条,提到了 一天 100 条。
不是粗制滥造。文案是基于真实爆款数据提炼的 10 个模型,分镜是 AI 根据口播内容精准匹配的素材,剪辑是 FFmpeg 按帧对齐的。
架构一览:四件套都在干嘛
这套”流水线”由 4 个核心模块串联而成:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
成本几乎为零:没有云服务器月租,没有 API 按量计费的大坑。edge-tts 免费,FFmpeg 开源,飞书基础版免费,Cursor 你本来就在用。
下面一步步把这套流水线搭起来。
Step 1:定位 + 整理爆款对标
做短视频之前,先回答一个问题:你的视频要达成什么目标?
冲播放量?冲转化率?还是冲评论互动?
不同目标对应完全不同的文案结构。我用鱼池过滤器这个项目举例,先明确了三个方向:
- 冲播放:情绪冲击型(骗局揭秘、冤种觉醒、大数据冲击)
- 冲转化:信任建立型(条件筛选、问答科普、产品拆解)
- 冲互动:话题引发型(场景代入、竞品否定、对话互动)
然后我去扒了 30+ 条真正跑出来的爆款视频,不是看点赞,而是看完播率和评论率。把这些视频丢给 AI,让它逐条拆解:
-
开头 3 秒用了什么钩子? -
中间信息是怎么铺的?一句一个信息点,还是堆在一起? -
结尾怎么收的?是行动号召还是效果承诺? -
语气是什么?朋友吐槽?老师傅带看?客服问答?
拆解完之后,AI 帮我提炼出了 10 个可复用的文案模型,每个模型都有固定的结构框架。
Step 2:让 AI 学会”爆款结构”
这一步是整套系统的核心。很多人用 AI 写文案的问题在于:直接让 AI “帮我写个口播稿”。
这样出来的东西,每次都是从头瞎编,质量不稳定,而且很容易写成广告腔。
正确的做法是:让 AI 学会你行业里的爆款结构,然后按结构批量复制。
我给每个模型都写了一个完整的 Prompt,包含:
- 角色设定:你是鱼池过滤器行业的短视频文案专家
- 核心逻辑:这个模型的用户心理路径是什么(被勾住→产生共鸣→建立信任→想要结果)
- 结构步骤:严格按顺序,比如”骗局揭秘型”就是 7 步:颠覆认知 → 痛点放大 → 转折方案 → 核心卖点 → 适用场景 → 安装便利 → 效果承诺
- 风格约束:每行最多 15 字,卖点之间用
| 分隔,禁止叙事展开,开头必须有钩子- 产品信息
:把差异化卖点(304 不锈钢、自动冲洗、源头工厂价)和目标人群(养锦鲤的庭院业主)写死
# 角色你是鱼池过滤器行业的短视频文案专家,擅长写口语化、有情绪、像朋友聊天的爆款文案。# 任务根据"骗局揭秘型"模型,生成 5 条完全不重复的爆款短视频文案。# 模型核心逻辑先颠覆用户的认知(他以为对的做法其实是错的),再放大痛苦,最后给出替代方案。用户心理路径:被勾住 → 产生共鸣 → 产生兴趣 → 相信可行 → 对号入座 → 觉得简单 → 想要结果。# 结构步骤(严格按顺序)步骤1:颠覆认知 —— 否定一个习以为常的做法步骤2:痛点放大 —— 至少包含 1 个感官细节(臭/脏/累/贵)步骤3:转折方案 —— 替代方案名称 + 价格冲击步骤4:核心卖点 —— 解释产品怎么运作步骤5:适用场景 —— 具体水量或场景步骤6:安装便利 —— 简单到极点步骤7:效果承诺 —— 描绘美好画面# 产品信息【产品名称】:不锈钢双循环鱼池过滤器【价格】:源头工厂价,2字开头【传统方案价格】:挖过滤仓5万 / 网上七八千【核心功能】:高压喷头自动冲洗|鱼粪杂质实时排走【材质】:304不锈钢【适用水量】:5吨-60吨【安装方式】:接两根水管,插电即用【效果承诺】:一年不换水,鱼池清澈见底# 风格约束- 每行最多 15 字,一行一个信息点- 多个卖点用 | 分隔,不用顿号堆叠- 开头 3 秒必须有钩子(颠覆认知 / 强烈情绪 / 悬念提问)- 严禁叙事展开,不能有"我朋友说...""上个月..."等故事- 语气像朋友面对面聊天,口语化、有情绪
有了这个 Prompt,AI 每次生成的文案都在同一个”套路”里变化,既保证了结构稳定,又避免了千篇一律。
Step 3:批量生成 + 写入飞书
模型搭好后,批量生成就是顺水推舟。
我让 AI 一次出 5 条,每条同时产出 4 个产物:
- 口播文案
:核心正文,严格按模型结构生成 - 发布标题
:15-25 字,含核心关键词 - 封面文案
:6-12 字,极简抓人 - 置顶评论
:40-80 字,引导互动 + 转化
生成的文案通过 Skill 自动写入飞书多维表格「鱼池文案库」,字段包括:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这样我可以按模型筛选、按状态追踪,甚至让团队其他成员直接在飞书里挑文案用。
Step 4:根据文案写分镜
文案有了,接下来解决一个问题:画面配什么?
这一步过去最耗时间。你要逐句读文案,想”这句配产品特写,那句配鱼池全景”,再去素材文件夹里翻素材,最后还要算每个镜头多长。
现在全部交给 AI。
分镜 Skill 的工作流程:
4.1 解析文案
把口播文案按行拆分为”口播单元”,估算每个单元的时长(按 4 字/秒计算)。
4.2 硬规则:子镜头拆分
-
口播单元时长 ≤ 2.5 秒:只生成 1 个画面镜头 -
口播单元时长 > 2.5 秒:必须拆成 2 个子镜头(A/B),但音频不拆
这样做的好处是:音频按单元拼接(没有气口断裂),画面按子镜头切换(节奏不拖沓)。
4.3 素材匹配
我提前让 AI 帮我搭建了一套素材库,按 7 大场景分类:
01_产品本体(整机外观、滤网、喷头、进出水口、排污口、控制盒、材质特写)02_产品运行状态(喷头冲洗、鱼粪排出、干净出水、整机运行)03_鱼池场景(清澈、浑浊、安装后效果、传统过滤仓、脏过滤棉、洗过滤棉动作)04_锦鲤镜头(清水游动、群体全景、特写、鱼粪水中)05_安装操作(接水管、插电、安装完成、控制盒操作)06_价格与对比(产品价格展示、竞品超滤机、竞品塑料箱、价格对比字幕)07_工厂与发货(生产线、库存仓库、装箱打包、快递发货、不同规格摆放)
每个素材文件按规范命名:内容描述_景别_运镜.扩展名
分镜时,AI 根据口播关键词自动匹配素材标签:
|
|
|
|---|---|
|
|
03_鱼池场景/传统过滤仓 |
|
|
03_鱼池场景/脏过滤棉 |
|
|
02_产品运行状态/喷头自动冲洗 |
|
|
01_产品本体/材质特写 |
|
|
06_价格与对比/产品价格展示 |
|
|
07_工厂与发货/工厂生产线 |
如果素材库找不到匹配的,标记为”待补拍”,后续统一安排拍摄。
4.4 衔接规则
为了保证口播、音频、视频严格一一对应,禁止任何转场特效:
-
❌ 不允许叠化(xfade) -
❌ 不允许黑场 -
✅ 只允许 直切拼接
运镜描述(缓推/缓拉)仅作为镜头说明,不代表转场叠加。
分镜结果写入飞书多维表格「鱼池分镜库」:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Step 5:搭建素材库
素材库的质量直接决定了成片的质感。我让 AI 帮我定了 3 条铁律:
命名规范:内容描述_景别_运镜.扩展名
-
景别:全景 / 远景 / 中景 / 近景 / 特写 / 极特写 -
运镜:固定 / 缓推 / 缓拉 / 横摇
标签系统:每个素材必须标注适用场景标签,方便 AI 匹配
时长检测:运行时统一用 ffprobe 检测真实时长,不依赖文件名
素材库建好后,后续只需要定期补充新拍摄的素材,整个系统就能持续运转。
Step 6:自动剪辑
这是最爽的一步。前面所有工作做完后,剪辑完全不需要人工干预。
6.1 环境检查
每次启动先检查依赖:
-
FFmpeg(需带 libfreetype、libass、libfontconfig 编译支持) -
edge-tts(免费 TTS) -
ffprobe
6.2 生成配音
按口播单元逐条生成 TTS:
edge-tts \ --voice zh-CN-YunxiNeural \ --rate "+30%" \ --text "养鱼最大的智商税,就是挖过滤仓" \ --write-media voice_01.mp3
然后按”平衡档”裁剪前后气口:
-
默认:头裁 0.15s,尾裁 0.12s -
短句保护(<1.2s):尾裁放宽到 0.05s -
超短句保护(<0.8s):头裁 0.08s,尾裁 0 -
总裁剪上限:头+尾 ≤ 0.30s -
最小保留比例:处理后 ≥ 原始时长的 80%
关键:禁用 silenceremove。中文逗号停顿会被误判为静音,导致尾字被吞。
6.3 视频处理(双轨对齐)
每个子镜头独立处理:
speed_ratio = 素材真实时长 / 子镜头目标时长情况A:speed_ratio > 1.2 → 直接截取前 N 秒(不变速)情况B:1.0 < speed_ratio <= 1.2 → 以 speed_ratio 倍加速填满情况C:speed_ratio <= 1.0 → 素材不够,搜索补充素材(同文件夹 → 同父分类 → 标签交集)
所有片段标准化为 1080×1920 竖屏、30fps、libx264。
6.4 拼接
-
视频轨:按镜号顺序 concat直切拼接 -
音频轨:按口播单元顺序 concat拼接,音量提升 1.5 倍(edge-tts 默认偏低) -
混音:如有 BGM,配音 100% + BGM 循环 20%
6.5 烧录字幕
用 ASS 格式(不用 SRT),因为 SRT 的 MarginV 是内部坐标系,超出 288 会渲染到屏幕外。
ASS 设置:
PlayResX=1080, PlayResY=1920
(与视频像素一致) FontSize=95
(超大字幕,强视觉冲击) PrimaryColour=&H0000FFFF
(黄色) Outline=3
+ 黑色描边 MarginV=600
(底部 600px,位置更靠上)
6.6 对齐校验(必须通过)
-
VO 数量 = voice 文件数 -
shot 数量 = 分镜行数 -
每个 VO 的子镜头时长之和 ≈ voice 时长(误差 ≤ 0.03s)
成果对比
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
几个防踩坑要点
1. 不要直接让 AI “写个文案”
必须先喂爆款数据,让 AI 提炼模型结构。否则出来的东西永远是正确的废话,没有传播力。
2. 素材命名规范是生命线
如果素材文件名乱起,AI 根本匹配不上。命名规范定死后,严格执行。
3. 气口裁剪禁用 silenceremove
中文的逗号停顿很短,会被 silenceremove 误判为静音,导致尾字被切掉。用固定时长裁剪更可靠。
4. 字幕用 ASS,不要用 SRT
SRT 的 subtitles filter 中 MarginV 是 ASS 内部坐标系(默认 PlayResY=288),不是视频像素。MarginV>288 时字幕直接消失。
5. 分镜的 2.5 秒规则是硬约束
口播单元超过 2.5 秒必须拆 A/B 镜,否则单镜头太长观众会划走。但也不能拆太多,否则节奏碎。
6. 先验证再批量
搭建系统的第一周,先拿 3-5 条文案跑通全流程,确认每个环节输出正确,再开启批量模式。
进阶玩法
多账号矩阵
同一套系统,换不同的产品信息模板和素材库,就能跑完全不同的品类。我已经在用同一套架构测试第二个项目。
A/B 测试
飞书表格天然支持筛选和分组。可以按”使用模型”分组,对比不同模型的完播率和转化率,找出你账号最适合的文案结构。
素材补拍清单
分镜表会自动标记”待补拍”的镜头,定期汇总成一个拍摄清单,集中一天拍完,效率最高。
结语
从找对标、拆模型、批量文案、自动分镜、素材匹配、到最终的配音剪辑输出。
我只用了不到两周时间搭建,零额外服务器成本,就把短视频生产从”手工作坊”升级成了”自动化工厂”。
这就是 AI + 系统化思维带来的恐怖生产力。你不需要再陷在每天写脚本、想画面、剪视频的重复劳动里。那些已经被验证有效的爆款结构,完全可以交给机器在你看不见的地方默默复制。
如果你也在做短视频矩阵,建议从”拆解爆款模型”这一步开始。不要直接让 AI 写文案,先让它学会你行业里的爆款结构。
结构对了,批量只是顺水推舟。
本文提到的 Skill 系统基于 Cursor 搭建,核心由 4 个串联 Skill 组成:文案批量生成、文案飞书写入、分镜生成、视频剪辑。使用工具包括 Claude(文案生成)、飞书多维表格(数据中枢)、edge-tts(配音)、FFmpeg(剪辑)。
夜雨聆风