我用 AI 搭了一套短视频自动化流水线,一天真能出 100 条-夜雨聆风

我用 AI 搭了一套短视频自动化流水线,一天真能出 100 条

做短视频矩阵的人，都有一个共同的噩梦：脚本写不完。

你养了 10 个号，每个号每天发 3 条，一个月就是 900 条视频。光是写口播文案，就得搭进去两个人。更不用说写完之后还要想画面、找素材、剪辑、加字幕、调音乐……

很多人以为做矩阵靠的是”团队执行力”，其实真正卡住你的是”内容产能”。

那能不能不靠扩招，就用 AI + 一套自动化的工作流，把短视频生产变成流水线？

完全可以。今天这篇，我把整个过程拆给你看。

这套系统能做什么

简单说，它把短视频制作从”创意作坊”变成了”自动化工厂”：

输入：产品卖点 + 目标客户画像
输出：带配音、带字幕、带 BGM 的成品视频
中间过程：AI 写文案、AI 写分镜、AI 匹配素材、自动剪辑，全部无人干预

我从一天 5 条，提到了 一天 100 条。

不是粗制滥造。文案是基于真实爆款数据提炼的 10 个模型，分镜是 AI 根据口播内容精准匹配的素材，剪辑是 FFmpeg 按帧对齐的。

架构一览：四件套都在干嘛

这套”流水线”由 4 个核心模块串联而成：

模块	工具	作用
文案引擎	Cursor Skill + Claude	根据爆款模型批量生成口播文案、标题、封面文案、置顶评论
数据中枢	飞书多维表格	存储文案库和分镜库，方便筛选、分组、追踪发布状态
分镜系统	Cursor Skill	根据文案自动匹配素材库标签，生成镜号、时长、衔接方式
剪辑工厂	edge-tts + FFmpeg	配音生成、素材裁切变速、拼接、字幕烧录、混音输出

成本几乎为零：没有云服务器月租，没有 API 按量计费的大坑。edge-tts 免费，FFmpeg 开源，飞书基础版免费，Cursor 你本来就在用。

下面一步步把这套流水线搭起来。

Step 1：定位 + 整理爆款对标

做短视频之前，先回答一个问题：你的视频要达成什么目标？

冲播放量？冲转化率？还是冲评论互动？

不同目标对应完全不同的文案结构。我用鱼池过滤器这个项目举例，先明确了三个方向：

冲播放：情绪冲击型（骗局揭秘、冤种觉醒、大数据冲击）
冲转化：信任建立型（条件筛选、问答科普、产品拆解）
冲互动：话题引发型（场景代入、竞品否定、对话互动）

然后我去扒了 30+ 条真正跑出来的爆款视频，不是看点赞，而是看完播率和评论率。把这些视频丢给 AI，让它逐条拆解：

开头 3 秒用了什么钩子？
中间信息是怎么铺的？一句一个信息点，还是堆在一起？
结尾怎么收的？是行动号召还是效果承诺？
语气是什么？朋友吐槽？老师傅带看？客服问答？

拆解完之后，AI 帮我提炼出了 10 个可复用的文案模型，每个模型都有固定的结构框架。

Step 2：让 AI 学会”爆款结构”

这一步是整套系统的核心。很多人用 AI 写文案的问题在于：直接让 AI “帮我写个口播稿”。

这样出来的东西，每次都是从头瞎编，质量不稳定，而且很容易写成广告腔。

正确的做法是：让 AI 学会你行业里的爆款结构，然后按结构批量复制。

我给每个模型都写了一个完整的 Prompt，包含：

角色设定：你是鱼池过滤器行业的短视频文案专家
核心逻辑：这个模型的用户心理路径是什么（被勾住→产生共鸣→建立信任→想要结果）
结构步骤：严格按顺序，比如”骗局揭秘型”就是 7 步：颠覆认知 → 痛点放大 → 转折方案 → 核心卖点 → 适用场景 → 安装便利 → 效果承诺
风格约束：每行最多 15 字，卖点之间用

｜ 分隔，禁止叙事展开，开头必须有钩子

产品信息

：把差异化卖点（304 不锈钢、自动冲洗、源头工厂价）和目标人群（养锦鲤的庭院业主）写死

# 角色你是鱼池过滤器行业的短视频文案专家，擅长写口语化、有情绪、像朋友聊天的爆款文案。# 任务根据"骗局揭秘型"模型，生成 5 条完全不重复的爆款短视频文案。# 模型核心逻辑先颠覆用户的认知（他以为对的做法其实是错的），再放大痛苦，最后给出替代方案。用户心理路径：被勾住 → 产生共鸣 → 产生兴趣 → 相信可行 → 对号入座 → 觉得简单 → 想要结果。# 结构步骤（严格按顺序）步骤1：颠覆认知 —— 否定一个习以为常的做法步骤2：痛点放大 —— 至少包含 1 个感官细节（臭/脏/累/贵）步骤3：转折方案 —— 替代方案名称 + 价格冲击步骤4：核心卖点 —— 解释产品怎么运作步骤5：适用场景 —— 具体水量或场景步骤6：安装便利 —— 简单到极点步骤7：效果承诺 —— 描绘美好画面# 产品信息【产品名称】：不锈钢双循环鱼池过滤器【价格】：源头工厂价，2字开头【传统方案价格】：挖过滤仓5万 / 网上七八千【核心功能】：高压喷头自动冲洗｜鱼粪杂质实时排走【材质】：304不锈钢【适用水量】：5吨-60吨【安装方式】：接两根水管，插电即用【效果承诺】：一年不换水，鱼池清澈见底# 风格约束- 每行最多 15 字，一行一个信息点- 多个卖点用 ｜ 分隔，不用顿号堆叠- 开头 3 秒必须有钩子（颠覆认知 / 强烈情绪 / 悬念提问）- 严禁叙事展开，不能有"我朋友说...""上个月..."等故事- 语气像朋友面对面聊天，口语化、有情绪

有了这个 Prompt，AI 每次生成的文案都在同一个”套路”里变化，既保证了结构稳定，又避免了千篇一律。

Step 3：批量生成 + 写入飞书

模型搭好后，批量生成就是顺水推舟。

我让 AI 一次出 5 条，每条同时产出 4 个产物：

口播文案

：核心正文，严格按模型结构生成
发布标题

：15-25 字，含核心关键词
封面文案

：6-12 字，极简抓人
置顶评论

：40-80 字，引导互动 + 转化

生成的文案通过 Skill 自动写入飞书多维表格「鱼池文案库」，字段包括：

字段	类型	说明
使用模型	单选	10 个模型之一
发布标题	文本	视频发布标题
封面文案	文本	封面叠加文字
口播文案	文本	核心口播正文
置顶评论	文本	发布后置顶评论
生成日期	日期	自动填入
发布状态	单选	待发布 / 已发布 / 已存档

这样我可以按模型筛选、按状态追踪，甚至让团队其他成员直接在飞书里挑文案用。

Step 4：根据文案写分镜

文案有了，接下来解决一个问题：画面配什么？

这一步过去最耗时间。你要逐句读文案，想”这句配产品特写，那句配鱼池全景”，再去素材文件夹里翻素材，最后还要算每个镜头多长。

现在全部交给 AI。

分镜 Skill 的工作流程：

4.1 解析文案

把口播文案按行拆分为”口播单元”，估算每个单元的时长（按 4 字/秒计算）。

4.2 硬规则：子镜头拆分

口播单元时长 ≤ 2.5 秒：只生成 1 个画面镜头
口播单元时长 > 2.5 秒：必须拆成 2 个子镜头（A/B），但音频不拆

这样做的好处是：音频按单元拼接（没有气口断裂），画面按子镜头切换（节奏不拖沓）。

4.3 素材匹配

我提前让 AI 帮我搭建了一套素材库，按 7 大场景分类：

01_产品本体（整机外观、滤网、喷头、进出水口、排污口、控制盒、材质特写）02_产品运行状态（喷头冲洗、鱼粪排出、干净出水、整机运行）03_鱼池场景（清澈、浑浊、安装后效果、传统过滤仓、脏过滤棉、洗过滤棉动作）04_锦鲤镜头（清水游动、群体全景、特写、鱼粪水中）05_安装操作（接水管、插电、安装完成、控制盒操作）06_价格与对比（产品价格展示、竞品超滤机、竞品塑料箱、价格对比字幕）07_工厂与发货（生产线、库存仓库、装箱打包、快递发货、不同规格摆放）

每个素材文件按规范命名：内容描述_景别_运镜.扩展名

分镜时，AI 根据口播关键词自动匹配素材标签：

口播关键词	匹配素材文件夹
骗局 / 挖过滤仓	`03_鱼池场景/传统过滤仓`
过滤棉 / 又臭又腥	`03_鱼池场景/脏过滤棉`
高压喷头 / 自动冲洗	`02_产品运行状态/喷头自动冲洗`
304不锈钢 / 材质	`01_产品本体/材质特写`
价格 / 多少钱	`06_价格与对比/产品价格展示`
源头工厂 / 厂家	`07_工厂与发货/工厂生产线`

如果素材库找不到匹配的，标记为”待补拍”，后续统一安排拍摄。

4.4 衔接规则

为了保证口播、音频、视频严格一一对应，禁止任何转场特效：

❌ 不允许叠化（xfade）
❌ 不允许黑场
✅ 只允许 直切 拼接

运镜描述（缓推/缓拉）仅作为镜头说明，不代表转场叠加。

分镜结果写入飞书多维表格「鱼池分镜库」：

字段	说明
关联文案标题	对应哪条文案
镜号	排序
口播单元ID	音频分组键（如 VO_01）
子镜头	A / B / –
对应口播	该镜头的字幕文本
预计时长	秒数
素材文件夹 / 文件名	素材路径
衔接下一镜	直切 / 缓推 / 缓拉
剪辑状态	待剪辑 / 待补拍 / 已完成

Step 5：搭建素材库

素材库的质量直接决定了成片的质感。我让 AI 帮我定了 3 条铁律：

命名规范：内容描述_景别_运镜.扩展名

景别：全景 / 远景 / 中景 / 近景 / 特写 / 极特写
运镜：固定 / 缓推 / 缓拉 / 横摇

标签系统：每个素材必须标注适用场景标签，方便 AI 匹配

时长检测：运行时统一用 ffprobe 检测真实时长，不依赖文件名

素材库建好后，后续只需要定期补充新拍摄的素材，整个系统就能持续运转。

Step 6：自动剪辑

这是最爽的一步。前面所有工作做完后，剪辑完全不需要人工干预。

6.1 环境检查

每次启动先检查依赖：

FFmpeg（需带 libfreetype、libass、libfontconfig 编译支持）
edge-tts（免费 TTS）
ffprobe

6.2 生成配音

按口播单元逐条生成 TTS：

edge-tts \  --voice zh-CN-YunxiNeural \  --rate "+30%" \  --text "养鱼最大的智商税，就是挖过滤仓" \  --write-media voice_01.mp3

然后按”平衡档”裁剪前后气口：

默认：头裁 0.15s，尾裁 0.12s
短句保护（<1.2s）：尾裁放宽到 0.05s
超短句保护（<0.8s）：头裁 0.08s，尾裁 0
总裁剪上限：头+尾 ≤ 0.30s
最小保留比例：处理后 ≥ 原始时长的 80%

关键：禁用 silenceremove。中文逗号停顿会被误判为静音，导致尾字被吞。

6.3 视频处理（双轨对齐）

每个子镜头独立处理：

speed_ratio = 素材真实时长 / 子镜头目标时长情况A：speed_ratio > 1.2  →  直接截取前 N 秒（不变速）情况B：1.0 < speed_ratio <= 1.2  →  以 speed_ratio 倍加速填满情况C：speed_ratio <= 1.0  →  素材不够，搜索补充素材（同文件夹 → 同父分类 → 标签交集）

所有片段标准化为 1080×1920 竖屏、30fps、libx264。

6.4 拼接

视频轨：按镜号顺序 concat 直切拼接
音频轨：按口播单元顺序 concat 拼接，音量提升 1.5 倍（edge-tts 默认偏低）
混音：如有 BGM，配音 100% + BGM 循环 20%

6.5 烧录字幕

用 ASS 格式（不用 SRT），因为 SRT 的 MarginV 是内部坐标系，超出 288 会渲染到屏幕外。

ASS 设置：

PlayResX=1080, PlayResY=1920

（与视频像素一致）
FontSize=95

（超大字幕，强视觉冲击）
PrimaryColour=&H0000FFFF

（黄色）
Outline=3

+ 黑色描边
MarginV=600

（底部 600px，位置更靠上）

6.6 对齐校验（必须通过）

VO 数量 = voice 文件数
shot 数量 = 分镜行数
每个 VO 的子镜头时长之和 ≈ voice 时长（误差 ≤ 0.03s）

成果对比

指标	之前	现在
日产能	5 条	100 条
单条耗时	2 小时	约 10 分钟（机器跑）
文案质量	靠手感，不稳定	基于 10 个验证模型，结构稳定
分镜耗时	30 分钟/条	AI 自动生成
剪辑耗时	40 分钟/条	全自动，无人干预
人力投入	2 人专职	1 人监督 + 机器执行

几个防踩坑要点

1. 不要直接让 AI “写个文案”

必须先喂爆款数据，让 AI 提炼模型结构。否则出来的东西永远是正确的废话，没有传播力。

2. 素材命名规范是生命线

如果素材文件名乱起，AI 根本匹配不上。命名规范定死后，严格执行。

3. 气口裁剪禁用 silenceremove

中文的逗号停顿很短，会被 silenceremove 误判为静音，导致尾字被切掉。用固定时长裁剪更可靠。

4. 字幕用 ASS，不要用 SRT

SRT 的 subtitles filter 中 MarginV 是 ASS 内部坐标系（默认 PlayResY=288），不是视频像素。MarginV>288 时字幕直接消失。

5. 分镜的 2.5 秒规则是硬约束

口播单元超过 2.5 秒必须拆 A/B 镜，否则单镜头太长观众会划走。但也不能拆太多，否则节奏碎。

6. 先验证再批量

搭建系统的第一周，先拿 3-5 条文案跑通全流程，确认每个环节输出正确，再开启批量模式。

进阶玩法

多账号矩阵

同一套系统，换不同的产品信息模板和素材库，就能跑完全不同的品类。我已经在用同一套架构测试第二个项目。

A/B 测试

飞书表格天然支持筛选和分组。可以按”使用模型”分组，对比不同模型的完播率和转化率，找出你账号最适合的文案结构。

素材补拍清单

分镜表会自动标记”待补拍”的镜头，定期汇总成一个拍摄清单，集中一天拍完，效率最高。

结语

从找对标、拆模型、批量文案、自动分镜、素材匹配、到最终的配音剪辑输出。

我只用了不到两周时间搭建，零额外服务器成本，就把短视频生产从”手工作坊”升级成了”自动化工厂”。

这就是 AI + 系统化思维带来的恐怖生产力。你不需要再陷在每天写脚本、想画面、剪视频的重复劳动里。那些已经被验证有效的爆款结构，完全可以交给机器在你看不见的地方默默复制。

如果你也在做短视频矩阵，建议从”拆解爆款模型”这一步开始。不要直接让 AI 写文案，先让它学会你行业里的爆款结构。

结构对了，批量只是顺水推舟。

本文提到的 Skill 系统基于 Cursor 搭建，核心由 4 个串联 Skill 组成：文案批量生成、文案飞书写入、分镜生成、视频剪辑。使用工具包括 Claude（文案生成）、飞书多维表格（数据中枢）、edge-tts（配音）、FFmpeg（剪辑）。