我用这个开源工具,30秒出一条短视频——AI短视频工厂首次体验全记录
📌 写在前面:为什么我要试这个工具?
最近短视频赛道卷得不行。
做电商的朋友跟我说,他们每天需要产出 30 条以上的产品介绍视频,靠人工剪辑根本来不及;做内容的同学也抱怨,选题、写稿、配音、剪辑一条龙下来,一天能出 3 条已经不错了。
然后我在 GitHub 上刷到了这个项目:
AI Short Video Factory(短视频工厂)
项目介绍只有一句话:
🚀 一键生成产品营销与泛内容短视频,AI批量自动剪辑,高颜值跨平台桌面端工具。
老实说,我刚看到的时候是将信将疑的——市面上吹”一键出片”的工具太多了,大多数要么效果一般,要么配置极复杂。但这个是开源的,代码全公开,社区评价也不错,我决定亲自试一试,写下这篇首次体验全记录。

🔍 这个项目是什么?先扫一眼基本信息
-
• 项目名称: AI Short Video Factory(短视频工厂) -
• 原始仓库: github.com/YILS-LIN/short-video-factory -
• 开发者: YILS(国内独立开发者) -
• 官方文档: short-video-factory.yils.blog -
• 开源协议: AGPL-3.0 -
• 技术栈: TypeScript 58% + Vue 38%(Electron 跨平台桌面端) -
• 平台支持: Windows / macOS / Linux -
• 核心定位: 提示词 + 分镜素材 → AI自动生成脚本/配音/字幕 → 成片导出,全流程自动化
这不是一个在线 SaaS,而是本地运行的桌面应用。你的数据、素材、API Key 全部留在本地,不上传任何服务器。对于有商业内容需求的用户,这一点非常重要。
⚡ 核心能力一览:它到底能干什么?
在动手之前,先搞清楚这个工具的能力边界。
它能做的:
一句提示词进去,AI 自动帮你完成「文案生成 → 语音合成 → 视频剪辑 → 字幕特效 → 成片导出」完整链路。支持批量任务,24小时无人值守循环生产。
具体来说:
🤖 AI 驱动文案:接入任意兼容 OpenAI 接口的大模型(智谱AI、Kimi、DeepSeek、OpenAI、Azure、OpenRouter等),根据你的提示词自动生成短视频脚本。
🎙️ TTS 语音合成:内置 Edge TTS(微软语音),免费、中英文皆可、多音色可选,声音自然流畅,不是那种机械感很重的合成音。
🎥 自动混剪:把你准备好的分镜视频素材丢进去,软件按脚本节奏自动裁切、拼接、加字幕、加 BGM,一键出片。
📦 批量任务:设置好预设后,软件自动按队列循环生产,适合需要高频出片的团队。
它暂时做不到的:
不能自动搜索或生成视频素材(视频需要你自己准备),不支持直接发布到平台(需要手动上传),字幕特效的样式相对基础。这些在路线图里都有规划,后续版本会陆续完善。
🛠️ 上手全流程:一个新手的真实操作记录
以下是我第一次打开软件的完整操作过程,配合流程图食用效果更佳。
第一步:下载安装
直接去原始仓库的 Releases 页面下载对应平台的安装包:
https://github.com/YILS-LIN/short-video-factory/releases
Windows 下载 .exe,macOS 下载 .dmg,Linux 下载 .AppImage。
双击安装,整个过程大概 30 秒,没有任何依赖需要另外安装。打开软件,迎面而来的是一个相当现代感的深色主界面——说实话比我预期的好看很多。
界面布局是这样的:
-
• 左侧:大模型调用区(LLM 配置 + 提示词 + 文案输出) -
• 中间:分镜视频素材管理区 -
• 右上:TTS 语音配置区 -
• 右下:合成配置 + 「开始合成」大按钮
四个区域的常驻布局贯穿整个工作流,90% 的操作在一个界面里完成,不需要来回切换。

第二步:配置大模型 API
这是第一次使用最重要的步骤。点击左侧的「配置」按钮,进入 LLM 配置界面,需要填写三项:
API 地址:https://open.bigmodel.cn/api/paas/v4/ (智谱AI 示例)
API Key:你的密钥(去对应平台申请)
模型名称:glm-4-flash (智谱AI 免费模型)
软件支持任意兼容 OpenAI 接口格式的服务商,这意味着:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
我用的是智谱AI 的 glm-4-flash 模型,完全免费,生成速度也不慢。
填写完毕后点击「测试」按钮,左下角弹出**「大模型连接成功」**的提示,就说明配置完成了,点「保存」即可。
💡 小技巧:如果你手上没有 API Key,推荐先去智谱AI(bigmodel.cn)注册,免费模型够用了。
第三步:写提示词 + 生成文案
回到主界面左侧区域,在提示词输入框里写你的需求。
我第一次测试写的是:
帮我写一段 30 秒的短视频文案,介绍一款防水运动耳机。
突出卖点:IPX7 防水、连续播放 12 小时、低延迟游戏模式。
语气活泼,适合抖音/B站的年轻用户。
点击「生成文案」,大约 5-8 秒后,文案就出来了。AI 生成的内容大概是这样的结构:开头吸引注意 → 核心卖点展示 → 使用场景描述 → 结尾行动引导。整体节奏感和抖音常见视频风格比较接近。
你可以直接使用生成的文案,也可以手动修改调整。有意思的是:如果你在输出文案框里已经有内容,合成时软件会直接使用现有文案;如果文案为空,软件会先调用大模型生成再合成。 这个设计挺灵活的,可以随时介入手动调整。
第四步:导入分镜视频素材
视频素材是这个工具需要你自己准备的部分。
你可以从这两个免版权素材站下载视频片段:
-
• Pexels(pexels.com):高质量商业免费素材 -
• Pixabay(pixabay.com):同类型,可免费商用
把素材视频放进一个文件夹,然后在软件中间区域点击「导入素材」,选择该文件夹批量导入。
我准备了 8 个运动场景的视频片段(每个约 5-15 秒),全部放在同一个文件夹里。导入后软件以缩略图形式展示,可以预览每段素材。
💡 建议:准备的素材数量要多于视频总时长需要的段数,让软件有足够的素材可以自由剪切拼接。分辨率尽量统一,混用不同比例的素材可能产生黑边。
第五步:配置 TTS 语音
右上角是语音配置区。点击「配置」进入 TTS 参数设置界面:
语音服务:Edge TTS(默认,免费)
语言:zh-CN(普通话)
音色:多种可选(女声/男声)
语速:可调整
Edge TTS 是微软的语音服务,质量相当不错,不会有那种让人出戏的机械感。选好音色后可以点击预览试听,确认效果满意再保存。
如果你有其他 TTS 服务的 API,后续版本也会支持更多语音合成接入方式(路线图中有提到)。
第六步:配置合成参数 → 一键合成!
右下角点击合成区域的「配置」按钮,进入合成参数配置:
视频分辨率:1080×1920(竖屏1080P,适合抖音/视频号)
或 1920×1080(横屏,适合 B 站/YouTube)
导出文件名:自定义
导出格式:mp4(默认)
导出文件夹:选择本地路径
背景音乐文件夹:可选,随机选取一首添加
配置完保存,回到主界面。
深呼一口气,点下那个大大的**「开始合成」**按钮。
软件开始工作:调用大模型生成文案 → 调用 TTS 合成语音 → 按脚本节奏混剪视频素材 → 添加字幕和特效 → 导出 mp4。
整个过程软件右侧会显示实时进度,允许随时中断。我的 30 秒视频大约等了 40 秒左右就合成完成了。打开导出文件夹,视频已经在那里了。
第一次看到成片的时候,我愣了一下。 字幕节奏对上了,语音自然,镜头切换基本顺畅,已经比很多人手动剪的初剪版本要强了。当然如果是追求精品的内容,还需要再手工精修,但对于批量生产场景,这个效率是碾压级别的提升。
🎯 三个真实应用场景
场景一:电商产品视频批量生产
你卖的是运动装备,每款新品上架都需要配一条 30-60 秒的产品介绍视频。传统做法是拍摄+剪辑,每条至少半天人力。
用短视频工厂的玩法:准备好产品的通用分镜素材库(展示角度/使用场景),每款产品写一份提示词(卖点列表),批量任务一开,今天上新的 10 款产品,明早全部有视频。
场景二:知识/语录类内容日更
这类内容结构固定:一段文案 + 适合的背景视频 + 语音播报 + 字幕。恰好是短视频工厂最擅长的模式。
你可以一次性准备 100 条语录文案,放进批量任务队列,软件会按预设自动循环生产,第二天一早 100 条视频已经躺在文件夹里等你上传了。
场景三:多语言内容矩阵
你想同时运营中文和英文的频道。把 TTS 语言切换为 en-US,把提示词改成英文,同样的素材库可以产出英文版视频。软件本身支持中英文双语界面,操作无障碍。
📢 X(推特)平台用户怎么说?
我专门去 X 上搜了一圈关于这个项目的讨论,汇总了真实评价:
@GitHub_Daily(GitHub 日报,大 V 账号) 转推并评论:
「又在 GitHub 上看到一个全流程自动化的短视频制作开源工具:AI Short Video Factory,一键完成从文案到成片自动剪辑。提供跨平台的桌面客户端,集成了 AI 文案生成、语音合成、自动剪辑和字幕特效等功能。只需输入简单的提示词和视频分镜素材,就能快速且自动的批量产出产品和内容短视频。」
这条帖子获得了大量转发,说明这个工具在开发者社区里引发了不小的关注。
@taziku_co(日本 AI 创业者) 分享:
「Short Video Factory Code: github.com/YILS-LIN/short-video-factory #AI」
连日本的 AI 从业者都在关注这个中国开发者的项目,可见其影响力已经跨出了国内社区。
@liangwenhao3 评论:
「#AI 一键生成产品营销与泛内容短视频,AI批量自动剪辑,跨平台桌面端工具」
该帖子在转发后吸引了多条询问「如何配置」的回复,说明有相当数量的人被这个工具吸引,开始实际尝试上手。
GitHub Issues 区的用户反馈(整理):
-
• 有用户提到素材分辨率不一致时会出现黑边,已提交 Issue,作者正在处理; -
• 有用户反馈在 macOS 上第一次打开需要在安全设置里允许; -
• 多位用户询问是否支持更多 TTS 接口,作者在路线图中已列为下一阶段计划; -
• 整体评价集中在「上手很快」「界面好看」「批量功能实用」这几个关键词上。
总体社区声音:
用一句话概括:大家觉得这个工具的核心理念很对,目前功能已经够用,期待后续迭代把字幕特效和语音接入做得更丰富。
🔑 核心精华提炼:新手上手必知的 5 件事
1. 素材质量决定了上限。 AI 可以帮你写文案、合成语音、自动剪辑,但视频内容本身的视觉质量依赖你提供的素材。建议去 Pexels 找高质量免版权素材,统一分辨率再导入。
2. 提示词写得越具体,文案质量越高。 把产品的核心卖点、目标用户、视频时长、语气风格都写进提示词,输出质量会明显更好。别只写「帮我写一个产品视频」。
3. 先用智谱AI 的免费模型入门。 不需要花钱,注册即用,glm-4-flash 的文案质量对于短视频场景完全够用。进阶后可以接 GPT-4 或 Claude 提升质量。
4. 批量任务是效率核心。 单次生产一条不体现优势,批量任务才是这个工具的威力所在。建议把提示词模板化,素材库提前备好,然后一次性跑批量任务。
5. 输出文案可以手工介入。 软件检测到文案框有内容时会直接使用,不会再调用大模型生成。这意味着你可以先生成文案、手动精修,再拿去合成视频,控制权完全在你手里。
⚖️ 横向对比:这类工具的选择逻辑
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
总结:如果你需要高频批量产出、对数据隐私有要求、有一定动手能力,短视频工厂是目前开源工具里综合体验最好的选择之一。如果你更追求精品单条视频的视觉效果,剪映这类工具更合适。
💭 一个新手体验者的真实感受
坦白说,第一次打开的时候我有点懵——界面按钮确实不少,作者自己也在文档里说「Don’t worry,90% 的操作浓缩进了这一个界面,但依然保持简洁直观」。
体验下来,这句话基本属实。四栏布局一旦熟悉,整个操作流程是非常顺畅的:左边配模型写提示词,中间管素材,右上选语音,右下合成导出,一套行云流水。
最打动我的是它真的在做一件事:把视频生产工业化。不是帮你剪出一条”完美视频”,而是帮你建立起一条可以持续运转的内容流水线。这个定位,对很多有批量内容需求的创作者和中小商家来说,是真的戳到了痛点。
项目还在快速迭代,路线图上的新功能(更多 TTS 接口、更丰富的字幕特效、更全面的参数调整)都在推进中。作者有在认真做,这个工具值得持续关注。
📌 资源汇总
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
夜雨聆风