我用这个开源工具,30秒出一条短视频——AI短视频工厂首次体验全记录-夜雨聆风

我用这个开源工具,30秒出一条短视频——AI短视频工厂首次体验全记录

📌 写在前面：为什么我要试这个工具？

最近短视频赛道卷得不行。

做电商的朋友跟我说，他们每天需要产出 30 条以上的产品介绍视频，靠人工剪辑根本来不及；做内容的同学也抱怨，选题、写稿、配音、剪辑一条龙下来，一天能出 3 条已经不错了。

然后我在 GitHub 上刷到了这个项目：

AI Short Video Factory（短视频工厂）

项目介绍只有一句话：

🚀 一键生成产品营销与泛内容短视频，AI批量自动剪辑，高颜值跨平台桌面端工具。

老实说，我刚看到的时候是将信将疑的——市面上吹”一键出片”的工具太多了，大多数要么效果一般，要么配置极复杂。但这个是开源的，代码全公开，社区评价也不错，我决定亲自试一试，写下这篇首次体验全记录。

🔍 这个项目是什么？先扫一眼基本信息

• 项目名称： AI Short Video Factory（短视频工厂）
• 原始仓库： github.com/YILS-LIN/short-video-factory
• 开发者： YILS（国内独立开发者）
• 官方文档： short-video-factory.yils.blog
• 开源协议： AGPL-3.0
• 技术栈： TypeScript 58% + Vue 38%（Electron 跨平台桌面端）
• 平台支持： Windows / macOS / Linux
• 核心定位： 提示词 + 分镜素材 → AI自动生成脚本/配音/字幕 → 成片导出，全流程自动化

这不是一个在线 SaaS，而是本地运行的桌面应用。你的数据、素材、API Key 全部留在本地，不上传任何服务器。对于有商业内容需求的用户，这一点非常重要。

⚡ 核心能力一览：它到底能干什么？

在动手之前，先搞清楚这个工具的能力边界。

它能做的：

一句提示词进去，AI 自动帮你完成「文案生成 → 语音合成 → 视频剪辑 → 字幕特效 → 成片导出」完整链路。支持批量任务，24小时无人值守循环生产。

具体来说：

🤖 AI 驱动文案：接入任意兼容 OpenAI 接口的大模型（智谱AI、Kimi、DeepSeek、OpenAI、Azure、OpenRouter等），根据你的提示词自动生成短视频脚本。

🎙️ TTS 语音合成：内置 Edge TTS（微软语音），免费、中英文皆可、多音色可选，声音自然流畅，不是那种机械感很重的合成音。

🎥 自动混剪：把你准备好的分镜视频素材丢进去，软件按脚本节奏自动裁切、拼接、加字幕、加 BGM，一键出片。

📦 批量任务：设置好预设后，软件自动按队列循环生产，适合需要高频出片的团队。

它暂时做不到的：

不能自动搜索或生成视频素材（视频需要你自己准备），不支持直接发布到平台（需要手动上传），字幕特效的样式相对基础。这些在路线图里都有规划，后续版本会陆续完善。

🛠️ 上手全流程：一个新手的真实操作记录

以下是我第一次打开软件的完整操作过程，配合流程图食用效果更佳。

第一步：下载安装

直接去原始仓库的 Releases 页面下载对应平台的安装包：

https://github.com/YILS-LIN/short-video-factory/releases

Windows 下载 .exe，macOS 下载 .dmg，Linux 下载 .AppImage。

双击安装，整个过程大概 30 秒，没有任何依赖需要另外安装。打开软件，迎面而来的是一个相当现代感的深色主界面——说实话比我预期的好看很多。

界面布局是这样的：

• 左侧：大模型调用区（LLM 配置 + 提示词 + 文案输出）
• 中间：分镜视频素材管理区
• 右上：TTS 语音配置区
• 右下：合成配置 + 「开始合成」大按钮

四个区域的常驻布局贯穿整个工作流，90% 的操作在一个界面里完成，不需要来回切换。

第二步：配置大模型 API

这是第一次使用最重要的步骤。点击左侧的「配置」按钮，进入 LLM 配置界面，需要填写三项：

API 地址：https://open.bigmodel.cn/api/paas/v4/   （智谱AI 示例）
API Key：你的密钥（去对应平台申请）
模型名称：glm-4-flash   （智谱AI 免费模型）

软件支持任意兼容 OpenAI 接口格式的服务商，这意味着：

服务商	API 地址（基础部分）	免费额度
智谱AI	open.bigmodel.cn/api/paas/v4	有免费模型
DeepSeek	api.deepseek.com/v1	注册送额度
OpenRouter	openrouter.ai/api/v1	部分模型免费
Kimi	api.moonshot.cn/v1	注册送额度
OpenAI	api.openai.com/v1	按量付费

我用的是智谱AI 的 glm-4-flash 模型，完全免费，生成速度也不慢。

填写完毕后点击「测试」按钮，左下角弹出**「大模型连接成功」**的提示，就说明配置完成了，点「保存」即可。

💡 小技巧：如果你手上没有 API Key，推荐先去智谱AI（bigmodel.cn）注册，免费模型够用了。

第三步：写提示词 + 生成文案

回到主界面左侧区域，在提示词输入框里写你的需求。

我第一次测试写的是：

帮我写一段 30 秒的短视频文案，介绍一款防水运动耳机。
突出卖点：IPX7 防水、连续播放 12 小时、低延迟游戏模式。
语气活泼，适合抖音/B站的年轻用户。

点击「生成文案」，大约 5-8 秒后，文案就出来了。AI 生成的内容大概是这样的结构：开头吸引注意 → 核心卖点展示 → 使用场景描述 → 结尾行动引导。整体节奏感和抖音常见视频风格比较接近。

你可以直接使用生成的文案，也可以手动修改调整。有意思的是：如果你在输出文案框里已经有内容，合成时软件会直接使用现有文案；如果文案为空，软件会先调用大模型生成再合成。 这个设计挺灵活的，可以随时介入手动调整。

第四步：导入分镜视频素材

视频素材是这个工具需要你自己准备的部分。

你可以从这两个免版权素材站下载视频片段：

• Pexels（pexels.com）：高质量商业免费素材
• Pixabay（pixabay.com）：同类型，可免费商用

把素材视频放进一个文件夹，然后在软件中间区域点击「导入素材」，选择该文件夹批量导入。

我准备了 8 个运动场景的视频片段（每个约 5-15 秒），全部放在同一个文件夹里。导入后软件以缩略图形式展示，可以预览每段素材。

💡 建议：准备的素材数量要多于视频总时长需要的段数，让软件有足够的素材可以自由剪切拼接。分辨率尽量统一，混用不同比例的素材可能产生黑边。

第五步：配置 TTS 语音

右上角是语音配置区。点击「配置」进入 TTS 参数设置界面：

语音服务：Edge TTS（默认，免费）
语言：zh-CN（普通话）
音色：多种可选（女声/男声）
语速：可调整

Edge TTS 是微软的语音服务，质量相当不错，不会有那种让人出戏的机械感。选好音色后可以点击预览试听，确认效果满意再保存。

如果你有其他 TTS 服务的 API，后续版本也会支持更多语音合成接入方式（路线图中有提到）。

第六步：配置合成参数 → 一键合成！

右下角点击合成区域的「配置」按钮，进入合成参数配置：

视频分辨率：1080×1920（竖屏1080P，适合抖音/视频号）
            或 1920×1080（横屏，适合 B 站/YouTube）
导出文件名：自定义
导出格式：mp4（默认）
导出文件夹：选择本地路径
背景音乐文件夹：可选，随机选取一首添加

配置完保存，回到主界面。

深呼一口气，点下那个大大的**「开始合成」**按钮。

软件开始工作：调用大模型生成文案 → 调用 TTS 合成语音 → 按脚本节奏混剪视频素材 → 添加字幕和特效 → 导出 mp4。

整个过程软件右侧会显示实时进度，允许随时中断。我的 30 秒视频大约等了 40 秒左右就合成完成了。打开导出文件夹，视频已经在那里了。

第一次看到成片的时候，我愣了一下。 字幕节奏对上了，语音自然，镜头切换基本顺畅，已经比很多人手动剪的初剪版本要强了。当然如果是追求精品的内容，还需要再手工精修，但对于批量生产场景，这个效率是碾压级别的提升。

🎯 三个真实应用场景

场景一：电商产品视频批量生产

你卖的是运动装备，每款新品上架都需要配一条 30-60 秒的产品介绍视频。传统做法是拍摄+剪辑，每条至少半天人力。

用短视频工厂的玩法：准备好产品的通用分镜素材库（展示角度/使用场景），每款产品写一份提示词（卖点列表），批量任务一开，今天上新的 10 款产品，明早全部有视频。

场景二：知识/语录类内容日更

这类内容结构固定：一段文案 + 适合的背景视频 + 语音播报 + 字幕。恰好是短视频工厂最擅长的模式。

你可以一次性准备 100 条语录文案，放进批量任务队列，软件会按预设自动循环生产，第二天一早 100 条视频已经躺在文件夹里等你上传了。

场景三：多语言内容矩阵

你想同时运营中文和英文的频道。把 TTS 语言切换为 en-US，把提示词改成英文，同样的素材库可以产出英文版视频。软件本身支持中英文双语界面，操作无障碍。

📢 X（推特）平台用户怎么说？

我专门去 X 上搜了一圈关于这个项目的讨论，汇总了真实评价：

@GitHub_Daily（GitHub 日报，大 V 账号） 转推并评论：

「又在 GitHub 上看到一个全流程自动化的短视频制作开源工具：AI Short Video Factory，一键完成从文案到成片自动剪辑。提供跨平台的桌面客户端，集成了 AI 文案生成、语音合成、自动剪辑和字幕特效等功能。只需输入简单的提示词和视频分镜素材，就能快速且自动的批量产出产品和内容短视频。」

这条帖子获得了大量转发，说明这个工具在开发者社区里引发了不小的关注。

@taziku_co（日本 AI 创业者） 分享：

「Short Video Factory Code: github.com/YILS-LIN/short-video-factory #AI」

连日本的 AI 从业者都在关注这个中国开发者的项目，可见其影响力已经跨出了国内社区。

@liangwenhao3 评论：

「#AI 一键生成产品营销与泛内容短视频，AI批量自动剪辑，跨平台桌面端工具」

该帖子在转发后吸引了多条询问「如何配置」的回复，说明有相当数量的人被这个工具吸引，开始实际尝试上手。

GitHub Issues 区的用户反馈（整理）：

• 有用户提到素材分辨率不一致时会出现黑边，已提交 Issue，作者正在处理；
• 有用户反馈在 macOS 上第一次打开需要在安全设置里允许；
• 多位用户询问是否支持更多 TTS 接口，作者在路线图中已列为下一阶段计划；
• 整体评价集中在「上手很快」「界面好看」「批量功能实用」这几个关键词上。

总体社区声音：

用一句话概括：大家觉得这个工具的核心理念很对，目前功能已经够用，期待后续迭代把字幕特效和语音接入做得更丰富。

🔑 核心精华提炼：新手上手必知的 5 件事

1. 素材质量决定了上限。 AI 可以帮你写文案、合成语音、自动剪辑，但视频内容本身的视觉质量依赖你提供的素材。建议去 Pexels 找高质量免版权素材，统一分辨率再导入。

2. 提示词写得越具体，文案质量越高。 把产品的核心卖点、目标用户、视频时长、语气风格都写进提示词，输出质量会明显更好。别只写「帮我写一个产品视频」。

3. 先用智谱AI 的免费模型入门。 不需要花钱，注册即用，glm-4-flash 的文案质量对于短视频场景完全够用。进阶后可以接 GPT-4 或 Claude 提升质量。

4. 批量任务是效率核心。 单次生产一条不体现优势，批量任务才是这个工具的威力所在。建议把提示词模板化，素材库提前备好，然后一次性跑批量任务。

5. 输出文案可以手工介入。 软件检测到文案框有内容时会直接使用，不会再调用大模型生成。这意味着你可以先生成文案、手动精修，再拿去合成视频，控制权完全在你手里。

⚖️ 横向对比：这类工具的选择逻辑

对比维度	短视频工厂（开源）	剪映/CapCut	付费 AI 视频 SaaS
费用	几乎免费（LLM API 按量计费）	免费/会员	月费 100+
批量能力	强（无上限批量任务）	弱	中
本地运行	✅ 数据完全本地	❌ 云端	❌ 云端
定制灵活度	高（开源可改代码）	低	中
上手难度	中（需配 API Key）	低	低
视觉效果	中（依赖素材质量）	高（内置模板丰富）	中高
适合场景	高频批量、电商、内容矩阵	精品单条	专业制作

总结：如果你需要高频批量产出、对数据隐私有要求、有一定动手能力，短视频工厂是目前开源工具里综合体验最好的选择之一。如果你更追求精品单条视频的视觉效果，剪映这类工具更合适。

💭 一个新手体验者的真实感受

坦白说，第一次打开的时候我有点懵——界面按钮确实不少，作者自己也在文档里说「Don’t worry，90% 的操作浓缩进了这一个界面，但依然保持简洁直观」。

体验下来，这句话基本属实。四栏布局一旦熟悉，整个操作流程是非常顺畅的：左边配模型写提示词，中间管素材，右上选语音，右下合成导出，一套行云流水。

最打动我的是它真的在做一件事：把视频生产工业化。不是帮你剪出一条”完美视频”，而是帮你建立起一条可以持续运转的内容流水线。这个定位，对很多有批量内容需求的创作者和中小商家来说，是真的戳到了痛点。

项目还在快速迭代，路线图上的新功能（更多 TTS 接口、更丰富的字幕特效、更全面的参数调整）都在推进中。作者有在认真做，这个工具值得持续关注。

📌 资源汇总

资源	地址
GitHub 仓库	github.com/YILS-LIN/short-video-factory
官方文档站	short-video-factory.yils.blog
使用手册	short-video-factory.yils.blog/manual
最新版下载	github.com/YILS-LIN/short-video-factory/releases
免版权素材站	pexels.com / pixabay.com
智谱AI（免费模型）	bigmodel.cn

GitHub 爆火的 “AI 编程驯化指南”: 一份 CLAUDE.md 文件如何让 AI 写出 senior 水平的代码

Hermes Agent 终于有了图形界面！终端控的噩梦结束了——hermes-web-ui 第一次体验实录

HeyGen 开源了一个炸弹：AI Agent 终于能剪视频了——HTML 进，MP4 出，零云端，零账号

一个文件、65行代码，让你的 Claude Code 从「自信菜鸟」变成老练工程师——56000 Star 的 CLAUDE.md 完全指南

GitHub 17.5k Star！这个开源项目要让你拥有一个「真正活着」的 AI 老婆

他们在 X 上说：「安装 5 分钟就被震撼了」——Hermes Agent 深度评测，附真实用户案例