1. 前言
你是不是也有这样的困扰?想要做一个口播视频,但:
写完文案后,还要满世界找配图配视频素材 找到素材还要手动剪辑、对字幕、加配音 折腾半天,最后发现剪映还是一片空白
今天要介绍的这个 AI 自动视频制作系统,正是为了解决这个痛点而生。你只需要在网页上输入一段文案,系统会自动完成:
AI 分析文案,提取关键词和情绪风格 自动从 Pexels/Pixabay 搜索匹配的视频素材 生成专业配音和精准字幕 一键创建剪映草稿
整套流程全自动,你只需要在剪映里做最后的调优。从文案到剪映草稿,1-5 分钟搞定。

2. 产品概览
一句话说明
用户输入一段口播文案,系统自动生成带配音、字幕、画面、音效、背景音乐的完整短视频剪映草稿。
两种工作模式
界面布局
系统采用左侧边栏 + 右侧内容的布局:
顶部导航:切换「云端模式」「本地模式」「会员中心」三个页面 左侧边栏:API Key 配置、路径配置、配音设置,始终可见 右侧内容区:文案输入、快捷设置、日志输出

3. 云端模式详解
云端模式是最快捷的使用方式,无需任何预处理,输入文案即可生成视频。
3.1 首次使用:配置 API Key
在左侧边栏找到「API Key 配置」,展开后填写以下信息:
| 智谱 AI Key | ||
| MiniMax Key | ||
| Pexels Key | ||
| Pixabay Key |
填写完成后,点击左下角的「保存配置」按钮。之后再次使用时无需重新填写。
关于 API Key 的小提示:
Pexels 有免费额度(200次/月),超出后会有限流,推荐同时配置 Pixabay 作为备选 如果只需要配音和字幕功能,至少需要配置 智谱 AI Key 和 MiniMax Key 所有 Key 都会安全保存在本地,不会上传到任何服务器
3.2 快捷设置
在云端模式页面左侧的快捷设置区,可以调整以下选项:
素材来源
| Pexels(推荐) | |
| Pixabay | |
| P + P 组合 |
视频比例
| 16:9 横屏 | |
| 9:16 竖屏 |

音色选择
系统内置了 30+ 种配音音色,可以满足不同风格视频的需求:

语速调节
通过滑块调节配音速度,默认推荐 1.2x,比正常语速稍快,听起来更精神。
智能背景音乐
勾选后,系统会根据文案的情感风格(舒缓/温暖/动感等)自动推荐并添加背景音乐,音量会自动降至 20%,确保不影响配音听感。
智能加音效
勾选后,系统会在文案中提到特定动作或场景的位置,自动插入合适的音效(如:开门声、海浪声、转场音效等)。

3.3 输入文案
在右侧文案输入框中粘贴或输入你的口播脚本。系统会自动根据标点符号进行分句处理。
文案示例:
欢迎来到今天的教程。今天我们将学习如何使用AI工具快速生成视频。首先,打开我们的AI视频生成系统。系统会自动分析文案内容,并匹配合适的视频素材。整个过程只需要几分钟,就能生成一个专业的视频草稿。
3.4 一键生成
文案输入完成后,点击右下角的「开始生成视频」按钮。
日志区域会自动展开,实时显示整个生成过程:
[Step 1] 分析文案 → 分句完成,3句,45字[Step 2] 生成配音 → 完成,12.5秒[Step 3] 生成字幕 → 识别5个片段[Step 4] AI分析 → 情绪:温暖,场景:科技[Step 5] 搜索素材 → 片段1✓ 片段2✓ 片段3✓...[Step 6] 下载素材 → 准备3个视频片段[Step 7] 创建剪映草稿 → 完成✅ 生成完成!请打开剪映查看草稿:xxx
生成过程说明:
3.5 查看结果
生成完成后,直接打开 剪映桌面版,在【我的草稿】中就能看到新创建的草稿。

草稿包含完整的视频轨道:
| 视频轨道 | |
| 配音轨道 | |
| 字幕轨道 | |
| BGM轨道 |
你可以在剪映里做最后的调优:调整片段顺序、修改字幕样式、添加转场效果、滤镜调色等。

4. 本地模式详解
本地模式适合有大量自有视频素材库的用户,通过 CLIP 语义匹配,可以使用自己的素材生成视频。
4.1 核心优势
素材掌控:使用自己的视频素材,版权无忧 语义匹配:输入"海边日落",系统自动找到匹配的画面 增量更新:新增素材只需再次运行向量化,自动跳过未变化的文件
4.2 工作流程
本地模式分为两个页面:
素材向量管理:将本地素材转换为可检索的向量索引 本地视频生成:输入文案,CLIP 语义匹配素材,生成剪映草稿
4.3 第一步:素材向量管理
进入【💾 本地模式】,默认显示「素材向量管理」页面。

查看向量库状态
页面顶部显示向量库的当前状态:
总记录数:所有向量条目总数 视频文件:参与处理的视频数量 图片文件:参与处理的图片数量 镜头片段:从视频中检测出的独立镜头数
配置素材库路径
在「素材库配置」区域填写你的素材根目录:
系统支持 递归扫描,子文件夹也会被扫描 支持格式:图片 jpg/png/webp/bmp,视频 mp4/mov/avi/mkv/webm 无需分类:images/ 和 videos/ 文件夹可以混在一起 文件名建议:包含场景/地点/关键词有助于匹配(如: 海滩_日落.mp4、咖啡馆_室内.mp4)
调整向量化参数
在「向量化配置」区域可以调整:

开始向量化
点击「开始向量化」按钮,系统会:
扫描素材库中的所有文件 对图片直接提取 CLIP 特征 对视频进行镜头检测,然后逐镜头提取特征 存入 ChromaDB 向量数据库

关于向量化的注意事项:
首次运行需要下载 CLIP 模型,之后会缓存到本地 已处理过的文件(路径 + 修改时间未变)会自动跳过,不重复处理 如果素材库有更新,只需再次运行「开始向量化」,系统会自动增量更新
4.4 第二步:本地视频生成
向量索引建立完成后,切换到「本地视频生成」Tab。

前置检查
系统会检查向量库状态:
通过:显示绿色提示「✅ 向量库就绪(X条记录)」 未通过:显示橙色警告「⚠️ 向量库为空,请先运行素材向量管理」

生成参数设置
输入文案
在文案输入框中填写你的口播脚本。
一键生成
点击「开始生成视频」,日志输出示例:
📝 Step 1: 生成分镜脚本... → ✅ 生成 4 个片段🎤 Step 2: 生成配音... → ✅ 配音完成: 28.5秒📄 Step 3: ASR字幕... → ✅ ASR识别: 5个片段🔍 Step 4: CLIP语义匹配... 片段1: ✅ 海滩_日落.mp4 (相似度 0.847) 片段2: ✅ 咖啡馆_室内.mp4 (相似度 0.792) 片段3: ⚠️ 未匹配到合适素材🎵 Step 5a: BGM推荐... → ✅ 背景音乐: 温暖生活🎬 Step 6: 创建剪映草稿...🎉 生成完成!请打开剪映查看草稿:xxx4.5 语义搜索测试
除了自动生成视频,本地模式还提供了一个独立的语义搜索测试页面,可以单独测试 CLIP 语义匹配的效果。

进入【💾 本地模式 → 语义搜索测试】,可以看到以下功能:
输入文本描述
在搜索框中输入任意文本描述,例如:
在电脑前工作

检索设置
| 检索类型 | |
| 智能增强 | |
| 返回数量 |
检索结果
点击「开始检索」后,结果以表格形式展示:
文件操作
点击某一行可以选中该素材,下方会显示文件详情:
显示完整文件路径 「打开文件位置」按钮:直接打开所在文件夹 「复制路径」按钮:一键复制文件路径到剪贴板
使用场景:
在正式生成视频前,先测试一下某个描述能匹配到什么素材 排查向量库是否覆盖了你的素材 验证某个抽象概念(如"内卷"、"摸鱼")是否能被正确匹配
4.6 本地模式 vs 云端模式
5. 核心技术介绍
5.1 AI 文案分析
系统使用智谱 GLM-4 大模型对文案进行语义分析:
关键词提取:将文案转换为英文关键词,用于 Pexels/Pixabay 搜索 场景识别:判断是风景/城市/人物/美食/科技等类型 情绪分析:判断是舒缓/温暖/动感/欢快等风格 BGM推荐:根据情绪风格推荐匹配的背景音乐
5.2 CLIP 语义匹配(本地模式)
使用 CLIP 中文模型提取素材的语义特征:
对图片:直接提取整体特征 对视频:先进行镜头检测,然后逐镜头提取特征 匹配时:计算文案与素材特征的相似度,返回最相似的片段
6. 总结
今天主要介绍了 AI 自动视频制作系统的完整使用流程。该系统以"文案输入 + AI 分析 + 双源素材搜索 + 智能配音 + 剪映草稿"为核心优势,帮助自媒体创作者、企业市场人员突破传统视频制作的时间瓶颈。
通过这套方案,你不需要:
手动搜索和下载视频素材 逐字逐句对时间轴加字幕 反复调试音色和背景音乐
你只需要专注于文案本身,剩下的全部交给 AI。
无论是快速产出短视频、还是批量制作系列内容,这套系统都能显著提升效率。感兴趣的小伙伴可以按照文中提供的步骤进行配置和实战。
获取工具
想亲自体验一下?可直接打开项目地址
https://github.com/qihang007/ai-video-generator
或者点击下方「阅读原文」获取项目地址,在自己的电脑上运行试试看。
夜雨聆风