普通人不用懂技术|6个AI工具组合,1天搞定短视频全流程!
普通人不用懂技术|6个AI工具组合,1天搞定短视频全流程
阅读时间约7分钟。建议收藏,实操时回来对照。
| 环节 | 工具 | 角色定位 |
|---|---|---|
|
|
Claude / 通义千问 |
|
|
|
Runway Gen-3 / 可灵 Pro |
|
|
|
HeyGen |
|
|
|
ElevenLabs 中文V2 |
|
|
|
Descript / 度加专业版 |
|
|
|
字节”灵光” / 自建提示词 |
|
不是所有大模型都适合写脚本:
-
通义千问(最新版):中文网感和热搜体质最强
-
Claude(通过国内镜像):逻辑密度最高,少废话
你是某垂直领域的短视频口播编剧。
赛道:【职场|情感|科技|母婴】
核心观点:【例如:不要做职场老黄牛】
时长:50–70秒
要求:
1. 前5秒用”反常识断言”或”共情困境”开场
2. 中间给出3层递进理由,每层不超过25字
3. 结尾一句金句 + 自然引导关注(不要机器人式”点赞关注”)
4. 整篇不要出现”首先、其次、最后”,用口语短句
5. 请标记出【反常识点】【情绪钩子】【可替换画面段】
这样出来的脚本,不是”模板作文”,而是有起承转合、且有可视觉化标记的脚本。
为什么不用免费版:免费版动态模糊严重、手指变形,一眼露馅。Pro版1秒成本约0.3–0.5元,一条60秒视频约40–60元画面成本,完全可接受。
操作逻辑:不要”一句脚本生成一个长视频”,拆成8–12个短镜头。
Cinematic shot, medium shot, [主体动作], realistic lighting, slight film grain, no text, no watermark, 24fps, motion stable
# 把脚本里的每段视觉化描述套进这个框架
举例:
脚本段落 → “她看了一眼手机,皱眉”
生成提示词 → “Cinematic shot, a female office worker glances at phone, subtle frown, natural office lighting, motion stable”
✅ 正确做法:
-
先录一段30秒的参考视频(你自己正常说话的表情)
-
HeyGen 可以克隆你说话时的微表情节奏
-
再把 ElevenLabs 的配音同步进去
结果:数字人不僵硬,观众不太会意识到是AI。
关键参数设置:
并且在脚本中手动插入停顿标记:
说实话,<break time=”0.4s”/> 我以前也不信这个。
直到上个月<break time=”0.3s”/>我亲自跑了三组数据。
# 这样AI会真的停顿,而不是硬切
核心认知转变:不再把视频拖到时间轴里剪,而是像改Word文档一样剪视频。
-
Descript:导入音频+画面 → 自动转写文字 → 删除/移动文字,视频和音频同步剪辑。还能一键”删除所有嗯、啊、呃”。
-
度加专业版(国内可用):功能类似,支持多轨道但更轻量。
不要把标题完全交给AI随机生成。用这个框架:
请根据以下视频脚本,生成5组【标题+封面微文案】。
每组必须符合以下类型之一:
• 反认知型(”别再xxx了”)
• 数字结果型(”3个方法…”)
• 身份标签型(”真正厉害的运营都…”)
• 短情绪词型(”后悔没早点知道”)
| 时段 | 任务 | 实际耗时 |
|---|---|---|
| 09:00–09:30 | 选题 + 结构化脚本(Claude) |
|
| 09:30–10:00 | 拆镜头提示词,批量跑 Runway |
|
| 10:00–10:15 | ElevenLabs 配音 + 参数微调 |
|
| 10:15–11:00 | Descript 智能剪辑 + 对画面 |
|
| 11:00–11:20 | 导出 + 标题生成 + 封面 |
|
| 下午 | 修素材细节、分发到2个平台 |
|
| 纯制作时间(不算素材打磨) | 约 2.5 小时 |
如果要求”一眼看不出AI痕迹”,建议把画面生成和配音调整各再加1小时。但仍然可以在一个工作日内完成。
📌 这套流程适合谁?

《AI 全能 PM 实战启航班》
帮你从懂 AI、用 AI,到做 AI 实战应用派,
给你的职场竞争力加一层 “AI Buff”!
👇扫码咨询报名 👇

每天分享一个职场干货,陪你一起成长 💪
收藏本文,实操时回来对照效果更好
夜雨聆风