乐于分享
好东西不私藏

我用AI生成了一条纪录片风格的短视频,全流程拆解

我用AI生成了一条纪录片风格的短视频,全流程拆解

我做了一个实验——用AI工具从零开始生成一条60秒的纪录片风格短视频。

不用自己拍摄任何画面,不请任何配音演员,不用专业剪辑软件。全程用AI完成。

从构思到成片,我花了大约4小时。如果用传统方式拍,至少需要2-3天。

这条视频发到我的YouTube Shorts频道,播放量2.3万。说实话不算特别高,但评论区很多人问”这是真的AI做的吗”——说明效果已经接近专业水准了。

今天把完整流程拆开,每一步用什么工具、怎么操作、踩了什么坑,全部写清楚。


整体流程概览

先看全貌:

选题构思 → 脚本撰写 → 画面生成 → 配音生成 → 背景音乐 → 字幕合成 → 最终剪辑
(15分钟) (30分钟) (90分钟) (20分钟) (10分钟) (15分钟) (40分钟)

总时间:约4小时 总成本:工具费用约$35


第一步:选题和脚本(15分钟 + 30分钟)

选题: 我选了一个小红书上最近很火的话题——”深圳华强北的一天”。

为什么选这个?

  • 话题本身有热度,自带流量
  • 画面元素丰富(电子产品、街头、人物、霓虹灯),AI生成效果好
  • 不需要特别精确的画面(纪录片风格允许一定的”艺术化处理”)

脚本撰写:我用Claude写的。

提示词是这样的:

你是一个纪录片导演。请为一条60秒的短视频写一个配音脚本,主题是"深圳华强北的一天"。

要求:
1. 风格:BBC地球脉动那种纪录片旁白的感觉
2. 字数:180-200字(对应约60秒的语速)
3. 结构:清晨→上午→下午→傍晚→夜晚,按时间线推进
4. 每个时间节点用2-3句话描述场景
5. 语言要有画面感,但不要太抽象
6. 不要用"令人惊叹"之类的空泛词汇

Claude生成的脚本质量不错,但有两个问题:

问题一:太”漂亮”了,缺乏真实感

原文:”当第一缕阳光穿透华强北的玻璃幕墙,这座电子帝国开始苏醒。”

我改成了:”早上7点15分,华强北的卷帘门还没有全部拉开。几个档口的老板已经开始摆货了。”

问题二:信息密度太高

原文每句话都在描写场景,60秒塞了太多内容。

我删掉了大约30%的内容,让每个画面有足够的展示时间。

修改后的脚本节选:

清晨7点15分,华强北的卷帘门还没有全部拉开。

几个档口老板已经开始摆货了。他们不说话,动作很快——拆纸箱、摆手机壳、调价格标签。

9点,人流涌进来。大部分是来找零件的维修师傅,不是普通消费者。他们知道要什么,走到档口前,报一个型号,掏钱,走人。整个过程不超过3分钟。

下午是华强北最安静的时候。外面38度,档口里的空调嗡嗡响。一个老板躺在折叠床上刷手机,旁边是一柜子的二手芯片。

傍晚6点,下班的人路过华强北,偶尔停下来看看。但他们不买——他们只是看看这座”电子帝国”的入口,然后继续走路。

晚上10点,华强北熄灯了。但如果你仔细听,还能听到某栋楼里有人在焊接。


第二步:画面生成(90分钟)

这是最耗时的一步。我用的是Kling(可灵)——国内快手的AI视频生成工具,目前对中文场景的理解比大多数国外工具好。

为什么选Kling而不是Sora/Runway?

工具
优点
缺点
价格
Sora
画面质量最高
国内访问不稳定,生成速度慢
$20/月
Runway Gen-3
画面质量高,控制精确
对中国场景理解差(生成的中国街道像国外)
$15/月
Kling(可灵)
对中文场景理解好,速度快
画面细腻度略逊于Sora
66元/月
Pika
简单好用
画面一致性差
$10/月

纪录片风格需要大量”中国城市街头”的画面,Kling对这个场景的理解最好,所以我选了它。

生成过程

我把60秒的视频分成了8个镜头,每个镜头5-10秒:

镜头
时长
场景描述
Kling提示词
1
6秒
清晨的华强北街道
清晨的深圳华强北街道,卷帘门半开,暖色调阳光,纪录片风格,4K
2
7秒
档口老板摆货
中国电子产品档口,一个中年男人在摆手机壳,低调纪录片风格
3
8秒
人流涌入
华强北大楼内部走廊,人群走动,手持摄像机微微晃动效果
4
8秒
维修师傅买零件
电子元件市场,一个维修师傅在档口前挑芯片,特写镜头
5
7秒
下午安静时段
华强北内部,一个老板躺在折叠床上刷手机,空调嗡嗡响的感觉
6
7秒
傍晚路人
华强北外部,傍晚的光线,路人走过不抬头看
7
6秒
夜晚熄灯
华强北大楼夜景,大部分灯已灭,只有零星几家还亮着
8
6秒
楼内焊接
暗色调室内,一个人在焊接电路板,焊花飞溅的特写

每个镜头我至少生成了3次,选出最好的一次。

Kling使用技巧:

  • 提示词里一定要加”纪录片风格”或”手持摄影”——不加的话AI默认生成”电影级”画面,太精致了反而不像纪录片
  • 加”微微晃动”可以模拟手持拍摄的真实感
  • 色调用”暖色调”或”冷色调”来区分不同时间段

踩坑:

  1. AI生成的人物手指经常不对——解决方案:用远景和中景,避免特写人物手部
  2. 中文文字(比如价格标签)AI生成不了——解决方案:后期用剪映添加
  3. 镜头之间的连贯性差——解决方案:用转场效果(淡入淡出、叠化)来掩盖

第三步:配音生成(20分钟)

我用的是ElevenLabs——目前AI配音领域最成熟的工具。

选择声音:我选了”Adam”——一个中年男性的声音,音色沉稳,适合纪录片旁白。

ElevenLabs的使用很简单:

  1. 把脚本粘贴进去
  2. 选择声音
  3. 调整语速(纪录片旁白一般比正常语速慢10-15%)
  4. 生成

关键设置:

  • 语速:0.85x(稍微慢一点,更有纪录片的感觉)
  • 稳定性:0.7(太高会失去自然感)
  • 清晰度:0.8

生成的音频质量非常高。我发了一条到朋友圈让大家猜是不是真人配音,32个人里只有5个人猜对了。

成本:ElevenLabs免费版每月10000字符,这条脚本约800字,在免费额度内。

如果超过免费额度,Pro版$5/月。


第四步:背景音乐(10分钟)

纪录片风格的BGM选择很重要。我用的是Epidemic Sound——一个专门提供视频背景音乐的平台。

选曲标准:

  • 节奏缓慢(30-60 BPM)
  • 乐器以钢琴、弦乐为主
  • 不要有明显的旋律线(会干扰旁白)
  • 有轻微的环境音元素(城市环境音+低频ambient)

最终选了一首叫”Urban Reflections”的曲子,时长2分30秒,我截取了其中60秒使用。

成本:Epidemic Sound个人版$9/月。

如果你不想付费,也可以用剪映自带的免费音乐库——搜”纪录片”、”城市”、” ambient”等关键词,能找到不错的替代品。


第五步:字幕合成(15分钟)

我把生成的画面、配音、BGM全部导入剪映,然后添加字幕。

剪映的”识别字幕”功能可以自动根据配音生成字幕,准确率95%以上。

纪录片字幕的样式要点:

  • 字体:思源黑体或类似的无衬线字体
  • 大小:适中,不要太大(纪录片字幕通常偏小)
  • 位置:画面底部居中
  • 颜色:白色+黑色描边(确保在任何背景上都能看清)
  • 动画:不要加花哨的动画,直接出现即可

我还加了一些纪录片特有的元素:

  • 每个时间节点(清晨/上午/下午/傍晚/夜晚)的画面左下角加了一个时间标注
  • 片头加了标题”华强北的一天 | A Day at Huaqiangbei”
  • 片尾加了制作信息”AI Generated | 2025″

第六步:最终剪辑(40分钟)

最后一步是在剪映里把所有元素组合起来:

剪辑重点:

  1. 画面和配音对齐 纪录片的关键是”画面和声音的节奏同步”。配音说”卷帘门还没有全部拉开”的时候,画面恰好是一个卷帘门缓缓上升的镜头。

  2. 节奏控制 不是每句话都配一个画面切换。有些画面需要”停留”——让观众有时间感受场景。比如”一个老板躺在折叠床上刷手机”这个画面,我让它停留了完整的7秒,没有任何切换。

  3. 环境音叠加 在Kling生成的画面上叠加了一层微弱的城市环境音(来自Epidemic Sound的音效库)——人声、车流、空调嗡嗡声。这让画面更有”真实感”。

  4. 转场处理 8个镜头之间全部使用”叠化”转场(cross dissolve),持续时间0.5-1秒。不要用硬切——纪录片通常用柔和的转场。

  5. 色彩统一 8个镜头是AI分别生成的,色调不统一。我在剪映里加了一个全局调色滤镜,把所有镜头的色调统一成”暖调纪录片风格”。


最终效果和成本核算

最终成片数据:

  • 时长:62秒
  • 分辨率:1080p
  • 画面质量:9/10(仔细看能发现AI痕迹,但普通观众很难分辨)
  • 配音质量:9.5/10(ElevenLabs Adam声音非常自然)
  • 整体观感:8.5/10(有纪录片的氛围感)

成本核算:

项目
工具
费用
脚本
Claude
$0(免费版)
画面生成
Kling
约$2(按使用量)
配音
ElevenLabs
$0(免费额度内)
背景音乐
Epidemic Sound
$9/月(已订阅)
剪辑
剪映
$0(免费版)
总成本 约$11

如果不算已订阅的Epidemic Sound,实际新增成本只有$2。


AI生成视频的局限

说完好的,也要说说不好的。

1. 细节经不起放大 如果你全屏看,会注意到AI生成的人物手指、文字标识、复杂场景的细节有问题。但在手机上竖屏观看(Shorts/TikTok/抖音),这些问题基本看不出来。

2. 无法生成精确的特定画面 比如我想要”一个写着’华强电子世界’招牌的大楼”,AI生成的招牌上写的字是乱码。只能后期手动添加。

3. 镜头语言有限 AI目前无法精确控制运镜——比如”从左到右的缓慢平移”、”从地面慢慢升起”这种。它更多是生成一个”看起来像”的画面,而不是”导演想要”的画面。

4. 版权问题不完全清晰 AI生成的画面没有版权问题,但如果你的纪录片涉及真实地点、真实品牌(比如华强北的某个具体档口),需要注意商标和肖像权。


AI生成视频适合做什么

根据我的经验,AI生成视频最适合以下场景:

适合:

  • 概念演示/产品预告(不需要精确的画面)
  • 背景素材/B-Roll(配合实拍画面使用)
  • 纪录片风格的氛围片
  • 社交媒体短内容(Shorts/TikTok/抖音)
  • 故事板/分镜预览

不适合:

  • 需要精确品牌展示的商业广告
  • 人物访谈/纪录片实拍
  • 需要精确文字/Logo出现的画面
  • 长视频(超过3分钟,AI画面的重复感会很严重)

最后

用AI做视频这件事,现在还处于”能做出看起来不错的成品”的阶段,但离”能完全替代专业拍摄”还有很长的距离。

它的价值在于:让没有拍摄条件的人也能产出视觉内容。

如果你是一个想做视频但不想出镜、没有拍摄设备、不会剪辑的人——AI工具给了你一个”入门”的机会。

但请记住:AI能生成画面和声音,但无法生成创意和判断力。

选题好不好、脚本精不精、故事有没有感染力——这些还是需要人来完成。

AI是工具,不是替代品。

用AI做视频的正确态度是:让AI做它擅长的事(生成画面/声音),你自己做AI做不到的事(判断什么值得做、怎么做才能打动人)。