我用AI生成了一条纪录片风格的短视频,全流程拆解
我做了一个实验——用AI工具从零开始生成一条60秒的纪录片风格短视频。
不用自己拍摄任何画面,不请任何配音演员,不用专业剪辑软件。全程用AI完成。
从构思到成片,我花了大约4小时。如果用传统方式拍,至少需要2-3天。
这条视频发到我的YouTube Shorts频道,播放量2.3万。说实话不算特别高,但评论区很多人问”这是真的AI做的吗”——说明效果已经接近专业水准了。
今天把完整流程拆开,每一步用什么工具、怎么操作、踩了什么坑,全部写清楚。

整体流程概览
先看全貌:
选题构思 → 脚本撰写 → 画面生成 → 配音生成 → 背景音乐 → 字幕合成 → 最终剪辑
(15分钟) (30分钟) (90分钟) (20分钟) (10分钟) (15分钟) (40分钟)
总时间:约4小时 总成本:工具费用约$35
第一步:选题和脚本(15分钟 + 30分钟)
选题: 我选了一个小红书上最近很火的话题——”深圳华强北的一天”。
为什么选这个?
-
话题本身有热度,自带流量 -
画面元素丰富(电子产品、街头、人物、霓虹灯),AI生成效果好 -
不需要特别精确的画面(纪录片风格允许一定的”艺术化处理”)
脚本撰写:我用Claude写的。
提示词是这样的:
你是一个纪录片导演。请为一条60秒的短视频写一个配音脚本,主题是"深圳华强北的一天"。
要求:
1. 风格:BBC地球脉动那种纪录片旁白的感觉
2. 字数:180-200字(对应约60秒的语速)
3. 结构:清晨→上午→下午→傍晚→夜晚,按时间线推进
4. 每个时间节点用2-3句话描述场景
5. 语言要有画面感,但不要太抽象
6. 不要用"令人惊叹"之类的空泛词汇
Claude生成的脚本质量不错,但有两个问题:
问题一:太”漂亮”了,缺乏真实感
原文:”当第一缕阳光穿透华强北的玻璃幕墙,这座电子帝国开始苏醒。”
我改成了:”早上7点15分,华强北的卷帘门还没有全部拉开。几个档口的老板已经开始摆货了。”
问题二:信息密度太高
原文每句话都在描写场景,60秒塞了太多内容。
我删掉了大约30%的内容,让每个画面有足够的展示时间。
修改后的脚本节选:
清晨7点15分,华强北的卷帘门还没有全部拉开。
几个档口老板已经开始摆货了。他们不说话,动作很快——拆纸箱、摆手机壳、调价格标签。
9点,人流涌进来。大部分是来找零件的维修师傅,不是普通消费者。他们知道要什么,走到档口前,报一个型号,掏钱,走人。整个过程不超过3分钟。
下午是华强北最安静的时候。外面38度,档口里的空调嗡嗡响。一个老板躺在折叠床上刷手机,旁边是一柜子的二手芯片。
傍晚6点,下班的人路过华强北,偶尔停下来看看。但他们不买——他们只是看看这座”电子帝国”的入口,然后继续走路。
晚上10点,华强北熄灯了。但如果你仔细听,还能听到某栋楼里有人在焊接。
第二步:画面生成(90分钟)
这是最耗时的一步。我用的是Kling(可灵)——国内快手的AI视频生成工具,目前对中文场景的理解比大多数国外工具好。
为什么选Kling而不是Sora/Runway?
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
纪录片风格需要大量”中国城市街头”的画面,Kling对这个场景的理解最好,所以我选了它。
生成过程
我把60秒的视频分成了8个镜头,每个镜头5-10秒:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
每个镜头我至少生成了3次,选出最好的一次。
Kling使用技巧:
-
提示词里一定要加”纪录片风格”或”手持摄影”——不加的话AI默认生成”电影级”画面,太精致了反而不像纪录片 -
加”微微晃动”可以模拟手持拍摄的真实感 -
色调用”暖色调”或”冷色调”来区分不同时间段
踩坑:
-
AI生成的人物手指经常不对——解决方案:用远景和中景,避免特写人物手部 -
中文文字(比如价格标签)AI生成不了——解决方案:后期用剪映添加 -
镜头之间的连贯性差——解决方案:用转场效果(淡入淡出、叠化)来掩盖 -

第三步:配音生成(20分钟)
我用的是ElevenLabs——目前AI配音领域最成熟的工具。
选择声音:我选了”Adam”——一个中年男性的声音,音色沉稳,适合纪录片旁白。
ElevenLabs的使用很简单:
-
把脚本粘贴进去 -
选择声音 -
调整语速(纪录片旁白一般比正常语速慢10-15%) -
生成
关键设置:
-
语速:0.85x(稍微慢一点,更有纪录片的感觉) -
稳定性:0.7(太高会失去自然感) -
清晰度:0.8
生成的音频质量非常高。我发了一条到朋友圈让大家猜是不是真人配音,32个人里只有5个人猜对了。
成本:ElevenLabs免费版每月10000字符,这条脚本约800字,在免费额度内。
如果超过免费额度,Pro版$5/月。
第四步:背景音乐(10分钟)
纪录片风格的BGM选择很重要。我用的是Epidemic Sound——一个专门提供视频背景音乐的平台。
选曲标准:
-
节奏缓慢(30-60 BPM) -
乐器以钢琴、弦乐为主 -
不要有明显的旋律线(会干扰旁白) -
有轻微的环境音元素(城市环境音+低频ambient)
最终选了一首叫”Urban Reflections”的曲子,时长2分30秒,我截取了其中60秒使用。
成本:Epidemic Sound个人版$9/月。
如果你不想付费,也可以用剪映自带的免费音乐库——搜”纪录片”、”城市”、” ambient”等关键词,能找到不错的替代品。

第五步:字幕合成(15分钟)
我把生成的画面、配音、BGM全部导入剪映,然后添加字幕。
剪映的”识别字幕”功能可以自动根据配音生成字幕,准确率95%以上。
纪录片字幕的样式要点:
-
字体:思源黑体或类似的无衬线字体 -
大小:适中,不要太大(纪录片字幕通常偏小) -
位置:画面底部居中 -
颜色:白色+黑色描边(确保在任何背景上都能看清) -
动画:不要加花哨的动画,直接出现即可
我还加了一些纪录片特有的元素:
-
每个时间节点(清晨/上午/下午/傍晚/夜晚)的画面左下角加了一个时间标注 -
片头加了标题”华强北的一天 | A Day at Huaqiangbei” -
片尾加了制作信息”AI Generated | 2025″
第六步:最终剪辑(40分钟)
最后一步是在剪映里把所有元素组合起来:
剪辑重点:
-
画面和配音对齐 纪录片的关键是”画面和声音的节奏同步”。配音说”卷帘门还没有全部拉开”的时候,画面恰好是一个卷帘门缓缓上升的镜头。
-
节奏控制 不是每句话都配一个画面切换。有些画面需要”停留”——让观众有时间感受场景。比如”一个老板躺在折叠床上刷手机”这个画面,我让它停留了完整的7秒,没有任何切换。
-
环境音叠加 在Kling生成的画面上叠加了一层微弱的城市环境音(来自Epidemic Sound的音效库)——人声、车流、空调嗡嗡声。这让画面更有”真实感”。
-
转场处理 8个镜头之间全部使用”叠化”转场(cross dissolve),持续时间0.5-1秒。不要用硬切——纪录片通常用柔和的转场。
-
色彩统一 8个镜头是AI分别生成的,色调不统一。我在剪映里加了一个全局调色滤镜,把所有镜头的色调统一成”暖调纪录片风格”。
最终效果和成本核算
最终成片数据:
-
时长:62秒 -
分辨率:1080p -
画面质量:9/10(仔细看能发现AI痕迹,但普通观众很难分辨) -
配音质量:9.5/10(ElevenLabs Adam声音非常自然) -
整体观感:8.5/10(有纪录片的氛围感)
成本核算:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 总成本 | 约$11 |
如果不算已订阅的Epidemic Sound,实际新增成本只有$2。
AI生成视频的局限
说完好的,也要说说不好的。
1. 细节经不起放大 如果你全屏看,会注意到AI生成的人物手指、文字标识、复杂场景的细节有问题。但在手机上竖屏观看(Shorts/TikTok/抖音),这些问题基本看不出来。
2. 无法生成精确的特定画面 比如我想要”一个写着’华强电子世界’招牌的大楼”,AI生成的招牌上写的字是乱码。只能后期手动添加。
3. 镜头语言有限 AI目前无法精确控制运镜——比如”从左到右的缓慢平移”、”从地面慢慢升起”这种。它更多是生成一个”看起来像”的画面,而不是”导演想要”的画面。
4. 版权问题不完全清晰 AI生成的画面没有版权问题,但如果你的纪录片涉及真实地点、真实品牌(比如华强北的某个具体档口),需要注意商标和肖像权。
AI生成视频适合做什么
根据我的经验,AI生成视频最适合以下场景:
适合:
-
概念演示/产品预告(不需要精确的画面) -
背景素材/B-Roll(配合实拍画面使用) -
纪录片风格的氛围片 -
社交媒体短内容(Shorts/TikTok/抖音) -
故事板/分镜预览
不适合:
-
需要精确品牌展示的商业广告 -
人物访谈/纪录片实拍 -
需要精确文字/Logo出现的画面 -
长视频(超过3分钟,AI画面的重复感会很严重)
最后
用AI做视频这件事,现在还处于”能做出看起来不错的成品”的阶段,但离”能完全替代专业拍摄”还有很长的距离。
它的价值在于:让没有拍摄条件的人也能产出视觉内容。
如果你是一个想做视频但不想出镜、没有拍摄设备、不会剪辑的人——AI工具给了你一个”入门”的机会。
但请记住:AI能生成画面和声音,但无法生成创意和判断力。
选题好不好、脚本精不精、故事有没有感染力——这些还是需要人来完成。
AI是工具,不是替代品。
用AI做视频的正确态度是:让AI做它擅长的事(生成画面/声音),你自己做AI做不到的事(判断什么值得做、怎么做才能打动人)。

夜雨聆风