我用AI生成了一条纪录片风格的短视频,全流程拆解-夜雨聆风

我用AI生成了一条纪录片风格的短视频,全流程拆解

我做了一个实验——用AI工具从零开始生成一条60秒的纪录片风格短视频。

不用自己拍摄任何画面，不请任何配音演员，不用专业剪辑软件。全程用AI完成。

从构思到成片，我花了大约4小时。如果用传统方式拍，至少需要2-3天。

这条视频发到我的YouTube Shorts频道，播放量2.3万。说实话不算特别高，但评论区很多人问”这是真的AI做的吗”——说明效果已经接近专业水准了。

今天把完整流程拆开，每一步用什么工具、怎么操作、踩了什么坑，全部写清楚。

整体流程概览

先看全貌：

选题构思 → 脚本撰写 → 画面生成 → 配音生成 → 背景音乐 → 字幕合成 → 最终剪辑
（15分钟） （30分钟） （90分钟） （20分钟） （10分钟） （15分钟） （40分钟）

总时间：约4小时总成本：工具费用约$35

第一步：选题和脚本（15分钟 + 30分钟）

选题： 我选了一个小红书上最近很火的话题——”深圳华强北的一天”。

为什么选这个？

话题本身有热度，自带流量
画面元素丰富（电子产品、街头、人物、霓虹灯），AI生成效果好
不需要特别精确的画面（纪录片风格允许一定的”艺术化处理”）

脚本撰写：我用Claude写的。

提示词是这样的：

你是一个纪录片导演。请为一条60秒的短视频写一个配音脚本，主题是"深圳华强北的一天"。

要求：
1. 风格：BBC地球脉动那种纪录片旁白的感觉
2. 字数：180-200字（对应约60秒的语速）
3. 结构：清晨→上午→下午→傍晚→夜晚，按时间线推进
4. 每个时间节点用2-3句话描述场景
5. 语言要有画面感，但不要太抽象
6. 不要用"令人惊叹"之类的空泛词汇

Claude生成的脚本质量不错，但有两个问题：

问题一：太”漂亮”了，缺乏真实感

原文：”当第一缕阳光穿透华强北的玻璃幕墙，这座电子帝国开始苏醒。”

我改成了：”早上7点15分，华强北的卷帘门还没有全部拉开。几个档口的老板已经开始摆货了。”

问题二：信息密度太高

原文每句话都在描写场景，60秒塞了太多内容。

我删掉了大约30%的内容，让每个画面有足够的展示时间。

修改后的脚本节选：

清晨7点15分，华强北的卷帘门还没有全部拉开。

几个档口老板已经开始摆货了。他们不说话，动作很快——拆纸箱、摆手机壳、调价格标签。

9点，人流涌进来。大部分是来找零件的维修师傅，不是普通消费者。他们知道要什么，走到档口前，报一个型号，掏钱，走人。整个过程不超过3分钟。

下午是华强北最安静的时候。外面38度，档口里的空调嗡嗡响。一个老板躺在折叠床上刷手机，旁边是一柜子的二手芯片。

傍晚6点，下班的人路过华强北，偶尔停下来看看。但他们不买——他们只是看看这座”电子帝国”的入口，然后继续走路。

晚上10点，华强北熄灯了。但如果你仔细听，还能听到某栋楼里有人在焊接。

第二步：画面生成（90分钟）

这是最耗时的一步。我用的是Kling（可灵）——国内快手的AI视频生成工具，目前对中文场景的理解比大多数国外工具好。

为什么选Kling而不是Sora/Runway？

工具	优点	缺点	价格
Sora	画面质量最高	国内访问不稳定，生成速度慢	$20/月
Runway Gen-3	画面质量高，控制精确	对中国场景理解差（生成的中国街道像国外）	$15/月
Kling（可灵）	对中文场景理解好，速度快	画面细腻度略逊于Sora	66元/月
Pika	简单好用	画面一致性差	$10/月

纪录片风格需要大量”中国城市街头”的画面，Kling对这个场景的理解最好，所以我选了它。

生成过程

我把60秒的视频分成了8个镜头，每个镜头5-10秒：

镜头	时长	场景描述	Kling提示词
1	6秒	清晨的华强北街道	清晨的深圳华强北街道，卷帘门半开，暖色调阳光，纪录片风格，4K
2	7秒	档口老板摆货	中国电子产品档口，一个中年男人在摆手机壳，低调纪录片风格
3	8秒	人流涌入	华强北大楼内部走廊，人群走动，手持摄像机微微晃动效果
4	8秒	维修师傅买零件	电子元件市场，一个维修师傅在档口前挑芯片，特写镜头
5	7秒	下午安静时段	华强北内部，一个老板躺在折叠床上刷手机，空调嗡嗡响的感觉
6	7秒	傍晚路人	华强北外部，傍晚的光线，路人走过不抬头看
7	6秒	夜晚熄灯	华强北大楼夜景，大部分灯已灭，只有零星几家还亮着
8	6秒	楼内焊接	暗色调室内，一个人在焊接电路板，焊花飞溅的特写

每个镜头我至少生成了3次，选出最好的一次。

Kling使用技巧：

提示词里一定要加”纪录片风格”或”手持摄影”——不加的话AI默认生成”电影级”画面，太精致了反而不像纪录片
加”微微晃动”可以模拟手持拍摄的真实感
色调用”暖色调”或”冷色调”来区分不同时间段

踩坑：

AI生成的人物手指经常不对——解决方案：用远景和中景，避免特写人物手部
中文文字（比如价格标签）AI生成不了——解决方案：后期用剪映添加
镜头之间的连贯性差——解决方案：用转场效果（淡入淡出、叠化）来掩盖

第三步：配音生成（20分钟）

我用的是ElevenLabs——目前AI配音领域最成熟的工具。

选择声音：我选了”Adam”——一个中年男性的声音，音色沉稳，适合纪录片旁白。

ElevenLabs的使用很简单：

把脚本粘贴进去
选择声音
调整语速（纪录片旁白一般比正常语速慢10-15%）
生成

关键设置：

语速：0.85x（稍微慢一点，更有纪录片的感觉）
稳定性：0.7（太高会失去自然感）
清晰度：0.8

生成的音频质量非常高。我发了一条到朋友圈让大家猜是不是真人配音，32个人里只有5个人猜对了。

成本：ElevenLabs免费版每月10000字符，这条脚本约800字，在免费额度内。

如果超过免费额度，Pro版$5/月。

第四步：背景音乐（10分钟）

纪录片风格的BGM选择很重要。我用的是Epidemic Sound——一个专门提供视频背景音乐的平台。

选曲标准：

节奏缓慢（30-60 BPM）
乐器以钢琴、弦乐为主
不要有明显的旋律线（会干扰旁白）
有轻微的环境音元素（城市环境音+低频ambient）

最终选了一首叫”Urban Reflections”的曲子，时长2分30秒，我截取了其中60秒使用。

成本：Epidemic Sound个人版$9/月。

如果你不想付费，也可以用剪映自带的免费音乐库——搜”纪录片”、”城市”、” ambient”等关键词，能找到不错的替代品。

第五步：字幕合成（15分钟）

我把生成的画面、配音、BGM全部导入剪映，然后添加字幕。

剪映的”识别字幕”功能可以自动根据配音生成字幕，准确率95%以上。

纪录片字幕的样式要点：

字体：思源黑体或类似的无衬线字体
大小：适中，不要太大（纪录片字幕通常偏小）
位置：画面底部居中
颜色：白色+黑色描边（确保在任何背景上都能看清）
动画：不要加花哨的动画，直接出现即可

我还加了一些纪录片特有的元素：

每个时间节点（清晨/上午/下午/傍晚/夜晚）的画面左下角加了一个时间标注
片头加了标题”华强北的一天 | A Day at Huaqiangbei”
片尾加了制作信息”AI Generated | 2025″

第六步：最终剪辑（40分钟）

最后一步是在剪映里把所有元素组合起来：

剪辑重点：

画面和配音对齐 纪录片的关键是”画面和声音的节奏同步”。配音说”卷帘门还没有全部拉开”的时候，画面恰好是一个卷帘门缓缓上升的镜头。
节奏控制 不是每句话都配一个画面切换。有些画面需要”停留”——让观众有时间感受场景。比如”一个老板躺在折叠床上刷手机”这个画面，我让它停留了完整的7秒，没有任何切换。
环境音叠加 在Kling生成的画面上叠加了一层微弱的城市环境音（来自Epidemic Sound的音效库）——人声、车流、空调嗡嗡声。这让画面更有”真实感”。
转场处理 8个镜头之间全部使用”叠化”转场（cross dissolve），持续时间0.5-1秒。不要用硬切——纪录片通常用柔和的转场。
色彩统一 8个镜头是AI分别生成的，色调不统一。我在剪映里加了一个全局调色滤镜，把所有镜头的色调统一成”暖调纪录片风格”。

最终效果和成本核算

最终成片数据：

时长：62秒
分辨率：1080p
画面质量：9/10（仔细看能发现AI痕迹，但普通观众很难分辨）
配音质量：9.5/10（ElevenLabs Adam声音非常自然）
整体观感：8.5/10（有纪录片的氛围感）

成本核算：

项目	工具	费用
脚本	Claude	$0（免费版）
画面生成	Kling	约$2（按使用量）
配音	ElevenLabs	$0（免费额度内）
背景音乐	Epidemic Sound	$9/月（已订阅）
剪辑	剪映	$0（免费版）
总成本		约$11

如果不算已订阅的Epidemic Sound，实际新增成本只有$2。

AI生成视频的局限

说完好的，也要说说不好的。

1. 细节经不起放大 如果你全屏看，会注意到AI生成的人物手指、文字标识、复杂场景的细节有问题。但在手机上竖屏观看（Shorts/TikTok/抖音），这些问题基本看不出来。

2. 无法生成精确的特定画面 比如我想要”一个写着’华强电子世界’招牌的大楼”，AI生成的招牌上写的字是乱码。只能后期手动添加。

3. 镜头语言有限 AI目前无法精确控制运镜——比如”从左到右的缓慢平移”、”从地面慢慢升起”这种。它更多是生成一个”看起来像”的画面，而不是”导演想要”的画面。

4. 版权问题不完全清晰 AI生成的画面没有版权问题，但如果你的纪录片涉及真实地点、真实品牌（比如华强北的某个具体档口），需要注意商标和肖像权。

AI生成视频适合做什么

根据我的经验，AI生成视频最适合以下场景：

适合：

概念演示/产品预告（不需要精确的画面）
背景素材/B-Roll（配合实拍画面使用）
纪录片风格的氛围片
社交媒体短内容（Shorts/TikTok/抖音）
故事板/分镜预览

不适合：

需要精确品牌展示的商业广告
人物访谈/纪录片实拍
需要精确文字/Logo出现的画面
长视频（超过3分钟，AI画面的重复感会很严重）

最后

用AI做视频这件事，现在还处于”能做出看起来不错的成品”的阶段，但离”能完全替代专业拍摄”还有很长的距离。

它的价值在于：让没有拍摄条件的人也能产出视觉内容。

如果你是一个想做视频但不想出镜、没有拍摄设备、不会剪辑的人——AI工具给了你一个”入门”的机会。

但请记住：AI能生成画面和声音，但无法生成创意和判断力。

选题好不好、脚本精不精、故事有没有感染力——这些还是需要人来完成。

AI是工具，不是替代品。

用AI做视频的正确态度是：让AI做它擅长的事（生成画面/声音），你自己做AI做不到的事（判断什么值得做、怎么做才能打动人）。