AI 影视创作:别急着写提示词,先学会设计一个镜头

这一年我看到很多朋友去尝试用AI生成自己脑海中的画面。

第一次打开可灵、即梦、Runway、Veo等等这类生成平台的时候，动作都很统一。

“先去搜 Prompt”

电影感，8K，超真实，大片质感，光影高级，细节丰富。

这些词看起来很有安全感。好像只要把它们放进输入框里，AI 就能自动理解你的审美，自动理解你的片子，自动把你脑子里的画面端出来。

然后，生成出来确实挺好看，光有了，氛围有了，运动也有了。但拖进剪辑软件里，你会发现一个很尴尬的问题。

画面有了，片子没有。

它不知道放在哪。甚至接不上前后镜头。只是看起来很炫，但观众不知道画面的重点在哪里。

我自己刚开始尝试 AI 视频的时候，也很容易被这些词吸引。毕竟谁不想一行字生成一个大片镜头呢，想想就觉得兴奋。可做得越多，我越觉得，问题并不是藏在在某个单一的关键词里。而是在画面生成之前，你有没有把这个镜头想清楚？

别急着搜 Prompt，先想清楚镜头

现在视频生成工具越来越强，它们做漂亮画面的能力已经有点过剩了。当你随便写一个关键词：“未来城市、赛博街道、雨夜霓虹灯。”

AI大概率能出来一段看起来还不错的东西。但好看是一回事，能不能用是另外一回事。

最常见的情况有四种：

第一种是画面很炫，主体很虚。满屏都是光效、粒子、城市、机械、数据流，结果观众不知道该看哪里。

第二种，镜头特别能飞。它穿过城市，钻进机器，绕着人物转三圈，最后再来一个俯冲。看着很热闹。但它为什么要这么动？如果这个镜头运动没有服务内容，它就只是无用的。

第三种，细节多到发腻。现在生成模型很喜欢往画面里塞东西。复杂背景，强反光，乱七八糟的纹理，莫名其妙的灯带，还有一堆看不懂的伪文字。你乍一看，会觉得画面很丰富。但当你实际剪到片子里会很违和。（除非你喜欢这种杂乱的感觉，我想大多数人都不喜欢）

还有一种情况更扎心。由于我们在用AI生成的时候是线性工作，通常会根据脚本去撰写提示词，然后再去生成图片。再用图片生成视频。而视频剪辑是非线性的，当你专注于单个镜头的效果，生成完之后，拖到时间线里就露馅了。主体物方向接不上，画面光影接不上，人物位置有穿帮，空间逻辑也不对。然后你看着那段视频，只能按下“⬅️”。

所以 AI 视频真正难的地方，不是生成一段漂亮视频，而是生成一组可以放进作品里的镜头。

新手先别做大片，先做好一个 5 秒镜头

我特别理解那种冲动。

当你刚接触AI视频，刚刚了解到这个东西的时候都有一种劲。对我而言是这样的，我觉得可以把脑海中沉浸许久的故事用画面表现出来了。我迫不及待的想要生成一段视频了。我要把人物表现出来，我要有很牛的剧情，台词也要读的生动，场景调度也少不了。

听起来很爽，但从现在的AI生成稳定性看，这个复杂度很容易把新手劝退。当你面对人物一致性，场景一致性，服装也要保持一致，运动要流畅，镜头语言还要自然。这每一件事情都需要你能够把控住。

我说这些不是为了劝退新手，我始终认为文字是一种会让人产生明确记忆点的表达方式，所以我用公众号文章的方式开始了我的更新。我想你在抖音或者B站会刷到很多“短平快”的教程，视频开场第一句“今天教你如何用一句话生成电影级大片！” 我不喜欢这种表达，先不论对错，只是觉得在这么快节奏的时代里，需要一些能让人慢慢看进去的长篇文章或者是长视频访谈、教程等等。

好话说回来，我自己的建议很朴素，先做一个 5 秒的镜头。

下面我列几个提示词分享一下。

一个手机放在桌面上的产品特写。

桌面上的智能手机产品特写，手机平放在干净整洁的桌面上，画面聚焦手机本体与屏幕细节，边框质感清晰，光影柔和，高级简约风，浅景深，背景轻微虚化，真实材质表现，商业产品摄影风格，50mm镜头，近景特写，画面干净克制，细节精致。

一个雨夜街头的人物背影。

雨夜城市街头，一个人物背对镜头站在路边，地面潮湿反光，霓虹灯倒映在积水中，空气中有细密雨丝与潮湿雾气，人物轮廓清晰，情绪感强，街道两侧灯光朦胧，电影感构图，写实风格，中远景，冷暖对比明显，氛围安静而略带孤独。

一个角色从门口走到窗边。

室内场景，一个角色从门口缓缓走向窗边，人物动作自然，空间有纵深感，门口与窗户形成前后呼应，窗外柔和自然光照入室内，人物在行进过程中被光线逐渐勾勒轮廓，画面具有叙事感，写实电影风格，中景构图，环境安静，镜头语言克制，氛围细腻。

一个旅行城市的清晨空镜。

城市清晨空镜，城市街道刚刚苏醒，晨光温柔洒落在建筑与街道上，空气清新通透，远处可见城市天际线与零散行人车辆，整体节奏安静舒缓，具有旅行感与生活气息，广角构图，写实摄影风格，色调明亮自然，画面干净，富有早晨的松弛感。

一个产品瓶身被侧逆光打亮。

产品瓶身特写，瓶身被侧逆光勾勒出清晰轮廓，高光沿着瓶体边缘流动，材质通透或细腻高级，背景简洁纯净，光线层次丰富，重点突出瓶身造型与表面质感，商业广告摄影风格，近景特写，浅景深，画面高级精致，具有品牌感与视觉冲击力。

一个建筑外立面的缓慢推进。

现代建筑外立面镜头，镜头缓慢向前推进，建筑立面线条规整，玻璃幕墙或材质细节清晰可见，光线均匀，建筑结构富有秩序感与设计感，画面稳定克制，写实风格，具有空间压迫感与视觉延展感，适合表现建筑气质与现代感。

5 秒听起来很短，如果你是第一次尝试这也足够让你练到很多东西。主体，景别，构图，光影，运动，节奏，镜头语言。你会开始发现，一个镜头能不能用，跟提示词长短关系没那么大。它跟你有没有去思考这个镜头关系更大。

设计一个 AI 镜头，先问这 6 个问题

1、镜头目的，它在片子里承担什么任务？

别一上来就写，我要一个很酷的画面，酷是结果，任务才是起点。这个镜头是开场吗？是交代环境吗？是展示产品吗？是表达人物情绪吗？是做转场吗？是补充实拍很难完成的画面吗？

你可以先用一句很土的话把它写下来。“这条镜头用于短片开场，一个人雨夜站在路灯下，背对镜头，画面要孤独、安静、有一点悬念。“

这句话不华丽，但它有用。因为它会帮你删掉很多诱惑。镜头运动别太大，背景内容别太满，人物动作别太忙。这个镜头要的是孤独，不是热闹。

2、主体，观众第一眼应该看哪里？

主体要明确，不要贪图于一个画面中得到所有内容。比如你写了一个关键词「科技城市」这个说法太大了，生成模型会到处加楼，加光线，加飞行器，加数据线，加各种未来装置。最后你得到一个看起来很未来的画面，但没有真正的焦点。

把你的主体画面描述收窄一点。比如「站在能源控制中心大屏前的工程师」。或者更大众一点，「雨夜街头撑伞走过路灯的女孩」。再比如「黑色展台上一部正在旋转展示的手机」。

这一下就清楚很多，人物在哪里，产品在哪里，光从哪里来，镜头该怎么拍，都有了方向。主体可以是人，也可以是产品、建筑、车辆、屏幕、某个动作，或者某种视觉关系。关键是，观众第一眼要知道自己该看什么。

3、景别，这个镜头要给多少信息？

景别这件事，很多新手会忽略。但这是很重要的。远景负责交代环境。全景负责人物和空间关系。中景适合动作表现。近景盯住表情、手部和关键细节。特写则把信息压到一个点上。很多 AI 画面失败，就卡在景别不清。它想给你环境，又想给你人物，又想给你细节，还想给你氛围。最后每个都差半口气。

如果你要拍城市空镜，那就远一点，让街道、天空、建筑层次都出来。如果你要拍一个角色从门口走到窗边，那就中景或全景，让人和空间关系成立。如果你要拍耳机广告，那就近景或特写，让材质、高光、佩戴细节成为重点。景别定下来，画面的信息量就会收住。

4、运动，摄像机为什么要动？

这块需要注意一下，AI 视频很容易把镜头运动做得太兴奋。

“环绕，穿梭，旋转，快速推进，俯冲，拉升。“”每个词看起来都有大片感。但镜头运动要有原因。缓慢推进，适合制造进入感、压迫感、仪式感。缓慢后退，适合展示空间，扩大信息量。横移，适合展示场景层次。下摇，可以从天空或高处慢慢转向主体。跟拍，适合增强人物行动感。固定机位，适合稳定、真实、克制。环绕可以强调主体造型，但也最容易让人物、产品、结构变形。

对新手来说，一个稳定、缓慢、目的明确的镜头，价值非常高。说真的，固定机位也很高级。很多真实的商业片、纪录片、广告镜头，最贵的地方反而在克制。你不需要每个镜头都告诉观众，我在炫技。有时候镜头稳住，画面才会高级。

5、光影，画面情绪从哪里来？

光不是滤镜，它在决定情绪。冷蓝色容易给人科技、理性、未来感。暖黄色容易给人生活、记忆、温度。低调光会带来悬疑、压迫和电影质感。柔光适合干净、商业、亲和的画面。逆光有轮廓感和戏剧性。屏幕光特别适合数据中心、控制中心、科技展厅这些场景。而雨夜街头可以让路灯和店铺橱窗成为主光源。

这些内容都比一句「高级光影」更明确。生成模型很喜欢给你一些莫名奇妙的霓虹、粒子、强反光、复杂背景。这很正常，因为这些东西很容易显得有视觉冲击。但如果你要的是商业质感，很多时候要主动把画面做减法。也就是我们常说的负面提示词。

负面提示词：画面保持简洁克制，避免过度夸张的视觉效果，避免杂乱背景，避免无意义装饰元素，避免随机文字、乱码、错误标识、错误Logo，避免过度霓虹灯光，避免不真实的高饱和色彩，避免卡通化、塑料感、廉价CG感，避免人物肢体变形、手部错误、面部扭曲，避免主体失焦，避免画面过曝或死黑，避免低清晰度、噪点、模糊、压缩痕迹，避免构图混乱，避免多余物体干扰主体。

别怕这些限制，限制是在帮你把画面从杂乱无章拉回来。

6、剪辑，它能不能接进时间线？

这是我最在意的一点。

一个 AI 镜头成不成功，光好看还不够，它要能被放到时间线上。生成之前就要想，前面能接什么，后面能接什么。运动方向是否合适。光线和色调是否统一。主体位置是否方便转场。镜头长度是否适合剪辑。画面是否需要预留字幕空间。边缘有没有容易变形的位置。后期要不要加包装、加字、加数据线。

如果这个镜头未来要放在企业宣传片里，它就不能像一个随机炫技片段。如果要上字幕，画面就要留干净区域。如果要接实拍素材，光线和镜头语言就要尽量统一。如果要接下一个产品特写，运动节奏就别太跳。

AI 生成从这一刻开始，才真的进入影视流程。

Prompt 不是咒语，是镜头设计的翻译稿，我们把话落到一个 Prompt 上。比较糟的写法大概是这样。

生成一个高级科技感的视频，电影感，震撼，未来感，8K，超真实，光影很酷，细节丰富。

这句话的问题很明显，它给了很多形容词，却没有给镜头。场景在哪？主体是谁？景别多大？摄影机怎么动？画面重点在哪里？这个镜头用在什么片子里？模型只能去猜。猜出来的东西，当然不符合你的影片了

换一种写法。

写实电影感，夜晚的现代能源控制中心，一名工程师背对镜头站在半透明数据大屏前，屏幕上有城市能源流动线条，主体位于画面中央偏右，前景有轻微虚化的设备轮廓，冷蓝色环境光，屏幕光照亮人物侧脸，摄像机缓慢向前推进，节奏沉稳，适合作为企业宣传片开场镜头。画面简洁克制，减少夸张霓虹，避免杂乱细节，避免随机文字，避免卡通风格。

这段提示词长了一点，但它清楚。它有场景，有主体，有景别倾向，有构图，有光影，有运动，有用途，也有限制。字数多一点少一点都没关系。关键是镜头本身站住了。

Prompt 更像一个翻译稿，你心里先有一个镜头，然后再把这个镜头翻译给生成模型听。如果你心里只有几个形容词，模型收到的也只是几个形容词。如果你心里有镜头，提示词自然会变得具体。

会生成的人越来越多，会判断的人才稀缺

聊到这里，我想起了上学时候讲电影史，电影刚诞生时的状态。那个阶段，画面自己动起来，就已经足够神奇。后来电影慢慢从视觉奇观变成故事语言，大家开始关心机位、景别、剪辑、调度、表演、光线。今天 AI 视频也有点像这个阶段。我们仍然会为一段凭空生成的视频兴奋，我也会。

看到某些生成结果的时候，我还是会心里一震，觉得我靠，这玩意真的进化到这了。但兴奋之后，下一步就该问，镜头为什么这么拍。会生成的人会越来越多，会判断的人才稀缺。这话听着有点刺耳，但我真的这么觉得。

AI生成成本会继续降低。以前要团队、设备、场地、灯光、后期合成才能完成的画面，现在一个人坐在电脑前就能开始尝试。这当然是好事。我始终觉得，这是影像创作者很幸运的时代。因为技术再往前走，也抹不掉一个创作者对画面的判断。

这个镜头有没有必要。这个构图有没有气质。这个运动有没有服务叙事。这个画面能不能剪进片子。这个视觉是否符合项目本身。这些问题，仍然要人来判断。你知道自己想要什么，这件事会越来越贵。

所以回到开头。很多人第一次打开视频生成工具，会先去搜 Prompt。这很正常。我也搜，没嘛事儿。但如果你真的想把 AI 视频做进作品里，别只停在模板那里。每次写提示词前，先停 30 秒。问自己几个很土的问题。

这个镜头拍谁？观众看哪里？它放在片子的哪个位置？摄像机为什么要动？它最终能不能剪进去？如果这几个问题都答不上来，再高级的词都没用。如果这几个问题想清楚了，提示词可以很朴素，但画面会稳很多。AI 确实让我们更容易把脑子里的画面做出来。但要让画面真正成为作品，仍然要靠生成之前的判断。

别急着问 AI 怎么生成大片，先问自己，这个镜头到底要拍什么。

后面如果大家感兴趣，我会继续把这件事往下拆。怎么把一个镜头设计翻译成 Prompt。怎么做一组能接起来的 AI 分镜。怎么把 AI 生成、剪辑、调色、包装放进一个完整工作流。

这条路还挺长，我们慢慢聊。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧！想第一时间收到推送，也可以给我点个关注。有什么问题欢迎私信我。

谢谢你看我的文章，我们，下次再见。

/ 作者，Rain / 投稿或合作，请联系邮箱，rain-xjt@qq.com