这一年我看到很多朋友去尝试用AI生成自己脑海中的画面。
第一次打开可灵、即梦、Runway、Veo等等这类生成平台的时候,动作都很统一。
“先去搜 Prompt”
电影感,8K,超真实,大片质感,光影高级,细节丰富。
这些词看起来很有安全感。好像只要把它们放进输入框里,AI 就能自动理解你的审美,自动理解你的片子,自动把你脑子里的画面端出来。
然后,生成出来确实挺好看,光有了,氛围有了,运动也有了。但拖进剪辑软件里,你会发现一个很尴尬的问题。

画面有了,片子没有。
它不知道放在哪。甚至接不上前后镜头。只是看起来很炫,但观众不知道画面的重点在哪里。
我自己刚开始尝试 AI 视频的时候,也很容易被这些词吸引。毕竟谁不想一行字生成一个大片镜头呢,想想就觉得兴奋。可做得越多,我越觉得,问题并不是藏在在某个单一的关键词里。而是在画面生成之前,你有没有把这个镜头想清楚?
别急着搜 Prompt,先想清楚镜头
现在视频生成工具越来越强,它们做漂亮画面的能力已经有点过剩了。当你随便写一个关键词:“未来城市、赛博街道、雨夜霓虹灯。”

AI大概率能出来一段看起来还不错的东西。但好看是一回事,能不能用是另外一回事。
最常见的情况有四种:
第一种是画面很炫,主体很虚。满屏都是光效、粒子、城市、机械、数据流,结果观众不知道该看哪里。
第二种,镜头特别能飞。它穿过城市,钻进机器,绕着人物转三圈,最后再来一个俯冲。看着很热闹。但它为什么要这么动?如果这个镜头运动没有服务内容,它就只是无用的。
第三种,细节多到发腻。现在生成模型很喜欢往画面里塞东西。复杂背景,强反光,乱七八糟的纹理,莫名其妙的灯带,还有一堆看不懂的伪文字。你乍一看,会觉得画面很丰富。但当你实际剪到片子里会很违和。(除非你喜欢这种杂乱的感觉,我想大多数人都不喜欢)
还有一种情况更扎心。由于我们在用AI生成的时候是线性工作,通常会根据脚本去撰写提示词,然后再去生成图片。再用图片生成视频。而视频剪辑是非线性的,当你专注于单个镜头的效果,生成完之后,拖到时间线里就露馅了。主体物方向接不上,画面光影接不上,人物位置有穿帮,空间逻辑也不对。然后你看着那段视频,只能按下“⬅️”。
所以 AI 视频真正难的地方,不是生成一段漂亮视频,而是生成一组可以放进作品里的镜头。

新手先别做大片,先做好一个 5 秒镜头
我特别理解那种冲动。
当你刚接触AI视频,刚刚了解到这个东西的时候都有一种劲。对我而言是这样的,我觉得可以把脑海中沉浸许久的故事用画面表现出来了。我迫不及待的想要生成一段视频了。我要把人物表现出来,我要有很牛的剧情,台词也要读的生动,场景调度也少不了。
听起来很爽,但从现在的AI生成稳定性看,这个复杂度很容易把新手劝退。当你面对人物一致性,场景一致性,服装也要保持一致,运动要流畅,镜头语言还要自然。这每一件事情都需要你能够把控住。
我说这些不是为了劝退新手,我始终认为文字是一种会让人产生明确记忆点的表达方式,所以我用公众号文章的方式开始了我的更新。我想你在抖音或者B站会刷到很多“短平快”的教程,视频开场第一句“今天教你如何用一句话生成电影级大片!” 我不喜欢这种表达,先不论对错,只是觉得在这么快节奏的时代里,需要一些能让人慢慢看进去的长篇文章或者是长视频访谈、教程等等。
好话说回来,我自己的建议很朴素,先做一个 5 秒的镜头。
下面我列几个提示词分享一下。
一个手机放在桌面上的产品特写。
桌面上的智能手机产品特写,手机平放在干净整洁的桌面上,画面聚焦手机本体与屏幕细节,边框质感清晰,光影柔和,高级简约风,浅景深,背景轻微虚化,真实材质表现,商业产品摄影风格,50mm镜头,近景特写,画面干净克制,细节精致。
一个雨夜街头的人物背影。
雨夜城市街头,一个人物背对镜头站在路边,地面潮湿反光,霓虹灯倒映在积水中,空气中有细密雨丝与潮湿雾气,人物轮廓清晰,情绪感强,街道两侧灯光朦胧,电影感构图,写实风格,中远景,冷暖对比明显,氛围安静而略带孤独。
一个角色从门口走到窗边。
室内场景,一个角色从门口缓缓走向窗边,人物动作自然,空间有纵深感,门口与窗户形成前后呼应,窗外柔和自然光照入室内,人物在行进过程中被光线逐渐勾勒轮廓,画面具有叙事感,写实电影风格,中景构图,环境安静,镜头语言克制,氛围细腻。
一个旅行城市的清晨空镜。
城市清晨空镜,城市街道刚刚苏醒,晨光温柔洒落在建筑与街道上,空气清新通透,远处可见城市天际线与零散行人车辆,整体节奏安静舒缓,具有旅行感与生活气息,广角构图,写实摄影风格,色调明亮自然,画面干净,富有早晨的松弛感。
一个产品瓶身被侧逆光打亮。
产品瓶身特写,瓶身被侧逆光勾勒出清晰轮廓,高光沿着瓶体边缘流动,材质通透或细腻高级,背景简洁纯净,光线层次丰富,重点突出瓶身造型与表面质感,商业广告摄影风格,近景特写,浅景深,画面高级精致,具有品牌感与视觉冲击力。
一个建筑外立面的缓慢推进。
现代建筑外立面镜头,镜头缓慢向前推进,建筑立面线条规整,玻璃幕墙或材质细节清晰可见,光线均匀,建筑结构富有秩序感与设计感,画面稳定克制,写实风格,具有空间压迫感与视觉延展感,适合表现建筑气质与现代感。
5 秒听起来很短,如果你是第一次尝试这也足够让你练到很多东西。主体,景别,构图,光影,运动,节奏,镜头语言。你会开始发现,一个镜头能不能用,跟提示词长短关系没那么大。它跟你有没有去思考这个镜头关系更大。
设计一个 AI 镜头,先问这 6 个问题
1、镜头目的,它在片子里承担什么任务?
别一上来就写,我要一个很酷的画面,酷是结果,任务才是起点。这个镜头是开场吗?是交代环境吗?是展示产品吗?是表达人物情绪吗?是做转场吗?是补充实拍很难完成的画面吗?
你可以先用一句很土的话把它写下来。“这条镜头用于短片开场,一个人雨夜站在路灯下,背对镜头,画面要孤独、安静、有一点悬念。“
这句话不华丽,但它有用。因为它会帮你删掉很多诱惑。镜头运动别太大,背景内容别太满,人物动作别太忙。这个镜头要的是孤独,不是热闹。

2、主体,观众第一眼应该看哪里?
主体要明确,不要贪图于一个画面中得到所有内容。比如你写了一个关键词「科技城市」这个说法太大了,生成模型会到处加楼,加光线,加飞行器,加数据线,加各种未来装置。最后你得到一个看起来很未来的画面,但没有真正的焦点。
把你的主体画面描述收窄一点。比如「站在能源控制中心大屏前的工程师」。或者更大众一点,「雨夜街头撑伞走过路灯的女孩」。再比如「黑色展台上一部正在旋转展示的手机」。
这一下就清楚很多,人物在哪里,产品在哪里,光从哪里来,镜头该怎么拍,都有了方向。主体可以是人,也可以是产品、建筑、车辆、屏幕、某个动作,或者某种视觉关系。关键是,观众第一眼要知道自己该看什么。

3、景别,这个镜头要给多少信息?
景别这件事,很多新手会忽略。但这是很重要的。远景负责交代环境。全景负责人物和空间关系。中景适合动作表现。近景盯住表情、手部和关键细节。特写则把信息压到一个点上。很多 AI 画面失败,就卡在景别不清。它想给你环境,又想给你人物,又想给你细节,还想给你氛围。最后每个都差半口气。
如果你要拍城市空镜,那就远一点,让街道、天空、建筑层次都出来。如果你要拍一个角色从门口走到窗边,那就中景或全景,让人和空间关系成立。如果你要拍耳机广告,那就近景或特写,让材质、高光、佩戴细节成为重点。景别定下来,画面的信息量就会收住。

4、运动,摄像机为什么要动?
这块需要注意一下,AI 视频很容易把镜头运动做得太兴奋。
“环绕,穿梭,旋转,快速推进,俯冲,拉升。“”每个词看起来都有大片感。但镜头运动要有原因。缓慢推进,适合制造进入感、压迫感、仪式感。缓慢后退,适合展示空间,扩大信息量。横移,适合展示场景层次。下摇,可以从天空或高处慢慢转向主体。跟拍,适合增强人物行动感。固定机位,适合稳定、真实、克制。环绕可以强调主体造型,但也最容易让人物、产品、结构变形。
对新手来说,一个稳定、缓慢、目的明确的镜头,价值非常高。说真的,固定机位也很高级。很多真实的商业片、纪录片、广告镜头,最贵的地方反而在克制。你不需要每个镜头都告诉观众,我在炫技。有时候镜头稳住,画面才会高级。

5、光影,画面情绪从哪里来?
光不是滤镜,它在决定情绪。冷蓝色容易给人科技、理性、未来感。暖黄色容易给人生活、记忆、温度。低调光会带来悬疑、压迫和电影质感。柔光适合干净、商业、亲和的画面。逆光有轮廓感和戏剧性。屏幕光特别适合数据中心、控制中心、科技展厅这些场景。而雨夜街头可以让路灯和店铺橱窗成为主光源。
这些内容都比一句「高级光影」更明确。生成模型很喜欢给你一些莫名奇妙的霓虹、粒子、强反光、复杂背景。这很正常,因为这些东西很容易显得有视觉冲击。但如果你要的是商业质感,很多时候要主动把画面做减法。也就是我们常说的负面提示词。
负面提示词:画面保持简洁克制,避免过度夸张的视觉效果,避免杂乱背景,避免无意义装饰元素,避免随机文字、乱码、错误标识、错误Logo,避免过度霓虹灯光,避免不真实的高饱和色彩,避免卡通化、塑料感、廉价CG感,避免人物肢体变形、手部错误、面部扭曲,避免主体失焦,避免画面过曝或死黑,避免低清晰度、噪点、模糊、压缩痕迹,避免构图混乱,避免多余物体干扰主体。
别怕这些限制,限制是在帮你把画面从杂乱无章拉回来。

6、剪辑,它能不能接进时间线?
这是我最在意的一点。
一个 AI 镜头成不成功,光好看还不够,它要能被放到时间线上。生成之前就要想,前面能接什么,后面能接什么。运动方向是否合适。光线和色调是否统一。主体位置是否方便转场。镜头长度是否适合剪辑。画面是否需要预留字幕空间。边缘有没有容易变形的位置。后期要不要加包装、加字、加数据线。
如果这个镜头未来要放在企业宣传片里,它就不能像一个随机炫技片段。如果要上字幕,画面就要留干净区域。如果要接实拍素材,光线和镜头语言就要尽量统一。如果要接下一个产品特写,运动节奏就别太跳。
AI 生成从这一刻开始,才真的进入影视流程。
Prompt 不是咒语,是镜头设计的翻译稿,我们把话落到一个 Prompt 上。比较糟的写法大概是这样。
生成一个高级科技感的视频,电影感,震撼,未来感,8K,超真实,光影很酷,细节丰富。
这句话的问题很明显,它给了很多形容词,却没有给镜头。场景在哪?主体是谁?景别多大?摄影机怎么动?画面重点在哪里?这个镜头用在什么片子里?模型只能去猜。猜出来的东西,当然不符合你的影片了

换一种写法。
写实电影感,夜晚的现代能源控制中心,一名工程师背对镜头站在半透明数据大屏前,屏幕上有城市能源流动线条,主体位于画面中央偏右,前景有轻微虚化的设备轮廓,冷蓝色环境光,屏幕光照亮人物侧脸,摄像机缓慢向前推进,节奏沉稳,适合作为企业宣传片开场镜头。画面简洁克制,减少夸张霓虹,避免杂乱细节,避免随机文字,避免卡通风格。
这段提示词长了一点,但它清楚。它有场景,有主体,有景别倾向,有构图,有光影,有运动,有用途,也有限制。字数多一点少一点都没关系。关键是镜头本身站住了。
Prompt 更像一个翻译稿,你心里先有一个镜头,然后再把这个镜头翻译给生成模型听。如果你心里只有几个形容词,模型收到的也只是几个形容词。如果你心里有镜头,提示词自然会变得具体。
会生成的人越来越多,会判断的人才稀缺
聊到这里,我想起了上学时候讲电影史,电影刚诞生时的状态。那个阶段,画面自己动起来,就已经足够神奇。后来电影慢慢从视觉奇观变成故事语言,大家开始关心机位、景别、剪辑、调度、表演、光线。今天 AI 视频也有点像这个阶段。我们仍然会为一段凭空生成的视频兴奋,我也会。
看到某些生成结果的时候,我还是会心里一震,觉得我靠,这玩意真的进化到这了。但兴奋之后,下一步就该问,镜头为什么这么拍。会生成的人会越来越多,会判断的人才稀缺。这话听着有点刺耳,但我真的这么觉得。
AI生成成本会继续降低。以前要团队、设备、场地、灯光、后期合成才能完成的画面,现在一个人坐在电脑前就能开始尝试。这当然是好事。我始终觉得,这是影像创作者很幸运的时代。因为技术再往前走,也抹不掉一个创作者对画面的判断。
这个镜头有没有必要。这个构图有没有气质。这个运动有没有服务叙事。这个画面能不能剪进片子。这个视觉是否符合项目本身。这些问题,仍然要人来判断。你知道自己想要什么,这件事会越来越贵。
所以回到开头。很多人第一次打开视频生成工具,会先去搜 Prompt。这很正常。我也搜,没嘛事儿。但如果你真的想把 AI 视频做进作品里,别只停在模板那里。每次写提示词前,先停 30 秒。问自己几个很土的问题。
这个镜头拍谁?观众看哪里?它放在片子的哪个位置?摄像机为什么要动?它最终能不能剪进去?如果这几个问题都答不上来,再高级的词都没用。如果这几个问题想清楚了,提示词可以很朴素,但画面会稳很多。AI 确实让我们更容易把脑子里的画面做出来。但要让画面真正成为作品,仍然要靠生成之前的判断。
别急着问 AI 怎么生成大片,先问自己,这个镜头到底要拍什么。
后面如果大家感兴趣,我会继续把这件事往下拆。怎么把一个镜头设计翻译成 Prompt。怎么做一组能接起来的 AI 分镜。怎么把 AI 生成、剪辑、调色、包装放进一个完整工作流。
这条路还挺长,我们慢慢聊。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧!想第一时间收到推送,也可以给我点个关注。有什么问题欢迎私信我。
谢谢你看我的文章,我们,下次再见。
/ 作者,Rain / 投稿或合作,请联系邮箱,rain-xjt@qq.com
夜雨聆风