大家好,我是阿锋,做了五年视频创作,现在专注AI视频和剪辑干货分享。说实话,这两年AI视频工具火得一塌糊涂,即梦、可灵、Sora……一个比一个厉害,但我发现一个问题:工具越来越强,很多人出的片却越来越废。
不是工具不行,是我们写提示词的方式出了问题。
我有个朋友跟我吐槽,说他用即梦生成的视频,画面构图混乱、人物动作僵硬、光影诡异,跟脑子里想的完全不一样。我看了一眼他的提示词,就四个字:"一个人在走"。
兄弟,这不是AI的问题,这是提示词的问题。
90%的AI视频翻车,都输在提示词上。
今天我就把AI文生视频提示词的万能结构给你们拆解清楚,再附上5套直接能用的模板,让你告别废片。

铭锋视界
一、为什么你的提示词总翻车?
先说个扎心的真相:AI不是不听话,是你没说清楚。
很多人写提示词跟写日记一样,"一个人站在街头,很孤独的感觉"——这种描述对于AI来说等于没说,因为它不知道这个人穿什么、站在哪条街、是什么时间段、光从哪边打过来。
AI需要的是导演级的描述,而不是文学青年的感受。
你得告诉它:谁、在哪、干什么、怎么动、用什么风格、什么光线。
这就是我要说的万能5层结构。
二、万能5层结构,新手照着写不出错
第一层:主体——画面里有什么
先写清楚核心元素,越具体越好。别写"一个人",要写"穿米色风衣、短发及肩的年轻女生,眼神望向远方"。你描述得越精准,AI跑偏的概率越小。
第二层:动作——镜头怎么动
这是AI视频和AI图片最大的区别!视频要有运动,分两类写:
- 镜头运动
:推、拉、摇、移、环绕、慢推进 - 内容运动
:人物转身、头发飘动、雨滴下落、旗帜飘扬
新手最容易犯的错是写矛盾动作,比如"镜头快速推进+慢动作"。记住,镜头运动和内容运动要分开描述,别搅在一起。
第三层:场景——在哪,什么光线
告诉AI故事发生的地点、时间、光线条件。"夜晚街头+霓虹灯+积水倒影"比"城市夜景"更有氛围感,因为AI能据此确定色调和光影风格。
第四层:风格——要什么质感
选1到3个匹配场景的风格词,别贪多。比如"电影感+暖色调+浅景深",这三个是协调的,但你要是写"赛博朋克+水墨风",AI就懵了。
常用风格词:电影感、赛博朋克、水墨风、胶片质感、日系vlog、写实风。
第五层:参数——硬性要求
比例(9:16竖屏还是16:9横屏)、时长(2到8秒)、画质(4K、高清、无闪烁)。这三点直接决定你的视频能不能用。

铭锋视界
三、两个完整示例,差距一目了然
说再多不如看例子,对比一下什么叫"废片提示词"和"大片提示词"。
❌ 废片提示词
"一个人在咖啡馆喝咖啡"
生成结果:AI随便塞个人进去,位置随便,光线随便,你也不知道最后会出个什么鬼。
✅ 大片提示词
25岁女生,穿米色针织开衫,黑发披肩,坐在日式咖啡馆窗边,双手捧着一杯拿铁,望向窗外。镜头从侧面中景缓缓推进面部特写,午后阳光从左侧窗户斜射,逆光勾勒发丝轮廓。温暖日系生活美学,浅景深,背景虚化木质书架。16:9横屏,4K画质。
你看,同样是"一个人在咖啡馆",第二个描述把人物特征、动作、场景、光线、风格全说清楚了。AI要做的就是把画面翻译出来,不比你动嘴皮子说"我要一个好看的视频"强多了?
四、5大场景模板,直接套用
光说不练假把式,给你5套模板,替换括号内容就能用。
场景1:短剧视频(叙事感拉满)
完整版:戴眼镜、神情严肃的年轻男生,从办公桌起身、直视前方、说关键台词,深夜办公室、仅电脑冷光,悬疑剧质感、冷色调、强阴影对比,镜头从侧面中景切入→慢推面部特写→定格眼神。16:9、电影感、4K
简化版:人物在深夜办公室严肃说话,镜头从侧面中景推特写,悬疑冷色调,16:9、4K
场景2:营销视频(突出产品)
完整版:深色玻璃瓶香水置于大理石台面,镜头360°缓慢环绕、光线在瓶身流动、水珠凝结,高端奢侈品质感、左侧柔光、浅景深、金色粒子漂浮。9:16竖屏、4秒、4K
简化版:香水在台面缓慢旋转、光线流动,高级广告质感、浅景深,9:16、4K
场景3:国风视频(水墨古风)
完整版:穿汉服的女子站在古松下,衣袂随风轻扬、缓缓转身望远山,云雾山巅、远处古寺飞檐,中国水墨风、大面积留白、墨色浓淡,镜头缓慢横移如画卷展开。16:9横屏、6秒、4K
简化版:汉服女子立古松、衣袂轻扬,水墨风、留白构图、镜头画卷式横移,16:9、4K
场景4:人物运镜视频(最常用)
完整版:镜头缓慢推进,聚焦女生面部,女生站在海边微笑,海风拂动头发,背景海浪缓慢起伏,暖金色夕阳,画面流畅无抖动。4K高清,电影感
简化版:女生海边回头,镜头推进,暖色调,电影感,4K
场景5:风景动态视频
完整版:无人机航拍,缓慢上升,从山脚到山顶,晨雾笼罩村庄、炊烟袅袅、金色阳光穿透薄雾,镜头平稳移动,史诗级氛围。4K高清,画面流畅
简化版:村庄航拍上升镜头,晨雾阳光,史诗氛围,4K

铭锋视界
五、新手必避4大坑
坑1:越长越好
控制50到150字,太长反而稀释核心信息。AI不是读长篇小说,越精炼越精准。
坑2:只写画面不写动作
视频没运动就等于僵硬废片。至少写一种镜头运动,这是视频区别于图片的核心。
坑3:风格笼统或矛盾
别写"好看""艺术感"这种废话,也别把水墨和赛博朋克混搭。风格要统一、协调。
坑4:忽略负向提示词
加上"无闪烁、无变形、无多余肢体",能大幅降低废片率。这是很多人忽略的一点,但真的很管用。
写在最后
写AI视频提示词真的不难,核心就是:把你脑子里的画面,用导演的语言翻译给AI听。
你越具体,AI越能懂;你越笼统,AI越能跑偏。
下次生成视频之前,先问自己三个问题:主体是谁?在哪?在干什么?镜头怎么动?把这三个问题回答清楚,你的AI视频至少能及格。
夜雨聆风