素人做练习生不用去韩国,学会这个AI秒变爱豆-夜雨聆风

素人做练习生不用去韩国,学会这个AI秒变爱豆

https://weixin.qq.com/sph/AuKzOwv4I9

大家可以先看看文章开头这支赛博朋克风+国风的舞蹈视频，这是我最近跑出来的比较满意的一支片子。

上个月我用即梦做了一堆跳舞视频。坦率的讲，舞是在跳，但看着总觉得哪里不对。人物动作倒是流畅，问题出在镜头，摄像机一动不动杵在那，像监控录像在拍一个人跳舞。

你知道那种感觉吗。技术上没毛病，但就是。。。不好看。

后来我做了两件事:

一是去拉了几支真实MV的片，就是把视频拖进剪映0.25倍速一帧一帧看摄影师到底在干嘛。

二是翻了几本电影摄影的书，想从底层搞明白镜头运动到底是怎么回事。

看完之后我悟了一个事。

好的舞蹈视频，镜头不是在「拍」舞者。镜头在陪舞者一起跳舞。

这句话不是我说的。

有一本专门研究电影和舞蹈交叉领域的书叫「Dancefilm: Choreography and the Moving Image」，作者Erin Brannigan在里面提了一个观点，大意是，当镜头运动本身具有了编舞逻辑，摄影机就不再是旁观者，而是成了第二个舞者。

我当时看到这句话有点被击中了。

因为这恰好解释了我做AI视频时的困惑，我一直在写「拍舞者」的提示词，但我应该写的是「镜头在跳什么舞」。

我认真看的第一个是Lisa的「ROCKSTAR」。这支MV的团队阵容挺夸张的，摄影指导是Mauro Chiarello，用了Steadicam斯坦尼康配合机械臂运动控制系统来拍。

在曼谷的耀华力路实景取景，没有完全封路的情况下完成了大量复杂运镜。但让我最受触动的不是这些昂贵设备，而是一个特别简单的镜头逻辑。

副歌有一段，Lisa冲着镜头走过来甩手，这个时候摄影机在干嘛呢，在后退。不是匀速后退，是Lisa走得快它就退得快，Lisa突然停下来做一个定格手势，镜头猛地推上去怼脸。你把声音关掉只看画面，依然能感受到那个节奏。

Steven D. Katz写过一本被电影学院奉为圣经的书「Film Directing: Shot by Shot」，里面有一个核心概念，

镜头的运动方向应该呼应画面中主体的力量方向。

不是简单的跟随，而是形成一种张力关系。

拿Lisa这段来解释就特别清楚。

舞者向前冲，镜头后退。两个方向相反的运动叠加在一起，视觉冲击力翻倍了，你会觉得Lisa在追着你跑。

如果这时候镜头也往前推，两个方向一致，那就只是「摄影师在追Lisa」，完全不同的感觉。

舞者旋转的时候，镜头反方向环绕。两个旋转叠起来视觉上等于转速翻倍。

舞者原地静止不动，镜头快速推进。静止中的推进等于情绪爆炸。

你回头看我文章开头那个视频，里面大量使用了这个张力逻辑。

比如 0:17 和 0:48，当舞者配合重拍定格，摆出极具攻击性的Pose时，镜头绝不是呆呆地看着，而是直接做了一个猛烈的 Fast Dolly In（快速推进怼脸）。静止中的推进等于情绪爆炸，那种K-pop Girl Crush的压迫感瞬间就出来了。

我把上面那个「力量方向」规律记下来之后，回去改了即梦的提示词。

之前写的是「环绕镜头」四个字，改成了「舞者向镜头方向冲刺甩手，镜头同步后退保持距离，舞者定格瞬间镜头猛推至面部特写」。效果立刻不一样了。

然后我拉了「爱乐之城」的开场。

就是那段在洛杉矶高速公路上拍的「Another Day of Sun」。这段常被人说是一镜到底，其实不是，是好几个长镜头通过隐藏剪辑点拼起来的。具体操作是利用快速移动、过往车辆遮挡、人物经过镜头前方这些瞬间偷偷切的，切得天衣无缝。

用的是Steadicam和起重机的组合，Steadicam负责在车缝间穿梭时保持稳定，起重机负责大范围的升降和位移。

但这段给我最大的启发不是设备，而是一个关于「景别节奏」的事。你仔细数镜头切换，会发现一个规律。

主歌部分是中景为主，切换少，让你看清群舞的完整动作。到了预副歌的时候景别开始收紧，慢慢推向近景，营造一种「要炸了」的期待感。副歌一到，全景和特写高频切换，视觉信息量拉满。

这个景别节奏公式，我完美套用在了开头的视频里。

你看视频前奏部分还是相对稳定的中景，但到了重拍和副歌部分，画面在极端的局部特写（0:14的厚底靴、0:33的手臂装甲）和宏大的全景（0:34躺在屏幕堆里俯拍、0:53站在废旧电视机堆上仰拍）之间高频跳切。这种两极景别的巨大落差，加上恰到好处的镜像对称组合（0:24），直接制造了赛博朋克独有的视觉失控感。

这个节奏公式其实在大量舞蹈MV里都存在。

主歌用稳定中景，副歌用景别跳切。中间有一段桥段的话就放一个长的跟拍或环绕，让观众喘口气。

我试着把这个节奏翻译到即梦的时间戳分镜里，用了一个11秒的提示词。0到3秒固定中景，4到7秒景别收紧推成近景，8到11秒在全景和特写之间跳切。节奏感明显比之前「全程同一景别」的版本好。

说完拉片再聊一个底层知识点，我觉得搞懂这个之后对写提示词帮助特别大。

Dolly和Zoom不是一回事。很多人包括之前的我都觉得推进镜头就是推进镜头有什么区别。区别太大了。 Dolly是整个摄像机物理往前移动。你走向一个人的时候，TA旁边的背景会发生透视变化，近处的东西位移快远处的位移慢，这就是空间感。人眼也是这个原理，所以Dolly看着特别自然沉浸。 Zoom是摄像机不动镜头光学拉伸。画面像被压扁了，前景背景的距离感消失。看着有种监控偷拍的冷感。

Joseph V. Mascelli的「The Five C’s of Cinematography」里把这个叫做「光学透视」和「物理透视」的区别。这本书1965年出版的，被称为电影摄影的圣经，到今天核心理论依然成立。他总结了五个C，Camera Angles机位、Continuity连续性、Cutting剪辑、Close-ups特写、Composition构图。写AI提示词的时候其实也可以按这五个维度去审视自己写的东西是不是全面。

写即梦提示词的时候这两个词效果真的不同。你想要那种沉浸的「走进舞者世界」的感觉，写Dolly In。你想要那种疏离冷感，写Zoom In。跳舞视频绝大部分情况应该用Dolly。

还有一个骚操作叫Dolly Zoom。这个技术1958年希区柯克在「迷魂记」里第一次用，后来斯皮尔伯格在「大白鲨」里用了一个更经典的版本。

原理是摄像机往前推的同时镜头往后拉，两个动作互相抵消让主体大小不变，但背景会产生剧烈的膨胀或压缩。视觉上就是一种空间扭曲的眩晕效果。 Martin Scorsese在「好家伙」里用过一个极缓慢的Dolly Zoom，几乎看不出来但你能感觉到背景在慢慢挤压过来，人物的焦虑感就这么无声无息地渗透进画面了。

在舞蹈视频里，这种效果可以用在「世界崩塌」「时空错乱」这类概念段。不过说实话在AI视频里实现的成功率我试了几次不太稳定。先留着，等模型能力再强一点。

说了这么多理论和拉片，下面掏几个我自己用得最顺手的运镜套路。我也不知道对所有人都管不管用，但在我自己的实践里这几套配方出来的效果至少不会太差。

环绕展示

适合Solo段落。

写法有一个坑，光写「环绕」两个字AI不知道绕多少。得写「Smooth Orbit半圈环绕从正面缓慢旋转至侧后方，中景构图舞者始终居于画面中心」。多少圈、多少度，必须写清楚。（比如视频 0:27 秒那个高难度的仰身下腰动作，我就配合了一个侧向环绕，把肢体的空间张力完全展现了出来。）

升降揭示

适合群舞。

从脚步特写Crane Up慢慢升起到俯拍全景，整个队形渐渐展开的感觉很震撼。但AI做升降容易在中间「跳」一下不够丝滑，这时候就得念经一样往后面加「画面平稳运动流畅丝滑过渡无抖动」。确实管用。

而且利用AI突破物理限制，机位的极大跨度能制造奇观。像视频 0:34 秒，机位切到了从上往下的垂直俯拍（High Angle），到了 0:52 秒，机位又变成了极低角度仰拍（Low Angle），彻底打破了“平视拍跳舞”的无聊感。

推拉呼吸

我最爱用的一个。

舞者在黑暗中一动不动全景显得渺小，音乐响起猛然抬头甩发，同时Fast Dolly In快速推至面部特写。这个静到动的突变配合推进镜头，每次做出来效果都还不错。

就像视频 0:46 那个极低角度（Low Angle）的起幅，一脚踩起积水水花，紧接着视觉瞬间快速拉远（Fast Dolly Out），也是同一种底层逻辑的变现。

这也呼应了Katz在书里说的，静止中的突然运动，比持续运动更有冲击力。

POV第一人称

舞者对着镜头跳像在跟你跳舞。要加一点微微的Handheld手持晃动，太稳了反而像监控。

隐藏转场

舞者快速旋转时裙摆或头发扫过镜头前方画面被短暂遮挡，利用这个瞬间切换场景，观众完全察觉不到。

写成提示词就是「舞者快速旋转裙摆扫过镜头前遮挡画面，瞬间切换至新场景」。

这本质上就是爱乐之城里用的那种隐藏剪辑点技巧，我实测在即梦上能跑通。另外在开头视频里，我还用了一种无缝跳切（Match Cut）。

比如在 0:25 到 0:30 之间，舞者的核心舞蹈动作连贯顺滑，但衣服和背景却在废土风格和数字机房之间疯狂切换，配合碎屏（0:43）和故障（Glitch）特效，转场丝滑且极其炸裂。

运镜搞定了，但还有三个东西会让视频再上一档。这些是我看一个拍街舞的摄影师分享之后补上的认知。

碎剪节奏

街舞这种重节拍的风格，剪辑要「看得见音乐」。快速动作每个动作只给1到2秒用碎剪制造急促感，慢律动就用长镜头保留动作的完整性。

开头视频里，为了配合Hyper-pop风格密集的金属合成器鼓点，我用了大量1秒甚至半秒的碎剪。翻译成AI提示词就是时间戳分镜里的时长分配，快的段给2秒，慢的段给4秒，不要均匀分。

变速呼吸感

不要全程高能，要张有弛。

在音乐转折或重拍瞬间给动作加变速，正常速度突然切成慢镜头捕捉那个爆发瞬间再瞬间恢复正常速度。写成提示词就是「慢镜头120帧/秒捕捉甩发定格瞬间，随即恢复正常速度继续舞蹈」。

视频里好几个干净利落的定格（Freeze），我都加了微小的慢镜头回放。动作定格加上慢镜头回放能把标志性Pose的冲击力放大好几倍。

调色定氛围

很多人提示词里只写动作和运镜，完全忘了色彩。但氛围感的一半来自调色。

这里有三套我实测效果不错的配色逻辑。

高对比加低饱和度，显硬核酷炫适合Battle或力量型编舞。

暖黄加青橙色调，复古热情适合Old School或Locking。

冷色调加霓虹紫蓝，科技感满满适合机械舞或Popping。

毫无疑问，开头这支视频用的就是第三套配方：大面积的冷蓝、暗紫环境光，搭配极其锐利的高反光银色金属服饰，赛博朋克的硬核科技感直接就立住了。

把这些写进提示词的风格色调总纲里效果提升很大。

好了接下来给一个完整的能直接复制到即梦用的街舞提示词。（开头那支赛博视频的片段，其实就是基于下面这个基本框架跑出来的）：

这个提示词假设你已经有了一段街舞参考视频和一张角色参考图。素材准备 @视频1，一段你喜欢的街舞视频，动作清晰节奏明确的 @图片1，你想要的舞者形象，什么风格都行

提示词: 「@图片1中的舞者，身穿赛博朋克金属机能服，在布满复古显示器和霓虹灯的废弃机房表演街舞，参考@视频1中的舞蹈动作和节奏。高对比冷色调，霓虹紫蓝光效，画面带有轻微Glitch故障闪烁。0-3秒Low Angle低角度仰拍舞者厚重机车靴特写，鞋底踩地溅起水花；4-7秒Fast Dolly Out快速拉远至全景展示整个空间，舞者在画面中央做一组力量型动作；8-10秒侧面Tracking跟拍舞者地板动作，慢镜头120帧/秒捕捉Freeze定格瞬间；11-13秒恢复正常速度，瞬间无缝切换为二次元动漫风格，Smooth Orbit四分之一圈环绕。画面全程平稳流畅无抖动，电影级质感」

如果你没有参考视频也没有角色图想纯文本试试水，把@引用去掉也能跑，只是动作的精确度会差一些。

调色风格、场景环境、运镜套路你可以随便换，这就是提示词最有意思的地方，同一段舞蹈参考配不同的环境和运镜就是完全不同的片子。

再聊一个可能更实用的事。如果你已经拍好了一段街舞视频呢。比如在练习室用手机固定机位录的那种。能不能用AI给它「升级」一下？

能。而且我觉得这可能比从零生成更有价值。

即梦Seedance 2.0有一个视频编辑能力。你把已经拍好的视频当@视频1传上去，然后用提示词告诉它你想改什么。

换场景

练习室白墙录的，写「将@视频1中的场景替换为废弃仓库，墙面有涂鸦，地面有积水反射霓虹灯光，保持舞者动作不变」。你的动作原封不动但背景完全换了。

换风格

真人实拍变成动漫风或赛博朋克风，写「将@视频1转换为日本赛璐璐动画风格，保持人物动作和节奏，增加霓虹光效和粒子拖尾」。

这一点在我开头的视频里展现得极其魔幻。请拉到视频 0:56 – 1:00 这几秒，舞者向前走位伸手这个动作没有任何改变，但她在几秒钟内，从写实的银色机甲风，瞬间切成了2D二次元动漫风，接着又变回了白衣实景。

这就是把原视频当做动作参考，用提示词疯狂切换风格跑出来的。

补运镜

原片是固定机位没有运镜，这个最骚了。

严格来说这个不是「编辑」原视频，而是把原片当动作参考让AI重新生成一个带运镜的版本。用的是Seedance的「运镜/动作复刻」能力，写「参考@视频1的舞蹈动作，重新生成带运镜的版本，0-5秒低角度侧面跟拍，5-10秒Smooth Orbit环绕半圈，画面丝滑流畅」。

等于AI帮你重新拍了一遍但加上了你想要的运镜。动作来自你的原片，运镜来自你的提示词，两者合体。

做封面

从视频里截一帧最帅的Pose当@图片1，写「@图片1中的舞者定格在Freeze动作，废弃工厂背景，烟雾弥漫逆光剪影，高对比度黑白色调加上一抹霓虹蓝色高光，海报风格构图」。发朋友圈绝对炸。

当然了要叠个甲，AI编辑已有视频的效果目前还不是百发百中。场景太复杂或者动作太快的时候容易出问题。但拿来做练习室视频的「升级版」已经够用了，试几次总能跑出一个满意的。

顺便聊一下提示词写作本身的进阶技巧。

「写意图，不写细节」

Seedance 2.0有自己的世界知识和导演思维，你告诉它你想要什么效果就行，不需要事无巨细地描述每个画面细节。

比如你想做一个街舞视频，写「生成一段硬核街舞Battle视频，注意分镜编排和节奏卡点」，比你把每一帧的动作都写出来效果可能更好。

因为你写得太细反而限制了模型的创造力。

但是有些东西必须写细。搜了一圈实测贴之后我总结了4个必须明确写的维度。

品质锚定

不要写「电影感」这种模糊词，写具体的渲染引擎和画质规格。

比如「8K超高清电影级画质」或者「UnrealEngine5渲染质感」。这些词会激活模型的高质量输出模式，出来的东西精致度完全不同。

大气连贯声明

在提示词开头声明全片统一的物理效果，比如「全程保持霓虹光效闪烁」或者「每帧都有微弱的粉尘颗粒飘浮效果」。

不加这个的话不同分镜之间的氛围容易断裂，前面有光晕后面突然没了。

约束词

在结尾加上「人体结构正常比例自然五官清晰无重影无闪烁无抖动」。

这些看着像废话但实测对舞蹈视频特别管用，加了之后手指多长一根或者腿突然扭曲的概率明显降低。

禁止项

如果你不想要字幕水印之类的东西，明确写「禁止出现任何文字字幕LOGO或水印」。AI很听话，你说了它就不加。

还有一个避坑小贴士，如果你想用知名角色IP做视频，不要直接写角色名字，平台可能会拒绝。用「Figure 1」替代然后描述外观特征就行。

如果你想深入学习Seedance的提示词写法，推荐去GitHub搜这几个仓库。

liangdabiao/make-prompt-seedance2有结构化提示词模板和广告视频示例。

yuyou-dev/AI-Director是一个AI导演课的仓库有运镜助手。

songguoxs/awesome-video-prompts收集了各家AI视频模型的高质量提示词案例。都是开源免费的，直接看就行。

但说了这么多运镜技巧，有一个底层的事实我必须坦诚讲。纯文本提示词写不出精确的舞蹈动作。

你想让AI跳一段特定的编舞，比如Lisa「ROCKSTAR」副歌那8个八拍，你把每个动作都用文字描述出来也没用。

不是你词写得不好，是目前的模型能力达不到。

正确的玩法是上传一段你喜欢的舞蹈视频当参考@视频1，再上传角色形象图当@图片1，提示词写「让@图片1中的人物复刻@视频1中的舞蹈动作，动作流畅自然人体结构正常」。

动作交给参考视频，文本提示词的作用是控制环境、光影、运镜和氛围。

同一段舞蹈参考，换个场景换个光影换套运镜就是完全不同的片子。

提示词的价值不在于描述舞步，在于构建舞者周围那个世界。

我现在的工作流是先找参考视频定动作，然后拉那个视频的片看摄影师用了什么运镜，记下来翻译成提示词给即梦。

等于我是在「复刻摄影师」而不是「复刻舞者」。舞者让AI看视频学，摄影师让我用文字教。分工明确之后出片质量提升了很多。

最后分享一个我自己的拉片练习方法，特别简单但特别有用。找一支你觉得好看的舞蹈MV，不要听声音，静音。然后0.25倍速回放只看画面。

你会发现一个很厉害的事。好的MV即使静音了你依然能感受到节奏。因为镜头的推拉速度、切换频率、景别变化本身就在「跳舞」。摄影师用镜头重新编排了一遍节奏。

Christopher Kenworthy写过一本「Master Shots」，里面把100种运镜按场景分了类。我看完的最大感受是，没有「最好」的运镜，只有「最合适」的运镜。

运镜的选择取决于你想让观众在这一刻感受什么。这也是Mascelli那本老书里说的，了解规则方能突破规则。

回到AI视频这件事。当你看出来镜头和舞者之间那种呼应关系的时候，你就知道自己的提示词该往哪个方向写了。不是写「加一个环绕镜头」，而是想清楚这一刻舞者的力量往哪个方向发，然后让镜头去「回应」那个力量。这个事说起来简单做起来需要练，我自己也还在摸索。但至少方向是对的。

如果你有兴趣深入了解，推荐三本书按这个顺序看。第一本Christopher Kenworthy的「Master Shots」入门最直接实操性最强。

第二本Steven D. Katz的「Film Directing: Shot by Shot」进阶理解镜头叙事的底层逻辑。

第三本Joseph V. Mascelli的「The Five C’s of Cinematography」虽然是1965年的老书但核心理论到今天依然是行业基石。

翻完这三本你再去拉片感觉完全不一样。你会开始看到那些以前看不到的东西。

对了忘了说一件事。前面讲的这些运镜套路、调色逻辑、变速技巧，其实天然就是一个软件的数据结构。

舞蹈风格是一个下拉框，场景是一个选择器，运镜是多选按钮，调色是预设模板，时长是一个滑块。选好了之后自动拼出一段完整提示词，直接复制到即梦用。

所以我用Vibe Coding做了一个工具。就是那种你不用懂代码，跟AI说「帮我做一个网页，左边选舞蹈类型场景调色运镜，右边自动拼出即梦提示词」，AI半小时就帮你写出来了。

这个工具做了两个模式。

一个是「从零生成」，选好Breaking/Popping/现代舞之类的风格，选场景选调色选运镜组合选时长，一键出提示词。

另一个是「优化已有视频」，选换场景/换风格/补运镜/做封面，一键出对应的编辑提示词。我自己现在就用这个东西，每次做舞蹈视频不用从零写提示词了。

如果你也想要这个工具或者想自己做一个，思路很简单。把前面讲的所有参数整理成选项列表丢给Cursor或者Claude，让AI帮你搭一个网页。

核心就是一堆选项按钮加一个字符串拼接逻辑，技术上一点都不难，难的是你得先搞清楚有哪些参数值得放进去。不过看到这里的你应该已经搞清楚了。