
自 Seedance 2.0 发布以来,这款多模态视频生成模型无疑是 AI 视频生成领域的全能王者。
它不再满足于单纯的文本生成视频,而是直接把图像、视频、音频和文本四种输入融合在一起,一次最多塞进 12 个素材,生成带原生音频的多镜头短片。
物理真实感、人物一致性、相机运动控制,都达到了当前业界领先水准。
Seedance 2.0 让 AI 视频终于有了「导演感」。
然而,模型再强,也得靠提示词来带节奏。
Seedance 2.0 的多模态能力越强,提示词的结构就越决定最终成片的质量。
一句写得好的提示词,能让模型精准抓住动作、镜头、氛围和声音;一句写得模糊的提示词,则容易让画面飘忽、物理崩坏。
今天这篇文章,就把最近两个月里实测有效的提示词方法整理出来,帮你少走弯路。
Seedance 2.0 到底是什么

Seedance 2.0 是字节跳动 Seed 团队在 1.5 版本基础上重构的多模态视频生成模型。
它采用统一的音频-视频联合生成架构,支持自然语言描述的同时,还能把最多 9 张图像、3 段视频片段(总时长不超过 15 秒)、3 段音频文件(总时长不超过 15 秒)作为参考。
生成结果最长 15 秒,支持 1080p 稳定输出,内置原生音频同步和多镜头剪辑能力。

相比前代,2.0 在复杂交互场景里的可用率显著提升。
多主体动作、真实物理碰撞、镜头语言控制,都不再是短板。
最近,字节开放了 Seedance 2.0 API 接口,各大 AI 创作平台都已上线。
好消息是,提示词写对了,你就能用它做出接近商业级别的短视频;坏消息是,模型依然会因为提示词过于随意而产生幻觉或细节丢失。
接下来,我们直接进入核心。
怎样写提示词,才能让 Seedance 2.0 真正听指挥,而不是自己发挥。
万能提示词结构公式
Seedance 2.0 的最大变化在于,你不再是在给一个场景写说明,而是在真正指挥一场拍摄。
用Seedance 2.0 生成视频时,最容易踩坑的地方就是提示词写得太散。
经过过去两个月的大量实测,我发现当你把提示词整理成一个固定结构后,输出质量和稳定性会明显提升。
这个最可靠的提示词结构就是:
主体 + 动作 + 镜头与运动 + 风格 + 约束条件

这个结构把复杂的多模态指令拆成五个清晰层次。每个部分各司其职,模型就能更精准地执行你的意图。
主体 Subject
定义画面里出现的人或物,越具体越好。
包括年龄、外貌、服装、表情、姿态、手部动作等细节。
例如不要只写「一个女孩」,而是写「25岁左右的亚洲女性,黑色长直发,穿白色宽松衬衫和牛仔裤,表情专注而平静,双手自然垂在身侧」。
动作 Action
描述正在发生的事,用现在时态,每个镜头最好只聚焦一个主要动作。
例如「她缓缓转过身,目光投向窗外」或者「咖啡从杯中倾倒,液体在空中形成清晰的弧线」。
镜头与运动 Camera
告诉模型如何取景和移动。
明确镜头类型(广角、中景、特写)和运动方式(推镜、摇镜、环绕、手持)。
例如「从肩膀后方的中景开始,缓慢推近至面部特写」或者「手持镜头跟随人物向前行走,轻微晃动增加真实感」。
风格 Style
设定整体视觉基调。
包括光线、色彩、胶片质感、氛围参考等。
你可以写「柔和的自然窗光,金色小时光,电影级色彩分级,参考《布达佩斯大饭店》的对称构图」。
约束条件 Constraints
这是降低错误、保持一致性的关键。
常用指令有「保持面部一致性」「无画面扭曲」「动作流畅自然」「避免多余抖动」「物理模拟真实」「人物手部细节清晰」等。把这些放在提示词最后,往往能显著减少幻觉。
把这五个部分按顺序组合起来,就形成一条逻辑清晰、执行力强的提示词。
实际使用时,你可以根据需要灵活增减,但核心顺序尽量不要打乱。模型对这种结构化输入的理解明显更稳定。
掌握这个公式后,你会发现 Seedance 2.0 的输出不再是随机发挥,而是真正按照你的指挥在表演。
提示词范例
游戏预告
电影级电子游戏预告片,时长 15 秒,照片级真实 CGI 画质,虚幻引擎 5 品质。主角是一个小型石像魔像,长着圆润且布满裂纹的石头脑袋,两只大而光滑的黑色眼睛,一张小小的平直嘴巴,粗短的拼接岩石身躯,胸口有一个发光的暖橙色能量核心,脖子上围着一条破旧的红色针织围巾。故事发生在一个受中土世界启发的奇幻领域,古老而荒废,没有活人,只有爬满常春藤、苔藓和野花的残破石像、坍塌的城堡、断裂的桥梁,以及被自然重新收复的覆灭王国。预告片以一个广阔的定场镜头开场:一座依山而建、布满植被的巨大石头废墟城市,雾气在山谷间飘荡。石像魔像独自走在一条两侧矗立着巨大荒废人像的走廊里,人像比他高大许多,他胸口的橙色光芒照亮了周围的石头,红围巾随风摆动。一个戏剧性的仰拍镜头揭示了一尊巨大的国王雕像倒在河面上,脸部朝下,裂缝中开满了野花。魔像的胸口核心突然爆发出明亮的橙色光芒,他将石拳猛击地面,制造出一道金色能量的冲击波。快速的战斗剪辑接踵而至:魔像与由黑烟和荆棘构成的暗影生物战斗,闪避、翻滚、用发光的拳头猛击。一个慢动作空中镜头捕捉到魔像,围巾飘动,拳头高举,橙色能量从核心爆发。一个超级广角镜头:魔像站在悬崖边,眺望着延伸至天际的荒芜王国,围巾在风中飘扬,正值黄金时刻。紧接着是魔像石头脸部的极端特写,两只光滑的黑眼睛,皮肤上的裂纹,一滴泪珠形状的金色光芒从脸颊滚落。画面切入黑屏,片名以带有青苔和裂纹的石头雕刻质感浮现,橙色光芒在文字后方脉动一次。配乐为史诗管弦乐,从轻柔的弦乐逐渐加强至全铜管乐与打击乐齐鸣。整体情绪是忧郁、史诗而孤独的。动画片头
时长 15 秒的手绘二维赛璐珞动画风格开场片段。主角:一名年轻男子,扎着凌乱的丸子头,发色乌黑带尖,肤色苍白,眼睛下方画着深色装饰性脸纹,身穿全黑高领长外套、黑靴子、黑手套。外表冷酷神秘,却总是陷入滑稽境地。片段内容:1. 以充满氛围感的绿色和紫色光线拍摄其面部戏剧性特写,一只鸟落在头上,严肃的表情随即崩塌。2. 切入片名“KOROKORO”,采用富有弹性的手写字体,周围点缀可爱的涂鸦。3. 快节奏喜剧蒙太奇:他戏剧性地走路,然后踩到香蕉皮滑倒;在咖啡馆里摆出酷酷的姿势坐着,结果一群流浪猫爬上膝盖,让他动弹不得;在屋顶上迎着落日摆姿势,接着电话响起可爱的铃声;被一位误认他是孙子的矮小老奶奶拽去购物;吃拉面时汤汁溅到黑色外套上。4. 最后一个镜头:他坐在公园长椅上,身上堆满了鸟和猫,头发上插着一朵花,面无表情地盯着镜头。画面定格,片名再次出现。光影对比:戏剧性场景采用阴郁氛围光,喜剧瞬间采用明亮的粉彩光。配乐是欢快的流行摇滚乐。时尚短片
15 秒混合媒介时尚影片,将实拍素材与动画图形元素、手绘插画和大胆的剪纸形状叠加在一起。动态节奏剪辑快速而鲜明。一群女性模特穿着不拘一格的复古混搭时装(超大皮夹克、印花真丝围巾、阔腿裤、厚底马丁靴、叠戴项链、圆形太阳镜),在真实场景中拍摄:自助洗衣店(薰衣草色调)、停车场(橙色)、餐厅卡座(薄荷绿)、楼梯间(亮粉色)。动画图形叠加层对模特做出反应:珊瑚色、紫罗兰色、柠檬黄色的大胆几何形状像纸张拍打屏幕一样滑入,部分遮挡或显露模特。粗糙的手绘插画实时动画化:扭动眨眼的小眼睛、旋转的星球、指向服装细节的箭头、从旋转模特身上散发出的锯齿状线条、一顶弹跳的绘制王冠。快速镜头序列:模特在餐厅吹泡泡糖 → 切入模特靠在洗衣机上,身边有绘制的肥皂泡 → 切入一只手拉下太阳镜,露出卡通眼睛 → 切入两名模特在楼梯间从上往下同步行走,周围有纸片剪影蝴蝶飞舞 → 切入模特向镜头踢出厚底靴,并配有绘制的冲击星形图案。分屏画面:四名模特同时出现在四个场景中,背景色各异,随同一节拍律动。网版纹理在镜头间闪烁,转化为高对比度的 Risograph 风格双色调印刷效果(紫罗兰配奶油色,珊瑚配黑色)。手写的文字、符号、箭头在剪辑间隙用粗马克笔潦草地划过画面。最后广角镜头:所有模特聚在洗衣店内,欢笑中定格,而动画彩带、形状、涂鸦和文字在画面中爆炸开来并保持静止。美学风格:原始、欢快、喧闹的独立杂志文化、T台秀场与卡通混乱的结合。色调:薰衣草紫、橙、薄荷绿、亮粉、珊瑚、紫罗兰、柠檬黄、黑、奶油白。高能量氛围,照片级真实感素材与平面图形动画相结合。动态设计
动态设计视频,15 秒,极致简洁,极简美学,全程黑色背景。画面从全黑屏幕开始。画面中央出现一个白色光点。它脉动一次,一道柔和的圆形波纹如心跳般向外扩散。随着每次脉动,光点发出的同心圆环不断扩张,并在一个连续不断、一气呵成的演变过程中,形态愈发复杂。第一次脉动,光点拉伸成一条完美的细白线,水平延伸过画面。第二次脉动,线条复制成一排平行线,旋转并组成一个几何圆形。第三次脉动,圆形拉伸成一个缓慢旋转的三维线框球体,每个顶点和边缘都清晰精确。线框平滑填实,变成一个带有细腻反光的纯白表面球体。球体随后扁平化,像折纸一样展开成一个矩形平面,变成一个极简风格的手机界面,上面有干净的线条和抽象的 UI 元素。界面向内折叠,塌缩成一个小立方体,翻滚一次后像绽放的花朵一样打开,每一片花瓣都是光滑的白色表面,向外剥离。花朵形状溶解成数百个微小粒子,在可控的漩涡中旋转,每个粒子都遵循精确的数学路径。粒子减速并重新组织,汇聚、对齐、压缩,形成一枚手表侧面的形状,每个细节均由同样的粒子构建而成。手表再次溶解,粒子以流动的带状形态划过画面,交织在一起并压缩成一个致密的白色球体。球体最后一次脉动,比之前更亮,然后向内塌缩成一个点。光点在静默中停留一拍。然后它平滑地展开成品牌标识,简洁、极简、白字黑底,其后方有一道微妙的暖琥珀色光芒亮起并淡出。所有形态之间的转换无缝、流畅且连续,没有切镜,没有跳转,一气呵成。商业广告
高端耳机广告影片,15 秒,单一不间断的连续镜头,无任何剪辑,斯坦尼康稳定器平滑运镜,流畅穿梭于相连的空间。产品是一副亮黑色包耳式耳机。镜头一开始紧贴一副耳机,它静置于一张白色桌面上,房间空旷寂静无声。一只手伸入画面,拿起耳机戴上。耳机咔哒一声扣上头部的瞬间,音乐响起,世界随之转变。镜头后拉,显示出人物正身处一间繁忙的咖啡馆,前景中一位咖啡师将杯子滑过柜台,热气升腾,但佩戴者不受干扰地走过,双眼紧闭,沉浸于音乐之中。镜头无缝跟随他们穿过一扇门,门后直通一个滑板公园,一名滑板手踩着节拍滑过,佩戴者在坡道间穿行,目不斜视,镜头则在一旁平行跟拍。他们又推开一扇门进入拥挤的自助洗衣店,洗衣机在转动,有人在叠衣服,一个孩子跑过,所有动作都与节奏同步,但全都被佩戴者无视,他完全沉浸在自我世界里。镜头从一张悬挂的床单下方低空划过,随后升起进入一处沐浴在黄金时刻光线下的屋顶,城市天际线一览无余,风拂动佩戴者的衣服。他们在边缘停步,镜头首次开始围绕他们缓慢环绕拍摄。他们睁开眼,露出微笑。然后摘下耳机,音乐戛然而止,取而代之的是城市的喧嚣声、风声和远处的车流声。他们看着手中的耳机。接着再次戴上。音乐回归。他们又闭上双眼。镜头继续环绕并缓缓向上拉升至广阔的空中俯瞰视角,佩戴者在屋顶上显得渺小,周围城市运转如常,唯有他们静止不动。耳机反射出最后一道金色余晖。品牌名称以干净简洁的字体出现。整部影片就是一个连续流动的长镜头,镜头从未停止运动,从未剪切,滑过由门、墙壁和无缝建筑过渡所连接的空间。
追 - 踪 - AI - 趋 - 势 | 预 - 见 - 科 - 技 - 未 - 来
////////////////////
🤟👏🤟
关注
//有点儿西东//
「点赞」「转发」「小心心」
与你一起
探索智能时代的无限可能
🌟🌟🌟🌟🌟
////////////////////
夜雨聆风