序 从 Vibe Coding 到 Vibe Directing
这两年,AI 改变创作的方式经历了同一条路径。
Vibe Coding 让人人都能写代码,
Vibe Directing 让人人都能当导演。
(点金手独家首发Vibe Directing概念)

写代码这件事,过去要先学语法、学框架、把功能模块和实现逻辑一步步拆清楚,再交给机器。
现在不一样了——你只要把"想做一个什么产品"讲清楚,模型自己会拆任务、自己补细节,最后交付成品。讨论的重心,从"怎么把代码写出来"变成了"想做什么"。
AI 视频生成提示词走的是同一条路。
过去做 AI 短片,你几乎得把自己训练成半个摄影师:第一个镜头多少毫米、什么光圈、怎么运镜、对比度加多少、暗角加多少……一堆专业参数堆上去,才换来一点点确定的结果。
但随着 SeeDance 2.0 这一代模型成熟,它已经能主动理解场景和叙事逻辑,甚至会补出你原本没想到的镜头和细节。重心也随之转移:从"研究镜头怎么写",变成"想清楚要表达什么"。
这就是 Vibe Directing(AI 编导) 的核心——你不再扮演摄影师,你扮演导演。
导演的工作不是设定焦段,而是想清楚这个画面到底要让观众感受到什么,然后把它讲给模型听。
但要特别说明:Vibe Directing 不等于"提示词越短越好",也不等于"随便一句话丢给 AI 就行"。 它强调的是提示词重心的转移——从前花大篇幅描述参数和运镜,现在把精力投到画面、情绪、氛围和故事上。该写清楚的,依然要写清楚。
我一直给我的学员和粉丝们说的是,我们的Ai编导不是只让你拿走几百套提示词了事,而是真的能理解用AI做编导这件事本身的意义。
我们做了九维四镜提示词图谱,我把这个比喻成“字典”,同时我们还要给大家使用这个“字典”的方法!
学做 AI 视频,市面上最缺的从来不是"零散提示词",而是一本能查的字典 + 一本教你怎么查的教程。两样缺一样,都做不出稳定的好片:
只有零散提示词,没有字典 → 你永远在东拼西凑,做十条废九条。
只有字典,没有教程 → 你抱着 500 个词组,却不知道这一条片子到底该挑哪几个、怎么搭,照样写不出专业画面。
我们的AI编导体系里两样都给你,而且配套成体系:

一句话:图谱给你词汇,手册给你语法和导演思维。 词汇 + 语法,才写得出文章;字典 + 教程,才做得出好片。这就是这套课的护城河——别人可能有词表,但没人教你怎么用。
下面这5000字的内容手册,都围绕一件事展开:怎么把这本提示词字典,用Vibe Directing的理念翻成一条能高质量的视频提示词。
第一部分 Vibe Directing 的三条底层信念
你是导演,不是参数操作员
模型已经看过海量影像,懂景别、懂节奏、懂什么时候该切分镜、什么时候该给个近景。你不需要把每一个技术细节都提前交代清楚。你需要做的,是回到导演视角,想清楚故事和情绪,把"要让观众感受到什么"讲明白。很多时候,模型主动补出的镜头表达,反而会激发你的灵感。
重心是表达技巧,不是堆砌关键词
放弃参数,不是放弃描述。
一段有画面感的语言——把场景、人物处境、情绪走向写清楚——往往比一串参数更能让模型理解你真正想要什么。
值得投入精力的,是画面、情绪、氛围、故事,而不是焦段、曝光、运镜速度。
精准控制依然有它的位置
如果是商业影片、有明确交付标准的项目,该控制还得控制。客户要求"这里必须中景""那里必须产品特写",就得写死——模型自己判断的画面,未必符合商业交付要求。
Vibe Directing 是面向更广泛的 AI 短片创作的默认方法,但它不否定精准控制。 两者的边界,本手册第四部分会讲清楚。
第二部分 导演九问:用九维反推这条片子要什么
Vibe Directing 的核心方法论,我先透露下给大家。
更多的干货,我们在这次6.25-6.26的杭州AI编导线下课里首次完整的阐述Vibe Directing(Ai编导)的方法论和实战案例。
下笔之前,先用导演的视角,对着图谱的九大维度,逐条问自己一遍。每一问,正好对应图谱里的一个维度——想清楚答案,就知道去图谱哪一格里挑词。这就是你"查字典的九个索引"。
关键:九问不是九个维度都写都答,而是反推出"该答哪几个"
这正是 Vibe Directing 和"无脑堆参数"的本质区别。
你不需要每条片子都把九问答满。
真正的导演动作是:先问自己这条片子的目的和情绪,再用这九个问题反推——哪几维是这条片子的主角,哪几维只需带过,哪几维可以不要。
一条带货钩子片,可能重点在 ①④⑥⑧(视觉冲击 + 产品动作 + 真实质感 + 逼单),其余带过。
一条品牌情绪片,可能重点在 ②③⑤(运镜 + 光影 + 情绪),转化指令几乎不碰。
记住两条铁律: ① 每条提示词聚焦 3–5 维即可,贪多反而模糊。② 不管做什么,镜头语言 + 灯光氛围 + 负面强控 这"安全三件套"建议常驻——它们保画面不崩、质感在线、不翻车。
第三部分 开拍前的判断:什么时候直接写,什么时候先想清楚
不是所有输入都该立刻改写成提示词,写提示词前,你要在脑海里走三步判断
第一步:这条内容适合 Vibe Directing 吗?
原生适配:脑海里已经有画面、有情绪、有故事——典型的 AI 短片创意。直接进入 Vibe Directing。
部分适配:品牌展示、角色展示、风格化广告。可以用,但不必强行体验化,保留原意更稳。
低适配:功能演示、UI 教程、步骤说明,或要求逐字级精确对白同步的长篇剧情片。这类更适合传统分镜工作流,不强行 Vibe Directing。
第二步:这条表达成熟到什么程度?
已经很有画面感 → 可以直接放行或只做轻度提纯,别画蛇添足重写。
创意 + 技术参数混写 → 轻度提纯后改写:保留有效结构和情绪推进,清掉技术噪声。
全是参数和镜头号 → 别因为"写得很技术"就拦下来。去噪后转译:删掉低价值参数,转成自然画面表达,但保住底层的叙事和情绪意图。
第三步:信息够不够落地?(最重要的一步)
哪怕场景再适合,关键信息缺失就不能硬写。出现以下情况,先补问,再动笔:
只有抽象词("自由""高级感""很有力量"),没有可见画面
有感受没主体(没有人、没有物、没有场景)
有主体没动作(不知道它在干什么)
有画面碎片但看不出主关系或风格方向
多镜头之间明显跳转,看不出为什么放在一起
补问原则:只问完成这条改写所必需的最小信息量,通常一轮就够。 优先补"导演九问"里最核心的那几维——尤其是 谁/什么(①④)、在做什么动作(④)、什么风格调性(③⑦)。缺主角先问主角,缺动作先问动作,缺风格先问风格。不要为了"分类"本身反复追问。
对极短、抽象、单意象的输入(比如只丢来一个词),优先把抽象词翻译成"可见画面所需的信息"。方向基本明确时,可以先给初步判断,再补问最关键的 1–3 个缺口。
第四部分 镜头语言的取舍:保留意图,弱化参数
镜头语言不能一刀切删。要分清两种东西:
"告诉系统怎么拍"的低价值技术参数 —— 默认降权或删除
"让观众怎么感受"的镜头意图 —— 保留,或转译成自然结果
默认降权 / 删除
焦段毫米数、机位术语、运镜参数、镜头号、景深光圈曝光快门、设备说明(A/B 机、coverage)、纯剪辑指令。
保留 / 转译
镜头背后的意图要留住,只是换种说法。例如:
九维四镜图谱第 ② 镜头语言维度 里的词组(推拉、环绕、穿越、景别切换),本身就是"意图化"的镜头语言——它们描述的是观看体验,不是参数。优先从图谱选这类词,而不是写毫米数。
处理混入参数时的规矩
默认不把技术参数当作必须保留项,按更适合生成的 Vibe Directing 版处理;
但其中对情绪、叙事、观看感受有贡献的部分要留住;
如果这次确实弱化、删除或转译了某些技术控制,输出时简短说明一句,并提示:如果你想保留某些参数,告诉我,我再给一版带约束的。
例外:商业TVC或者千川付费素材交付必须精准时
商业影片、有明确交付标准的项目,遵循用户硬约束优先。
客户要求"这里必须中景""那里必须突出产品特写"——就照写,不擅自体验化。
需要的话,可以在精准版之外,额外给一版更有体验感的 Vibe Directing 版本。
第五部分 声音与硬约束优先
台词、旁白、音乐、音效、歌词、口白,以及用户明确写出的所有声音内容,优先级高于一切创意优化。
规矩很简单:
用户明确写出的台词、旁白、音乐、音效——原样保留,不改措辞、不替换内容、不删除。
画面描述和声音要求混写在一起时,可以重排顺序,但不动声音内容本身。
画面部分适合改写、声音部分不适合时,只改画面,声音照搬。
整条内容如果成立的前提是长篇、逐字级的对白同步,默认不走 Vibe Directing 改写,建议单独拆出纯画面段落处理。
规则冲突时的执行顺序:
用户硬约束(台词、旁白、音乐、音效、镜头结构、参数保留要求、格式要求、风格限制)
创意优化(在不破坏约束的前提下,提纯故事、情绪、意象和统一体验)
范式收束(前两项满足后,再让语言更贴合模型理解和生成)
第六部分 六种改写模式:把想法变成提示词
改写不是套一个模板。根据输入的主导因素,选最合适的模式。
第七部分 从图谱到成片:选词与组合范式
这是落地核心——怎么把提示词字典翻成一条高质量的视频提示词。
九维不必全用
每条提示词建议覆盖 3–5 个维度即可,贪多反而模糊。用第二部分"导演九问"反推:这条片子真正需要哪几维?精准选择,永远胜过全面堆砌。
必带"安全三件套"
无论做什么类型,② 镜头语言 + ③ 灯光氛围 + ⑨ 负面强控 是 SeeDance 稳定出片的保障。这三维负责画面不崩、质感在线、不翻车,建议每条都带。
最优组合范式(SeeDance 2.0 实测最优结构)
镜头优先 + 主体明确 + 场景真实参考 + 动作描述清晰 + 全局光影 + 风格一致 + 负面词
把导演九问答出来的那几维填进这个骨架,再从对应九维里选词,一条提示词就成形了。
什么是四镜?怎么选四镜(V1–V8)
图谱提供了 8 个四镜结构。先定目标,再选版本:
速记:卖货选 V1/V5,涨粉选 V2/V6,品牌选 V3/V7,引流选 V4,出圈选 V7。
第八部分 简单案例实操示范
下面用一条美妆口红带货的片子,把"导演九问 → 查图谱选维 → 组合成片"的完整流程走一遍。

输入(学员丢来一句话)
"我想做个口红带货视频,一个美妆博主在梳妆台前化妆,介绍这支口红。"
第一步:判断
适合 Vibe Directing,且是典型的带货转化场景。信息已有主体(博主 + 口红)、场景(梳妆台)、大致动作(化妆/介绍),但缺产品核心卖点、风格调性、转化目标——补一轮最关键的缺口即可。
补问(一句):这支口红主打什么卖点(颜色 / 滋润 / 持久 / 不沾杯)?想要高级商业感还是真实素人感?要直接逼单(戳左下角),还是软性种草(评论区扣 1)?
学员答:主打"丝绒雾面正红、显白不拔干",要高级商业感,直接逼单。
第二步:Ai编导九问(只答这条片子用得上的那几维)
注意:九问没有全答。情绪走向、产品动作、真实质感、转化逼单是这条片子的主角;其余维度(如户外场景、反转情绪)这条用不上,直接跳过。这就是"反推选维"。
第三步:查图谱选维(3–5 维 + 安全三件套)
① 视觉吸睛 → "极致微距""表面纹理微距"
④ 主体动作 → "旋开瓶盖动作""对镜涂抹口红""轻抿双唇"
⑤ 情绪表情 → "被惊艳到的表情""满足闭眼陶醉""自信微笑直视"
⑥ 物理交互 → "面霜抹开延展"(同理用于膏体顺滑延展)
③ 灯光氛围 → "暖黄白炽灯光""侧逆光勾勒轮廓""奶油色调柔和"
⑧ 转化指令 → "超低价超大字体""仅剩 X 件红色闪烁""点小黄车动画指引"
② 镜头语言 → "缓慢推镜聚焦""特写切近景"
⑨ 负面强控 → 避免面部畸形、避免唇线溢出/偏色、避免画面抖动
第四步:组合成片(按 V1 经典转化 · 四镜拆分输出)
镜 1(0–3 秒 · 钩子):微距特写正红口红缓缓旋出,丝绒雾面膏体在暖光下泛着细腻哑光,奶油色梳妆台背景柔和虚化,博主入画,眼神一亮、略带惊艳。
镜 2(3–7 秒 · 演示):对镜涂抹口红,膏体在唇上顺滑延展、均匀显色不拉丝,轻抿双唇收尾,表情沉浸享受;镜头从唇部特写缓推到半身中景。
镜 3(7–11 秒 · 信任):固定镜头轻微推近,博主自信直视镜头,展示上色后的丝绒雾面正红,唇色显白不拔干,侧逆光勾出轮廓,神情笃定认可。
镜 4(11–15 秒 · 转化):镜头拉远,博主手指向购物车,自信推荐,正红色号字样清晰,"仅剩 XX 件"花字闪烁,行动"戳左下角抢"。
负面强控(全片):面部清晰不变形,唇线不溢出、颜色不偏色,画面稳定


本质上,现在文本生成视频的主力工具确实是即梦,但这指的是高质量内容而言,我们 AI 编导Vibe Directing的另外一个核心观点是,内容一定要分层,有些内容其实没有必要用即梦做,用口播数字人都可以。
你要知道哪些内容是可以用 Veo3 做的,哪些是用 Grok 做的,哪些必须或者说只能用即梦 SeaDance2.0 做,这才是一个合格的 AI 编导应该掌握的成本控制能力。
最贵的,不一定最好,AI视频并不一定比真人拍摄便宜,一个优秀的导演要懂得在投资的总预算内,用什么价格的一线明星和几个三四线明星配合,来贡献给观众一部优质的作品。

夜雨聆风