AI编导:Vibe Directing概念首发,从新定义文生视频

序　从 Vibe Coding 到 Vibe Directing

这两年，AI 改变创作的方式经历了同一条路径。

Vibe Coding 让人人都能写代码，

Vibe Directing 让人人都能当导演。

（点金手独家首发Vibe Directing概念）

写代码这件事，过去要先学语法、学框架、把功能模块和实现逻辑一步步拆清楚，再交给机器。

现在不一样了——你只要把"想做一个什么产品"讲清楚，模型自己会拆任务、自己补细节，最后交付成品。讨论的重心，从"怎么把代码写出来"变成了"想做什么"。

AI 视频生成提示词走的是同一条路。

过去做 AI 短片，你几乎得把自己训练成半个摄影师：第一个镜头多少毫米、什么光圈、怎么运镜、对比度加多少、暗角加多少……一堆专业参数堆上去，才换来一点点确定的结果。

但随着 SeeDance 2.0 这一代模型成熟，它已经能主动理解场景和叙事逻辑，甚至会补出你原本没想到的镜头和细节。重心也随之转移：从"研究镜头怎么写"，变成"想清楚要表达什么"。

这就是 Vibe Directing（AI 编导） 的核心——你不再扮演摄影师，你扮演导演。

导演的工作不是设定焦段，而是想清楚这个画面到底要让观众感受到什么，然后把它讲给模型听。

但要特别说明：Vibe Directing 不等于"提示词越短越好"，也不等于"随便一句话丢给 AI 就行"。 它强调的是提示词重心的转移——从前花大篇幅描述参数和运镜，现在把精力投到画面、情绪、氛围和故事上。该写清楚的，依然要写清楚。

我一直给我的学员和粉丝们说的是，我们的Ai编导不是只让你拿走几百套提示词了事，而是真的能理解用AI做编导这件事本身的意义。

我们做了九维四镜提示词图谱，我把这个比喻成“字典”，同时我们还要给大家使用这个“字典”的方法！

学做 AI 视频，市面上最缺的从来不是"零散提示词"，而是一本能查的字典 + 一本教你怎么查的教程。两样缺一样，都做不出稳定的好片：

只有零散提示词，没有字典 → 你永远在东拼西凑，做十条废九条。
只有字典，没有教程 → 你抱着 500 个词组，却不知道这一条片子到底该挑哪几个、怎么搭，照样写不出专业画面。

我们的AI编导体系里两样都给你，而且配套成体系：

课程两大要素	是什么	解决什么
《九维四镜全能提示词图谱》	你的字典	500+ 实测核心词组，专业画面的"词汇库"
《Vibe Directing 手册》（本册）	你的用法教程	教你查字典——什么时候下笔、从九维里挑哪几个、怎么搭成一条能直接生成的提示词

一句话：图谱给你词汇，手册给你语法和导演思维。 词汇 + 语法，才写得出文章；字典 + 教程，才做得出好片。这就是这套课的护城河——别人可能有词表，但没人教你怎么用。

下面这5000字的内容手册，都围绕一件事展开：怎么把这本提示词字典，用Vibe Directing的理念翻成一条能高质量的视频提示词。

第一部分　Vibe Directing 的三条底层信念

你是导演，不是参数操作员

模型已经看过海量影像，懂景别、懂节奏、懂什么时候该切分镜、什么时候该给个近景。你不需要把每一个技术细节都提前交代清楚。你需要做的，是回到导演视角，想清楚故事和情绪，把"要让观众感受到什么"讲明白。很多时候，模型主动补出的镜头表达，反而会激发你的灵感。

重心是表达技巧，不是堆砌关键词

放弃参数，不是放弃描述。

一段有画面感的语言——把场景、人物处境、情绪走向写清楚——往往比一串参数更能让模型理解你真正想要什么。

值得投入精力的，是画面、情绪、氛围、故事，而不是焦段、曝光、运镜速度。

精准控制依然有它的位置

如果是商业影片、有明确交付标准的项目，该控制还得控制。客户要求"这里必须中景""那里必须产品特写"，就得写死——模型自己判断的画面，未必符合商业交付要求。

Vibe Directing 是面向更广泛的 AI 短片创作的默认方法，但它不否定精准控制。 两者的边界，本手册第四部分会讲清楚。

第二部分　导演九问：用九维反推这条片子要什么

Vibe Directing 的核心方法论，我先透露下给大家。

更多的干货，我们在这次6.25-6.26的杭州AI编导线下课里首次完整的阐述Vibe Directing（Ai编导）的方法论和实战案例。

下笔之前，先用导演的视角，对着图谱的九大维度，逐条问自己一遍。每一问，正好对应图谱里的一个维度——想清楚答案，就知道去图谱哪一格里挑词。这就是你"查字典的九个索引"。

维度	导演要问自己	想清楚后，去图谱查
① 视觉吸睛	这条片子用什么"画面奇观"在头 1 秒抓住眼球？最该被看见的核心是谁/是什么？	极致特写 / 流体动态 / 物质爆发 / 光影奇观 / 反常规视角
② 镜头语言	镜头怎么动、景别怎么切，才能带出我要的节奏？	推拉 / 平移跟拍 / 环绕穿越 / 特殊运镜 / 景别切换
③ 灯光氛围	这一幕是什么光、什么调？高级感和情绪底色靠它定。	经典布光 / 自然光 / 商业光 / 氛围光效 / 色调氛围
④ 主体动作	主角是谁、正在做什么具体可观测的动作？	产品交互 / 美食制作 / 人物表演 / 体验试用 / 镜头互动
⑤ 情绪表情	这一刻我要观众信什么、感受到什么？	正向高能 / 共鸣痛点 / 信任专业 / 反转情绪 / 微表情
⑥ 物理交互	哪个真实物理细节能让画面可信、让人相信产品？	液体 / 固体 / 颗粒粉末 / 气体烟雾 / 光与物理结合
⑦ 场景环境	这个画面发生在哪里？背景的"潜台词"是什么？	商业高级 / 探店实景 / 居家生活 / 户外自然 / 城市烟火
⑧ 转化指令	我最终要观众做什么动作（下单 / 关注 / 到店）？	价格利益 / 紧迫感 / 行动指令 / 信任背书 / 福利钩子
⑨ 负面强控	这条片子最可能在哪翻车？要提前封死什么？	画质 / 人物畸变 / 物理违和 / 商业违规 / 风格违和

关键：九问不是九个维度都写都答，而是反推出"该答哪几个"

这正是 Vibe Directing 和"无脑堆参数"的本质区别。

你不需要每条片子都把九问答满。

真正的导演动作是：先问自己这条片子的目的和情绪，再用这九个问题反推——哪几维是这条片子的主角，哪几维只需带过，哪几维可以不要。

一条带货钩子片，可能重点在 ①④⑥⑧（视觉冲击 + 产品动作 + 真实质感 + 逼单），其余带过。
一条品牌情绪片，可能重点在 ②③⑤（运镜 + 光影 + 情绪），转化指令几乎不碰。

记住两条铁律： ① 每条提示词聚焦 3–5 维即可，贪多反而模糊。② 不管做什么，镜头语言 + 灯光氛围 + 负面强控这"安全三件套"建议常驻——它们保画面不崩、质感在线、不翻车。

第三部分　开拍前的判断：什么时候直接写，什么时候先想清楚

不是所有输入都该立刻改写成提示词，写提示词前，你要在脑海里走三步判断

第一步：这条内容适合 Vibe Directing 吗？

原生适配：脑海里已经有画面、有情绪、有故事——典型的 AI 短片创意。直接进入 Vibe Directing。
部分适配：品牌展示、角色展示、风格化广告。可以用，但不必强行体验化，保留原意更稳。
低适配：功能演示、UI 教程、步骤说明，或要求逐字级精确对白同步的长篇剧情片。这类更适合传统分镜工作流，不强行 Vibe Directing。

第二步：这条表达成熟到什么程度？

已经很有画面感 → 可以直接放行或只做轻度提纯，别画蛇添足重写。
创意 + 技术参数混写 → 轻度提纯后改写：保留有效结构和情绪推进，清掉技术噪声。
全是参数和镜头号 → 别因为"写得很技术"就拦下来。去噪后转译：删掉低价值参数，转成自然画面表达，但保住底层的叙事和情绪意图。

第三步：信息够不够落地？（最重要的一步）

哪怕场景再适合，关键信息缺失就不能硬写。出现以下情况，先补问，再动笔：

只有抽象词（"自由""高级感""很有力量"），没有可见画面
有感受没主体（没有人、没有物、没有场景）
有主体没动作（不知道它在干什么）
有画面碎片但看不出主关系或风格方向
多镜头之间明显跳转，看不出为什么放在一起

补问原则：只问完成这条改写所必需的最小信息量，通常一轮就够。 优先补"导演九问"里最核心的那几维——尤其是 谁/什么（①④）、在做什么动作（④）、什么风格调性（③⑦）。缺主角先问主角，缺动作先问动作，缺风格先问风格。不要为了"分类"本身反复追问。

对极短、抽象、单意象的输入（比如只丢来一个词），优先把抽象词翻译成"可见画面所需的信息"。方向基本明确时，可以先给初步判断，再补问最关键的 1–3 个缺口。

第四部分　镜头语言的取舍：保留意图，弱化参数

镜头语言不能一刀切删。要分清两种东西：

"告诉系统怎么拍"的低价值技术参数 —— 默认降权或删除
"让观众怎么感受"的镜头意图 —— 保留，或转译成自然结果

默认降权 / 删除

焦段毫米数、机位术语、运镜参数、镜头号、景深光圈曝光快门、设备说明（A/B 机、coverage）、纯剪辑指令。

保留 / 转译

镜头背后的意图要留住，只是换种说法。例如：

参数化写法（弱化）	意图化转译（保留）
85mm F1.4 浅景深俯拍	背景柔和虚化，视线聚焦在产品上，略带俯视的注视感
跟拍，运动速度 0.7 倍	镜头贴着人物缓缓跟随，节奏放慢，带出沉浸感
希区柯克变焦推近	背景被拉伸、主体却纹丝不动，制造一种不安的眩晕

九维四镜图谱第 ② 镜头语言维度 里的词组（推拉、环绕、穿越、景别切换），本身就是"意图化"的镜头语言——它们描述的是观看体验，不是参数。优先从图谱选这类词，而不是写毫米数。

处理混入参数时的规矩

默认不把技术参数当作必须保留项，按更适合生成的 Vibe Directing 版处理；
但其中对情绪、叙事、观看感受有贡献的部分要留住；
如果这次确实弱化、删除或转译了某些技术控制，输出时简短说明一句，并提示：如果你想保留某些参数，告诉我，我再给一版带约束的。

例外：商业TVC或者千川付费素材交付必须精准时

商业影片、有明确交付标准的项目，遵循用户硬约束优先。

客户要求"这里必须中景""那里必须突出产品特写"——就照写，不擅自体验化。

需要的话，可以在精准版之外，额外给一版更有体验感的 Vibe Directing 版本。

第五部分　声音与硬约束优先

台词、旁白、音乐、音效、歌词、口白，以及用户明确写出的所有声音内容，优先级高于一切创意优化。

规矩很简单：

用户明确写出的台词、旁白、音乐、音效——原样保留，不改措辞、不替换内容、不删除。
画面描述和声音要求混写在一起时，可以重排顺序，但不动声音内容本身。
画面部分适合改写、声音部分不适合时，只改画面，声音照搬。
整条内容如果成立的前提是长篇、逐字级的对白同步，默认不走 Vibe Directing 改写，建议单独拆出纯画面段落处理。

规则冲突时的执行顺序：

用户硬约束（台词、旁白、音乐、音效、镜头结构、参数保留要求、格式要求、风格限制）
创意优化（在不破坏约束的前提下，提纯故事、情绪、意象和统一体验）
范式收束（前两项满足后，再让语言更贴合模型理解和生成）

第六部分　六种改写模式：把想法变成提示词

改写不是套一个模板。根据输入的主导因素，选最合适的模式。

模式	适用输入	改写要领
叙事改写	故事、关系、事件在推进	保住事件顺序和情绪转折；可输出一条连续提示词，也可保留 2–5 段分幕
情绪改写	氛围、感受、状态主导	集中强化环境、节奏、质感、观看感受；别为了"像故事"硬补因果
记忆改写	回忆、闪回、旧时感、消逝感	保留模糊、发白、缺失、脆弱感；强化反复出现的意象与时间流失
意识流改写	联想、碎片、主观感知、非线性	允许不完整，但画面必须可感知，意象之间保持内部统一
多镜头体验改写	多段、多场景，但服务同一体验	保留场景流转、情绪递进、视觉母题；每段 1–3 句，去掉执行术语
混合提纯	创意与执行语言混杂	保住原结构和有效信息，只清技术噪声和重复说明，不过度重写、不擅自加桥段

第七部分　从图谱到成片：选词与组合范式

这是落地核心——怎么把提示词字典翻成一条高质量的视频提示词。

九维不必全用

每条提示词建议覆盖 3–5 个维度即可，贪多反而模糊。用第二部分"导演九问"反推：这条片子真正需要哪几维？精准选择，永远胜过全面堆砌。

必带"安全三件套"

无论做什么类型，② 镜头语言 + ③ 灯光氛围 + ⑨ 负面强控 是 SeeDance 稳定出片的保障。这三维负责画面不崩、质感在线、不翻车，建议每条都带。

最优组合范式（SeeDance 2.0 实测最优结构）

镜头优先 + 主体明确 + 场景真实参考 + 动作描述清晰 + 全局光影 + 风格一致 + 负面词

把导演九问答出来的那几维填进这个骨架，再从对应九维里选词，一条提示词就成形了。

什么是四镜？怎么选四镜（V1–V8）

图谱提供了 8 个四镜结构。先定目标，再选版本：

目标	推荐版本	镜 1 定位	核心九维
卖货（标品千川）	V1 经典转化	视觉钩子	①⑥⑧
种草涨粉	V2 种草达人	人设露脸	④⑤⑦
品牌印象	V3 故事剧情	悬念铺垫	②③⑤
同城引流	V4 沉浸探店	门面定位	②⑥⑦
理性高客单决策	V5 测评对比	结论前置	①②⑧
技能/知识涨粉	V6 教程干货	痛点+承诺	①④⑤
爆款破圈	V7 反转剧情	反预期开场	②⑤⑨
真实感种草	V8 UGC 素人	真实生活	②⑤⑦

速记：卖货选 V1/V5，涨粉选 V2/V6，品牌选 V3/V7，引流选 V4，出圈选 V7。

第八部分　简单案例实操示范

下面用一条美妆口红带货的片子，把"导演九问 → 查图谱选维 → 组合成片"的完整流程走一遍。

输入（学员丢来一句话）

"我想做个口红带货视频，一个美妆博主在梳妆台前化妆，介绍这支口红。"

第一步：判断

适合 Vibe Directing，且是典型的带货转化场景。信息已有主体（博主 + 口红）、场景（梳妆台）、大致动作（化妆/介绍），但缺产品核心卖点、风格调性、转化目标——补一轮最关键的缺口即可。

补问（一句）：这支口红主打什么卖点（颜色 / 滋润 / 持久 / 不沾杯）？想要高级商业感还是真实素人感？要直接逼单（戳左下角），还是软性种草（评论区扣 1）？

学员答：主打"丝绒雾面正红、显白不拔干"，要高级商业感，直接逼单。

第二步：Ai编导九问（只答这条片子用得上的那几维）

维度	这条片子的答案
① 视觉吸睛	0–1 秒：口红膏体微距特写，丝绒雾面质感拉满
④ 主体动作	旋出口红 → 涂抹唇部 → 轻抿双唇，分步可观测
⑤ 情绪表情	从"惊艳"到"沉浸享受"，最后"自信推荐"
⑥ 物理交互	膏体在唇上顺滑延展、丝绒哑光、不拉丝（强化"不拔干"可信度）
③ 灯光氛围	梳妆台暖白柔光 + 侧逆光勾轮廓，奶油色高级调
⑦ 场景环境	极简高级梳妆台，背景虚化无杂物
⑧ 转化指令	正红色号显字、"戳左下角"行动指令、紧迫感花字
②/⑨（安全三件套）	缓慢推镜+特写转中景；负面封死脸崩、唇线溢出、偏色
② 转化目标 → 选版本	直接逼单、标品带货 → 走 V1 经典转化

注意：九问没有全答。情绪走向、产品动作、真实质感、转化逼单是这条片子的主角；其余维度（如户外场景、反转情绪）这条用不上，直接跳过。这就是"反推选维"。

第三步：查图谱选维（3–5 维 + 安全三件套）

① 视觉吸睛 → "极致微距""表面纹理微距"
④ 主体动作 → "旋开瓶盖动作""对镜涂抹口红""轻抿双唇"
⑤ 情绪表情 → "被惊艳到的表情""满足闭眼陶醉""自信微笑直视"
⑥ 物理交互 → "面霜抹开延展"（同理用于膏体顺滑延展）
③ 灯光氛围 → "暖黄白炽灯光""侧逆光勾勒轮廓""奶油色调柔和"
⑧ 转化指令 → "超低价超大字体""仅剩 X 件红色闪烁""点小黄车动画指引"
② 镜头语言 → "缓慢推镜聚焦""特写切近景"
⑨ 负面强控 → 避免面部畸形、避免唇线溢出/偏色、避免画面抖动

第四步：组合成片（按 V1 经典转化 · 四镜拆分输出）

镜 1（0–3 秒 · 钩子）：微距特写正红口红缓缓旋出，丝绒雾面膏体在暖光下泛着细腻哑光，奶油色梳妆台背景柔和虚化，博主入画，眼神一亮、略带惊艳。
镜 2（3–7 秒 · 演示）：对镜涂抹口红，膏体在唇上顺滑延展、均匀显色不拉丝，轻抿双唇收尾，表情沉浸享受；镜头从唇部特写缓推到半身中景。
镜 3（7–11 秒 · 信任）：固定镜头轻微推近，博主自信直视镜头，展示上色后的丝绒雾面正红，唇色显白不拔干，侧逆光勾出轮廓，神情笃定认可。
镜 4（11–15 秒 · 转化）：镜头拉远，博主手指向购物车，自信推荐，正红色号字样清晰，"仅剩 XX 件"花字闪烁，行动"戳左下角抢"。
负面强控（全片）：面部清晰不变形，唇线不溢出、颜色不偏色，画面稳定

记不住？没事，我把这些做成Skill了，哈哈！

我们Ai编导课的学员可以免费使用1年我们的Vibe Directing Skill，可以在任何主流大模型中直接调用，豆包里都能调用你敢信？

顺道说一嘴，即梦Seedance2.0的Mini要上线了，价格低到0.27元/秒，我在这里大胆做个预测：2.0 以后更厉害的模型，有可能是 2.5，也有可能是 3.0，肯定马上就要来了，之所以要上线这个 Mini，是因为这样才能够降价，因为之前很多人用1秒/1 块钱甚至更高的价格买了大量的年度会员和算力。

本质上，现在文本生成视频的主力工具确实是即梦，但这指的是高质量内容而言，我们 AI 编导Vibe Directing的另外一个核心观点是，内容一定要分层，有些内容其实没有必要用即梦做，用口播数字人都可以。

你要知道哪些内容是可以用 Veo3 做的，哪些是用 Grok 做的，哪些必须或者说只能用即梦 SeaDance2.0 做，这才是一个合格的 AI 编导应该掌握的成本控制能力。

最贵的，不一定最好，AI视频并不一定比真人拍摄便宜，一个优秀的导演要懂得在投资的总预算内，用什么价格的一线明星和几个三四线明星配合，来贡献给观众一部优质的作品。

写了五六千字了，下面发广告了，6.25-6.26 杭州，想报名、想了解课程细节, 加微信:fengnian52 / fengnian91。

AI编导（Vibe Directing）线下课第10期！可能是AI编导赛道最垂直，最聚焦的线下课程产品，有理论，有案例，有工具，有经验，四有好课～这门课,是行业里少有的、系统性讲透「文本生成短视频」的编导课程。

市面上教AI的课很多,但绝大多数只教你「点哪个按钮」。我们不一样。我们不做填鸭式的工具教学,只讲AI编导的底层逻辑—— 教你掌握「把一个优质内容,翻译成AI能听懂的提示词」这个核心能力。

你会在两天里学到:

九维四镜提示词框架——套框架即可批量出片,不再靠运气;多模型组合拳——即梦Seedance、Veo3、Grok、GPT-Image-2怎么搭配,告别「Seedance依赖症」,省下大几百块算力费;AI KOC打法 + 内容中台——把内容生产变成可复制的流水线,一个人干出一家MCN的产能;内容奇点理论——从单个爆款,进化成整个品牌的内容生态。

最终要的是这套Vibe Directing 理念和方法论！

更多Ai编导提示词相关精华文章如下：

万字长文：23个提示词框架让你秒变新媒体运营大神「含九维四镜提示词框架」

万字长文：AIKOC—品牌「真盈利」的素材中台打造指南

新KOC时代！AI+KOC成为内容电商的最后杠杆。

万字长文：十招教你Seedance反向拆解爆款提示词

序 从 Vibe Coding 到 Vibe Directing

第一部分 Vibe Directing 的三条底层信念

你是导演，不是参数操作员

重心是表达技巧，不是堆砌关键词

精准控制依然有它的位置

第二部分 导演九问：用九维反推这条片子要什么

关键：九问不是九个维度都写都答，而是反推出"该答哪几个"

第三部分 开拍前的判断：什么时候直接写，什么时候先想清楚