把 AI 视频工具当成导演助理——Gemini Omni 视频提示词实践指南

把 AI 视频工具当成导演助理

Gemini Omni 视频提示词实践指南

阅读定位

这不是原帖翻译，而是一篇重新组织的实践笔记。重点不是复述工具发布信息，而是把视频生成提示词拆成可以马上使用的方法。

先换一个心智模型

很多人第一次使用视频生成模型，会把提示词写成愿望清单：画面要好看、风格要高级、镜头要震撼。问题是，这些词对模型来说空间太大。它知道你想要“好”，但不知道应该在哪个维度上变好。

更稳的方式，是把 AI 视频工具当成一位可以执行指令的导演助理：你给它目标、素材、机位、动作、文字和修改范围；它负责把这些约束综合成一个短片。提示词的价值，不在于写得长，而在于减少模型需要猜的地方。

Gemini Omni 这类多模态视频工具的关键变化，是它可以在文本、图像、视频和后续对话之间来回工作。换句话说，你不必一口气写出终稿，可以先得到一段基础片段，再像剪片一样逐步调整。

图 1：把视频创作拆成可迭代的闭环。

五个最值得掌握的写法

1. 先描述世界，再描述镜头

如果只写“一个未来城市的炫酷广告”，模型会自行决定城市、人物、镜头和节奏。更可靠的写法，是先把世界搭起来：地点、时间、天气、材质、人物状态、物体关系。然后再补充镜头要怎么观察这个世界。

可直接借用的写法

示例：清晨的雨后街区，一辆无人配送车停在路边，镜头从车轮低角度开始，缓慢抬升到打开的货舱，画面保持真实摄影质感。

2. 屏幕文字要像设计稿一样交代

视频模型往往会主动生成看似合理但不可用的文字。只要画面里需要标题、字幕、招牌或界面文案，就要把具体文字、出现位置、持续时间和动效写清楚；如果不需要任何文字，也要明确排除。

可直接借用的写法

示例：第 2 秒出现标题“明天的剪辑台”，位于画面左下角，白色无衬线字体，轻微淡入；其他位置不要出现任何可读文字。

3. 用镜头语言代替抽象审美词

“电影感”本身不是指令。真正能落地的是景别、机位、运镜、焦点和节奏。你可以把提示词写成分镜说明：固定机位、近景、推镜、横移、俯拍、浅景深、主体跟焦。这些词会把模型的自由度收窄到摄影层面。

可直接借用的写法

示例：一个连续镜头，35mm 镜头视角，人物从右向左走过，摄影机平行横移跟随，背景轻微虚化，最后在人物停下时完成对焦。

4. 后续修改只动一个变量

多轮编辑的优势在于保留。第一轮先让模型生成一个方向正确的版本，第二轮只改背景，第三轮只改动作，第四轮再改文字或声音。每轮修改越单一，越容易判断哪条指令奏效，也越不容易把已经满意的部分带偏。

可直接借用的写法

示例：保留人物、服装、构图和光线，只把背景从室内工作室改成傍晚屋顶；动作和镜头运动保持不变。

5. 动作要写成现场口令

如果你希望视频有明显节奏，不要只写“更有活力”。直接描述动作本身：谁先动、往哪里动、速度如何、在哪里停顿、最后落在哪个姿态。模型越像在接受导演现场调度，结果越可控。

可直接借用的写法

示例：角色先停顿半秒，随后快速转身，右手抬起指向屏幕，镜头轻微推进，最后定格在微笑表情上。

图 2：把提示词拆成五个控制旋钮。

一份可复制的提示词骨架

下面这套结构适合大多数短视频生成场景。它不追求华丽，而是保证每个关键变量都有位置。你可以先填最重要的三项，再根据结果继续补全。

图 3：稳定的视频提示词结构。

视频目标：生成一段 10 秒短片，用于展示【产品 / 概念 / 场景】。主体与环境：【主体】位于【场景】，时间是【时间】，光线是【光线】，关键道具包括【道具】。镜头设计：【景别】，【机位】，【运镜方式】，画面比例【比例】，节奏【快 / 中 / 慢】。动作安排：第 1-3 秒【动作一】，第 4-7 秒【动作二】，第 8-10 秒【收束动作】。文字与声音：画面中只出现【指定文字】，位置【位置】，声音包括【旁白 / 环境声 / 音效】。限制条件：不要出现【不需要的元素】；保持【必须保留的元素】一致。

三个场景示例

产品展示	知识科普	社交短片
重点写材质、光线、机位和手部动作。产品类视频最怕主体变形，所以要反复强调外观、比例和标识保持一致。	重点写概念关系和可视化方式。先把抽象概念转成物体运动、层级结构或对比场景，再要求镜头清楚呈现。	重点写情绪、节奏和收束动作。社交平台片段通常不需要复杂叙事，但需要前 2 秒就让人知道看点。
保留产品外形，只把背景从白色棚拍改成厨房台面；镜头仍然是慢速推近。	用透明玻璃盒展示数据如何从输入层流向输出层，箭头只做抽象光带，不出现文字。	人物先看向镜头，停顿半秒后展示手机界面，最后用一个清晰手势结束。

最后的判断标准

一个好的视频提示词，不一定长，但一定能回答四个问题：模型该拍什么？从哪里拍？画面里哪些元素必须准确？如果第一版不满意，下一步只改什么？

把这四个问题写清楚，AI 视频生成就会从“碰运气”变成“可调整的制作流程”。这也是多模态视频模型真正值得关注的地方：它不只是生成一个结果，而是逐步进入创作者的工作流。

一句话总结

别把提示词写成形容词堆叠。把它写成导演给团队的简洁调度：目标明确、镜头明确、动作明确、文字明确、修改范围明确。