
把 AI 视频工具当成导演助理
Gemini Omni 视频提示词实践指南
阅读定位 这不是原帖翻译,而是一篇重新组织的实践笔记。重点不是复述工具发布信息,而是把视频生成提示词拆成可以马上使用的方法。 |
先换一个心智模型
很多人第一次使用视频生成模型,会把提示词写成愿望清单:画面要好看、风格要高级、镜头要震撼。问题是,这些词对模型来说空间太大。它知道你想要“好”,但不知道应该在哪个维度上变好。
更稳的方式,是把 AI 视频工具当成一位可以执行指令的导演助理:你给它目标、素材、机位、动作、文字和修改范围;它负责把这些约束综合成一个短片。提示词的价值,不在于写得长,而在于减少模型需要猜的地方。
Gemini Omni 这类多模态视频工具的关键变化,是它可以在文本、图像、视频和后续对话之间来回工作。换句话说,你不必一口气写出终稿,可以先得到一段基础片段,再像剪片一样逐步调整。

图 1:把视频创作拆成可迭代的闭环。
五个最值得掌握的写法
1. 先描述世界,再描述镜头
如果只写“一个未来城市的炫酷广告”,模型会自行决定城市、人物、镜头和节奏。更可靠的写法,是先把世界搭起来:地点、时间、天气、材质、人物状态、物体关系。然后再补充镜头要怎么观察这个世界。
可直接借用的写法 示例:清晨的雨后街区,一辆无人配送车停在路边,镜头从车轮低角度开始,缓慢抬升到打开的货舱,画面保持真实摄影质感。 |
2. 屏幕文字要像设计稿一样交代
视频模型往往会主动生成看似合理但不可用的文字。只要画面里需要标题、字幕、招牌或界面文案,就要把具体文字、出现位置、持续时间和动效写清楚;如果不需要任何文字,也要明确排除。
可直接借用的写法 示例:第 2 秒出现标题“明天的剪辑台”,位于画面左下角,白色无衬线字体,轻微淡入;其他位置不要出现任何可读文字。 |
3. 用镜头语言代替抽象审美词
“电影感”本身不是指令。真正能落地的是景别、机位、运镜、焦点和节奏。你可以把提示词写成分镜说明:固定机位、近景、推镜、横移、俯拍、浅景深、主体跟焦。这些词会把模型的自由度收窄到摄影层面。
可直接借用的写法 示例:一个连续镜头,35mm 镜头视角,人物从右向左走过,摄影机平行横移跟随,背景轻微虚化,最后在人物停下时完成对焦。 |
4. 后续修改只动一个变量
多轮编辑的优势在于保留。第一轮先让模型生成一个方向正确的版本,第二轮只改背景,第三轮只改动作,第四轮再改文字或声音。每轮修改越单一,越容易判断哪条指令奏效,也越不容易把已经满意的部分带偏。
可直接借用的写法 示例:保留人物、服装、构图和光线,只把背景从室内工作室改成傍晚屋顶;动作和镜头运动保持不变。 |
5. 动作要写成现场口令
如果你希望视频有明显节奏,不要只写“更有活力”。直接描述动作本身:谁先动、往哪里动、速度如何、在哪里停顿、最后落在哪个姿态。模型越像在接受导演现场调度,结果越可控。
可直接借用的写法 示例:角色先停顿半秒,随后快速转身,右手抬起指向屏幕,镜头轻微推进,最后定格在微笑表情上。 |

图 2:把提示词拆成五个控制旋钮。
一份可复制的提示词骨架
下面这套结构适合大多数短视频生成场景。它不追求华丽,而是保证每个关键变量都有位置。你可以先填最重要的三项,再根据结果继续补全。

图 3:稳定的视频提示词结构。
视频目标:生成一段 10 秒短片,用于展示【产品 / 概念 / 场景】。主体与环境:【主体】位于【场景】,时间是【时间】,光线是【光线】,关键道具包括【道具】。镜头设计:【景别】,【机位】,【运镜方式】,画面比例【比例】,节奏【快 / 中 / 慢】。动作安排:第 1-3 秒【动作一】,第 4-7 秒【动作二】,第 8-10 秒【收束动作】。文字与声音:画面中只出现【指定文字】,位置【位置】,声音包括【旁白 / 环境声 / 音效】。限制条件:不要出现【不需要的元素】;保持【必须保留的元素】一致。 |
三个场景示例
产品展示 | 知识科普 | 社交短片 |
重点写材质、光线、机位和手部动作。产品类视频最怕主体变形,所以要反复强调外观、比例和标识保持一致。 | 重点写概念关系和可视化方式。先把抽象概念转成物体运动、层级结构或对比场景,再要求镜头清楚呈现。 | 重点写情绪、节奏和收束动作。社交平台片段通常不需要复杂叙事,但需要前 2 秒就让人知道看点。 |
保留产品外形,只把背景从白色棚拍改成厨房台面;镜头仍然是慢速推近。 | 用透明玻璃盒展示数据如何从输入层流向输出层,箭头只做抽象光带,不出现文字。 | 人物先看向镜头,停顿半秒后展示手机界面,最后用一个清晰手势结束。 |
最后的判断标准
一个好的视频提示词,不一定长,但一定能回答四个问题:模型该拍什么?从哪里拍?画面里哪些元素必须准确?如果第一版不满意,下一步只改什么?
把这四个问题写清楚,AI 视频生成就会从“碰运气”变成“可调整的制作流程”。这也是多模态视频模型真正值得关注的地方:它不只是生成一个结果,而是逐步进入创作者的工作流。
一句话总结 别把提示词写成形容词堆叠。把它写成导演给团队的简洁调度:目标明确、镜头明确、动作明确、文字明确、修改范围明确。 |
夜雨聆风