教你AI生成视频流程

AI生成视频正重塑内容创作版图，其核心流程以“创意—生成—合成”为主线。首先通过AI辅助进行剧本构思与文本创作，接着利用文生图模型完成角色、场景与分镜设计，并借助图生视频技术将静态画面转化为动态片段，最后通过AI音频工具生成配音、配乐与音效，经剪辑合成输出完整视频。整个过程高度依赖提示词工程与AI模型协同，强调创意与技术的深度融合。

目前，行业内流程化已初具雏形。头部平台正构建一体化工作流，整合文生图、图生视频、AI音频等功能，推动从“单点工具应用”向“系统化生产”转变。部分团队已形成标准化提示词库、角色资产库与生成模板，显著提升制作效率与画面一致性。Sora、Runway等模型的发展也促使行业向“高一致性、长视频、多镜头连贯”方向演进。

流程化带来效率跃升与成本降低，使个人与小团队也能产出高质量视频。但同时也面临挑战：过度依赖模板易导致风格趋同，创意受限；不同AI工具间兼容性差，仍需大量人工干预；技术迭代快，流程需持续更新。未来，AI生成视频将在标准化与创新性之间不断寻求平衡，推动内容创作走向智能化新阶段。

一、前期准备

1.1 故事概要构思

故事概要是整个视频的灵魂所在，一个精彩的故事概要能够迅速吸引观众的注意力，为后续的视频创作奠定坚实的基础。构思故事概要，首先要确定一个独特的“故事戏核”。这是故事的核心要点，简单来说就是一句话能概括的故事，比如“一个平凡人意外获得超能力，在拯救世界的过程中找回自我的故事”。这个戏核需要包含一个开启行动的事件、主要角色的某种感受以及故事结局的某种含义，它是故事构思的起点。

接着，要明确故事的主要角色和重要角色。主要角色是故事的灵魂人物，要赋予其鲜明的个性和深刻的内心世界，让观众能够产生共情。重要角色则起到推动情节发展、丰富故事层次的作用。在构思时，要考虑这些角色的背景、性格、动机等，让他们在故事中能够鲜活起来。

然后，构建故事的框架，包括故事的开端、发展、高潮和结局。开端要引人入胜，迅速将观众带入故事的世界；发展要层层递进，设置各种冲突和悬念，激发观众的好奇心；高潮是故事最精彩的部分，要充满张力，让观众的情绪达到顶点；结局要令人回味，可以是圆满的，也可以是开放的，留给观众思考的空间。

最后，还要考虑故事的主题和情感。主题是故事想要传达的核心思想，情感则是故事想要引发观众的情感共鸣。通过一个有深度、有情感的故事概要，能够为整个视频赋予更丰富的内涵和更高的价值。

1.2 剧本生成方法

在AI生成视频的流程中，剧本生成是非常关键的一步。利用AI生成剧本，可以大大提高创作效率，同时也能提升剧本的质量。

使用AI生成剧本，首先要明确故事的主题、角色和情节等基本要素。将这些信息清晰地输入到AI系统中，让AI能够理解你的创作意图。比如可以告诉AI，故事的主题是关于爱情与成长的，主要角色是一个年轻的画家，情节围绕着他追求梦想和爱情的过程展开。

在输入这些信息时，可以使用一些具体的关键词和短语，来引导AI生成更符合你需求的剧本。比如可以提到“浪漫的巴黎街头”“充满艺术气息的画室”等场景，或者“勇敢追梦”“甜蜜邂逅”等情节元素。

AI生成剧本后，还需要对剧本进行细致的修改和润色。虽然AI能够根据输入的信息生成基本的剧本框架，但在人物对话、情感描写、情节转折等方面，可能还需要人工进行调整。可以根据角色的性格和故事的发展，修改对话内容，使其更加自然、生动；在情感描写上，加入更多细腻的描写，让观众能够更好地感受到角色的内心世界；在情节转折处，增加一些伏笔和悬念，使故事更加引人入胜。

还可以将AI生成的多个版本剧本进行对比和融合，汲取每个版本的优点，创造出一个更加完美、更加符合自己需求的剧本。通过不断地调整和优化，让剧本成为视频创作的坚实基石。

二、角色与场景设定

2.1 角色设定

在AI生成视频中，精准的角色提示词是塑造独特角色形象的关键。首先要明确角色的基本信息，如姓名、年龄、职业等，这些是角色的基础框架。比如设定一个角色叫“杰克”，30岁，是一名勇敢的消防员。

接着，深入刻画角色的外貌特征。可以从身材、面容、服饰等方面入手，如“杰克身材高大魁梧，有着一头乌黑的短发和坚毅的眼神，总是穿着整洁的消防服”。这样能让角色在观众心中有一个直观的形象。

角色的性格与内心世界也至关重要。描述角色的性格特点，如勇敢、善良、果断等，并结合其经历来展现内心的复杂情感。例如“杰克因为曾经的一次救援行动失去了战友，所以他内心一直充满愧疚，这也让他在之后的救援中更加勇敢无畏”。

还要考虑角色的行为方式与习惯动作。给角色设定一些独特的习惯动作，能让角色更加鲜活生动。比如“杰克在紧张的时候喜欢咬手指关节”。

在编写角色提示词时，可以采用故事化的方式，将角色的背景、性格、特点等融入到一个简短的故事中，让AI更好地理解角色，从而生成更符合预期的角色形象，为视频增添更多魅力。

2.2 场景设定

场景提示词的编写要点在于营造逼真的场景氛围。首先要确定场景的基本元素，包括地点、时间、天气、光线等。例如设定一个场景发生在“夜晚的繁华都市街头，华灯初上，细雨蒙蒙”。

然后，对场景中的细节进行描绘。场景中的建筑、装饰、人物活动等细节都能增强场景的真实感。比如可以描述“街道两旁的商店灯火辉煌，橱窗里展示着各种精美的商品，行人匆匆走过，雨水在路灯的照耀下闪烁着光芒”。

场景的氛围也是场景设定的重要部分。通过不同的词汇和描写手法，营造出不同的氛围。如“阴森恐怖”“温馨浪漫”“紧张刺激”等。在描述一个恐怖场景时，可以使用“昏暗的月光透过破旧的窗户洒在房间里，角落里传来阵阵怪异的声响”这样的语句。

还可以利用场景与角色、情节之间的联系来增强场景的表现力。让场景成为推动情节发展、展现角色性格的重要元素。比如在一个表现角色内心挣扎的场景中，可以设定在一个“狂风呼啸、雷声轰鸣的荒野上”，通过恶劣的环境来衬托角色的内心感受。

编写场景提示词时，语言要生动形象，尽量使用感官词汇，让AI能够感受到场景的氛围，从而生成出逼真的场景画面，为视频的故事发展提供良好的背景。

三、分镜设计

3.1 镜号与时长规划

镜号和时长规划是决定视频节奏的关键因素。镜号主要用于区分每个镜头的顺序，方便拍摄和后期制作时查找和管理。合理的镜号编排能让视频制作过程更加有条不紊。

时长的规划则需依据故事内容和情感表达来确定。一般来说，开头和结尾的镜头可以适当延长，以吸引观众注意力和强化结尾的回味感。情节紧张的部分，镜头时长可缩短，增加节奏的紧凑感，让观众产生紧张的情绪；而情节舒缓的部分，则可适当延长镜头时长，给观众更多的时间去感受氛围和情感。

对于重要的情节点或关键信息展示的镜头，要给予足够的时长来突出其重要性。比如在表现主角做出重要决策的场景时，可以适当延长镜头时长，让观众充分感受到主角的内心挣扎和决策的艰难。而一些过渡性的镜头，如场景转换等，时长则可缩短，使视频的节奏更加流畅。

通过合理的镜号与时长规划，能够让视频的节奏张弛有度，更好地引导观众的情绪，提升视频的观赏性。

3.2 景别选择与运用

不同景别在视频中具有不同的表现力。大远景常用于展示广阔的场景，如壮丽的自然风光或宏大的城市景观，能够营造出气势磅礴的氛围，让观众对故事发生的环境有整体的认识。在拍摄自然景观或大型活动开场时，大远景是很好的选择。

全景则能展现人物的全身形象及其所处的环境，常用于介绍人物出场或表现人物与周围环境的关系。比如在拍摄主角第一次出现在一个新场景中时，使用全景可以让观众清楚地看到主角在这个环境中的位置和状态。

中景一般展现人物膝盖以上的部分，适合表现人物之间的交流和互动，能突出人物的动作和表情。在对话场景或表现人物关系的镜头中，中景运用较多。

近景主要突出人物的面部表情和细微动作，常用于表现人物的内心活动和情感变化。在情感戏或关键情节转折点时，近景能很好地展现角色的情感波动。

特写和大特写则用于强调细节，如人物的眼神、手中的物品等，能给观众强烈的视觉冲击，引发观众的思考和关注。在需要突出某个关键信息或情感爆发点时，特写和大特写是非常有力的表达方式。

在分镜设计中，要根据故事情节、角色情感和场景氛围等，合理选择和运用不同的景别，使画面富有层次感和表现力，让观众更好地沉浸在视频所讲述的故事中。

3.3 静态画面描述

静态画面描述是分镜设计中的重要环节，为后续的制作提供清晰准确的画面参考。描述静态画面时，首先要从整体构图入手，明确画面的主体、陪体和环境之间的关系。

主体是画面的核心元素，要突出其位置和作用。比如在一个表现主角沉思的场景中，主角应处于画面的中心或视觉焦点位置，成为观众首先关注的对象。陪体则起到衬托主体、丰富画面的作用，可以通过与主体的对比、呼应等手法，增强画面的表现力。

色彩是静态画面的重要元素之一，要描述画面的色调、明暗和色彩搭配。不同的色彩能营造出不同的氛围和情感，如温暖的色调可以营造出温馨浪漫的氛围，冷色调则能营造出阴森恐怖或冷静肃穆的氛围。通过对色彩的准确描述，可以让制作人员更好地把握画面的整体风格。

还要关注画面中的细节，如人物的服饰、表情，物体的纹理、形状等。这些细节能够增加画面的真实感和细腻度，让观众在观看视频时能够有更多的代入感。

在描述静态画面时，语言要尽量生动形象，使用具体的词汇和描写手法，让制作人员能够清晰地想象出画面的样子，从而在后续的制作中准确地还原分镜设计师的意图，创作出高质量的静态画面。

3.4 动态画面描述

动态画面描述是展现视频动感与连贯性的关键。在描述动态画面时，首先要明确画面中物体的运动轨迹和速度。无论是人物的动作还是物体的移动，都要清晰地描述其运动的起点、终点、路径以及运动的速度快慢。

节奏的把握也非常重要，通过不同的镜头切换和运动速度，可以营造出不同的节奏感。快速的镜头切换和激烈的运动场景能营造出紧张刺激的氛围，而缓慢的镜头切换和平缓的运动则能营造出舒缓宁静的氛围。

动态画面的连贯性也至关重要，要保证镜头之间的过渡自然流畅。可以通过合理的镜头衔接和运动匹配，让观众在观看视频时不会感到突兀和跳脱。

动态画面的描述还要注重情感的表达，通过画面中人物的动作、表情以及场景的变化，来传达角色的内心情感和故事的发展。比如在表现主角奔跑追逐的场景中，不仅要描述主角奔跑的动作和速度，还要通过画面的氛围和背景音乐等元素，来传达主角的紧张、焦急等情感。

在描述动态画面时，可以运用比喻、拟人等修辞手法，让画面更加生动形象，使制作人员能够更好地理解和呈现动态画面的效果，让视频充满动感和活力。

3.5 台词/音效设计

台词是视频中角色之间交流的重要方式，其设计原则是要贴合角色的性格和身份，让观众能够更好地理解和感受角色的内心世界。台词的语气、语调、语速等也要与角色的情感和场景氛围相匹配。比如在紧张的场景中，台词语速可以适当加快，语气更加急促；而在温馨浪漫的场景中，台词语速则可以放缓，语气更加柔和。

音效在视频中起着烘托氛围、强调动作和情感的作用。音效的设计要与画面内容紧密配合，如在表现爆炸场景时，加入巨大的爆炸声能增强画面的冲击力；在表现安静的夜晚场景时，加入轻微的虫鸣声能营造出宁静的氛围。

音效还可以用于暗示情节的发展和角色的情感变化。比如在角色内心紧张或恐惧时，可以加入心跳声或沉重的呼吸声，让观众感受到角色的情绪。

在台词和音效的搭配上，要注意两者的协调性和平衡性。不能让台词和音效相互干扰，而是要让它们相互补充，共同提升视频的表现力。通过精心设计的台词和音效，能够让视频更加生动、真实，让观众更加沉浸在视频所讲述的故事中。

四、图像生成

4.1 角色三视图生成

在AI生成视频中，角色三视图的生成至关重要，它能让角色形象更加立体、全面。生成角色三视图，首先要基于前期的角色设定提示词，清晰地描述角色的外貌特征，如身高、体型、面部轮廓、五官特点等。比如角色是一位身材高挑的精灵族少女，有着一头银白色长发和尖尖的耳朵。

然后，要从不同的视角来绘制角色的形象。正视图展现角色的正面全身形象，包括服装的正面样式、饰品的位置等；侧视图则能突出角色的侧面轮廓，如身体的曲线、服装的层次等；俯视图主要展示角色的头部和上半身从上方看的效果，可细致描绘发型、帽子的样式等。

在绘制过程中，要注意保持角色特征的一致性。无论是面部表情还是服装细节，都要在三个视图中相互呼应，避免出现矛盾之处。可以使用即梦AI、可灵AI等生成角色的三视图。

还可以参考一些优秀的三视图作品，学习其构图、线条运用和色彩搭配等方面的技巧。通过不断地调整和优化，最终生成出高质量的角色三视图，为后续的视频制作提供准确的角色形象参考，让角色在视频中更加鲜活、生动。

4.2 场景图生成

场景图的生成是构建视频画面环境的关键环节。生成场景图，首先要根据场景设定提示词，明确场景的基本元素和氛围。比如设定一个场景是在“神秘的古老森林中，阳光透过茂密的树叶洒下斑驳的光影”。

接着，开始构思场景的布局和细节。确定场景中主要的地形、地物，如树木、小溪、石头等，以及它们的分布和大小比例。还可以添加一些细节元素，如地上的落叶、树上的藤蔓、远处的雾气等，增加场景的真实感和丰富度。

选择合适的绘画风格和色彩搭配也很重要。不同的风格和色彩能营造出不同的场景氛围。如采用水墨画风格，可以营造出古色古香、意境深远的场景；使用鲜艳的色彩则能让场景更加生动活泼，充满活力。

利用AI生成场景图时，可以输入详细的场景描述，如“森林深处，一座古老的石桥横跨在潺潺流动的小溪上，桥头的石柱上雕刻着神秘的符文，阳光透过树叶的缝隙洒在桥上，形成一片片光斑”。AI会根据这些描述生成初步的场景图，然后再根据需要进行调整和优化。

在绘制场景图时，还要注意场景与故事、角色的联系。让场景能够为故事的发展服务，为角色的活动提供合适的背景。通过精心设计的场景图，能够为视频营造出独特的氛围，让观众更好地沉浸在视频所讲述的故事世界中。

4.3 分镜静态图生成（首尾帧）

分镜静态图的首尾帧是视频画面衔接的关键。在生成首尾帧分镜静态图时，要明确每个镜头的拍摄内容和画面效果。根据分镜设计中的镜头信息，确定首尾帧的画面构图、景别、角色位置等。

首帧要能够迅速吸引观众的注意力，清晰地展现镜头的主要内容和场景氛围。比如在一个表现角色出场的镜头中，首帧可以是将角色置于画面的中心位置，采用全景景别，让观众看到角色所处的环境和整体形象。

尾帧则要为下一个镜头做好铺垫，保持画面衔接的自然流畅。可以根据镜头之间的逻辑关系和故事发展，设计尾帧的画面内容。如果下一个镜头是场景转换，尾帧可以适当延长画面停留时间，或采用模糊处理等方式，让观众有心理准备。

在绘制首尾帧静态图时，要注意画面的细节处理。角色的表情、动作要准确生动，场景中的物体、光线等也要与整体氛围相协调。可以使用一些绘画技巧，如光影效果、色彩对比等，增强画面的表现力。

还要保证首尾帧之间的风格统一。无论是绘画风格还是色彩搭配，都要在整个分镜中保持一致，避免出现突兀和不协调的情况。通过精心绘制首尾帧分镜静态图，能够让视频的画面衔接更加自然流畅，提升视频的观赏体验。

五、视频生成

5.1 分镜视频生成

分镜视频的生成是将静态的分镜图转化为动态视频的过程。在这一过程中，关键技术主要包括动作捕捉、场景渲染和视频合成等。

动作捕捉技术能够精准地捕捉到角色的动作细节。通过在演员身上安装传感器，实时记录演员的动作，并将这些动作数据传递给虚拟角色模型，让虚拟角色能够准确地模仿出真实动作。这对于表现角色的动作戏、情感表达等至关重要。

场景渲染技术则决定了视频画面的视觉效果。它通过复杂的算法，将场景图中的二维画面转化为具有立体感、真实感的动态画面。在渲染过程中，要考虑光照、阴影、材质等多种因素，使场景画面更加逼真。

视频合成技术将捕捉到的动作与渲染好的场景进行融合，生成最终的分镜视频。在合成时，需要精确匹配动作与场景的时空关系，保证角色动作与场景的交互自然流畅。同时，还要注意画面色彩的协调性、画面节奏的连贯性等，使分镜视频能够完整、准确地呈现分镜设计的意图，为后续的完整视频合成提供基础素材。

通过这些关键技术的运用，分镜视频能够将静态的画面动态呈现出来，让观众初步感受到视频的故事和氛围，为整个视频的制作奠定良好的基础。

5.2 完整视频合成

完整视频的合成是将分镜视频、配音、配乐等元素进行整合，形成一个流畅、完整的视频作品。合成方法和注意事项至关重要。

合成方法上，首先要将各个分镜视频按照顺序进行拼接。在拼接时，要注意画面之间的连贯性和过渡自然。可以使用转场效果，如淡入淡出、溶解、擦除等，使画面之间的切换不显得突兀，增强视频的节奏感和观赏性。

接着，将配音和配乐添加到视频中。配音要与画面的口型、动作等相匹配，保证声音的同步性。配乐要与视频的情感、氛围相协调，在紧张的情节中加入节奏较快的音乐，在温馨的场景中加入舒缓的音乐，增强视频的情感表达。

注意事项方面，要确保视频的流畅性。在合成过程中，要检查视频画面的帧率、分辨率等参数是否一致，避免出现画面卡顿、闪烁等问题。还要注意视频的色彩一致性，对不同来源的视频素材进行色彩校正，使整个视频的色彩风格统一。

视频的节奏也要把握好。通过调整镜头的时长、剪辑的节奏等，使视频的节奏与故事的发展、情感的表达相契合。在情节紧张的部分，加快剪辑节奏；在情节舒缓的部分，放慢剪辑节奏，让观众能够更好地沉浸在视频的故事中。

在视频合成完成后，还要进行整体的审查和调整。检查视频的画面质量、声音质量、字幕等是否符合要求，对发现的问题及时进行修改。通过精心的合成和调整，最终生成一个流畅、自然、高质量的完整视频，向观众展示出精彩的故事和视觉效果。

六、音频制作

6.1 配音制作

配音制作首先要进行需求制作，包括剧本撰写、角色设定等，让配音演员清晰了解角色和剧情。配音演员接到需求后，需深入分析角色，把握其性格、情感和身份等。

进入配音阶段，演员要调整气息，气息运用是配音基础，吸气用鼻，呼气时根据角色情感和台词长度合理控制。配音时语言要松弛自然，避免夸张与做作，话筒位置也很关键，一般距嘴10至15厘米，可根据声音特点和感情表达调整远近与角度。

配音演员还要进行心理调整，做到内动外静，挖掘自身潜质，将内心情感通过声音表达出来。配音时要与画面口型吻合，情绪连贯，让声音与角色完美融合。对于一些特殊音效，如气声等，也要根据角色和场景恰当运用。

配音完成后，还需进行后期制作，包括音效添加、音频剪辑等，使配音与视频画面、背景音乐等完美结合，提升视频的整体效果。

6.2 配乐选择

配乐选择至关重要，需依据视频的主题与风格来定。主题欢快活泼的视频，应搭配节奏明快、旋律优美的音乐；主题悲伤沉重的视频，则宜选择舒缓低沉的音乐，营造出相应的氛围。

要考虑视频的情节发展，在紧张刺激的情节中，选用节奏紧凑、富有张力的音乐，能进一步增强观众的紧张感；在温馨浪漫的场景里，舒缓柔和的音乐更贴合氛围。

视频的目标受众也是配乐选择的重要参考，不同年龄、职业、文化背景的受众对音乐的喜好不同，要根据目标受众的特点，选择他们易于接受的音乐风格。

配乐与视频画面的节奏也要相匹配，音乐节奏的快慢要与画面切换的节奏相协调，使音乐与画面完美融合，增强视频的感染力，让观众在视觉与听觉的双重享受中，更好地理解视频内容，提升视频的观赏体验。