第1章
AI视频生成是什么
1.1 AI视频生成技术简介
AI视频生成是人工智能领域最具革命性的技术突破之一。它能够根据用户输入的文字描述或上传的静态图片,自动生成动态视频内容。这项技术基于深度学习模型,通过学习海量视频数据的运动规律、光影变化、物理交互等特征,实现从静态到动态、从文字到画面的转化。
2024年至2025年,AI视频生成技术迎来爆发期。OpenAI发布Sora、Runway推出Gen-3、可灵AI上线、字节跳动推出豆包视频生成功能——各大科技公司纷纷布局这一赛道,技术迭代速度惊人。从最初的几秒模糊视频,到现在的高清长视频,AI视频生成已经从实验玩具进化为实用工具。
1.2 图生视频 vs 文生视频
AI视频生成主要有两种模式:
📸 图生视频(Image-to-Video)
上传一张静态图片,AI让图片"动起来"。比如:上传一张风景照片,AI让云彩飘动、树叶摇摆、流水潺潺。这种方式适合让现有素材焕发新生,控制力强,画面质量有保障。
✍️ 文生视频(Text-to-Video)
输入文字描述,AI从零开始生成视频。比如:"一只橘猫在沙发上打哈欠,阳光从窗户照进来"。这种方式创意自由度最高,但需要精心设计提示词才能获得理想效果。
两种模式各有优势,实际使用中经常结合使用——先用文生图功能生成满意的首帧画面,再用图生视频功能让它动起来。
1.3 豆包视频生成的核心优势
豆包作为字节跳动旗下的AI助手,其视频生成功能具有独特优势:
技术底座强:字节跳动在视频领域深耕多年,抖音、剪映等产品积累了海量视频数据和先进算法。豆包的视频生成模型继承了这些技术优势,生成的视频流畅度高、画质好。
操作门槛低:豆包的界面设计简洁直观,无需专业技能,普通用户也能快速上手。输入文字或上传图片,几秒钟就能生成视频。
中文理解好:豆包对中文提示词的理解更准确,能准确把握中国用户的文化背景和表达习惯,生成更符合预期的视频内容。
生态整合强:生成的视频可以直接用于抖音发布、剪映编辑,与字节系产品无缝衔接,大大提升创作效率。
1.4 谁需要学习AI视频生成
AI视频生成的应用场景极为广泛,几乎覆盖所有内容创作领域:
自媒体创作者:快速生成视频素材,提升更新频率,丰富内容形式。短视频博主可以用AI生成开场动画、转场特效、背景素材等。
电商从业者:让商品图片动起来,制作产品展示视频、广告素材,提升转化率。一张产品图可以生成多个角度的动态展示视频。
市场营销人员:快速制作营销视频、品牌宣传片、活动预告片。无需专业视频团队,一人即可完成视频创意提案。
教育工作者:制作教学视频、知识科普动画,让抽象概念具象化。历史场景重现、科学原理演示都能用AI视频实现。
设计师/艺术家:探索新的创作形式,让静态设计作品动起来,拓展艺术表达的边界。
普通用户:制作生日祝福视频、旅行纪念视频、朋友圈动态,让生活记录更生动有趣。
第2章
豆包视频生成功能入口
2.1 如何找到视频生成功能
豆包的视频生成功能入口有三种方式:
方式一:左侧菜单栏直接进入
打开豆包网页版(doubao.com)或APP,在左侧菜单栏找到「AI视频」或「视频生成」图标,点击即可进入视频生成界面。这是最直接的入口。
方式二:更多功能中查找
如果左侧菜单没有显示视频入口,点击「更多功能」或「+」号,在功能列表中找到「视频生成」或「AI视频」,添加到常用功能。
方式三:对话框直接输入
在对话界面输入"帮我生成一个视频"或类似指令,豆包会自动引导你进入视频生成模式。
2.2 视频生成界面详解
进入视频生成功能后,你会看到一个清晰的操作界面:
顶部区域:显示功能名称「AI视频生成」,以及你的剩余生成次数或会员状态。
左侧输入区:
文本输入框:输入视频描述文字 图片上传区:点击或拖拽上传图片(用于图生视频) 参数设置区:选择视频时长、分辨率、风格等
右侧预览区:显示生成的视频预览,可以播放、下载、重新生成。
底部历史区:展示你之前生成的视频记录,方便回看和管理。
2.3 网页版 vs APP版 vs 小程序版
豆包视频生成功能在多个平台都可以使用,但体验略有不同:
💡 网页版(doubao.com)
功能最全,支持最长时长、最高分辨率,适合专业创作。大屏幕操作更方便,历史记录管理更完善。
💡 APP版
随时随地创作,支持相机拍摄后直接生成视频。适合即时灵感捕捉,但部分高级参数可能受限。
💡 小程序版
无需下载APP,微信扫码即用。适合临时使用,功能相对简化,视频时长和分辨率可能有限制。
建议:日常创作推荐使用网页版,功能最完整;移动场景使用APP版;应急使用小程序版。
2.4 会员权限与免费额度
豆包视频生成功能目前采取"免费+付费"模式:
免费用户:每天可获得一定数量的免费生成次数(具体额度可能随政策调整),生成视频有时长和分辨率限制。
付费会员:2026年5月豆包上线订阅体系,包括标准版(68元/月)、加强版(200元/月)、专业版(500元/月)。更高等级会员享有更多生成次数、更长视频时长、更高分辨率、更快生成速度等特权。
⚠️ 注意:视频生成属于高算力消耗功能,免费额度可能随时调整。建议在免费期内尽快熟悉功能,根据实际需求决定是否订阅。
第3章
图生视频完整流程
3.1 什么是图生视频
图生视频(Image-to-Video,简称I2V)是指将一张静态图片转化为动态视频的技术。AI会分析图片内容,理解画面中的元素、场景、氛围,然后添加合理的运动效果——让人物眨眼微笑、让风景中的云彩飘动、让水流起涟漪。
图生视频的核心价值在于:保留原图画面的同时,赋予它生命力。这种方式特别适合以下场景:
让产品照片动起来,制作电商展示视频 让风景旅游照片变成动态明信片 让人物肖像产生表情变化 让AI生成的插画动起来 让漫画分镜变成动画片段
3.2 图生视频操作步骤
📌 步骤一:准备图片素材
选择一张清晰的图片。图片质量直接影响生成效果——建议使用高清图片(至少1080p),画面构图明确,主体突出。支持的图片格式包括JPG、PNG、WEBP等常见格式。
📌 步骤二:上传图片
在视频生成界面,点击"上传图片"按钮,或将图片拖拽到上传区域。图片上传后会显示预览,确认无误后继续。
📌 步骤三:输入运动描述
虽然可以不输入任何文字直接生成(AI会自动判断运动方式),但建议输入简短的运动描述,效果更好。比如:"人物微笑眨眼"、"云彩缓缓飘动"、"流水潺潺"。
📌 步骤四:选择参数
选择视频时长(如4秒、8秒)、分辨率(如720p、1080p)、运动强度(平缓/中等/强烈)等参数。参数选项因版本和会员等级可能有所不同。
📌 步骤五:生成并预览
点击"生成视频"按钮,等待AI处理。处理时间取决于视频时长、分辨率和当前排队情况,通常需要几十秒到几分钟。生成完成后,在预览区播放查看效果。
📌 步骤六:调整或下载
如果效果不满意,可以修改参数或运动描述,重新生成。满意后点击"下载"按钮,保存视频到本地。
3.3 图片选择技巧
好的原图是成功的一半。以下是选择图片的关键技巧:
清晰度优先:图片越清晰,生成的视频质量越高。避免使用模糊、低分辨率、过度压缩的图片。
主体明确:画面中有一个清晰的主体的效果最好。比如人物特写、单个物体、明确的风景主题。复杂背景可能分散AI的注意力。
光线自然:光线均匀、曝光正常的图片生成效果更稳定。过暗或过曝的图片可能导致运动效果不自然。
构图讲究:留有一定空间的构图更适合添加运动。比如人物视线方向留白,可以让AI添加转头效果;水面留白,可以添加涟漪效果。
避免敏感内容:含有敏感内容的图片会被系统拒绝,包括暴力、色情、政治人物等。确保上传内容符合平台规定。
3.4 运动描述写作指南
虽然图生视频可以自动生成运动,但添加恰当的运动描述能大幅提升效果:
💬 人物类描述示例
• "人物微微点头,露出温和的笑容"
• "眼睛眨动,眼神温柔地看向镜头"
• "头发随风轻轻飘动"
• "手部轻微动作,手指轻敲桌面"
💬 风景类描述示例
• "云彩缓缓飘过天空,阳光透过云层"
• "水面波光粼粼,倒影微微晃动"
• "树叶在微风中轻轻摇摆"
• "薄雾在山谷中飘荡"
💬 物品类描述示例
• "产品缓缓旋转,展示各个角度"
• "光影在产品表面流转"
• "粒子特效环绕产品"
3.5 图生视频常见问题
问:生成的视频画面变形怎么办?
答:这通常是因为原图中的人物或物体角度不适合运动。尝试选择正面或侧面角度更清晰的图片,或降低运动强度参数。
问:人物表情变化不自然怎么办?
答:人物面部运动是AI视频生成的难点。建议选择五官清晰、表情自然的原图,并在运动描述中指定具体动作(如"微微微笑"而非笼统的"表情变化")。
问:背景运动不协调怎么办?
答:如果原图背景复杂,AI可能难以判断哪些元素应该运动。可以尝试简化原图背景,或在运动描述中明确指定背景元素的运动方式。
问:视频边缘出现黑边或裁切怎么办?
答:这是AI生成时的稳定性保护机制。选择比例更标准的图片(如16:9或4:3),或在生成时选择"保持画面完整"选项。
3.6 图生视频实操案例
案例1:让风景照变成动态壁纸
原图:一张蓝天白云的风景照片
运动描述:"云彩缓缓飘动,阳光透过云层变化"
参数:4秒,1080p,运动强度中等
效果:云彩以自然速度飘动,光影有微妙变化,非常适合用作视频背景或动态壁纸。
案例2:让人物肖像活起来
原图:一张清晰的人物正面肖像照
运动描述:"眼睛眨动,嘴角微微上扬露出微笑"
参数:4秒,1080p,运动强度平缓
效果:人物表情自然变化,眼睛眨动,微笑慢慢浮现,非常适合制作动态头像或纪念视频。
案例3:让产品图动起来
原图:一张白色背景的产品展示图
运动描述:"产品缓缓旋转360度,光影流转"
参数:8秒,1080p,运动强度中等
效果:产品平滑旋转,展示各个角度,光影效果增强立体感,非常适合电商产品展示。
第4章
文生视频完整流程
4.1 什么是文生视频
文生视频(Text-to-Video,简称T2V)是指根据文字描述从零开始生成视频的技术。你只需要用文字描述想要的画面,AI就能"脑补"出相应的视频内容。
文生视频的创意自由度极高:
可以描述现实中不存在的场景(如"恐龙在现代城市中漫步") 可以创造奇幻画面(如"魔法师在森林中施法") 可以重现历史场景(如"古代丝绸之路的商队") 可以演绎抽象概念(如"时间的流逝")
但文生视频也对提示词质量要求更高——好的提示词能生成惊艳的视频,差的提示词可能生成不知所云的内容。
4.2 文生视频操作步骤
📌 步骤一:构思视频内容
在输入提示词之前,先想清楚你要生成什么:主体是什么?在做什么?在哪里?什么风格?光线如何?镜头如何运动?想得越清楚,提示词写得越好。
📌 步骤二:撰写提示词
在文本输入框中输入视频描述。提示词应该包含主体、动作、场景、风格、镜头等关键要素。可以参考本章后续的提示词模板。
📌 步骤三:选择参数
选择视频时长、分辨率、风格预设(如电影感、动漫风、写实风等)。不同参数组合会产生不同效果。
📌 步骤四:生成视频
点击"生成视频"按钮,等待AI处理。文生视频的处理时间通常比图生视频更长,因为需要从零构建画面。
📌 步骤五:预览与迭代
生成完成后预览效果。如果效果不满意,分析原因(提示词不够具体?风格选择不当?),修改后重新生成。文生视频通常需要多次迭代才能获得理想效果。
📌 步骤六:下载使用
满意后下载视频。可以选择不同格式(MP4、MOV等)和质量等级。
4.3 提示词的黄金结构
一个好的文生视频提示词通常包含以下要素:
🎯 提示词五要素公式
主体(谁/什么)+ 动作(在做什么)+ 场景(在哪里)+ 风格(什么样的画面感)+ 镜头(如何拍摄)
让我们看一个完整的例子:
💬 完整提示词示例
"一只橘猫【主体】懒洋洋地趴在窗台上晒太阳,打了个哈欠,尾巴轻轻摇摆【动作】,窗台旁是一盆绿植,阳光透过薄纱窗帘洒进来【场景】,温馨治愈的日系风格【风格】,中景镜头,轻微推进【镜头】"
4.4 提示词各要素详解
主体:视频的核心对象。描述要具体,包括:
种类:人物/动物/物品/风景 特征:外貌、颜色、数量 服饰/装饰:如果有人物,描述服装、发型
动作:主体的行为。描述要生动:
具体动词:跑/跳/飞/游/转身/抬头 动作幅度:缓缓/快速/突然 动作连贯性:一个完整动作还是多个动作序列
场景:故事发生的环境。描述要丰富:
地点:室内/室外/具体场所 时间:白天/夜晚/黄昏/清晨 天气:晴天/雨天/雪天/雾天 氛围:热闹/安静/神秘/温馨
风格:画面呈现方式。常见的风格包括:
写实风格:追求真实感,适合纪录片、产品展示 电影感:有电影质感,适合故事片、广告 动漫风:二次元风格,适合动画、游戏内容 油画风:艺术感强,适合创意作品 赛博朋克:科幻未来感,适合科技内容
镜头:画面的拍摄方式。描述要点:
景别:远景/全景/中景/近景/特写 角度:平视/俯视/仰视 运动:推/拉/摇/移/跟拍
4.5 文生视频提示词模板库
以下是针对不同场景的提示词模板,可以直接套用或修改:
🎬 自然风景模板
"[季节]的[地点],[天气描述],[主体元素]在[运动方式],[光线描述],[风格]风格,广角镜头"
示例:"秋天的枫叶林,金色的阳光穿透云层,枫叶在风中缓缓飘落,形成一条金色的河流,电影感风格,广角镜头,缓慢推进"
🎬 人物动作模板
"一个[年龄/职业]的[性别],穿着[服装描述],正在[地点][动作],[表情/情绪],[风格]风格,[景别]镜头"
示例:"一个年轻的女画家,穿着白色连衣裙,正在洒满阳光的画室里挥动画笔创作,神情专注而陶醉,电影感风格,中景镜头"
🎬 动物萌宠模板
"一只[动物种类],[外貌特征],正在[地点][动作],[可爱细节],治愈系风格,近景镜头"
示例:"一只金毛幼犬,毛茸茸的浅金色毛发,正在草地上笨拙地追逐一只蝴蝶,偶尔跌倒又爬起来,治愈系风格,近景跟拍"
🎬 城市街景模板
"[时间]的[城市/街道],[天气],[人流/车流描述],[建筑/灯光描述],电影感风格,延时摄影"
示例:"夜晚的东京涩谷十字路口,霓虹闪烁,人流如织穿梭,高楼LED屏幕闪烁,电影感风格,俯视广角延时"
🎬 奇幻场景模板
"[奇幻生物/角色],正在[奇幻地点][动作],[魔法特效描述],[氛围描述],奇幻风格,[镜头描述]"
示例:"一位白袍巫师,正在古老的神殿中举起法杖,蓝色的魔法能量从法杖顶端涌出,形成旋转的符文,神秘庄严的氛围,奇幻风格,中景仰视"
🎬 美食展示模板
"[菜品名称],[摆盘描述],[热气/光泽描述],[背景描述],美食纪录片风格,特写镜头"
示例:"一碗热气腾腾的日式拉面,金黄的叉烧肉上点缀着翠绿的葱花,溏心蛋对半切开,汤汁表面漂浮着油花,美食纪录片风格,特写镜头,微微环绕"
🎬 产品展示模板
"[产品名称],[产品外观描述],[背景/场景],[光影效果],商业广告风格,环绕镜头"
示例:"最新款智能手机,深空灰色金属机身,放在黑色大理石台面上,柔和的侧光勾勒出产品轮廓,商业广告风格,360度环绕"
4.6 文生视频常见问题
问:生成的视频和描述差别很大怎么办?
答:文生视频对提示词的理解有时会有偏差。尝试简化提示词,突出最核心的1-2个要素,逐步添加细节。也可以多次生成,选择最接近预期的一个。
问:画面中出现多余的元素怎么办?
答:这通常是因为提示词不够聚焦。在提示词末尾添加"背景简洁"、"没有其他元素"等限定词,或者在生成后进行裁切处理。
问:人物面部扭曲或不自然怎么办?
答:AI对人物面部的生成仍有挑战。尝试让人物在画面中占比较小的比例,或选择远景、侧面角度,减少正面特写。
问:运动不流畅有卡顿感怎么办?
答:降低运动复杂度,让主体做简单、连续的动作。复杂的多步动作AI难以处理流畅。
第5章
提示词写作技巧
5.1 提示词的核心原则
写好AI视频提示词,需要遵循以下核心原则:
原则一:具体胜过抽象
好的提示词是具体的、可感知的。比较以下两个描述:
❌ 抽象描述:"一个美丽的场景"
✅ 具体描述:"清晨的西湖,薄雾笼罩湖面,远处的雷峰塔若隐若现,一艘乌篷船缓缓划过"
原则二:动词驱动画面
使用生动的动词让画面"活"起来:
"跑" → "奔跑"、"疾跑"、"悠闲地慢跑" "看" → "凝视"、"瞥见"、"眺望"、"低头看" "动" → "旋转"、"摇摆"、"起伏"、"流淌"
原则三:先主体后细节
提示词的结构应该先交代主体,再补充细节。AI会优先关注提示词的开头部分:
💬 好的结构
"一只金毛犬【主体】正在海滩上奔跑【核心动作】,金色的毛发在阳光下闪闪发光【细节】,海浪轻轻拍打沙滩【背景】,电影感风格【风格】"
原则四:避免冲突指令
不要在提示词中放入相互矛盾的要求:
❌ 冲突描述:"画面静止不动,人物快速奔跑"
✅ 一致描述:"人物快速奔跑,背景虚化"
5.2 不同风格的提示词写法
写实风格
追求真实感,适合纪录片、产品展示、新闻素材:
使用客观描述,避免夸张形容词 注明"写实风格"、"纪录片质感" 描述光线要具体(如"自然光"、"侧光")
"北京的秋日下午,银杏大道上金黄的树叶铺满地面,一位老人推着自行车缓缓走过,写实纪录片风格,自然光,中景跟拍"
电影感风格
追求电影质感,适合故事短片、广告、MV:
使用电影术语(如"景深"、"电影质感") 描述光影氛围(如"逆光"、"剪影") 指定镜头运动(如"缓慢推进"、"环绕拍摄")
"黄昏时分,一位穿风衣的男人站在海边悬崖,背影孤独,夕阳将他的轮廓染成金色,海风吹动衣角,电影感风格,远景逆光,缓慢推近"
动漫风格
二次元动画感,适合动画内容、游戏宣传:
注明"动漫风格"、"二次元" 可以描述夸张的表情和动作 色彩描述更鲜艳(如"明亮的蓝色天空")
"动漫风格的少女,粉色长发在风中飞舞,站在樱花树下仰望天空,花瓣纷纷扬扬落下,二次元动画质感,明亮的日系色调,仰视镜头"
赛博朋克风格
科幻未来感,适合科技内容、游戏、创意短片:
使用科幻元素(霓虹灯、全息投影、飞行器) 色彩以蓝、紫、红为主 描述未来城市或科技场景
"赛博朋克风格的未来城市,霓虹灯闪烁的街道,全息广告牌漂浮在空中,一位穿着机械外骨骼的女性穿行其间,蓝紫色主色调,科幻电影感"
5.3 镜头语言提示词
在提示词中加入镜头语言,能让视频更有电影感:
景别
- 远景
展示环境全貌,适合风景、城市 - 全景
展示人物全身,适合人物动作 - 中景
展示人物半身,适合人物互动 - 近景
展示人物胸部以上,适合表情 - 特写
展示面部或细节,适合情感表达
角度
- 平视
正常视角,亲切自然 - 俯视
上帝视角,展示全貌 - 仰视
让主体显得高大、有力量
运动
- 推镜头
镜头向主体靠近,聚焦 - 拉镜头
镜头远离主体,展示环境 - 摇镜头
镜头左右转动,展示全景 - 移镜头
镜头平行移动,跟拍 - 环绕
镜头围绕主体旋转,360度展示
💬 镜头语言综合示例
"一位钢琴家正在演奏,黑白琴键在指尖跳动,专注的神情,中景镜头,缓慢推进至近景,侧光勾勒轮廓,电影感风格"
5.4 提示词迭代优化方法
第一次生成很难完美,需要迭代优化。以下是优化流程:
第一步:分析差距
对比生成结果和预期,找出差异:是主体不对?动作不自然?场景不符?风格偏差?
第二步:针对性修改
主体偏差 → 加强主体描述,放在提示词开头 动作不自然 → 简化动作,拆分为多个简单动作 场景不符 → 增加场景细节描述 风格偏差 → 明确风格关键词,删除冲突描述
第三步:小步测试
每次只修改一个要素,观察效果变化,避免同时修改多个要素导致难以定位问题。
第四步:记录有效模板
把成功的提示词保存下来,形成个人模板库。下次遇到类似需求,直接套用修改。
5.5 高级提示词技巧
技巧一:使用比喻和联想
有时用比喻能让AI更好理解你想要的画面:
"花朵绽放,像慢动作的烟花,花瓣一片片舒展"
技巧二:分层次描述
将复杂场景分为前景、中景、背景分别描述:
"前景是飘动的芦苇,中景是一位背对镜头看日落的人,背景是金色的晚霞和剪影般的远山"
技巧三:强调关键元素
用"突出"、"聚焦于"、"重点展示"等词引导AI注意力:
"一位书法家正在书写,聚焦于毛笔在宣纸上的运动,墨迹缓缓晕染"
技巧四:使用负面提示
如果系统支持,可以用负面提示排除不想要的元素:
💬 正面提示
"一位女性在海边散步"
💬 负面提示(排除)
"不要人群,不要建筑物,不要文字水印"
第6章
视频参数详解
6.1 视频时长
视频时长是影响生成效果和成本的重要参数。豆包支持的视频时长范围通常为:
- 4秒
基础时长,适合简单动作、素材片段。生成速度最快,效果稳定。 - 8秒
中等时长,适合完整叙事片段。生成时间较长,需要更多算力。 - 更长时间
部分版本支持更长的视频(如10秒、15秒),可能需要付费会员权限。
时长选择建议:
产品展示、简单动作:4秒足够 故事片段、场景转换:选择8秒或更长 如果不确定,先从4秒开始测试,效果好再生成更长版本
6.2 分辨率
分辨率决定视频清晰度。常见选项:
- 720p (1280×720)
标清,适合手机观看、社交媒体分享。生成速度快。 - 1080p (1920×1080)
高清,适合大多数场景,画质与速度平衡。 - 更高分辨率
部分版本支持2K或更高,需要付费权限,适合专业制作。
分辨率选择建议:
测试阶段:选择720p,快速验证效果 正式使用:选择1080p,满足大多数平台要求 专业制作:根据输出渠道选择更高分辨率
6.3 运动强度
运动强度控制视频中元素运动的幅度:
- 平缓
运动幅度小,画面稳定,适合风景、静物、人物肖像。容错率高。 - 中等
运动幅度适中,画面有活力但不失控。适合大多数场景。 - 强烈
运动幅度大,画面动感强,但可能出现画面失稳。适合舞蹈、运动、特效场景。
运动强度选择建议:
新手推荐:从"平缓"开始,逐渐增加 风景/静物:选择"平缓"或"中等" 人物动作:选择"中等" 运动场景:选择"强烈",但要注意画面稳定性
6.4 风格预设
豆包可能提供多种风格预设,一键应用特定风格:
- 写实
追求真实感,自然色彩和光影 - 电影感
电影质感,有景深和氛围光 - 动漫
二次元动画风格 - 油画
艺术绘画风格 - 赛博朋克
科幻未来风格 - 复古
怀旧复古风格
选择风格预设后,提示词中可以省略风格描述,或与预设风格保持一致。
6.5 其他参数
画面比例
- 16:9
横屏,适合视频平台(抖音、B站、YouTube) - 9:16
竖屏,适合短视频平台(抖音竖屏、快手、视频号) - 1:1
方形,适合社交媒体(朋友圈、微博) - 4:3
传统电视比例,复古感
帧率
- 24fps
电影标准帧率,有电影感 - 30fps
视频标准帧率,流畅度高 - 60fps
高帧率,适合运动场景
生成数量
部分版本支持一次生成多个版本(如4个),从中选择最满意的一个。这会增加生成时间,但能提高获得理想效果的概率。
第7章
二十个典型场景实战
场景1:电商产品展示视频
需求:让产品照片动起来,制作展示视频
推荐方式:图生视频
操作步骤:
准备一张高清产品图,白色背景效果最好 上传图片到豆包视频生成 输入运动描述:"产品缓缓旋转,光影在表面流转" 选择参数:8秒,1080p,运动强度中等 生成并下载
💬 进阶提示词(文生视频)
"一款金色外壳的智能手表,放在深色大理石台面上,柔和的侧光打亮表面,手表屏幕亮起显示时间,光影流转,商业广告风格,环绕镜头"
场景2:旅游风景动态壁纸
需求:让旅游照片变成动态风景
推荐方式:图生视频
操作步骤:
选择一张构图清晰的风景照 上传图片 输入运动描述:"云彩缓缓飘动,水面波光粼粼" 选择参数:4秒或8秒,1080p,运动强度平缓
💬 不同风景的运动描述
• 海边:"海浪轻轻拍打沙滩,白云缓缓飘动"
• 山景:"云雾在山间飘荡,远山若隐若现"
• 城市夜景:"霓虹灯闪烁,车流形成光轨"
• 森林:"阳光透过树叶洒下,树叶轻轻摇摆"
场景3:人物肖像动态化
需求:让人物照片"活"起来
推荐方式:图生视频
⚠️ 注意:人物面部是AI视频生成的难点,选择五官清晰、正面的照片效果更好。
操作步骤:
选择一张光线充足、五官清晰的人物正面照 上传图片 输入运动描述:"眼睛轻轻眨动,嘴角微微上扬" 选择参数:4秒,1080p,运动强度平缓
💬 人物动作描述参考
• "眼睛看向镜头,轻轻眨眼"
• "头发随风轻轻飘动"
• "微微点头,露出温和的微笑"
• "转头看向侧面,再转回来"
场景4:宠物萌宠视频
需求:让宠物照片变成萌宠视频
推荐方式:图生视频或文生视频
💬 图生视频描述
• 猫咪:"眼睛睁大,打哈欠,尾巴轻轻摇摆"
• 狗狗:"耳朵竖起,舌头伸出,轻轻喘气"
• 兔子:"鼻子微微耸动,耳朵转动"
💬 文生视频提示词
"一只橘猫趴在窗台上晒太阳,懒洋洋地打了个哈欠,尾巴轻轻摆动,阳光洒在它金色的毛发上,治愈系风格,近景镜头"
场景5:美食展示视频
需求:让美食照片更有食欲
推荐方式:图生视频
💬 美食运动描述
• 热食:"热气缓缓升起,汤汁表面微微晃动"
• 冷饮:"气泡从杯底升起,冰块轻轻晃动"
• 甜点:"奶油微微颤动,水果表面有水珠滚动"
• 火锅:"汤汁翻滚,蒸汽缭绕"
场景6:节日祝福视频
需求:制作节日祝福动态贺卡
推荐方式:文生视频
💬 春节祝福
"红色的灯笼在风中轻轻摇摆,金色的福字贴在门上,烟花在夜空中绽放,喜气洋洋的氛围,节日风格"
💬 生日祝福
"蜡烛的火焰轻轻摇曳,生日蛋糕上的奶油闪闪发亮,彩带飘落,温馨浪漫的氛围"
场景7:企业品牌宣传
需求:制作品牌形象视频
推荐方式:文生视频
💬 科技公司品牌视频
"现代化的玻璃办公楼,晨光照射在建筑外墙上,无人机视角缓缓上升,城市天际线尽收眼底,企业宣传片风格,航拍镜头"
💬 生活方式品牌
"温馨的咖啡厅内部,阳光透过落地窗洒进来,咖啡师正在制作拿铁,咖啡香气仿佛飘出画面,生活美学风格"
场景8:教育培训动画
需求:制作知识科普动画
推荐方式:文生视频
💬 科学原理演示
"太阳系行星运动的动画,太阳在中心发光,八大行星按照轨道运行,科普动画风格,俯视视角"
💬 历史场景重现
"古代丝绸之路的商队,骆驼在沙漠中缓缓行进,夕阳将沙丘染成金色,历史纪录片风格,远景镜头"
场景9:社交媒体封面
需求:制作吸引眼球的视频封面
推荐方式:图生视频
选择一张有视觉冲击力的图片,添加轻微动态效果(如光影变化、轻微移动),生成4秒视频作为封面。注意选择适合平台的画面比例(抖音用9:16,B站用16:9)。
场景10:艺术创作视频
需求:让艺术作品"动起来"
推荐方式:图生视频
💬 油画动态化
"梵高风格的星空,星星闪烁,漩涡状的云彩缓缓旋转,艺术动画风格"
💬 漫画分镜动画化
"漫画风格的少女,头发在风中飘动,眼睛眨动,周围有速度线特效,动漫风格"
场景11-20:更多场景速览
场景11:房地产楼盘展示
文生视频,"现代化的住宅小区,阳光照射在玻璃外墙上,绿树环绕,无人机航拍视角,房地产宣传片风格"
场景12:婚礼纪念视频
图生视频,让婚纱照"活"起来,"新娘的头纱轻轻飘动,新郎温柔地看向新娘,花瓣飘落"
场景13:游戏宣传视频
文生视频,"奇幻风格的战士,手持发光的剑,站在悬崖边眺望远方,史诗级游戏宣传片风格"
场景14:音乐MV素材
文生视频,生成抽象视觉画面配合音乐,"彩色光带在黑色背景中流动,随着节奏闪烁,赛博朋克风格"
场景15:APP/软件演示
文生视频,"手机屏幕上APP界面滑动切换,手指点击操作,产品演示风格"
场景16:自然纪录片素材
文生视频,"非洲草原上的狮群,金色的晨光中缓缓行走,自然纪录片风格"
场景17:时尚服装展示
图生视频,"模特转身展示服装,裙摆轻轻飘动,时尚杂志风格"
场景18:建筑空间展示
图生视频,让室内设计效果图"动起来","阳光穿过落地窗,光影在空间中移动"
场景19:儿童内容创作
文生视频,"可爱的卡通小熊在森林里采蘑菇,儿童动画风格,明亮的色彩"
场景20:抽象艺术视频
文生视频,"抽象的几何形状在空间中旋转组合,色彩流动变化,艺术实验风格"
第8章
进阶使用技巧
8.1 组合使用图生视频和文生视频
最高效的工作流程是:先用文生图功能生成满意的首帧画面,再用图生视频让它动起来。
完整流程:
在豆包中使用AI绘画功能,输入描述生成图片 选择最满意的一张图片 进入视频生成功能,上传这张图片 输入运动描述,生成视频
这种方式的好处是:你可以反复调整图片,直到满意后再生成视频,避免直接文生视频时画面不符合预期的问题。
8.2 首尾帧控制技巧
高级用户可以尝试控制视频的首帧和尾帧:
首帧控制:通过图生视频,你可以精确控制视频开始时的画面。选择或生成一张理想的首帧图片,上传后生成视频。
尾帧想象:在运动描述中描述你想要的结束画面,如"人物从站立变成坐下"。
8.3 多次生成选择最佳
AI视频生成有一定随机性,同样的提示词可能生成不同效果。建议:
每次生成4个版本(如果系统支持),从中选择最佳 不满意就重新生成,不要将就 保存成功的提示词,形成个人模板库
8.4 与剪映联动
豆包生成的视频可以直接导入剪映进行后期处理:
在豆包中下载生成的视频 打开剪映,导入视频 添加音乐、字幕、特效 多个AI视频片段可以拼接成完整作品
这种"AI生成+人工剪辑"的组合是目前最高效的内容生产方式。
8.5 批量生成技巧
如果需要生成大量相似视频(如系列产品展示),可以:
设计一个标准化的提示词模板 只替换其中的主体部分 保持其他参数一致 批量生成,确保风格统一
💬 标准化模板示例
"【产品名】,放在白色背景上,柔和的侧光,产品缓缓旋转360度,商业广告风格,环绕镜头"
只需替换【产品名】部分,其他保持一致,生成的视频风格统一。
8.6 视频质量提升技巧
提升画面稳定性:
选择"平缓"运动强度 在提示词中加入"画面稳定"、"流畅运动" 避免复杂的多人场景
提升画质:
选择最高分辨率(如1080p或更高) 原图要高清(图生视频) 提示词中加入"高清"、"细节丰富"
提升运动自然度:
描述真实的物理运动方式 参考现实中类似场景的运动 运动幅度从小到大逐步尝试
8.7 常见失败原因分析
生成失败或效果极差,可能是以下原因:
- 提示词包含敏感词
系统会拒绝生成。检查提示词是否有敏感词汇。 - 提示词过于抽象
AI无法理解。改为具体描述。 - 提示词指令冲突
如要求"静止不动"同时"快速奔跑"。删除冲突指令。 - 原图质量问题
(图生视频):图片模糊、过暗、过度压缩。更换高质量图片。 - 参数选择不当
如选择了"强烈"运动强度但场景不适合。调整参数。
8.8 个人模板库建设
建立自己的提示词模板库,能大幅提升效率。建议按以下维度分类:
- 按风格分类
写实模板、电影感模板、动漫模板、赛博朋克模板等 - 按场景分类
产品展示模板、风景模板、人物模板、美食模板等 - 按镜头分类
推镜头模板、环绕模板、航拍模板等
把每次成功的提示词记录下来,标注使用场景和效果评分,逐步形成个人专属的模板库。
第9章
常见问题与解决方案
Q1:生成视频需要多长时间?
生成时间取决于视频时长、分辨率、当前排队情况。一般来说:
4秒 720p视频:约30秒-1分钟 8秒 1080p视频:约1-3分钟 高峰时段可能需要等待更长时间
Q2:免费用户每天能生成多少视频?
免费额度可能随时调整。建议在使用时留意界面显示的剩余次数。如果额度不够,可以考虑升级会员。
Q3:生成的视频可以商用吗?
AI生成内容的版权问题较为复杂。建议:
个人使用、学习研究一般没有问题 商业用途请查阅豆包的用户协议 不要生成侵犯他人肖像权、版权的内容 商业用途建议标注"AI生成"
Q4:生成的视频画面闪烁怎么办?
画面闪烁是AI视频生成的常见问题。解决方法:
降低运动强度 选择更稳定的风格预设 在提示词中加入"画面稳定" 选择画质更高的原图(图生视频)
Q5:人物面部变形扭曲怎么办?
这是AI视频生成的难点。建议:
选择五官清晰、正面的原图 降低运动强度 避免复杂的表情变化描述 选择远景或侧面角度
Q6:视频下载后画质变差怎么办?
检查下载时是否选择了最高质量选项。如果仍有问题,可能是:
原始生成时就选择了低分辨率 下载格式压缩了画质 播放器解码问题
Q7:如何生成竖屏视频(适合抖音/视频号)?
在参数设置中选择9:16的画面比例,生成的视频就是竖屏格式。
Q8:可以生成带声音的视频吗?
目前AI视频生成通常只生成画面,不包含声音。你可以:
在剪映中添加背景音乐和音效 使用AI音乐生成工具创作配乐 使用AI配音工具生成旁白
Q9:生成的内容被系统拒绝怎么办?
系统拒绝通常是因为内容违反了平台规定。检查:
提示词是否包含敏感词汇 是否涉及政治人物、暴力、色情等内容 是否涉及知名人物的肖像
Q10:视频时长可以超过8秒吗?
部分版本和会员等级支持更长的视频时长。如果需要更长视频:
检查是否有更长时长选项 考虑升级会员获取更多权限 生成多个短片段,在剪映中拼接成长视频
第10章
与其他工具对比
10.1 主流AI视频工具概览
目前市面上主流的AI视频生成工具包括:
10.2 豆包 vs 可灵
豆包优势:
与豆包其他功能整合,一站式AI助手 中文理解更好 与抖音、剪映生态无缝衔接 免费额度可能更多
可灵优势:
支持更长视频(最长可达2分钟) 运动幅度更大,画面更动感 与快手生态整合
选择建议:
需要短小精悍、中文友好的视频 → 选豆包 需要长视频、大运动幅度 → 选可灵
10.3 豆包 vs Sora/Runway
豆包优势:
国内可直接使用,无需VPN 中文支持更好 价格相对便宜(或免费)
Sora/Runway优势:
技术更先进,画质更高 支持更长视频(Sora可达1分钟) 功能更丰富(Runway有视频编辑功能)
选择建议:
日常使用、中文创作 → 选豆包 专业制作、追求极致画质 → 选Sora/Runway(如果可访问)
10.4 组合使用策略
最高效的策略是组合使用多个工具:
- 素材生成
用豆包或可灵生成基础视频素材 - 后期处理
用剪映进行剪辑、配乐、加字幕 - 多工具对比
同样的提示词在不同工具生成,选择最佳
第11章
版权与合规
11.1 AI生成内容的版权现状
AI生成内容的版权问题是全球法律界正在讨论的热点。目前的基本共识:
AI生成内容通常不受传统版权法保护(因为作者不是人类) 但这也意味着他人可能可以使用类似内容 具体规定因国家和地区而异
11.2 使用注意事项
⚠️ 不要生成以下内容
• 真实人物肖像(可能侵犯肖像权)
• 受版权保护的角色形象(如迪士尼角色)
• 品牌商标和LOGO
• 暴力、色情、违法内容
11.3 商业使用建议
如果用于商业用途,建议:
仔细阅读豆包的用户协议和版权条款 在视频或描述中标注"AI生成" 避免让消费者误以为是真实拍摄 不用于虚假宣传或欺骗
11.4 合规使用案例
合规案例:
生成抽象背景视频用于商业视频 生成产品展示动画(自己的产品) 生成风景视频用于旅游宣传
不合规案例:
生成名人代言视频(虚假代言) 生成某品牌产品并声称是该品牌 生成版权角色的动画
第12章
未来展望与建议
12.1 AI视频生成技术趋势
AI视频生成技术正在快速发展,未来可能出现:
- 更长时长
从几秒扩展到几分钟甚至更长 - 更高画质
达到4K甚至8K分辨率 - 更精准控制
用户可以精确控制每个元素的运动 - 音视频一体
AI直接生成带声音的视频 - 实时生成
生成速度大幅提升,接近实时
12.2 对创作者的影响
AI视频生成对内容创作领域的影响是深远的:
积极影响:
降低视频创作门槛,人人都能做视频 提升创作效率,快速验证创意 释放创作者从技术中解放,专注创意本身
挑战:
同质化内容可能泛滥 传统视频制作岗位可能受冲击 内容真实性鉴别更困难
12.3 给初学者的建议
✅ 立即开始:AI视频生成是未来趋势,越早学习越有优势。
✅ 多练习:提示词写作是核心技能,需要大量练习才能掌握。
✅ 建立模板库:把成功的提示词保存下来,形成个人模板。
✅ 关注更新:AI技术迭代快,保持学习新功能。
✅ 合理使用:遵守平台规定,合规使用AI生成内容。
12.4 给专业创作者的建议
✅ 拥抱工具:AI是助手不是对手,学会利用AI提升效率。
✅ 专注创意:AI负责技术实现,你负责创意和审美。
✅ 建立差异化:AI生成的内容趋于同质化,你的独特视角是核心竞争力。
✅ 学习多种工具:不要局限于一个工具,掌握多个AI视频工具。
✅ 关注版权:商业项目要特别注意版权和合规问题。
写在最后
AI视频生成正在改变内容创作的方式。豆包作为国内领先的AI助手,其视频生成功能让每个人都能轻松制作视频。
希望这份指南能帮助你快速掌握豆包视频生成的使用方法。记住:最好的学习方式是动手尝试。打开豆包,上传一张图片或输入一段文字,开始你的AI视频创作之旅吧!
有任何问题,欢迎在评论区留言交流。祝创作愉快!🎬
夜雨聆风