一个人做AI动画,从0到成片只用了6小时(附完整流程)

不用会画画，不用懂3D建模，不用请团队。一台电脑，一套免费工具，6小时出片。

上个月我干了一件事：一个人，用AI工具，从零做出了一条1分30秒的动画短视频。

发到抖音，48小时播放量破5万。

不算爆款，但对我来说够震撼了——因为一年前，我连PS都不会用。

今天把整个制作过程从头到尾拆开给你看，每一步用什么工具、怎么操作、踩过什么坑，全部说清楚。

第一步：写剧本（1小时）

这是整个流程的起点，也是最容易被忽视的一步。

很多人觉得AI动画嘛，让AI随便生成一个故事就行了。但说真的，AI生成的剧本，10个里有8个看完让人尴尬——台词像念课文，反转像硬凑的，节奏要么太快要么拖沓。

我自己试过让DeepSeek直接写剧本，出来的东西结构是有了，但就是没那个"味儿"。后来我的做法是——

先找现成的优质剧本，再用AI做分镜化改编。

剧本来源我主要用短橘剧本网，这个平台有4500多个短视频剧本，搞笑、反转、职场、夫妻各种类型都有。每个剧本标注了时长、人数、场景，直接能看适不适合做动画。

关键是——这些剧本本身就是为了短视频节奏写的，冲突、反转、情绪曲线都打磨过，比AI从零生成的靠谱得多。

拿到剧本后，我会把剧本喂给AI，让它转化成分镜脚本格式：每个镜头的画面描述、镜头运动、台词、情绪、时长，全部标注清楚。

提示词大概长这样：

把以下剧本拆解为分镜脚本，每个镜头包含：景别（全景/中景/特写）、运镜方式、画面描述、角色情绪、台词、时长。画面描述要具体到颜色、光影、构图，可以直接用于AI生图。

这一步做好，后面出图的通过率至少提升60%。

第二步：角色定型（1小时）

这是整个AI动画制作里最关键也最容易翻车的一步。

什么是角色定型？就是让你的主角在每一个镜头里长得一模一样。

没做过的人可能觉得这不是问题。但用AI生图的人都知道——你不做一致性控制，主角每个镜头换张脸，观众直接出戏。

具体做法：

1. 用即梦AI或Midjourney生成一张主角的标准形象图（正面、全身、表情中性）

2. 保存这张图，后续所有分镜生成都上传它作为角色参考图

3. 提示词里保持角色描述一致："少年侠客，剑眉星目，黑色长发，白色古装"

小技巧：先出3个角色的标准图（正面、侧面、3/4侧），存好命名。后面不管生成多少个分镜，角色一致性基本能稳住。

第三步：生成分镜画面（1.5小时）

这一步就是把分镜脚本里的文字描述，变成一张张静态图片。

推荐工具：即梦AI（国产，免费额度多，二次元风格优化好）/ Midjourney V7（质感好但收费）

提示词公式：

主体描述 + 环境细节 + 艺术风格 + 镜头语言 + 光影效果

举个例子，分镜脚本是"少年站在悬崖边，背后是落日余晖"，优化后的提示词：

一个少年侠客站在悬崖边缘，黑色长发随风飘动，白色古装衣袍翻卷，背后是金红色落日余晖洒满山峦，日系赛璐璐风格，远景镜头，逆光剪影效果，画面偏暖色调

避坑要点：

• 提示词别写抽象词，"温暖的氛围"不如"阳光透过树叶洒在脸上"

• 每次都上传角色参考图，锁定形象

• 不满意的图别将就，重新抽卡，后面动态化会放大所有瑕疵

一个1分30秒的动画，大概需要15-25张分镜图，每张生成1-2分钟，1.5小时能搞定。

第四步：静态图变动态视频（1小时）

这是最"魔法"的一步——把一张张静态画，变成会动的视频片段。

推荐工具：可灵AI（最流畅）/ 即梦AI图文生视频（性价比高）

操作方式：上传分镜图 + 输入动作指令

提示词要精简，聚焦三件事：运镜 + 行为 + 情绪

"镜头缓慢推进，少女转头，眼神惊讶"

"镜头从右向左平移，角色微微皱眉，衣袍轻摆"

关键参数：

• 每段视频时长3-5秒（太短没节奏，太长容易变形）

• 动作幅度别太大（AI做大幅动作容易崩）

• 优先微表情和微动作（眨眼、嘴角微动、发丝飘动），小动作反而更自然

避坑：手部、嘴部是AI最容易变形的地方，提示词里尽量别让角色做复杂手势或大张嘴的动作。

第五步：配音 + 音效（30分钟）

画面有了，该给它灵魂了。

配音工具：剪映AI配音（免费，音色多）/ 魔音工坊（更专业）/ ElevenLabs（多语言）

操作流程：

1. 把剧本台词粘贴进配音工具

2. 按角色选音色（少年音、御姐音、旁白音……）

3. 调整语速（建议1.1-1.2倍，比正常语速稍快，节奏更紧凑）

4. 加停顿，让情绪有呼吸感

音效千万别省：脚步声、风声、门开声、剑鸣……这些小音效加上去，观感直接提升一个档次。剪映素材库里有大量免费音效。

BGM选择：根据情绪走。紧张段落用鼓点，温情段落用钢琴，高潮段落用弦乐。别一首歌从头铺到尾，跟着情绪切换才有层次感。

第六步：剪辑合成（1小时）

最后一步，把所有素材拼成成片。

工具：剪映（新手友好）/ Premiere Pro（更精细）

操作清单：

1. 按剧本顺序拼接所有视频片段

2. 对齐配音和画面（口型不用完美，节奏对就行）

3. 加字幕（剪映可自动识别，手动校对）

4. 加转场（淡入淡出为主，别搞花里胡哨的）

5. 加特效（速度线、闪光等漫剧元素，适量就好）

6. 色彩校正，统一整体色调

7. 导出：9:16竖屏，1080P，码率8Mbps

一个让成片更专业的技巧：在所有转场点插入0.3秒黑场，配合音效"咔"一声，模拟传统动画翻页节奏。这个操作零成本，但观感提升很明显。

总耗时：6小时

步骤	耗时	工具
写剧本	1小时	短橘剧本网 + DeepSeek
角色定型	1小时	即梦AI
生成分镜画面	1.5小时	即梦AI / Midjourney
静态图变动态	1小时	可灵AI / 即梦AI
配音+音效	0.5小时	剪映 / 魔音工坊
剪辑合成	1小时	剪映

熟练之后，4小时就能出一条。批量做的话，一天出3-4条不是问题。

新手最容易踩的3个坑

坑一：不做角色一致性就直接出图

结果：主角每帧换脸，观众直接划走。一定先定型、存参考图、每帧都锁定。

坑二：动作幅度太大

AI生成大幅动作（跑步、打斗、转身）极容易变形。微表情+微动作+运镜，比大动作效果好得多。

坑三：剧本环节偷懒

"反正后面AI能改"——这是最大的错觉。剧本的质量决定了整条视频的天花板。一个好剧本配上一般的画面，比一个烂剧本配上精美的画面，完播率高得多。