油管YouTube半自动化制作AI吉卜力90年代童年视频操作步骤

之前我们说了制作AI吉卜力风格的视频都用到哪些工具，但那些都是手搓的，质量相对较高。说实在的，目前这类视频在YouTube上似乎确实同质化太多了。不过此类风格确实很治愈，同样我们也需要不断开发新的频道。对于限流的老频道，我的处理方式就是注销掉老频道，开发新频道，释放频道空间。因为同质化或者被关进小黑屋的频道想要走出来，基本上很难，所以不要留恋老频道或不要对遇到以上问题的老频道还抱有希望的信心。这是不可取的。

好了，我们现在接着说这期的吉卜力国内90年代童年风格的视频的制作过程。

咱们想要制作类似这样怀旧治愈类的视频，可以回忆我们的童年生活都是怎么度过的？有了这样的回忆我们再进行完善，最终落地。

首先就是创意，那么主题创意都有什么？我们需要丢个AI工具让它帮我们给出10-20个类似的创意。以下是我写的主题创意提示词。你们可以参考一下，甚至可以进一步优化和补充。AI工具我建议使用阿里的千问3.6plus。

主题创意：扮演一位顶尖的YouTube策略师和怀旧心理学专家，专注于中国90年代童年内容。你的任务是生成15个极具吸引力的中国90年代怀旧视频主题创意，每个创意都有潜力扩展成100+个微场景。--- 核心目标：每个主题必须：* 触发即时情感回忆 * 让中国90年代生活感觉超具体 * 围绕强烈的共同体验或痴迷展开 * 允许深度场景分解（至少可生成100个场景）。--- 创意结构（必填）：对于每个创意，请遵循以下格式：标题：（一个有力、情感化、引发好奇心的标题）核心钩子：（1-2行解释为什么这个创意能引发深度共鸣和怀旧感）场景潜力：（解释为什么这个创意能生成100+个场景——提及各类时刻、环境、行为）--- 创意质量规则：每个创意必须：1. 围绕一个强烈的核心体验构建：* 校园生活 * 电视节目 * 游戏 * 节日 * 家庭仪式 * 社交行为 2. 至少包含以下元素之一：* 痴迷（例如：四驱车/小霸王游戏机热潮）* 日常惯例（每日/每周仪式）* 叛逆（打破规则）* 情感记忆（恐惧、兴奋、尴尬）3. 视觉优先：* 必须易于无需旁白即可转化为场景 4. 包含微时刻深度：* 等待、反应、奔跑、躲藏、争吵、观看 --- 中国90年代背景（非常重要）：包含以下元素：* 央视及地方台经典节目（大风车、动画城、西游记、新白娘子传奇、黑猫警长、舒克和贝塔等）* 蓝白运动校服、眼保健操、广播体操、值日生、罚站/抄课文 * 胡同/弄堂/大院游戏（跳皮筋、拍洋画/打画片、跳房子、丢沙包、滚铁环、四驱车） * 闭路电视/有线台安装与租录像带/碟片时代 * 街机厅/小霸王学习机/FC红白机 * 传呼机(BB机)、IC卡公用电话、家庭座机 * 突然停电/点蜡烛/吊扇/蒲扇 * 暑假（回老家/乡下、抓知了、竹床阵、老冰棍）* 传统节日（春节守岁看春晚/放鞭炮、元宵节猜灯谜、中秋节赏月分月饼）--- 避免：* 泛泛的创意如"90年代生活" * 缺乏情感锚点的宽泛概念 * 现代元素引用 。--- 语调：* 电影感 * 情感化 * 略带戏剧性 * 深度怀旧 。--- 验证检查（非常重要）：在最终确定每个创意之前，请检查："这个创意能否生成至少100个独特、可视化的微场景？"如果否→拒绝并重写。--- 输出：生成15个遵循上述结构的创意。不要在格式之外包含任何解释。

这样我们会得到15个90年童年故事的创意主题，我们选择其中自己喜欢的主题也可以自己深度完善一下这样更好，因为AI回复的总是不尽如意。

接下来需要根据主题生成场景，那么场景也需要有相应的提示词。这些场景你都可以进行优化，比如每个场景有3-5个镜头等等。一次性不建议太多场景，因为AI总是会不知不觉出现幻觉。在你根据场景生成图像的提示词时，总是不太能做到完美的。场景提示词如下：

场景提示：扮演一位顶尖的电影感YouTube策略师和情感叙事专家，专注于中国90年代怀旧内容。你的任务是基于主题："[此处填写主题创意]"，生成连续流动的高度详细的微场景。--- 核心原则：这不是关于事件。这是关于被遗忘的感受、感官记忆，以及根植于中国90年代生活的微时刻。每个场景必须让观众感受到："这个我也感受过…" 场景必须无需旁白即可理解，使用：* 可见动作 * 肢体语言 * 物品信号 * 可选的精简对话（仅在必要时）。--- 输出要求：生成恰好[50]个场景，以连续叙事流呈现。分为5-7个情感阶段：* 期待 * 铺垫 * 混乱/高潮 * 放缓 * 反思 。--- 场景规则：每个场景必须：* 最多1-2行 * 具体且可视化 * 避免泛泛描述 每个场景必须包含至少一项：* 感官细节（热度、灰尘、气味、风扇声）* 微动作（塑料拖鞋拖沓、铝饭盒扣开）* 情感触发（恐惧、兴奋、联结、紧张）。--- 🔥 可见信号系统（非常重要）：每个场景应通过以下方式清晰传达含义：1. 角色动作（正在发生的物理行为）2. 肢体语言（姿势、手势、表情）3. 物品信号（1-2个解释上下文的物品）示例：* 挂钟→等待 * 电视机/鱼骨天线→专注 * 书包/红领巾→紧迫感 * 铝饭盒/搪瓷缸→家庭/厨房 不要依赖内心独白。--- 💬 精简对话系统（可选—关键）：对话并非必需。添加对话前请问："这个场景没有对话能看懂吗？"如果是→不要包含对话 如果否→添加最少、自然的90年代中文口语/市井感对话以澄清意图/情感 。--- 对话规则：* 最多3-8个词/短句 * 仅1行（极少2行）* 必须感觉真实、随意、不完美 * 必须与场景中发生的动作匹配 示例：* “快开始播啦！” * “别急，马上就到点了！” * “妈，把声音调大点！” * “作业写完了吗就玩？”。--- 对话目的：仅在以下情况使用对话：* 澄清意图 * 展现兴奋/紧迫感 * 当视觉本身模糊时使情感显而易见 。--- ⚠️ 避免：* 每个场景都强行添加对话 * 长句子 * 旁白式台词 * 过度解释 。--- 中国90年代背景（非常重要）：包含：* 蓝白运动校服、红领巾、海魂衫 * 央视一套、鱼骨天线调整、雪花屏、每周二下午停播 * 突然停电、点蜡烛、拉电闸、摇蒲扇/吊扇 * 铝饭盒、搪瓷碗缸、老式竹凉席 * 胡同/大院/弄堂游戏（拍洋画、跳皮筋、丢沙包）、天台/阳台场景 * 严厉的父母/鸡毛掸子、独生子女、邻居玩伴 。--- 风格规则：* 聚焦微时刻 * 包含沉默、混乱、尴尬停顿 * 混合群体+个人时刻 。--- 🔥 最终验证（最重要）：对于每个场景，请检查：1. "这个没有旁白能看懂吗？"2. "这感觉像真实的记忆吗？" 如果否→重写 --- 输出：仅编号场景 无标题 无解释

我觉得很重要的一环来了，就是每个场景中涉及的角色，我们需要保持一致，那么这个中间就需要创造场景中的主要角色了。加入我的童年中主要涉及的角色有：自己，小学同学a，同学b，男女同学，还有父母和爷爷奶奶等主要出现的角色多点，我们就需要每个角色为他们设计角色图。但是我建议也不要太多的角色，会不会造成你生成的图像崩坏，就看你前期如何把角色和场景规划好了。角色提示词如下：

角色提示：扮演一位顶尖的电影感角色设计师和AI视觉提示工程师，专注于中国90年代怀旧内容。你的任务是分析场景并提取4-5个一致的角色。确保所有角色反映中国90年代普通家庭生活。--- 输出结构：角色名称：故事中的角色：年龄：外貌：（东亚特征、平头/双马尾/碎发、汗水、不完美的细节）服装风格：（宽大运动校服、海魂衫、的确良衬衫、塑料凉鞋、回力鞋）性格特征：（5-6个真实特征）行为细节：（微动作：喊“妈！”、拍打电视机侧面、转天线、舔冰棍等）情感功能：（天真、混乱、温暖、紧张）场景存在感：--- 文本转图像提示：* 全身 * 纯白背景 * 无道具 * 吉卜力风格 * 柔和光照 * 清晰轮廓 严格：* 仅角色 * 无环境 * 无文字 --- 重要：角色必须感觉像来自真实的中国90年代家庭。不要包含任何其他内容。--- 在一个单一的可复制代码块中提供给我所有角色的图像提示词，每个角色提示词后换一行。格式：[角色名称]文本到图像提示词

以上是我设计分5个角色，我这完全是自动化做的，并没对角色进一步优化，我个人更喜欢设计成三视图加细节特征的角色图，以便更能精准控制。

接下来就是生图和生视频了，假如一个场景对应一个镜头吧。比如我们要生成5分钟左右的视频，每个分镜视频时长是6秒，也就是需要50个视频组成，但是不能每个视频都是6秒中，里面肯定有部分崩坏的画面，需要剪辑掉。可以生成60个分镜提示词，多尝试几次，你就能找到网感了。下面是生图的提示词指令。

图像提示：扮演一位顶尖的电影感提示工程师和视觉叙事专家，专注于设定在1990年代中国的吉卜力风格图像。你的任务是将场景转换为极其详细的文本转图像提示，完整转化：* 场景上下文 * 地点 * 角色动作 * 周围环境 * 情感基调 成为单一丰富的电影感画面。--- 核心目标：每张图像必须感觉像一个完整的故事时刻，而不仅仅是一个视觉画面。观众应能理解：* 场景发生在哪里 * 正在发生什么 * 为什么会发生（通过信号）无需任何对话或文字。--- 输出格式：场景[编号]：出场角色：图像提示：--- 🚨 超细节规则（最重要）：你必须提取并包含场景中的所有细节：* 确切地点（房间/街道/天台/厨房/教室）* 一天中的时间 * 环境布局 * 出现的物品 * 角色动作 * 情感线索 * 纹理和氛围 不得泛泛而谈。--- 图像提示结构（扩展版）：1. 地点与场景设置（非常详细）* 清晰定义场景设置地点：* 老式单元房厨房/拥挤卧室/老小区天台/胡同小巷/学校教室 * 包含布局：* 墙面状况（掉漆绿墙裙、水渍、裂缝）* 地面类型（水磨石、水泥、马赛克瓷砖）* 家具摆放（折叠圆桌、五斗柜、竹躺椅）* 包含周围元素：* 搪瓷茶缸、暖水瓶、老式挂历、电线、水桶、杂物架、木框窗户。 2. 角色动作（主要信号）* 逐步描述确切动作 * 包含与环境的物理互动 示例：* 双手端着铝饭盒 * 凑近显像管电视拍打侧面 * 赤脚在水磨石地上奔跑 。3. 肢体语言与表情 * 面部表情 * 姿势（倾斜、坐着、弯腰）* 情感清晰度（紧迫感、兴奋、犹豫）。4. 物品信号（关键）* 包含2-4个解释上下文的物品：* 挂钟（等待）* 显像管电视机/鱼骨天线（专注）* 帆布书包/红领巾（紧迫感）* 铝饭盒/搪瓷碗（家庭生活）物品必须在画面中处于活跃状态，而非装饰性。5. 环境细节（微观层面）* 墙壁：掉皮绿墙裙、张贴的课程表/三好学生奖状 * 风扇：略带灰尘的老式吊扇 * 电线：裸露或缠绕绝缘胶布 * 窗户：木框玻璃窗、部分打开、旧窗帘 。6. 光照（非常具体）* 光源：* 白炽灯泡/日光灯管/午后阳光 * 光线行为：* 斑驳树影 * 闪烁/频闪 * 暖黄光晕 。7. 纹理与氛围 * 光线中可见的灰尘颗粒 * 潮湿闷热感 * 额头细汗 * 棉布褶皱 * 略带岁月痕迹的真实感 。8. 景深与构图 * 前景元素（靠近镜头的物品）* 主体位于中景 * 背景细节可见 * 自然取景（门框、窗棂、楼道扶手）。9. 摄像机视角 * 指定：* 特写/中景/广角 * 角度：* 平视/略低角度/过肩镜头 。--- 风格（必填）：* 吉卜力风格灵感 * 手绘动画外观 * 柔和水彩纹理 * 温暖怀旧色调 * 略带不完美的真实感 。--- 负面规则：* 无现代物品 * 无文字 * 无水印 * 无奇幻夸张 * 无空白背景* 无英文 。--- 结尾标签（始终添加）："吉卜力风格，中国90年代背景，超细节环境，可见动作和信号，手绘动画，柔和光照，温暖怀旧色调，电影感构图" 。--- 最终验证：在最终确定每个提示之前，请检查：1. "地点是否清晰可见？" 2. "动作是否能理解？" 3. "上下文物品是否清晰？" 4. "没有对话场景能看懂吗？" 如果任何答案为否→改进细节。--- 输出规则：一次最多提供25个提示 所有提示放在一个可复制的代码块中 每个提示后加一个空行 然后等待下一批请求 不要在格式之外包含任何内容。

以上你可以参考作为结构模板，进行优化和修改。找到最适合自己的画风。

用自动化工具生成出来的图像并不能精确控制，想要作出比较高的质量建议还是半自动和手动配合。但是自动化工具对于制作解说类的动画频道是完全可以，只需要把控一个角色，里面的场景不需要做太多关心。生图工具用nano banana 2.

文生图的分镜提示词有了以后，那么我们需要将图像制作成有内涵的视频，这就需要一个与图像和场景意涵相同的视频动态提示词了。我先把视频提示词指令给出来：

视频提示：扮演一位顶尖的电影感动画导演和视觉叙事专家，专注于设定在1990年代中国的吉卜力风格怀旧叙事。你的任务是为每个场景生成高度详细的电影感视频提示，通过结合：1. 之前生成的场景 2. 之前生成的图像提示 --- 核心目标：每个视频提示必须感觉像一个完整的鲜活记忆，而不仅仅是一个动画。你必须融合：* 场景意图（情感+上下文）* 图像视觉（构图+物品+环境）以创建深度沉浸、详细的视频提示。--- 输出格式：场景[编号]：出场角色：[列出角色名称及详细视觉标识] 视频提示：[高度详细的电影感动画描述] 对话：[仅在需要时包含，否则写：无] --- 🚨 超细节规则（最重要）：你必须从场景+图像中提取并包含以下所有内容：* 确切动作 * 环境细节 * 出现的物品 * 情感基调 * 一天中的时间 * 纹理和氛围 不得丢失任何细节。--- 视频提示结构（扩展版）：1. 主要动作流程（场景驱动）：* 逐步描述确切正在发生的事情 * 包含动作序列（开始→中间→结束）* 不跳过任何动作 2. 微动作层 ：* 眨眼、手指移动、呼吸 * 衣物移动、汗水、细微手势 3. 肢体语言与情感 ：* 姿势、犹豫、紧迫感、兴奋 * 必须匹配场景情感 4. 物品互动（关键）：* 角色如何与物品互动 * 包含触觉细节：* 铝饭盒轻响/搪瓷茶缸碰撞 * 吊扇风吹动头发 * 电视机显像管闪烁反射 5. 环境细节（图像+场景融合）：* 墙壁、纹理、家具、布局 * 中国90年代真实感：* 掉漆绿墙裙 * 水磨石地面 * 闷热潮湿感 * 灰尘颗粒 6. 环境动态 ：* 吊扇旋转速度 * 旧窗帘微动 * 光线中漂浮的灰尘 * 厨房/搪瓷缸冒出的热气 7. 光照动态 ：* 确切光源（白炽灯泡/日光灯管/午后阳光）* 光线强度+阴影行为 * 时间真实感 8. 摄像机电影摄影（非常详细）：* 以以下开始：* 取景（特写/中景/广角）* 移动：* 缓慢推进（默认）* 轻微平移/倾斜 * 景深：* 前景+背景分层 * 可选：* 细微手持微动 9. 背景音效与音乐（必填）：* 柔和的中国传统乐器/怀旧配乐与吉卜力音调融合。 包含：* 竹笛或箫的轻柔旋律 * 极细微的木吉他/手风琴/轻柔打击节奏 * 温暖的环境基底音。同时包含：* 环境音效层：* 吊扇转动声 * 铝制餐具轻碰声 * 远处自行车铃声/胡同弄堂背景音/夏日蝉鸣。音乐必须：* 匹配情感基调 * 保持柔和沉浸 * 永不压倒视觉 10. 对话（智能+上下文相关）评估："场景视觉上清晰吗？" 如果是→对话：无 。如果否→添加最少90年代中文口语/市井对话 。--- 对话规则：* 最多3-8个词 * 仅1-2行 * 必须直接匹配场景动作。--- 角色特定对话：每行必须包含：角色名称（视觉标识）："台词" 示例：小明（10岁男孩，平头，宽大蓝白校服，额头微汗）：“妈，天线调好了没？快开始了！”。11. 节奏与时间 * 缓慢、呼吸般的节奏 * 无突然快速剪辑 * 自然节奏 。--- 风格：* 吉卜力风格灵感 * 手绘外观 * 温暖怀旧色调 * 略带不完美的真实感 --- 负面规则：* 无过度表演 * 无现代元素 * 无夸张动作 * 无响亮电影感音乐 --- 结尾标签（每个分镜提示词结构始终添加）："吉卜力动画风格，中国90年代怀旧背景，超细节环境和动作，可见信号叙事，电影感慢速摄像机，柔和中式乐器与怀旧配乐背景音，情感沉浸" --- 最终验证（必填）：在最终确定每个提示之前，请检查：1. "有没有遗漏任何细节？" 2. "这个没有旁白能看懂吗？" 3. "这感觉像真实的90年代中国记忆吗？" 如果否→优化。--- 输出规则：提示放在一个可复制的代码块中 一次生成20个提示 然后等待下一批请求 不要在格式之外包含任何内容。如果场景中包含对话，必须包含对话。每个提示中必须包含柔和的怀旧/传统乐器背景音乐。

视频动态提示词也需要好好研究下，因为它涉及你能否生成一个相对满意的视频的关键。比如运镜，动作表达，说什么话，音色，音效等等。视频生成工具是grok 可以生成10秒的视频，成本也比较低。以上关于这些的提示词虽然都有了，但我建议者几个提示词能够以表格的形式一起生成出来类似这样：

有编号，有对应的场景文字，每个场景对应的图像提示词和视频提示词。这样你更能直观地看到。也不至于搞乱，搞混淆。以上的提示词我都重新根据自己的要求优化了一遍。以上我给到是我原始的提示词指令模板。

以上文章相对较长，但都是干货，一直迷茫的你，希望能给到你一些启发。