输一个成语AI工作流自动出一条带封面带字幕的儿童成语故事视频

📜

Coze工作流 · S197 · 成语视频智能体

输一个成语AI 自动出一条带封面带字幕的儿童成语故事视频—— S197 全 17 节点拆解 · 一键导入剪映可剪辑

AI 写故事即梦配图语音合成剪映自动剪辑

儿童国学赛道是这两年最稳定的内容方向之一——成语故事、古诗讲解、传统文化短视频，每一类都是家长愿意主动转发、平台愿意推流的优质内容。但做这个赛道的人都有一个共同痛点：

一条 1~2 分钟的成语故事视频，要写故事文案 → 配儿童语调的旁白 → 画风格统一的儿童插画 → 剪辑配字幕加封面——每个环节都耗时，团队作业一天最多出 2~3 条，单人作业一周能更新一两条就不错了。

S197 工作流把这一整套流程全部自动化了：你只输入一个成语（比如”画蛇添足”），AI 自动生成故事文案、统一人物形象、批量配卡通插画、合成儿童语音、计算时长、加字幕、加封面、加关键帧动画——最后输出一个剪映草稿 ID，打开剪映就能直接预览和导出视频。

已关注

关注

重播分享赞

视频详情

这是我目前拆解过的最复杂、也是最完整的一条工作流。今天把 17 个节点逐个讲清楚。

🎯 输入什么 · 输出什么

INPUT 你提供

✦ 一个成语（title）如”画蛇添足””刻舟求剑”✦ 米核 API Key就 2 个参数，无需其他

OUTPUT AI 自动产出

✦ 一个剪映草稿 ID✦ 包含：故事文案 + 10张卡通插画✦ 儿童旁白音频 + 同步字幕✦ 故事封面图（带成语标题）✦ 关键帧动画 · 一键导出视频

⏱️全流程约 5~12 分钟。跑完后用剪映打开草稿，就能看到完整时间轴——图片、音频、字幕、关键帧全部对齐。直接导出就是成品视频。

💡 这条工作流适合谁？

🎬儿童国学赛道博主：成语故事、神话传说、古诗讲解类账号📚教育内容创作者：制作课件配套视频、绘本伴读视频👨‍👩‍👧育儿博主：给孩子做睡前故事视频、早教内容🏫学校老师：批量生产寓教于乐的成语故事教学素材💼MCN 内容工厂：批量孵化儿童国学账号，规模化产能

工作流总体架构

工作流总架构 · 17 节点 · 4 个模块

S197 是迄今为止编排最完整的视频生成工作流之一。整体可以划分为4 个模块：

内容生产模块

3 个 LLM 节点（故事/形象/封面提示词）+ 即梦封面生成 + 画板渲染。把”成语”变成”故事+人物设定+封面图”。

音频处理模块

文本处理（按标点分段）+ 代码节点（数组化）+ 循环节点（10次配音+测时长）。把”故事”变成”分段音频+精确时长”。

批量画图模块

批处理节点（并发=2）：每段文本独立走「分镜LLM→拼接提示词→即梦生图→失败重试」。10 段文本对应 10 张图。

视频合成模块

重组结构（计算时间轴）+ 剪映 5 个 API（创建草稿/加图/加音/加关键帧/加字幕）。所有素材按时间轴自动对齐。

▌ 完整流程图

A · 内容生产

① 开始 · 输入成语 + Key

↓

② 大模型 · 写成语故事（豆包2.0mini）

↓

③ 大模型_形象 · 设计统一人物形象

↓ 分两路

封面分支

④ 大模型_封面

↓

⑤ 即梦生封面图

↓

⑥ 画板叠标题

故事分支

⑦ 文本处理（分段）

↓

⑧ 代码节点（数组化）

B · 音频处理

⑨ 循环节点 · 配音 + 测时长（10 次）

C · 批量画图

⑩ 批处理 · 10 段文本 → 10 张插图（含失败重试）

D · 视频合成

⑪ 重组结构 · 计算时间轴 JSON

↓

⑫ create_draft · 创建剪映草稿

↓

⑬ add_images / ⑭ add_audios / ⑮ add_keyframes / ⑯ add_captions

↓

⑰ 结束 · 输出 draft_id（剪映打开）

📌整条流的精妙之处：它不是简单的”AI 一键出视频”，而是把视频拆成「图、音、字、动效」四种素材，分别由 AI 生成，然后通过剪映 API 在时间轴上精确对齐。最终输出的草稿可以在剪映里手动微调——这才是工程化的实用流。

使用前的准备

使用前要准备的三样东西

①

米核 API Key

即梦图片生成需要米核代理。miheai.coms/81766注册 → 创建 Key → 充值。一条成语视频用图约 11 张（10 段插图+1 张封面），加上重试容忍，单条成本约 4~7 元。

②

扣子三个核心插件

扣子插件商店搜索安装：

✦即梦图片生成（jimeng_generate_image）✦语音合成（speech_synthesis · 含 get_audio_duration）✦视频合成_剪映小助手（含 create_draft / add_images / add_audios / add_keyframes / add_captions）

③

剪映客户端 + 已登录账号

最终输出的是剪映草稿 ID，需要用剪映专业版（电脑端）或剪映APP打开 → 通过 ID 找到草稿 → 编辑/导出视频。剪映小助手插件会把草稿同步到你登录的剪映账号下。

核心节点拆解

关键节点详解（按 4 大模块分组）

▌ 模块 A · 内容生产模块（节点 ①~⑥）

🚦

① 开始节点 —— 只接收 2 个参数

节点ID: 100001 · title（成语）+ mihe_key

比所有 AI 视频工作流都简洁——只问你两个事：你想做哪个成语？你的米核Key是？这种极简入参也是工作流”傻瓜化”的典型代表。

📖

② 大模型 —— 写成语故事

节点ID: 167074 · 模型：豆包·2.0·mini · 角色：中国成语故事大全

# 角色：中国成语故事大全# 目标：受众是儿童，故事化体现成语意思# 风格：儿童容易理解的表达，用作绘本读物# 工作流：1.收集成语起源 → 2.搭建大纲完善故事 → 3.输出有声解读文案# 输出：合理长短句结构，对段落使用换行符分段

输出是带换行分段的故事文案——这个”换行分段”很关键，后面会用换行符切分成 10 段独立配图。

👦

③ 大模型_形象 —— 固定人物形象

节点ID: 103481 · 这是整条流的”形象一致性”关键

这一步是绘本视频的精髓。AI 生图最大的痛点是”每张图人物长得不一样”。这个节点先统一设计一份人物形象描述（年龄、体貌、服饰），然后传给后续每个分镜，让所有插图的主角形象保持一致。

系统提示词：“你是成语故事绘本人物角色设计专家… 根据故事内容设计人物形象提示词文案。方便后续配图节点固定人物形象。风格：卡通风格、丰富色彩、线条明朗、表情生动。”

🎨

④⑤⑥ 封面三联：提示词 → 即梦生图 → 画板叠标题

节点ID: 139148 + 1738916 + 162439

④ 大模型_封面：结合人物形象 + 故事背景，生成一段封面画面提示词

⑤ 即梦图片4.0 生封面：16:9 比例 · 卡通绘本风格

⑥ 画板节点：把”成语标题”用大字叠加到封面图上 → 输出最终封面

▌ 模块 B · 音频处理模块（节点 ⑦~⑨）

✂️

⑦⑧ 文本处理 + 代码节点 —— 故事拆段成数组

节点ID: 109157（文本处理）+ 155683（代码）

把整段故事按标点切成数组。文本处理节点用句号/换行符作为分隔符，代码节点接着把结果转成 list 数组并清理空字符串：

texts = params[‘contentList’]texts = [t for t in texts if t] # 清空字符串ret = {“textList”: texts}

💡 输出大约 8~12 段。后面循环节点和批处理节点都会用这个数组。

🔁

⑨ 循环节点 —— 逐段配音 + 测时长

节点ID: 146742 · loopType: array · 内含 speech_synthesis + get_audio_duration

音频处理的核心。循环遍历 textList 数组，对每段文字执行两步：

1. speech_synthesis（语音合成）：默认音色”爽快思思/Skye”（可改为儿童音色），生成单段音频URL

2. get_audio_duration（测音频时长）：读取该段音频的精确秒数 → 后面用于对齐图片显示时长

💡 循环结束后输出两个数组：aduio_list（10 个音频URL）+ durations（10 个时长）。这两个数组在后面”重组结构”时会和图片数组对齐。

▌ 模块 C · 批量画图模块（节点 ⑩）

🎨

⑩ 批处理节点 —— 10 段文本 → 10 张统一风格插图

节点ID: 147215 · batchSize=100 · concurrentSize=2 · 含 4 个子节点

整条流的”画师车间”。对 textList 里的每段文字独立走一遍流水线：

▌ 批处理内 4 个子节点

a · 大模型_1（豆包1.5Pro）

把段落 + 固定人物形象 → 写出该镜头的配图提示词

b · 文本处理_1（拼接）

在提示词后追加”卡通风格，色彩丰富，线条明朗…”统一风格

c · 即梦生图（图片4.0 · 16:9）

首次调用 jimeng_generate_image 生图

d · 选择器 + 图片生成_1（失败重试）

检测 url 是否为空，失败则触发第二次生图

💡concurrentSize=2 同时跑 2 张图。10 张全部完成约 3~5 分钟。每张失败有重试兜底，成功率接近 99%。

▌ 模块 D · 视频合成模块（节点 ⑪~⑰）

⚙️

⑪ 重组结构 —— 计算时间轴 JSON

节点ID: 191127 · 类型：code（Python）

视频合成的核心算法。把 4 个数组（音频URL/时长/图片URL/字幕）按时间顺序拼成视频轨道 JSON：

for idx in range(len(texts)): duration = times[idx] * 1000000 # 转微秒 end_time = current_time + int(duration) audios.append({url, duration, start, end}) imgs.append({url, width:1920, height:1080,transition:”叠化”, transition_duration:1000000}) current_time = end_time

💡 输出 imgs/audios/texts 三组 JSON 字符串 + imageDurations 时长数组。每张图自带”叠化”转场动画，让视频不生硬。

🎬

⑫⑬⑭⑮⑯ 剪映小助手 5 个 API · 自动组装视频

节点ID: 140820 / 182624 / 101187 / 187552 / 175320

⑫ create_draft· 创建一个 1920×1080 的剪映草稿，返回 draft_id

⑬ add_images· 把 10 张插图按时间轴添加到画面轨道（含叠化转场）

⑭ add_audios· 把 10 段音频按时间轴添加到音频轨道

⑮ add_keyframes· 给图片添加缩放/位移关键帧（让画面有”呼吸感”，不死板）

⑯ add_captions（文案）· 把文字按段落生成同步字幕，叠加到视频上

💡这 5 个 API 必须按顺序调用，每个都需要前一个的 draft_id 作为参数。任何一步失败，整条视频就废了。剪映小助手插件保障了这套流程的稳定性。

使用教程

5 步跑通 S197 · 保姆级教程

1️⃣

下载工作流并导入扣子

2️⃣

安装 3 个核心插件

扣子插件商店搜索安装：即梦图片生成+语音合成+视频合成_剪映小助手。前两个是免费插件，剪映小助手部分功能需要订阅。

3️⃣

注册米核 + 登录剪映

miheai.com 注册创建 API Key 充值 30~50 元先测试。同时确认你的剪映客户端已登录账号——剪映小助手会把草稿同步到此账号。

4️⃣

点试运行 · 填参数

打开 S197 工作流 → 右上角”试运行” → 填入：·title = 画蛇添足（或任意成语）·mihe_key = miheai.com/s/81766→ 点击运行。

5️⃣

等 5~12 分钟 · 打开剪映取草稿

运行结束后会输出 draft_id → 复制 → 打开剪映客户端 → “草稿”列表里找到对应ID的草稿 → 直接预览或继续编辑 → 导出视频。

3 个进阶玩法

⚡ 玩法一：换音色 · 让旁白更有亲和力

默认音色”爽快思思”偏成人。打开循环节点里的 speech_synthesis → 修改 speaker_id 为”湾湾小何””可爱萌妹”等儿童亲和音色（参考字节豆包音色文档）。儿童赛道用儿童音色播放完成率更高。

⚡ 玩法二：换风格 · 不只是卡通

在大模型_形象 + 大模型_1（批处理内）的提示词里改风格关键词——把”卡通风格、色彩鲜艳”改为”水墨画风、淡彩晕染”或”3D渲染、像素画风”。同一条工作流可以孵化多种视觉风格的国学账号矩阵。

⚡ 玩法三：拓展赛道 · 不止成语

改大模型节点的角色定义——”中国成语故事”→ “中国神话传说”/”古诗词解读”/”历史人物故事”/”伊索寓言”，整条流的框架完全通用。同样输入一个关键词，自动出对应主题的儿童视频。

常见问题 Q&A

Q：为什么循环节点是固定 10 次，故事段落少于10段会怎样？

A：loopType=array（按数组遍历）的循环节点会按照实际数组长度执行，不是真的 loopCount=10。如果代码节点输出 8 段，循环就跑 8 次。loopCount=10 是上限保护，避免文本过长导致循环爆炸。

Q：人物形象在不同图片里还是不一致怎么办？

A：AI 生图的形象一致性是行业难题，S197 通过”统一形象提示词 + 拼接到每张图”做到了大部分场景一致，但仍有 10~20% 偏差。改进方向：①让大模型_形象的提示词更详细（”5 岁男孩 / 黑色短发 / 红色上衣 / 蓝色短裤”）；②在批处理大模型_1 中强制要求”完全沿用以下形象不变”。

Q：剪映里打开草稿但找不到？

A：①确认剪映客户端登录的账号，是和扣子里”剪映小助手”插件绑定的账号；②剪映需要联网刷新草稿列表；③草稿可能延迟几分钟同步，等等再刷新；④如果用剪映APP，请用剪映专业版（电脑端）打开 draft_id 草稿，APP 端兼容性较差。

Q：成本怎么算？

A：单条成语视频成本 ≈ 即梦生图 11 张（约 4~5 元）+ 语音合成 10 段（约 0.5 元）+ 大模型调用（约 0.3 元）+ 剪映 API 调用（极小）=约 5~7 元。如果触发重试会再多 0.3~0.5 元。批量做成语视频，单条成本控制在 10 元内。

Q：能直接在工作流里输出视频文件吗，必须经过剪映吗？

A：S197 输出的是剪映草稿，不是 mp4 文件。如果想直接出视频文件，需要在最后再加一个 export_video 节点（剪映小助手有这个 API）。但建议保留草稿模式——可以在剪映里手动微调（替换不满意的图、调字幕样式、加BGM），比直接出 mp4 更可控。

✦ S197 工作流速记卡

核心能力：输一个成语 → 自动生成完整儿童故事视频草稿（图+音+字+动效）

技术栈：豆包大模型 + 即梦图片4.0 + 语音合成 + 剪映小助手

输出规格：1920×1080 横版 · 60~120 秒 · 含字幕封面关键帧动画

运行参数：17 节点 · 4 模块 · 5~12 分钟/条 · 成本 5~7 元/条

💬 你想做哪个方向的儿童故事视频号？

成语故事 / 神话传说 / 古诗讲解 / 寓言故事…评论区告诉我你的方向，帮你优化提示词模板 👇

私信：【成语视频】获取此工作流文件！

觉得有用，收藏备查 ✨

转发给做儿童内容的朋友

— END —