乐于分享
好东西不私藏

输一个成语AI工作流 自动出一条带封面带字幕的儿童成语故事视频

输一个成语AI工作流 自动出一条带封面带字幕的儿童成语故事视频

📜
Coze工作流 · S197 · 成语视频智能体

输一个成语AI 自动出一条带封面带字幕的儿童成语故事视频—— S197 全 17 节点拆解 · 一键导入剪映可剪辑

AI 写故事即梦配图语音合成剪映自动剪辑

儿童国学赛道是这两年最稳定的内容方向之一——成语故事、古诗讲解、传统文化短视频,每一类都是家长愿意主动转发、平台愿意推流的优质内容。但做这个赛道的人都有一个共同痛点:

一条 1~2 分钟的成语故事视频,要写故事文案 → 配儿童语调的旁白 → 画风格统一的儿童插画 → 剪辑配字幕加封面——每个环节都耗时,团队作业一天最多出 2~3 条,单人作业一周能更新一两条就不错了。

S197 工作流把这一整套流程全部自动化了:你只输入一个成语(比如”画蛇添足”),AI 自动生成故事文案、统一人物形象、批量配卡通插画、合成儿童语音、计算时长、加字幕、加封面、加关键帧动画——最后输出一个剪映草稿 ID,打开剪映就能直接预览和导出视频。

已关注

关注

重播 分享

这是我目前拆解过的最复杂、也是最完整的一条工作流。今天把 17 个节点逐个讲清楚。

🎯 输入什么 · 输出什么
INPUT 你提供
✦ 一个成语(title)  如”画蛇添足””刻舟求剑”✦ 米核 API Key就 2 个参数,无需其他
OUTPUT AI 自动产出
✦ 一个剪映草稿 ID✦ 包含:故事文案 + 10张卡通插画✦ 儿童旁白音频 + 同步字幕✦ 故事封面图(带成语标题)✦ 关键帧动画 · 一键导出视频
⏱️全流程约 5~12 分钟。跑完后用剪映打开草稿,就能看到完整时间轴——图片、音频、字幕、关键帧全部对齐。直接导出就是成品视频。
💡 这条工作流适合谁?
🎬儿童国学赛道博主:成语故事、神话传说、古诗讲解类账号📚教育内容创作者:制作课件配套视频、绘本伴读视频👨‍👩‍👧育儿博主:给孩子做睡前故事视频、早教内容🏫学校老师:批量生产寓教于乐的成语故事教学素材💼MCN 内容工厂:批量孵化儿童国学账号,规模化产能
工作流总体架构

工作流总架构 · 17 节点 · 4 个模块

S197 是迄今为止编排最完整的视频生成工作流之一。整体可以划分为4 个模块

A
内容生产模块
3 个 LLM 节点(故事/形象/封面提示词)+ 即梦封面生成 + 画板渲染。把”成语”变成”故事+人物设定+封面图”。
B
音频处理模块
文本处理(按标点分段)+ 代码节点(数组化)+ 循环节点(10次配音+测时长)。把”故事”变成”分段音频+精确时长”。
C
批量画图模块
批处理节点(并发=2):每段文本独立走「分镜LLM→拼接提示词→即梦生图→失败重试」。10 段文本对应 10 张图。
D
视频合成模块
重组结构(计算时间轴)+ 剪映 5 个 API(创建草稿/加图/加音/加关键帧/加字幕)。所有素材按时间轴自动对齐。
▌ 完整流程图
A · 内容生产
① 开始 · 输入成语 + Key
② 大模型 · 写成语故事(豆包2.0mini)
③ 大模型_形象 · 设计统一人物形象
↓ 分两路
封面分支
④ 大模型_封面
⑤ 即梦生封面图
⑥ 画板叠标题
故事分支
⑦ 文本处理(分段)
⑧ 代码节点(数组化)
B · 音频处理
⑨ 循环节点 · 配音 + 测时长(10 次)
C · 批量画图
⑩ 批处理 · 10 段文本 → 10 张插图(含失败重试)
D · 视频合成
⑪ 重组结构 · 计算时间轴 JSON
⑫ create_draft · 创建剪映草稿
⑬ add_images / ⑭ add_audios / ⑮ add_keyframes / ⑯ add_captions
⑰ 结束 · 输出 draft_id(剪映打开)
📌整条流的精妙之处:它不是简单的”AI 一键出视频”,而是把视频拆成「图、音、字、动效」四种素材,分别由 AI 生成,然后通过剪映 API 在时间轴上精确对齐。最终输出的草稿可以在剪映里手动微调——这才是工程化的实用流。
使用前的准备

使用前要准备的三样东西

米核 API Key

即梦图片生成需要米核代理。miheai.coms/81766注册 → 创建 Key → 充值。一条成语视频用图约 11 张(10 段插图+1 张封面),加上重试容忍,单条成本约 4~7 元。

扣子三个核心插件

扣子插件商店搜索安装:

即梦图片生成(jimeng_generate_image)语音合成(speech_synthesis · 含 get_audio_duration)视频合成_剪映小助手(含 create_draft / add_images / add_audios / add_keyframes / add_captions)
剪映客户端 + 已登录账号

最终输出的是剪映草稿 ID,需要用剪映专业版(电脑端)或剪映APP打开 → 通过 ID 找到草稿 → 编辑/导出视频。剪映小助手插件会把草稿同步到你登录的剪映账号下。

核心节点拆解

关键节点详解(按 4 大模块分组)

▌ 模块 A · 内容生产模块(节点 ①~⑥)
🚦
① 开始节点 —— 只接收 2 个参数
节点ID: 100001 · title(成语)+ mihe_key
比所有 AI 视频工作流都简洁——只问你两个事:你想做哪个成语?你的米核Key是?这种极简入参也是工作流”傻瓜化”的典型代表。
📖
② 大模型 —— 写成语故事
节点ID: 167074 · 模型:豆包·2.0·mini · 角色:中国成语故事大全
# 角色:中国成语故事大全# 目标:受众是儿童,故事化体现成语意思# 风格:儿童容易理解的表达,用作绘本读物# 工作流:1.收集成语起源 → 2.搭建大纲完善故事 → 3.输出有声解读文案# 输出:合理长短句结构,对段落使用换行符分段

输出是带换行分段的故事文案——这个”换行分段”很关键,后面会用换行符切分成 10 段独立配图。

👦
③ 大模型_形象 —— 固定人物形象
节点ID: 103481 · 这是整条流的”形象一致性”关键

这一步是绘本视频的精髓。AI 生图最大的痛点是”每张图人物长得不一样”。这个节点先统一设计一份人物形象描述(年龄、体貌、服饰),然后传给后续每个分镜,让所有插图的主角形象保持一致。

系统提示词:“你是成语故事绘本人物角色设计专家… 根据故事内容设计人物形象提示词文案。方便后续配图节点固定人物形象。风格:卡通风格、丰富色彩、线条明朗、表情生动。”
🎨
④⑤⑥ 封面三联:提示词 → 即梦生图 → 画板叠标题
节点ID: 139148 + 1738916 + 162439
④ 大模型_封面:结合人物形象 + 故事背景,生成一段封面画面提示词
⑤ 即梦图片4.0 生封面:16:9 比例 · 卡通绘本风格
⑥ 画板节点:把”成语标题”用大字叠加到封面图上 → 输出最终封面
▌ 模块 B · 音频处理模块(节点 ⑦~⑨)
✂️
⑦⑧ 文本处理 + 代码节点 —— 故事拆段成数组
节点ID: 109157(文本处理)+ 155683(代码)

把整段故事按标点切成数组。文本处理节点用句号/换行符作为分隔符,代码节点接着把结果转成 list 数组并清理空字符串:

texts = params[‘contentList’]texts = [t for t in texts if t]  # 清空字符串ret = {“textList”: texts}

💡 输出大约 8~12 段。后面循环节点和批处理节点都会用这个数组。

🔁
⑨ 循环节点 —— 逐段配音 + 测时长
节点ID: 146742 · loopType: array · 内含 speech_synthesis + get_audio_duration

音频处理的核心。循环遍历 textList 数组,对每段文字执行两步:

1. speech_synthesis(语音合成):默认音色”爽快思思/Skye”(可改为儿童音色),生成单段音频URL
2. get_audio_duration(测音频时长):读取该段音频的精确秒数 → 后面用于对齐图片显示时长

💡 循环结束后输出两个数组:aduio_list(10 个音频URL)+ durations(10 个时长)。这两个数组在后面”重组结构”时会和图片数组对齐。

▌ 模块 C · 批量画图模块(节点 ⑩)
🎨
⑩ 批处理节点 —— 10 段文本 → 10 张统一风格插图
节点ID: 147215 · batchSize=100 · concurrentSize=2 · 含 4 个子节点

整条流的”画师车间”。对 textList 里的每段文字独立走一遍流水线:

▌ 批处理内 4 个子节点
a · 大模型_1(豆包1.5Pro)
把段落 + 固定人物形象 → 写出该镜头的配图提示词
b · 文本处理_1(拼接)
在提示词后追加”卡通风格,色彩丰富,线条明朗…”统一风格
c · 即梦生图(图片4.0 · 16:9)
首次调用 jimeng_generate_image 生图
d · 选择器 + 图片生成_1(失败重试)
检测 url 是否为空,失败则触发第二次生图

💡concurrentSize=2 同时跑 2 张图。10 张全部完成约 3~5 分钟。每张失败有重试兜底,成功率接近 99%。

▌ 模块 D · 视频合成模块(节点 ⑪~⑰)
⚙️
⑪ 重组结构 —— 计算时间轴 JSON
节点ID: 191127 · 类型:code(Python)

视频合成的核心算法。把 4 个数组(音频URL/时长/图片URL/字幕)按时间顺序拼成视频轨道 JSON:

for idx in range(len(texts)):  duration = times[idx] * 1000000  # 转微秒  end_time = current_time + int(duration)  audios.append({url, duration, start, end})  imgs.append({url, width:1920, height:1080,transition:”叠化”, transition_duration:1000000})  current_time = end_time

💡 输出 imgs/audios/texts 三组 JSON 字符串 + imageDurations 时长数组。每张图自带”叠化”转场动画,让视频不生硬。

🎬
⑫⑬⑭⑮⑯ 剪映小助手 5 个 API · 自动组装视频
节点ID: 140820 / 182624 / 101187 / 187552 / 175320
⑫ create_draft· 创建一个 1920×1080 的剪映草稿,返回 draft_id
⑬ add_images· 把 10 张插图按时间轴添加到画面轨道(含叠化转场)
⑭ add_audios· 把 10 段音频按时间轴添加到音频轨道
⑮ add_keyframes· 给图片添加缩放/位移关键帧(让画面有”呼吸感”,不死板)
⑯ add_captions(文案)· 把文字按段落生成同步字幕,叠加到视频上

💡这 5 个 API 必须按顺序调用,每个都需要前一个的 draft_id 作为参数。任何一步失败,整条视频就废了。剪映小助手插件保障了这套流程的稳定性。

使用教程

5 步跑通 S197 · 保姆级教程

1️⃣
下载工作流并导入扣子
登录coze.cn→ 工作空间 → 工作流 → 右上角”导入” → 上传 zip 文件 → 等待解析完成。
2️⃣
安装 3 个核心插件
扣子插件商店搜索安装:即梦图片生成+语音合成+视频合成_剪映小助手。前两个是免费插件,剪映小助手部分功能需要订阅。
3️⃣
注册米核 + 登录剪映
miheai.com 注册创建 API Key 充值 30~50 元先测试。同时确认你的剪映客户端已登录账号——剪映小助手会把草稿同步到此账号。
4️⃣
点试运行 · 填参数
打开 S197 工作流 → 右上角”试运行” → 填入:·title = 画蛇添足(或任意成语)·mihe_key = miheai.com/s/81766→ 点击运行。
5️⃣
等 5~12 分钟 · 打开剪映取草稿
运行结束后会输出 draft_id → 复制 → 打开剪映客户端 → “草稿”列表里找到对应ID的草稿 → 直接预览或继续编辑 → 导出视频。

3 个进阶玩法

⚡ 玩法一:换音色 · 让旁白更有亲和力
默认音色”爽快思思”偏成人。打开循环节点里的 speech_synthesis → 修改 speaker_id 为”湾湾小何””可爱萌妹”等儿童亲和音色(参考字节豆包音色文档)。儿童赛道用儿童音色播放完成率更高。
⚡ 玩法二:换风格 · 不只是卡通
在大模型_形象 + 大模型_1(批处理内)的提示词里改风格关键词——把”卡通风格、色彩鲜艳”改为”水墨画风、淡彩晕染”或”3D渲染、像素画风”。同一条工作流可以孵化多种视觉风格的国学账号矩阵。
⚡ 玩法三:拓展赛道 · 不止成语
改大模型节点的角色定义——”中国成语故事”→ “中国神话传说”/”古诗词解读”/”历史人物故事”/”伊索寓言”,整条流的框架完全通用。同样输入一个关键词,自动出对应主题的儿童视频。

常见问题 Q&A

Q:为什么循环节点是固定 10 次,故事段落少于10段会怎样?
A:loopType=array(按数组遍历)的循环节点会按照实际数组长度执行,不是真的 loopCount=10。如果代码节点输出 8 段,循环就跑 8 次。loopCount=10 是上限保护,避免文本过长导致循环爆炸。
Q:人物形象在不同图片里还是不一致怎么办?
A:AI 生图的形象一致性是行业难题,S197 通过”统一形象提示词 + 拼接到每张图”做到了大部分场景一致,但仍有 10~20% 偏差。改进方向:①让大模型_形象的提示词更详细(”5 岁男孩 / 黑色短发 / 红色上衣 / 蓝色短裤”);②在批处理大模型_1 中强制要求”完全沿用以下形象不变”。
Q:剪映里打开草稿但找不到?
A:①确认剪映客户端登录的账号,是和扣子里”剪映小助手”插件绑定的账号;②剪映需要联网刷新草稿列表;③草稿可能延迟几分钟同步,等等再刷新;④如果用剪映APP,请用剪映专业版(电脑端)打开 draft_id 草稿,APP 端兼容性较差。
Q:成本怎么算?
A:单条成语视频成本 ≈ 即梦生图 11 张(约 4~5 元)+ 语音合成 10 段(约 0.5 元)+ 大模型调用(约 0.3 元)+ 剪映 API 调用(极小)=约 5~7 元。如果触发重试会再多 0.3~0.5 元。批量做成语视频,单条成本控制在 10 元内。
Q:能直接在工作流里输出视频文件吗,必须经过剪映吗?
A:S197 输出的是剪映草稿,不是 mp4 文件。如果想直接出视频文件,需要在最后再加一个 export_video 节点(剪映小助手有这个 API)。但建议保留草稿模式——可以在剪映里手动微调(替换不满意的图、调字幕样式、加BGM),比直接出 mp4 更可控。
✦ S197 工作流速记卡
核心能力:输一个成语 → 自动生成完整儿童故事视频草稿(图+音+字+动效)
技术栈:豆包大模型 + 即梦图片4.0 + 语音合成 + 剪映小助手
输出规格:1920×1080 横版 · 60~120 秒 · 含字幕封面关键帧动画
运行参数:17 节点 · 4 模块 · 5~12 分钟/条 · 成本 5~7 元/条
💬 你想做哪个方向的儿童故事视频号?
成语故事 / 神话传说 / 古诗讲解 / 寓言故事…评论区告诉我你的方向,帮你优化提示词模板 👇
私信:【成语视频】获取此工作流文件!

觉得有用,收藏备查 ✨

转发给做儿童内容的朋友

— END —