
2026 年第一季度,短剧市场突然变了。河南一家曾经月产 200 部真人短剧的公司,悄悄裁员四五百人,开始给员工办 AI 培训班。西安、郑州、杭州的短剧工作室集体转向 AI 制作,成本压到原来的三分之一,效率提升三倍。
与此同时,商汤的 Seko 2.0 合作短剧登上抖音 AI 短剧榜第一,字节的「小云雀」打出「一句话生成完整短剧」的旗号,GitHub 上 waoowaoo、Jellyfish、火宝短剧等开源项目接连涌现。
所有人都在问同一个问题:Agent 短剧软件到底怎么做?护城河在哪里?
一、Agent 短剧软件到底在做什么
传统短剧流程是这样的:编剧写剧本,导演拆分镜,摄影师拍摄,剪辑师剪片,配音演员配音。十几人的团队,两三个月,一部 50 集的剧才能面世。
Agent 短剧软件要做的事情很直接:把整条流水线塞进一个软件里,让 AI 来执行每个环节。你输入一句话创意,它还你一部成片。
这不是简单的文生视频工具。文生视频只解决「从文字到一个 5 秒镜头」的问题,而短剧是几十集、上百个镜头、几个固定角色、连贯剧情的复杂任务。它需要的不是一个模型,而是一整套 Agent 编排系统。
二、技术架构拆解:六个核心模块
我们来看一个典型 Agent 短剧软件的完整技术栈。以 GitHub 上的 waoowaoo、Jellyfish、火宝短剧为例,它们的架构高度相似,都由六个模块串联而成。
模块一:剧本生成与结构化
起点是一段创意描述,可能只有几十个字。LLM(通常是 Claude、GPT、DeepSeek 或国产大模型)首先把它扩写为完整剧本,包含角色设定、场景描述、对白、旁白。
关键不是「写出剧本」,而是「结构化剧本」。输出必须是机器可读的 JSON:每一集拆成若干镜头,每个镜头标注场景 ID、角色 ID、动作描述、对白、时长、机位。这一步决定了后续所有环节能不能自动化。
火宝短剧采用 DDD 领域驱动设计,把「剧本-角色-场景-分镜」建模为领域对象;Toonflow 则设计了三层 Agent 系统:决策层做任务拆解,执行层做内容生成,监督层做质量审核和反馈。
模块二:角色与场景的一致性生成
这是最难的环节。短剧里同一个角色要出现几十次,不能每次都长得不一样。
解决方案分两条路线。一条是参考图路线:先用 Midjourney、即梦生图或 Seko IDX 生成一张主角定妆照,后续所有镜头都把这张图作为参考输入,配合 LoRA 微调或 IP-Adapter 保持一致性。另一条是模型内嵌路线:商汤的 SekoIDX 在扩散模型的高噪声阶段引入「负样本参考图」,主动拉开角色与干扰项的特征距离,让同一角色在不同分镜、不同表情、不同动作下依然可识别。
场景一致性同理。系统维护一个「素材库」:主角形象图、场景背景图、道具图、服装图。每次生成新镜头时,Agent 自动从库中检索对应素材,通过多图参考输入送进视频模型。
模块三:分镜脚本的自动生成
有了剧本和角色素材,接下来要把每一集拆成具体镜头。这一步是纯 LLM 任务,但提示词工程非常讲究。
分镜脚本要包含:镜头类型(近景、全景、特写)、运镜方式(推拉摇移、环绕)、景别切换逻辑、节奏控制、情绪曲线。一集 5 分钟的短剧大约需要 15 到 25 个分镜,模型要一次性输出并保持逻辑连贯。
Seko 2.0 在这里做了一个关键优化:支持高达 100 集的剧本管理,Agent 在生成新集分镜时能读取前序集的角色状态、道具位置、未解决的情节线索,保证长剧不穿帮。这件事单集视频模型做不到,必须由 Agent 层做上下文管理。
模块四:视频生成,Seedance 2.0 改变了游戏规则
视频模型是整条流水线的「发动机」。过去大家用 Runway、Kling、Luma,今年所有目光都转向了即梦的 Seedance 2.0。
Seedance 2.0 的颠覆性在于四模态输入:最多 9 张图片、3 个视频(总时长 2 到 15 秒)、3 段音频(总时长不超过 15 秒)、自然语言文本,总上传上限 12 个文件。你可以指定 @图片1 作为首帧、@视频1 参考镜头语言、@音频1 用作配乐,模型自己理解每个素材的用途。
这对短剧意味着什么?
以前生成一场打斗戏,你只能写文字描述,模型理解得对不对全看运气。现在你上传一段参考打斗视频,模型精准复刻运镜节奏;上传角色定妆照,模型保持人物一致;上传配乐片段,模型自动卡点。短剧制作从「碰运气式生成」变成了「导演式控制」。
更关键的是视频延长能力。以前一个镜头只能生成 5 到 10 秒,Seedance 2.0 支持平滑延长已有视频到 15 秒,并且能按提示词生成续镜。这让「几秒镜头堆出一集」成为可能。
模块五:音频生成与多人对口型
短剧的声音比画面更难做。多个角色对白、情绪语气、方言口音、背景音乐、环境音效,每一样都要对上。
主流方案是把音频拆成三层:对白由 TTS 模型生成(MiniMax、ElevenLabs、字节的豆包),情绪由提示词控制;背景音乐由 Suno、即梦音乐生成;环境音效由音效库检索或 Seedance 自带的音效系统合成。
对口型是瓶颈。大多数开源模型只能做单人对口型,超过两个人就崩溃。商汤的 SekoTalk 是业内首个支持超过两人对口型的方案,这让群戏、争吵戏、会议戏真正可用。
模块六:剪辑合成与导出
最后一步是把所有镜头、音轨、字幕、转场串成成片。这一步技术难度最低,但工程量最大。FFmpeg 做底层处理,上层用 Node.js 或 Python 编排,异步任务队列(BullMQ、Celery)处理长耗时作业,Redis 做状态管理。
waoowaoo 的架构是 Next.js 15 + Prisma + Redis + BullMQ,Jellyfish 用 FastAPI + Celery,火宝短剧用 Go + Vue3。技术栈不同,思路一致:重前端交互、重异步任务、重素材管理。
三、五个代表产品的横向对比
看完技术栈,再看市场上的代表玩家。
Seko 2.0(商汤):闭源,自研全栈模型。靠日日新大模型做剧本,SekoIDX 做生图,Seko 1.5 视频模型做生成,SekoTalk 做对口型,Phased DMD 蒸馏技术降本,LightX2V 推理框架开源。20 万创作者,登顶抖音榜第一。典型的「重模型派」。


小云雀(字节):闭源,深度绑定即梦 Seedance 2.0。字节脸萌科技开发,号称全球首个 Seedance 2.0 短剧 Agent,一句话生成完整短剧。「Agent 编排派」,模型借力字节内部,重点做上层 Agent 工作流。

火宝短剧 / Toonflow:开源,Node.js + TypeScript + Electron 桌面端,Vercel AI SDK 对接 OpenAI、Anthropic、Google、DeepSeek。三层 Agent 架构,面向个人创作者。「模型中立派」,不绑定特定模型厂商。

waoowaoo(saturndec):开源,单人维护的工业级影视生产平台。Next.js 15 + MySQL + Prisma + Redis + BullMQ,提供 Docker 一键部署。文档清晰,但还在测试初期。「社区开源派」,适合技术玩家自建。

融光:
一个Java 技术栈基于 Agent 的AI短剧漫剧创作平台:融光

四、护城河到底在哪里
技术栈全公开,模型人人能调,剧本谁都能写。那护城河是什么?
第一层:模型能力。这是商汤、字节、MiniMax 这类大厂的地盘。SekoIDX 的角色一致性算法、SekoTalk 的多人对口型方案、Seedance 2.0 的多模态融合,背后是大量算力、数据和论文积累。中小玩家做不到这一层。
第二层:数据资产。真正值钱的不是模型权重,而是训练数据。短剧数据有几个独特维度:分镜节奏数据、情绪表演数据、方言语音数据、特定题材(霸总、穿越、复仇)的爆款模板。谁掌握了更多高质量短剧数据,谁的模型就更懂这个赛道。
第三层:工作流沉淀。这是开源项目和中小公司的机会点。Seko、小云雀的 Agent 编排逻辑是闭源的,但你可以自己做一套。waoowaoo、Jellyfish 的价值就在这里:把「剧本-角色-场景-分镜-视频-剪辑」的全流程沉淀为可复用的工程模板。工作流越成熟,别人追赶的成本就越高。
第四层:分发渠道。这是被严重低估的一条护城河。百度推「柚漫剧」,腾讯推「火龙漫剧」,抖音、快手、淘宝都发布了 AI 短剧激励计划。内容生产的上游再强,没有流量入口也白搭。字节的小云雀为什么敢说「一句话生成短剧」?因为它背后就是抖音的分发盘。
第五层:IP 生态。传统短剧公司向 AI 转型的最大资产,是他们手上积累的小说 IP、改编经验、爆款题材库。酱油动漫、魔方漫剧、沐心之所以能在 AI 短剧赛道跑得快,就是因为他们既懂内容又有 IP。纯技术团队做不到这一层。
第六层:商业模式。短剧的钱怎么赚?短期靠平台分成(抖音、快手激励计划),中期靠广告植入和品牌定制,长期靠 IP 授权和二创生态。开源项目 waoowaoo 已经走通了商业化路径,liangdabiao 的 Seedance 2.0 剧本 Skill 上线 Coze 技能商店免费提供给过亿用户。商业模式本身就是护城河——谁先跑通,谁先建立正循环。
五、这个赛道未来会怎么走
技术层面,三件事会发生。模型成本会继续下降,Seko 的 Phased DMD 和 LightX2V 已经把单集生成成本压到了行业的零头,1 元 1 秒的「满血视频生成」在 2026 年会变成标配。多模态会继续融合,文字、图像、视频、音频、3D 甚至动作捕捉都会塞进同一个输入接口。世界模型会登场,短剧的物理一致性、场景持续性会被彻底解决。
行业层面,三股力量在博弈。大厂(商汤、字节、百度、腾讯)靠模型+分发打闭环。开源社区(waoowaoo、Jellyfish、Toonflow)靠工作流和工程化打差异化。传统短剧公司靠 IP 和内容经验转型升级。
对于想入局的开发者,最现实的路径是:不做模型,做 Agent;不做分发,做工具;不做 IP,做流程。在开源项目基础上定制垂直场景(比如职场短剧、悬疑短剧、教育短剧)的 Agent 工作流,比从头做一个通用平台胜算大得多。
六、写在最后
2026 年的 AI 短剧,正在经历和 2023 年 ChatGPT 出现时相似的时刻:技术突破、成本骤降、人人可用、商业模式待定。
Seko、小云雀、火宝短剧、waoowaoo 这些产品,本质上是在探索同一个问题的不同答案:当 AI 能像人一样「拍戏」,内容生产会变成什么样?
答案还没定论。但可以确定的是,短剧不会再是几十人团队两三个月的事情了。一个人、一台电脑、一个 Agent 软件、一个下午,一部能上热榜的短剧就能诞生。
这才是真正的「一人剧组」时代。
官方网站与开源项目参考:
即梦 Seedance 2.0:https://jimeng.jianying.com/
小云雀:https://xyq.jianying.com/
Seko AI:https://seko.sensetime.com/explore
waoowaoo 开源项目:https://github.com/saturndec/waoowaoo
Toonflow 火宝短剧:https://github.com/HBAI-Ltd/Toonflow-app
Jellyfish 开源项目:https://github.com/Forget-C/Jellyfish
夜雨聆风