
今天我们来讨论下AI漫剧工作流到底应该怎么搭建,是部署到本地还是在云端搭建,又或者直接选择现有的工作流集成平台?根据我最近实际操作经验来跟大家分享一下openclaw+comfyUI的本地部署工作流的优缺点。
首先说下为什么要本地部署,优点主要是安全,数据全程不上传云端,适合涉密/商业创作,其次是免费。缺点就是你享受不到最新版的大模型,因为不管是字节的seedance2.0,还是阿里的happyhorse、wan2.7,或者可灵全都是闭源收费的,效果好,但是价格也美丽(几乎是1元/S)。而且本地跑视频大模型对设备还是有一定的要求的,如果你要本地部署视频大模型,最好不要选Mac,因为几乎所有的视频模型都不兼容Mac,亲测只有wan2.1可以绕过CUDA通过MPS加速来完成视频的生成,512G内存的Mac studio 生成2s视频用了50分钟,没有任何性价比,看网上其他人3070、4090的显卡测试,10-15分钟可以生成5-10秒的视频,这个就很香了。
其次说下为什么要用openclaw(Hermes也可以),因为这是一个可以24小时在线的得力助手,有了它,很多事情你只需要一句命令就可以了,具体工作都让它去干,省力很多,而且它的能力不止于漫剧工作流的搭建与使用,我的龙虾创建了很多分身,有的负责写剧本、出分镜脚本,有的负责根据不同的模型来写对应的提示词,有的负责视频的制作等等,一个openclaw(小龙虾)就是一个团队。

最后就是为什么选择ComfyUI ,ComfyUI 的核心优势在于基于节点的可视化工作流系统,工作流可保存、复用与共享,完整流程可导出为 JSON 模板,便于团队协作、跨项目复用或云端部署,强大的扩展性与插件生态,社区生态成熟,几千个现成节点,兼容几乎当下所有语言、图片、视频大模型。你可以让openclaw直接调用ComfyUI的工作流,也可以手动搭建工作流,通过调节各节点的参数来达到自己想要的效果,很是方便好用。可以下载桌面版或者直接从GitHub 开源仓库拉取,openclaw调用的话建议选择后者,具体ComfyUI的使用教程后面会发布供大家参考学习。
ComfyUI官方网站:https://www.comfy.org/zh-CN/
大的方向说完了,接下来我们来根据漫剧的制作流程来逐步分析拆解每个环节都用到哪些大模型:

1、创意层:写剧本、分镜脚本,提示词。
首推Qwen3.6大模型,Qwen3.6是阿里巴巴通义千问团队推出的新一代开源大模型系列,目前已有多个规格版本正式对外开放权重,支持多步Agent工作流,无需微调即可搭建自主智能体、RAG系统等复杂应原生支持最高100万token上下文窗口,可直接处理超长文档、完整代码库,无需分段处理。支持100+语言,最强中文理解力,原生多模态能力可精准解析设计稿、截图、视频等视觉信息。其中最主要的的是开源可部署到本地(免费),根据你的设备选择Qwen3.6-27B(家用显卡即可本地部署)或者 Qwen3.6-36B。
获取与使用方式:
开源权重下载:已在魔搭ModelScope、Hugging Face开放,支持免费下载部署
魔搭社区Qwen3.6-27B:Qwen/Qwen3.6-27B (modelscope.cn)
GitHub项目地址:QwenLM/Qwen3.6 (github.com)
2、分镜图生成:把分镜脚本变成画面。两条路线——多模态AI对话出图(简单)和ComfyUI专业生成(灵活)。

ComfyUI本身集成了SDXL(Stable Diffusion XL 1.0)、Flux.1、Flux.2、Qwen-image、Z-image等多款开源图片模型,个人感觉SDXL出图偏动漫风格,真人的皮肤质感相对较弱,Flux的提示词对英文更友好;Qwen-image、Z-image这两款对中文理解都非常好,我更偏爱用Qwen-image。当然可以让openclaw帮你生成对应不同模型的分镜提示词。当然也可以调用banana、image2等国外图片生成大模型,效果是真的不错,就是免费额度有限。
3、视频生成:把图片/文字变成视频。

ComfyUI本身集成了wan2.2、Hunyuan video1.5、Ltx2.3等开源大模型,也又很多多搭建好的工作流模版,可以拿过来直接使用。如果你是Mac或者显卡不够用,不用纠结,直接花米去调用Seedance 2.0(当前最强)、HappyHorse 1.0(从出生就喊开源,到现在还没有正式开源版)、wan2.7、可灵、Runway等当前主力大模型。
4、语音合成以及音乐模型:配音、配乐、旁白解说。
还是ComfyUI本身集成了很多模型,这里介绍几款本地开源部署的声音模型。
EdgeTTS模型,可以完成文字转语音的功能,但是感情不够丰富。
stable_audio、audio_ace_step1.5模型可以完成一些背景音乐和音效的生成。
Qwen3-TTs、F5-TTs可以完成声音克隆和指定音色配音等。
5、剪辑合成:剪映是标配。
最后说下角色一致性方案:

角色一致性一直是我们做剧最头疼的一个问题,AI总会在细节上给我们做一些意想不到的变动,哪怕你写再多的提示词也没用。我个人的方法是跟剧组拍戏的流程一样拆解剧本,先把主要人物的形象分别设定:人物三视图、不同角度特写、特殊表情等(选角),然后是不同阶段的服装和主要道具都分别设定(服化道)、主要场景设定:不同角度、全景、中景、近景都设置好(置景)。这些都定好后,把分镜图做细,关键节点用提示词指定角色、道具等,每个镜头可以多出几张连续的分镜图,这样在后续视频生成阶段可以省很大的时间,毕竟视频生成的时间以及费用都是比较高的,用本地模型分镜图可以无限出,你休息的时候可以让你的龙虾每个分镜多出几版分镜图,你只需要选最合的那些拿去出视频就好了。本地部署了ComfyUI建议学习使用一下IP-Adapter Plus和InstantID,最后还可以通过 LoRA微调。

ChatGPT生成的分镜图(故事板)
如果你不想本地部署大模型,也可以使用gemini或者ChatGPT的免费额度去完成剧本和分镜图的生成,这两个模型对新手非常友好,直接对话就可以引导你完成,他们分别调用banana和image-2来生图,效果非常棒,就是免费额度有限。也可以用vidu、libTV等工作流平台去完成整部剧的创作,同样需要买积分才能完成。
本文提到的大模型都是亲测可用的,漫剧工作流搭建的方式很多,关键是你要选一种开始,不要一开始就追求完美,先做出来再说,在使用中选择适合自己的模型搭建流畅的工作流。AI不是魔法棒,它做不到你脑子里想什么它就给你出什么,中间有大量筛选、调整工作,需要我们慢慢学会和AI去沟通,这过程也在不断帮我们梳理心中的工作流程,2026年我们与AI共同学习,一起成长。
往期文章:
夜雨聆风