




# 交互式选择要安装的技能 npx skills add libtv-labs/libtv-skills
# 直接安装指定技能npx skills add libtv-labs/libtv-skills --skill libtv-skill


















分析
AI工作流的亮点
AI自动搭建了标准化工作流:
角色档案:为刘备、关羽、张飞分别生成三视图(正面/侧面),锁定形象特征
规范化描述:每个分镜包含角色状态、场面调度、对白文本、运镜方式(如"特写→拉远")
自动化编排:剧本→分镜→角色→配乐→视频→合成,全流程无需人工干预
评价:这是目前AI短剧工具中比较系统的工程化尝试,比简单的"文生视频"更接近专业制片流程。
分镜级问题逐帧分析
1. 字幕系统:有标题,无台词,且渲染异常
现象:开头出现"桃园三结义"文字,但同一文字重复显示两次+字体异常,且
无对白字幕(比如"不求同年同月同日生"这句没字幕)
结论:视频生成模型对文字生成仍不稳定,需后期剪辑替换
2. 转场逻辑:时间线"穿帮"
严重bug:右边刘备还没消失,左边刘备已出现(画面重叠)
原因:多片段拼接时未做遮罩或过渡处理,AI直接硬切导致时空错乱
3. 结拜场景:对白残缺但画面可用
对白:"不求同年同月同日生..."句子被截断,TTS或剧本生成存在长度限制
画面:三人姿态、表情无明显穿帮,角色一致性在这个过程保持较好
4. 举杯动作:物理常识 vs 一致性失控
酒洒出:碰杯时酒液飞溅略显夸张,但可接受——流体物理对当前扩散模型本就是难题(若用世界模型有可能解决)
桃树变形:同一棵桃树在镜头切换后形态改变
问题归因:视频生成模型(kling-v3-omni)未绑定场景元素ID,每帧独立采样导致背景漂移
5. 结尾:一致性再次失守
桃树又变了:与举杯镜头相比,结尾的桃树形态再次不同
影响:破坏"同一时空"的沉浸感,显露出图生视频模型的本质缺陷
技术归因总结
结论与建议
这次测试说明了什么?
✅ ai能通过这个skills搭建工业化工作流:角色锁定、分镜规划、自动化合成
❌ 只能做到半成品素材:字幕需重制、转场需剪辑、背景一致性失控
给普通用户的建议:
当前阶段适合生成无对白的氛围片段或固定场景的短镜头,适合娱乐。若需复杂叙事,建议导出分镜图后,在剪映中手动添加转场和字幕,利用AI配音补全台词。
开发者选型建议:
1. 用现成skills(快速验证)适合MVP或个人项目。它本质是打包好的多模型工作流:自动调度剧本模型、生图模型、视频模型,还有故障转移(如seedance挂了切kling)、角色三视图锁定——这些自建很花时间。但黑盒问题你得接受:字幕渲染异常、转场可能穿帮。
2. 自建工作流/软件(商业化/高质量)如果你要商业化,建议自己搭工作流调即梦/可灵等最新API,而非依赖skills中间层。因为:
不是调单个API:你也得串联或并联多模型(比如:LLM写剧本→生图→视频→TTS配音),但好处是每环都可控
字幕自己渲染:剧本生成的对白文本直接用代码(ffmpeg)叠加到视频,不依赖视频模型的文字渲染能力(避免乱码/重复)
转场自己控制:用剪辑库(如moviepy)做遮罩/淡入淡出,避免"两个刘备"重叠
模型选最新的:可灵3.0、即梦v1.5的一致性比kling-v3-omni强,且成本透明(按量付费可能比积分体系便宜)
关键区别:skills是黑盒,全自动但不可控;自建是灰盒,半自动但每个环节都可调。前者适合验证,后者适合产品化。
夜雨聆风