
不是因为贵。他说,是因为账太碎了——每个环节用的模型不一样,计费方式也不一样,想算清楚一条剧到底花了多少钱,得翻七八个充值记录。
他把账单摊给我看,我按他的制作流程一步步拆开。如果你也在做AI短剧,看完这些数字至少能知道钱花在哪了、哪里可以省。
01
剧本:看着几乎免费,但别被迷惑

以Kimi K2.7为例,3分钟短剧大约1200字对白加场景描述,跑了4轮调整,总共消耗约3万Token。按Kimi的API定价,也就几分钱。
但有一个隐性成本:改稿时间。
第一版出来是"雨夜,昏暗的街道,主角独自前行"——AI写悬疑永远下雨。第二版又给所有角色加了解释性独白,对着空气交代动机。改到第四版才像样。
这个环节如果只是"生成剧本",成本可以忽略。但如果你需要反复调试角色性格、调整对白节奏,人的时间成本远大于API调用费。
有个偷懒办法:把你自己以前写的短剧剧本喂给模型当Few-shot,出来的第一版质量会高很多,省两三轮改动。
02
角色设定:200张图才定住一张脸
剧本定下来后,需要给三个主要角色做人设图。
用文生图模型生成角色参考图,再输入给视频模型做图生视频。这个环节的钱主要花在"选角"上——要让一个角色的脸在不同Prompt下保持稳定,至少要跑20-30张才能挑出一张当固定参考图。
三个角色,平均每人跑了约65张图,合计195张。市面主流文生图模型一张图几分钱到一毛钱不等,这轮花了大约15-20元。
真正费钱的不是生成,是试错。比如想让角色穿制服,出来的图腿长比例全崩。后来换了描述方式,把"穿黑色风衣"改成"中等身材,深灰色长外套,长度到膝盖",稳定性才上来。
这个环节有个省钱的思路:先跑10张低分辨率快速定风格,挑出1-2张满意的,再用Seedance的图生视频功能做高分辨率输出。不用每张都用最高质量跑。
03
分镜生成:废片率才是真正的成本
3分钟短剧大约需要35-40个分镜。每个分镜用视频生成API产出一条2-4秒的片段。
理想情况:每条分镜跑一次就过。实际情况:跑三次能出一条能用的算运气好。
实测数据:总共跑了112条视频片段,最终用了38条,有效产出率34%。也就是说,三分之二的生成都是废片。
废片集中在三个问题上:

角色脸崩——切换到侧面或远景时五官变形
运镜乱飘——背景突然切换或画面闪烁
动作不自然——走路像在漂移
按当前主流视频生成模型定价(每秒0.3-0.8元),112条片段平均每条2.5秒,总时长约280秒,视频生成环节花了大约140-220元。这还不算用了图片引导后的额外费用。
04
视频生成:钱的大头,优化空间也最大
上一步的分镜生成已经把大部分预算烧掉了,但这个环节还有一些在做的时候才意识到的额外消耗:
一是分辨率升级。前几轮用720p快速生成看效果,确认没问题后再跑1080p。同一段内容跑了两次——这是"满意税"。这部分额外消耗了约30元。
二是补拍。剪辑时发现有两场戏情绪接不上,推倒重来又跑了16条,约40元打了水漂。
三是不同场景需要不同模型。文戏和动作戏对模型的要求不一样。文戏需要表情细腻,应选用擅长人物表现的模型;动作戏需要运镜稳定,换一个运动生成更好的模型。切换模型本身不花钱,但如果你每个模型都单独对接API,大模型API调用费用的格式适配和账号管理会多出一层麻烦。
整个视频生成环节,包括分镜生成和补拍,实际支出约210-300元。
05
配音配乐:便宜,但不能没有
配音用了TTS模型,三角色对白加起来约2800字,生成时间约15分钟,花了不到5元。
但有个细节:通常需要试两到三个不同的音色模型才能匹配角色气质。女主需要"冷静带一点沙哑",第一个模型出来的像导航,第二个像客服。
背景音乐和音效走的素材库+简单生成,约10元。这部分如果不讲究,甚至可以全部用免费素材——但BGM一掉档,成片的质感差一个档次。
06
合成与后期:最后一公里的隐性成本
把所有素材拼成完整成片,加字幕、调色、转场。这部分主要用的是桌面端剪辑软件,没有直接API费用。
但如果你的工作流是全自动化的——比如用脚本调用视频合成API自动拼接——各家的视频生成API在合成、转码、字幕烧录上会多出一笔计算费用,大约10-20元。
07
总账
把一条3分钟短剧的成本摊开:
| 合计 | 约250-355元 |
这个数字有个前提:一个熟练的AI短剧创作者,知道怎么调Prompt、怎么挑模型。
如果是第一次做,废片率可能到80%以上,同样的3分钟短剧跑到500-600元也正常。
08
省钱不是目的,但账要算清楚
回头看账单,最烧钱的不是哪个模型贵——是反复用错了模型。
剧本用Kimi、角色图用文生图、视频生成用Seedance、配音用TTS,每个环节切一次工具,每次切换都有一层隐性成本:换账号、调格式、查文档、对账单。
他跟我说了一句话:"切换模型的摩擦成本,比模型本身的调用费更贵。"
他自己算了笔账:做完一条短剧,至少要登录5个不同的平台分别查用量、对账单。每次切换都意味着读API文档、调格式、找对应Key——这些时间如果折算成工时,远超模型调用费。
他后来通过器灵模型广场把常用的几个模型接入了一个聚合接口,同一个Base URL,只改model参数就能在剧本、图像、视频、配音之间切换。省的不是那几分几毛的模型差价,是把短剧制作全流程的调用管理缩到了一个地方。
这其实也是我后来复盘觉得最有价值的部分——不是找到最便宜的模型,而是减少模型之间的切换成本。
如果你也在做AI短剧,花一个下午把你的账单拉出来看看。搞清楚钱到底花在哪,比追着"最便宜模型"跑有用得多。


夜雨聆风