最近,我正在进行AI短视频创作工具的开发工作。整个开发过程持续了大约两个月,得益于VibeCoding(95%以上的代码由AI生成,我负责代码审查,并告诉AI哪些地方需要重构——这方面的经验之后有时间可以再写一篇文章讨论,主要使用的是MiniMax 2.7的CodePlan),以及之前另一个AI项目(LLM调用方面的功能)的经验和代码资产复用,整体进度还是比较快的。

开发平台的选择:我选择了Tauri2平台。为什么是Tauri?第一,之前的项目就是基于Tauri2的,坑都填完之后,用起来自然顺手。第二,和Electron相比,它的体积更小,后端的Rust性能也极其出色。由于短视频制作平台或多或少需要调用ffmpeg,Rust就显得更加合适。第三,如果之后需要跨平台,也能瞬间适配——之前的项目已经做到了跨平台(Windows、macOS、iOS)。
相比于之前的项目(仅涉及AI文本生成),这次覆盖了图片、音频(TTS语音合成)和视频的生成。得益于AI的VibeCoding能力,这些API的调用代码基本上很快就能实现,虽然有冗余代码,但总体上能跑起来。AI文本生成方面,已经适配了国产的所有主流大模型,使用的是OpenAI的库,兼容性非常好,但仍有一些适配工作需要处理。例如,MiniMax不允许收集一些OpenAI的信息采集Header,DeepSeek等模型的Thinking功能等,都需要根据具体情况(case by case)处理。(DeepSeek-V4 Pro现在价格非常合适)
TTS则使用了MiniMax的模型(不同模型需要单独做一套VoiceID列表),之后有空会适配其他模型。(由于有我朋友的MiniMax套餐,这部分费用其实为0)
至于图片和视频,目前效果最好的还是SeeDreams和SeeDance系列,虽然贵了点,但效果非常出色。SeeDreams系列的成本,根据模型不同大约为每张图片0.2~0.25元。SeeDance测试时用的是1.5 Pro,为了省钱,关闭了音频生成,刷新率480P(动画片够用了),打开了草稿功能,价格大概压缩到了每秒钟0.1元以下,成本已经和生成图片差不多了。(但愿字节不要太早下架这个模型,SeeDance2还是太贵了,也不能关闭声音,做草稿)

技术上,由于之前的项目填完了大部分坑(其实最大的坑是上架macOS,即应对macOS的上架政策),所以这次没有遇上太大的麻烦。真正麻烦的事情是:没有任何影视导演经验,如何去开发一个短视频制作工具。从现在开始,技术和代码将越来越不值钱,领域知识、知道怎么做(know-how)将越来越值钱。大家为了避免自己的技能被蒸馏成SKILL,肯定会增加技术壁垒。我的方法是:让LLM教我这些领域的入门知识。
AI在带领小白入门某个领域方面,真的是最好的选择。我这里使用的是Gemini 3.1 Pro,让它给我一些好的方案,告诉我基本的知识。到后来,甚至大部分的提示词也是它帮我写的。现在已经是AI给AI写提示词了——它写的提示词比我更专业、认真、可靠。(自从有了AI之后,大部分的问题我都不用搜索引擎了,直接用AI找答案了)AI短视频创作的课题大致如下。
1.个人OPC比较在意成本问题,如何在不太牺牲品质的前提下,最大程度的降低成本(现在绝大部分人,靠AI短视频是完全赚不到钱的,每秒1元的成本下,你做不到爆款,没有平台扶持,绝对亏钱的)
2.分镜头的切分:小说原文如何变成分镜头。小说原文很多东西是内心的,分镜头则要求都是视觉上的。小说里面是 “非常紧张”,分镜头则需要用“双手握拳”这样的视觉语言来描述

3.一致性:现在的视频模型,最多的支持15s长度,多条视频如何保证人物的一致性,是个问题。这里的一致性不单单是单人的服化道的一致性,还有多人多场景的一致性。例如:场景一,张三比李四高,场景二,李四比张三高。
这里就要考虑在前期设定的时候,尽可能将各种信息都完整设定好。但是信息也不能太多,由于模型的能力问题,它可能搞不清楚哪些是主要的,哪些是次要的。
同样的,每个场景的画风一致性也是一个问题,主角有参考图约束,配角,群众没有参考图约束,可能就造成了都是配角的场景,画风不一致的问题了。

4.音频的丰富性:音效,声场,人物音色,旁白,这些都需要考虑的。之前老婆大人是搞有声书的,我也专程请教了一下有声书的做法。实际解决还是要靠ffmpeg进行混音,两个音频(对话/旁白/音效 和 背景音)混音成一个音频。同时工具能带一些简单的编辑功能。

5.工具如何做得顺手,AI视频制作牵涉到的流程非常多,从剧本到成片实际上是一个很长的过程:
小说原文 - 场景划分 - 分镜划分 - 视觉效果分析 - 文生图(首帧和尾帧)- 音频(TTS,音效,背景音)制作 - 图生视频(无声) - 视频音频合成 - 场景视频合并(这里还要填上场景衔接处不自然,有轻微的停顿感的坑,感谢Gemini的ffmpeg的代码)
如何让用户能快速理解使用方式,也是需要考虑的。

要解决这些问题,并不是一朝一夕能够完成的,这个工具还在持续进化中。等到项目成熟之后会发布和开源。这个项目适合哪些想让自己喜欢的小故事影视化的人使用,如果要考虑依靠短视频制作现实盈利,当前相当困难。最后放一小段Demo成片
如果喜欢,请关注我。如果有什么问题,请留言。
夜雨聆风