自研AI短视频创作工具开发总结

最近，我正在进行AI短视频创作工具的开发工作。整个开发过程持续了大约两个月，得益于VibeCoding（95%以上的代码由AI生成，我负责代码审查，并告诉AI哪些地方需要重构——这方面的经验之后有时间可以再写一篇文章讨论，主要使用的是MiniMax 2.7的CodePlan），以及之前另一个AI项目（LLM调用方面的功能）的经验和代码资产复用，整体进度还是比较快的。

开发平台的选择：我选择了Tauri2平台。为什么是Tauri？第一，之前的项目就是基于Tauri2的，坑都填完之后，用起来自然顺手。第二，和Electron相比，它的体积更小，后端的Rust性能也极其出色。由于短视频制作平台或多或少需要调用ffmpeg，Rust就显得更加合适。第三，如果之后需要跨平台，也能瞬间适配——之前的项目已经做到了跨平台（Windows、macOS、iOS）。

相比于之前的项目（仅涉及AI文本生成），这次覆盖了图片、音频（TTS语音合成）和视频的生成。得益于AI的VibeCoding能力，这些API的调用代码基本上很快就能实现，虽然有冗余代码，但总体上能跑起来。AI文本生成方面，已经适配了国产的所有主流大模型，使用的是OpenAI的库，兼容性非常好，但仍有一些适配工作需要处理。例如，MiniMax不允许收集一些OpenAI的信息采集Header，DeepSeek等模型的Thinking功能等，都需要根据具体情况（case by case）处理。（DeepSeek-V4 Pro现在价格非常合适）

TTS则使用了MiniMax的模型（不同模型需要单独做一套VoiceID列表），之后有空会适配其他模型。（由于有我朋友的MiniMax套餐，这部分费用其实为0）

至于图片和视频，目前效果最好的还是SeeDreams和SeeDance系列，虽然贵了点，但效果非常出色。SeeDreams系列的成本，根据模型不同大约为每张图片0.2～0.25元。SeeDance测试时用的是1.5 Pro，为了省钱，关闭了音频生成，刷新率480P（动画片够用了），打开了草稿功能，价格大概压缩到了每秒钟0.1元以下，成本已经和生成图片差不多了。（但愿字节不要太早下架这个模型，SeeDance2还是太贵了，也不能关闭声音，做草稿）

技术上，由于之前的项目填完了大部分坑（其实最大的坑是上架macOS，即应对macOS的上架政策），所以这次没有遇上太大的麻烦。真正麻烦的事情是：没有任何影视导演经验，如何去开发一个短视频制作工具。从现在开始，技术和代码将越来越不值钱，领域知识、知道怎么做（know-how）将越来越值钱。大家为了避免自己的技能被蒸馏成SKILL，肯定会增加技术壁垒。我的方法是：让LLM教我这些领域的入门知识。

AI在带领小白入门某个领域方面，真的是最好的选择。我这里使用的是Gemini 3.1 Pro，让它给我一些好的方案，告诉我基本的知识。到后来，甚至大部分的提示词也是它帮我写的。现在已经是AI给AI写提示词了——它写的提示词比我更专业、认真、可靠。（自从有了AI之后，大部分的问题我都不用搜索引擎了，直接用AI找答案了）AI短视频创作的课题大致如下。

1.个人OPC比较在意成本问题，如何在不太牺牲品质的前提下，最大程度的降低成本（现在绝大部分人，靠AI短视频是完全赚不到钱的，每秒1元的成本下，你做不到爆款，没有平台扶持，绝对亏钱的）

2.分镜头的切分：小说原文如何变成分镜头。小说原文很多东西是内心的，分镜头则要求都是视觉上的。小说里面是 “非常紧张”，分镜头则需要用“双手握拳”这样的视觉语言来描述

3.一致性：现在的视频模型，最多的支持15s长度，多条视频如何保证人物的一致性，是个问题。这里的一致性不单单是单人的服化道的一致性，还有多人多场景的一致性。例如：场景一，张三比李四高，场景二，李四比张三高。

这里就要考虑在前期设定的时候，尽可能将各种信息都完整设定好。但是信息也不能太多，由于模型的能力问题，它可能搞不清楚哪些是主要的，哪些是次要的。

同样的，每个场景的画风一致性也是一个问题，主角有参考图约束，配角，群众没有参考图约束，可能就造成了都是配角的场景，画风不一致的问题了。

4.音频的丰富性：音效，声场，人物音色，旁白，这些都需要考虑的。之前老婆大人是搞有声书的，我也专程请教了一下有声书的做法。实际解决还是要靠ffmpeg进行混音,两个音频(对话/旁白/音效和背景音)混音成一个音频。同时工具能带一些简单的编辑功能。

5.工具如何做得顺手，AI视频制作牵涉到的流程非常多，从剧本到成片实际上是一个很长的过程：

小说原文 - 场景划分 - 分镜划分 - 视觉效果分析 - 文生图（首帧和尾帧）- 音频（TTS，音效，背景音）制作 - 图生视频（无声） - 视频音频合成 - 场景视频合并（这里还要填上场景衔接处不自然，有轻微的停顿感的坑，感谢Gemini的ffmpeg的代码）

如何让用户能快速理解使用方式，也是需要考虑的。

要解决这些问题，并不是一朝一夕能够完成的，这个工具还在持续进化中。等到项目成熟之后会发布和开源。这个项目适合哪些想让自己喜欢的小故事影视化的人使用，如果要考虑依靠短视频制作现实盈利，当前相当困难。最后放一小段Demo成片

已关注

关注

重播分享赞

视频详情

如果喜欢，请关注我。如果有什么问题，请留言。