主打「角色一致性」的 AI 短剧神器 ViMax · 6.6k 星 · 我却跑出来 3 个长不一样的老王

看 AI 资讯，最怕被忽悠。这个号做 3 件事帮你分辨：
GitHub AI 应用——亲自跑过再拆给你，闭眼用
AI 热点新闻——拆背后真相和判断趋势
号称 AI 赚钱案例——辨真伪不被「月入百万」忽悠
不夸大不堆术语看完能用。

这事是怎么起来的

这一周朋友圈、视频号、即刻都在转一个 GitHub 项目——

ViMax · 香港大学（HKU）数据科学团队开源 · 6.6k 星 · 一周涨 2.5k+。

它的卖点写得很唬人：

「4 个 AI 智能体协作拍短剧 —— 编剧（Screenwriter）+ 导演（Director）+ 制片（Producer）+ 视频生成器（Video Generator）一气呵成。RAG 长剧本智能切分 · 角色一致性追踪 · 三视图参考图机制 · 多机位摄影模拟。」

听着是 AI 视频生成的「Final Form」—— 你给它一个 idea，它直接出 60 秒短剧。

我之前 issue-27 写过 Shhots AI（商品图转单条视频 · $15k/月）—— 那种是「单镜头广告素材」。ViMax 是「多场景连续短剧」—— 完全不同赛道，对应国内抖音剧情号、视频号小说改编、小红书故事种草。

抖音 2024 短剧 GMV 500 亿+，如果这工具真能用，国内做剧情号的人直接抄就是金矿。

所以我装了 + 真跑了。

底下是真实数据：¥30 + 4 次重跑 + 15 分钟最终生成 + 1 个翻车的核心结论。

装机踩了 5 个坑（先说前提让你避雷）

如果你看完决定不装，至少知道它不像你想的那么"开源即用"。

坑 1 · Python 3.12+ 强制 · 系统自带 3.9 / 我之前装的 3.11 都不行

brew install python@3.12 # 250 MB · 多一个 Python · 不动你原有 3.9 / 3.11

坑 2 · `uv` 包管理器 · pip 不能装

ViMax 用 uv sync 管依赖 · 但 brew Python 3.12 受 PEP 668 保护不能 pip install uv。必须 brew install uv 装全局。

坑 3 · 默认配置全用 Google 模型（Veo + Nano Banana）· 国内梯子才能跑

ViMax 默认 configs/idea2video.yaml 用：
- LLM：Google Gemini（要 OpenRouter / Google API key）
- 图片：Nano Banana（Google Image · 要 Google API）
- 视频：Google Veo（要 Google API）

国内直接跑 = 立刻报错。要切到 yunwu.ai 国产中转 + 豆包 Seedance（这一步我自己写了配置 idea2video_doubao.yaml）。

坑 4 · ViMax 仓库自己有 bug · `rate_limiter` 参数不兼容

yunwu 版 generator 的 __init__没适配 rate_limiter 参数（Google 版有）
框架 render_backend.py 还强制传 rate_limiter
→ 启动 10 秒内 TypeError 炸
修复
：砍 yaml 里 max_requests_per_* 配置（速率限制让 yunwu 后端处理）

坑 5 · 默认豆包模型 lite 版你的 yunwu 账号没访问权限

我账号能查到豆包模型列表里 5 个 Seedance 都看得到，但默认 doubao-seedance-1-0-lite-t2v-250428 直接 404「you do not have access to it」。

修复：改 tools/video_generator_doubao_seedance_yunwu_api.py 默认改成 doubao-seedance-1-0-pro-fast-251015（pro-fast · 200 OK 验证可调用）。

踩完这 5 个坑 · 从 0 到能跑 · 我花了 1.5 小时。这跟 README 暗示的「开箱即用」差很远。

真跑了 1 个完整东北卖家逆袭故事

跑通后，我给 ViMax 喂了这么个 idea（中文 prompt 完全可以）：

一个东北中年男人老王 · 淘宝家居小店 · 月入 8000 · 凌晨 3 点起床自己拍图修图回客服。
偶然看到公众号文章 · 装上一套 AI 工具组合 · 拍视频时间 2h→15 分钟 · 客服回复 1h→3 秒 · 每天多睡 4 小时。
一年后月入 $30,000（21 万）· 沈阳郊区盖新房 · 老婆辞职一起做。

要求：3 场景 · 每场景 3-5 镜头 · 30-60 秒短剧 · 写实暖色调。

4 agent 实际跑通的时间线

阶段	真实耗时	产出
Screenwriter（编剧）	~1 分钟	完整 3 场景脚本 + 9 个具体镜头
Director + Producer（导演 + 制片）	~3 分钟	角色定义 + 三视图（front/back/side）+ 分镜 + 摄影机轨迹
Producer 出 9 个 shot 参考图	~5 分钟	9 张 first_frame.png
Video Generator（豆包 Seedance Pro Fast）	~5-6 分钟	9 段 5 秒 720p mp4
MoviePy 拼接 + 转场	~1 分钟	最终 final_video.mp4
总计	15 分 34 秒	45 秒短剧

真东西 1 · 编剧能力强（出乎意料）

它给我自动扩写出完整故事大纲 + 3 场景结构 + 9 个具体镜头，关键金句直接戳人：

「从今天起，我们都可以睡个好觉了」

剧本质量超出预期 · 这部分我服。

真东西 2 · 角色定义有「静态特征 + 动态特征」分层

老王:
静态特征: 中年男子 · 面容疲惫 · 眼睛通红 · 体型略消瘦 · 责任感强
动态特征: 简单家居服 · 略皱巴 · 反射电脑屏幕幽蓝光

这套设计本意是用 RAG 保证「角色在不同场景一致 + 服装/光线按场景变化」。逻辑上很严谨。

但核心卖点直接崩了

ViMax 主打的「角色一致性追踪」—— character_portraits_registry.json 记录角色三视图 · 每个 shot 生成参考图时强制 reference · 据说能让主角 100% 长一个样。

实测：

Scene	老王看起来
Scene 1 · 起步惨淡	瘦削 + 短发 + 眼红 + 灰白家居服 · 像 40-45 岁
Scene 2 · 关键转折	更瘦 + 长脸下巴尖 + 胡子茬重 + 衣服污渍 · 像 50+ 岁
Scene 3 · 逆袭成功	圆润 + 花白头发 + 微笑 + 干净 · 像不同的胖一点中老年男士

3 个老王 = 3 个不同的中年男人。

性别一致 OK
年龄段大致一致 OK
但脸型 / 体型 / 头发风格 / 神态全部对不上

这是 ViMax 的核心技术卖点。RAG + 三视图 + character_portraits_registry · 一整套机制 · 实测视觉上完全失效。

为什么会这样：

底层视频生成模型是 豆包 Seedance 1.0 Pro Fast（火山引擎产品）· ViMax 自己不训练视频模型 · 它只是个 prompt 编排 + API 调用框架。豆包模型给参考图后有一定一致性保留 · 但跨场景 + 不同光线 + 不同角度 · 模型的「记忆」就乱了。

ViMax 的「一致性追踪」在 character_portraits_registry.json 里是真追踪了（角色 ID + 三视图路径都对得上）· 但传给豆包 Seedance API 后 · 模型自己不买账。

真东西 vs 营销话术对照表

卖点	实测真东西
「4 agent 协作拍短剧」	⚠️ 真有 4 个 agent 串行调用 · 但本质 = 4 次 LLM 决策 + N 次串行 API 调用 · 不是真智能协作
「RAG 长剧本切分」	✅ 真做了 · 编剧能力出乎意料强
「角色一致性追踪」	❌ 崩盘 · 3 场景 3 张脸
「三视图参考图机制」	⚠️ 角色三视图真生成了 · 但传给 Seedance API 后模型不严格遵守
「多机位摄影模拟」	⚠️ 摄影机轨迹 JSON 真生成 · 但 Seedance 5 秒短片镜头变化能力有限
「自动化端到端」	✅ 真能从 idea 到 mp4 一键跑通 · 但前提是踩完 5 个装机坑
「6.6k stars 全球认可」	⚠️ 学术 + 极客圈认可 · ≠ 工业级可用
「45 秒短剧直接发抖音」	❌ 不行 · 没配音 / 没字幕 / 没 BGM · 抖店剧情号根本用不了

8 条卖点里——3 条真的 · 4 条有水分 · 1 条完全崩盘。

真实成本算账 + 替代方案对比

我累计花了 ¥30 yunwu 余额（4 次重跑 · 包括失败的）+ 1.5 小时装机 + 15 分钟最终生成。

对比 3 套方案做同样一件事「拍 1 个 45 秒东北卖家逆袭短剧」：

方案	时间投入	钱投入	视频质量	配音字幕 BGM	可发抖音视频号
ViMax 自部署	1.5h 装机 + 15 分钟生成	¥30+/次	一般 + 角色脸不一致	❌ 都没	❌ 不能直接发
剪映 AI 一键成片	0 装机 + 5 分钟操作	¥138/月 SVIP（无限用）	稳定 + 配音 + 字幕 + BGM 一键全套	✅ 都有	✅ 直接导出抖音
国产 3 件套（可灵 + 即梦 + 剪映）	1h 学 + 30 分钟操作	¥150-300/月	最好 + 角色靠 prompt 稳定	✅ 剪映负责	✅ 直接发

结论 · ViMax 在这个对比里全面落后。

它不省时间（装机 1.5 小时 vs 剪映 0 装机）· 不省钱（¥30/次单次 vs ¥138/月无限用）· 不省功（手动配音字幕 vs 剪映一键）· 质量不稳（角色脸崩 vs 剪映模板稳定）。

谁该用 / 谁不该用决策卡

你的情况	建议	理由
抖店 / 视频号剧情号要日更短剧	❌ Hard Pass	没配音字幕 BGM · 不能直接用 · 别浪费时间
小说作者想试 IP 改编可行性	❌ Hard Pass	角色一致性崩了 · 等 ViMax v2 / 等豆包 Seedance 2.0 升级再说
AI 视频研究者 / 极客	✅ 可以装来研究架构	4 agent + RAG 长剧本切分这套架构本身有学习价值
想做企业级 AI 视频产品的团队	⚠️ 看着别学	角色一致性这种核心痛点没解决 · 别拿这套去给客户做演示
普通做 AI 副业的人	❌ Hard Pass	学剪映 AI 一键成片 + 即梦 / 可灵单独用 · ROI 高 10 倍

我的最终判断 · 海外 GitHub 高星 ≠ 真能用

这一次我跑通 ViMax 的整个流程 · 总结 3 件事：

1. 学术开源 ≠ 工业级可用

香港大学团队做 ViMax 是研究项目·目标是发论文 + 推 RAG 长剧本切分这个学术贡献。他们没承诺产品级稳定性。

6.6k 星里 80% 的人只是 star 了没真跑过·剩下 20% 跑过的人只跑了 demo 没真做正经活。

2. 4 agent 协作 ≠ 智能体革命

「N 个 AI 智能体协作」是 2024-2025 最大的营销热词。真测下来——绝大部分 N agent 项目本质是 N 次 LLM 调用串联，不是真智能协作。

判断标准很简单：N agent 项目实测有没有比单 LLM 调用更好的结果·没有就是营销话术。

3. 视频生成的真天花板在底层模型

ViMax 本身不训练任何视频模型 · 它的视频质量 100% 取决于豆包 Seedance / Google Veo 这些真正训模型的公司。

「做 AI 视频框架」的项目都是这个套路 —— 真本事在模型方·框架只是搬运 API。下次看到「我做了个 AI 视频神器」类项目·直接看它底层调谁家模型 · 那才是质量上限。

你想做 AI 短剧 / 剧情号 · 我的具体建议

🚫 别折腾自部署 ViMax 这类

✅ 直接走这套国产组合：

工具	干啥	月成本
剪映 AI 一键成片（SVIP）	文案 / 字幕 / 配音 / BGM 一条龙 + 数字人口播	¥138/月
即梦 AI · 图生视频	单镜头主视觉生成	¥79/月
可灵 AI · 图生视频	当即梦质量不够时备用	¥70/月起
DeepSeek / 豆包 · 文案	写剧本钩子 / 字幕台词	¥0-50/月

月总成本 ¥250-350 · 能做出抖店 / 视频号 / 小红书可直接发布的剧情视频 · 质量比 ViMax 稳 N 倍。

不要被「6.6k stars」「4 agent 协作」「角色一致性 RAG」这些词唬住。

¥30 + 1.5 小时 + 1 个翻车的核心卖点 —— 这就是我替你试出来的真相。

📩 觉得有用的话，点个「在看」+ 转发给你做内容 / 做电商的朋友 —— 这就是我能收到的最大鼓励。

也欢迎关注我，每周 3 次拆海外 AI 案例 · 翻译国内能抄的玩法 + 帮你避开外行坑。

—— 大雄

帮你看清 AI 真相——下一篇还有 GitHub 评测、热点拆解、赚钱案例校准。
点「在看」让算法推给同类人。
关注 + 转发，下次还有得对照。