今天我想用 AI 做视频,结果撞上了一场正在改写规则的全球争霸赛—

今天我想用 AI 做视频,结果撞上了一场正在改写规则的全球争霸赛——HappyHorse 来了

一个营销人今天做了一件事

今天，我想给两个品牌——面向国内的明道云，和面向海外的 nocoly——搭一套 AI 视频生产流水线。

需求很具体：脚本、分镜、生图、生视频，全程 AI 驱动，我只管创意方向和最终审片。

没有预算雇视频团队，外包太慢，而内容需求是持续性的。所以这条路，我必须走通。

我不会想到，这件小事会在今天撞上一个比它大得多的故事。

工具选型：为什么选港大的 ViMax？

编排层我选了 ViMax，港大 HKU-IDS 出品的开源多智能体视频框架。理由很清楚：

它把视频生产拆成 Director、Screenwriter、Cinematographer 等多个 Agent 分工协作，和真实的视频制作流程是对应的，有工程骨气，不是把所有事情糊在一个 prompt 里的那种做法。完全开源，遇到问题能看源码，这对我这种要深度定制的需求至关重要。

生图和视频接的是即梦（火山引擎）API。

踩了几个坑，跑通了一套流水线

AI 生成的 nocoly 剧情视频分镜图：员工正在向老板介绍一个新的无代码产品

花了大半天，踩了几个有代表性的坑：

第一个坑：AI 的「文化默认值」。 Prompt 里写"现代办公室"，第一次跑出来是竹林流水、东方庭院。必须加硬约束：No Asian architecture. No outdoor scenes.——排除法比描述法更管用。

第二个坑：人物一致性靠「按角色分配参考图」。 我的剧情有两个角色，一开始用同一张图做所有镜头的参考，所有人都长成一个样。正确做法：先为每个角色单独生成 portrait，再按镜头出现的角色路由。

第三个坑：图生视频（i2v）和文生视频（t2v）是两套不同的 API，权限、模型名、请求格式全不一样。 文档里没写，只能靠报错慢慢试。

这些坑踩完，流水线跑通了，生图效果基本达到预期。

然后我遇到了今天的核心问题：视频没有声音。

一堵墙，和一个行业真相

解决声音问题，我的第一个方向是即梦官方刚推出的 Dreamina CLI——它有个命令叫 multimodal2video，能输入图片加音频，用 Seedance 2.0 直接生成带声音的视频。听起来完美。

安装、扫码、登录。提示：

请先成为即梦高级会员后体验 Dreamina CLI 功能。

最高级会员，每月 600 多块。

这堵墙让我去搜了一圈背景，然后发现了一个比我今天这件事大得多的故事。

为什么视频生成贵成这样？

大概 1 块钱一秒——这不是哪家公司的定价歧视，是底层成本决定的。

视频 = 大量连续帧，每帧相当于一张高质量图片，还要帧帧保持一致，运动流畅。现在的顶级视频模型参数通常在百亿级别，生成 5 秒 720P 视频，H100 要跑数十秒，算下来电费加折旧，市场价就是这个数。

字节之所以能在这个成本结构里形成垄断，背后有三层护城河：

数据护城河：Douyin/TikTok 是全球体量最大的短视频平台，几十亿条视频，训练数据质量无人能及。

算力自建：字节是国内最大的 GPU 算力自营方之一，边际成本远低于所有竞争对手。

分发闭环：Seedance 的视频直接在即梦平台变现，B 端定价高，C 端用户同时产生新的训练数据，飞轮自转。

这个结构，让字节在 AI 视频领域形成了「数据 × 算力 × 分发」的三重垄断。

然后圈内的情绪开始浮出来。「天下苦 Seedance 久矣」——这句话，说的是质量缩水、价格疯涨、市场上没有任何一个平价替代品。

就在这时，HappyHorse 出现了。

一个没有公司名的模型，悄悄爬上了全球排行榜第一

4 月 7 日，Artificial Analysis 的视频模型排行榜上出现了一个陌生的名字：HappyHorse-1.0。

没有发布会，没有公司名，没有技术论文。Artificial Analysis 在备注里用了「pseudonymous」——他们知道是谁，但没公开。

ELO 1412 分，全球第一。Dreamina Seedance 2.0，1358 分，第二。

Artificial Analysis 视频模型排行榜，HappyHorse-1.0 以 1412 分位居第一，Seedance 2.0 以 1358 分位居第二

不是小胜，54 分的差距在这个榜单上是非常大的差距。

张迪：一个人的完整轨迹，一场才华的流转

HappyHorse 官网显示：由 Taotian Group（阿里淘天集团）Future Life Lab 开发，负责人 Zhang Di

然后身份曝光了：阿里巴巴淘天集团旗下的「未来生活实验室」，负责人张迪。

这个名字背后，有一条很有意思的故事线。

2010 年，张迪从上海交通大学计算机系硕士毕业，直接进了阿里巴巴，加入阿里妈妈做搜索广告和精准投放的底层架构。做了将近 10 年，是公认的技术实力派，但当时名气还没出来。

2020 年，他跟着自己在阿里的老领导盖坤一起跳槽去了快手——后来的事情很多人知道了：他在快手主导建起了可灵 AI，从 2023 年开始快速迭代，一年内跑了超过 30 个版本，把运动一致性和视频质量做到了那时候圈内公认的最高水平。圈子里叫他「可灵之父」。快手可灵 2025 年二季度营收超 2.5 亿，同比涨幅 67%。

2025 年 8 月 15 日，快手发内部公告，张迪原来的职位被他的前领导盖坤接管，张迪正式离职。

细节很微妙：快手 CEO 程一笑没有发任何全员信，也没有公开表彰他的贡献——对于一个 VP 级别、主导了公司最重要 AI 产品的核心高管来说，这种离职方式相当罕见，也相当冷淡。

2025 年 9 月，他短暂加入了 B 站，出任技术负责人。

两个月后就走了。

坦白说，B 站给不了他真正需要的东西——顶级算力和足够大的资源盘，让他继续做大模型方向的事。两个月，够了解清楚了。

2025 年 11 月 4 日，消息传出：张迪回归阿里，担任淘天集团未来生活实验室负责人，P11 级，向阿里妈妈 CTO 郑波汇报。

2025 年 11 月 4 日，媒体报道张迪加入阿里，出任未来生活实验室负责人

这一次回来，已经不是 10 年前那个刚毕业的工程师。他带着在快手建立的方法论、团队经验、以及外部对他的信任，重新进场——这次手里有阿里的资源，有充足的算力，还有一个足够大的舞台。

5 个月后，HappyHorse 出现在排行榜第一名。

阿里为什么选择开源？这才是战略核心

HappyHorse 确认将完全开源：GitHub 和模型权重近期发布，创建账号免费

HappyHorse 宣布完全开源，这个选择本身比模型性能更值得拆解。

打破定价垄断：开源之后，Seedance 的高价失去合理性。开发者有了真实的选择，不再被任何一家平台定价绑架。

复制 Meta Llama 的打法：Meta 把 Llama 开源，直接瓦解了 OpenAI 闭源商业模式的定价逻辑，用生态和社区反制。阿里对字节做同样的事。

阿里云的隐性收益：开源模型本身免费，但大量开发者自研部署会用阿里云的 GPU，阿里云业务受益。开源是赔本买卖是假的，只是利润来自不同地方。

张迪的本能：他在快手时主导的可灵也走了相对开放的路线，他熟悉开源社区的规则，也知道开源信任对于一个新品牌意味着什么。

这不是慈善，是一笔非常精准的商业账。

从我今天做的这件小事，看到了什么

说实话，做完这一天，我有点震撼。

一个营销人想批量做广告视频，用 AI 替代传统制作链路——这件事在五年前是不可能的，三年前是很难的，今天我一个人一台电脑跑了大半天就初步跑通了。

这才是 AI 真正在做的事：把原来需要一个团队、一笔预算、几个月周期才能完成的工作，压缩成一个人可以独立完成的流程。

视频制作这个行业，不会是最后一个被这样重塑的领域。

还有一点让我振奋：我们通常说 AI 这件事中国在追赶，说的主要是文本大模型。但在视频生成这个维度，画面完全不同——Sora 震惊了全世界，但到今天它没有公开 API，普通开发者用不上；真正在全球排行榜上打头阵、可以真实接入使用的，是 Seedance 和 HappyHorse，都是中国团队。

Douyin 和 Kuaishou 是全球体量最大的短视频平台，训练数据的优势是结构性的。中国在视频 AI 这个维度走在全球前列，是真的，不是营销话术。

即将到来的 Launch 日

据社区消息，HappyHorse 将在近期正式公布 API 定价和接入方案。

我的视频流水线后端是可插拔的——如果 HappyHorse API 定价合理，换掉即梦后端理论上改一个配置就行。

更重要的是：HappyHorse 是视频和音频一次推理同时生成，如果接进来，我现在那套「生视频 → 单独 TTS → moviepy 混合」的链路可以大幅简化。

字节用 Seedance 封锁了 AI 视频的高质量出口。

阿里这匹快马来了。

关于作者

老雷（Andy），明道云 & Nocoly CMO，SaaS 行业从业十余年。骨子里是个产品人和技术迷，乔布斯的信徒，相信好的产品能改变世界。深度关注 AI、商业与科技趋势，目前在深度使用和实践 Claude Code，专注探索 AI 如何重塑产品形态和商业逻辑。不聊概念，只聊真实发生的事。

「雷码工坊笔记」，持续记录 AI 工具实战和行业观察。