HappyHorse这匹「快乐马」,把AI视频榜单踩烂了

📌 4月最热AI事件 · 建议转发给做视频的朋友

一个没有官网、没有技术报告、没有公司署名的神秘模型，在4月7日悄悄出现在全球最权威的AI视频评测平台 Artificial Analysis 上。

名字叫 HappyHorse-1.0。

然后，它把榜单踩烂了。

屠榜，而且是大比分屠

HappyHorse-1.0 以 Elo 1332 的成绩登顶文本转视频排行榜，超越 Seedance 2.0，荣膺全球第一；同时在图像转视频排行榜上以 Elo 1392 稳居榜首，领先第二名超过50分。

这个分差意味着什么？

在AI模型盲测中，Elo 差距超过50分通常被视为「明显优势」，超过100分则基本是碾压。而 HappyHorse 领先 Seedance 2.0 整整59分——这是该排行榜有史以来记录过的最大差距之一。

被甩在身后的，不只是字节的 Seedance 2.0，还有快手的可灵3.0、Google Veo 3，以及曾经的标杆 Sora 2 Pro 已经跌落至榜单第20名。

但值得注意的是测评对战样本仅约3500 次，远低于成熟模型的 7500+，置信区间偏宽、分数波动大。分数在几天内明显回落，且盲测样本里人像、口播、静态场景占比超 60%，HappyHorse 在此类场景专项占优。

我个人体验确实也觉得没有吹的那么神，仅限个人观点。

它到底赢在哪里？

Happy Horse 1.0 的核心卖点，是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是：先生成一段没有声音的视频，再找另一个模型配音，再找另一个工具做口型对齐，几道工序下来，时间和误差都在叠加。而 Happy Horse 1.0 用一个统一的 Transformer 同时处理视频和音频，一次推理直接输出带声音的成片，口型、脚步声、环境音全部在同一个过程里生成，不需要任何后期拼接。

速度呢？模型采用了 DMD-2 蒸馏技术，把去噪步数从通常的 25 到 50 步压缩到了 8 步，在单张 H100 上，生成一段 1080p 视频只需要大约38秒。

还有一个细节很多人忽视了：模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步，这些语言的口型是和视频一起联合训练出来的，不是后期贴上去的。

更大的意义：开源赢了

4月9日，Happy Horse 1.0 宣布开源。

这才是真正的大事件。

始终横亘在开源与闭源之间的，是一道效果层面的可见差距——在需要向客户交付的场景里，开源模型的生成质量长期未能跨过「可用」到「可交付」的门槛。可灵、Seedance 等闭源产品的定价权，在相当程度上正是建立在这一差距之上。

这一次的意义在于，一个基于开源模型的产品，在以真实用户感知为基准的盲测排行榜上，首次正面比肩了当前主流闭源竞争对手。对于依赖这一差距构建定价权的闭源厂商而言，至少这是一个值得认真对待的信号。

我的判断

这件事有三层值得关注的逻辑：

第一层，技术层面：音视频统一生成 + 8步去噪 + 7语言唇同步，这不是参数堆砌出来的暴力美学，是架构层面的真创新。

第二层，竞争格局层面：可灵之父带着在快手攒下的经验去阿里重新造轮子，还造出了全球第一。字节和快手感受到的压力，比榜单分差更大。

第三层，开源生态层面：HappyHorse 短期内不会动摇 Seedance 2.0 或可灵的市场地位，但开源模型效果可以媲美闭源这一认知一旦确立，后续的量化优化、垂直微调与推理加速将由社区以远超闭源产品的迭代速度持续推进。

在这个马年，跑得最快的，偏偏是一匹悄悄出现的马。

这匹马之前被各种猜测是哪家神秘黑马团队的作品，今天阿里出了官宣，大家不用再猜了。以下是HappyHorse_AI今天官方公告：

你对这匹「快乐马」怎么看？评论区聊聊 👇