📌 4月最热AI事件 · 建议转发给做视频的朋友
一个没有官网、没有技术报告、没有公司署名的神秘模型,在4月7日悄悄出现在全球最权威的AI视频评测平台 Artificial Analysis 上。
名字叫 HappyHorse-1.0。
然后,它把榜单踩烂了。
屠榜,而且是大比分屠
HappyHorse-1.0 以 Elo 1332 的成绩登顶文本转视频排行榜,超越 Seedance 2.0,荣膺全球第一;同时在图像转视频排行榜上以 Elo 1392 稳居榜首,领先第二名超过50分。
这个分差意味着什么?
在AI模型盲测中,Elo 差距超过50分通常被视为「明显优势」,超过100分则基本是碾压。而 HappyHorse 领先 Seedance 2.0 整整59分——这是该排行榜有史以来记录过的最大差距之一。
被甩在身后的,不只是字节的 Seedance 2.0,还有快手的可灵3.0、Google Veo 3,以及曾经的标杆 Sora 2 Pro 已经跌落至榜单第20名。
但值得注意的是测评对战样本仅约3500 次,远低于成熟模型的 7500+,置信区间偏宽、分数波动大。分数在几天内明显回落,且盲测样本里人像、口播、静态场景占比超 60%,HappyHorse 在此类场景专项占优。
我个人体验确实也觉得没有吹的那么神,仅限个人观点。
它到底赢在哪里?
Happy Horse 1.0 的核心卖点,是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是:先生成一段没有声音的视频,再找另一个模型配音,再找另一个工具做口型对齐,几道工序下来,时间和误差都在叠加。而 Happy Horse 1.0 用一个统一的 Transformer 同时处理视频和音频,一次推理直接输出带声音的成片,口型、脚步声、环境音全部在同一个过程里生成,不需要任何后期拼接。
速度呢?模型采用了 DMD-2 蒸馏技术,把去噪步数从通常的 25 到 50 步压缩到了 8 步,在单张 H100 上,生成一段 1080p 视频只需要大约38秒。
还有一个细节很多人忽视了:模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步,这些语言的口型是和视频一起联合训练出来的,不是后期贴上去的。
更大的意义:开源赢了
4月9日,Happy Horse 1.0 宣布开源。
这才是真正的大事件。
始终横亘在开源与闭源之间的,是一道效果层面的可见差距——在需要向客户交付的场景里,开源模型的生成质量长期未能跨过「可用」到「可交付」的门槛。可灵、Seedance 等闭源产品的定价权,在相当程度上正是建立在这一差距之上。
这一次的意义在于,一个基于开源模型的产品,在以真实用户感知为基准的盲测排行榜上,首次正面比肩了当前主流闭源竞争对手。对于依赖这一差距构建定价权的闭源厂商而言,至少这是一个值得认真对待的信号。
我的判断
这件事有三层值得关注的逻辑:
第一层,技术层面:音视频统一生成 + 8步去噪 + 7语言唇同步,这不是参数堆砌出来的暴力美学,是架构层面的真创新。
第二层,竞争格局层面:可灵之父带着在快手攒下的经验去阿里重新造轮子,还造出了全球第一。字节和快手感受到的压力,比榜单分差更大。
第三层,开源生态层面:HappyHorse 短期内不会动摇 Seedance 2.0 或可灵的市场地位,但开源模型效果可以媲美闭源这一认知一旦确立,后续的量化优化、垂直微调与推理加速将由社区以远超闭源产品的迭代速度持续推进。
在这个马年,跑得最快的,偏偏是一匹悄悄出现的马。
这匹马之前被各种猜测是哪家神秘黑马团队的作品,今天阿里出了官宣,大家不用再猜了。以下是HappyHorse_AI今天官方公告:

你对这匹「快乐马」怎么看?评论区聊聊 👇
夜雨聆风