一匹匿名黑马,如何在三天内打败字节、快手、OpenAI,成为全球第一?
2026年4月7日,一个名叫"HappyHorse-1.0"的神秘模型悄然出现在权威AI视频评测平台Artificial Analysis的榜单上。
没有发布会,没有预热,甚至没有署名。
三天后,它以1374 Elo的评分力压Seedance 2.0、Kling 3.0、Sora 2,登顶文生视频榜首;图生视频赛道,它以1410 Elo同样排名第一。
当所有人还在讨论"这是谁家的模型"时,4月10日,阿里巴巴官方微博正式认领:HappyHorse是淘天集团未来生活实验室的作品,由"可灵之父"张迪领衔研发。
这篇文章,想和你分享HappyHorse——它是什么、强在哪、弱在哪、适合谁,以及它对普通创作者意味着什么。
一、先说背景:AI视频生成的2026年春天
在聊HappyHorse之前,有必要先说说现在AI视频生成领域的格局。
第一梯队的玩家:
这几个月,Seedance 2.0是公认的"版本答案"。字节在2月12日发布后,它在各项评测中一路领先,尤其是"原生音视频联合生成"这个功能,让它在短视频创作场景中几乎没有对手。
然后HappyHorse来了。
二、HappyHorse是什么?
基本信息
- 全称:
HappyHorse-1.0(中文译名"快乐马"或"欢乐马") - 开发者:
阿里巴巴淘天集团·未来生活实验室 - 技术负责人:
张迪(前快手副总裁、可灵AI技术负责人) - 发布日期:
2026年4月7日(匿名上线),4月10日官方认领 - 开源承诺:
完全开源(Apache 2.0协议),但权重尚未正式发布
核心能力一览
一句话总结:这是目前唯一一个同时满足"顶级画质+原生音频+多语言口型同步+承诺开源"的AI视频模型。
三、凭什么说它是第一?
Artificial Analysis是什么
很多AI产品喜欢自己跑分自己宣传,但Artificial Analysis不一样——它是目前公认最权威的第三方AI视频评测平台。
评测方式:盲测投票。真实用户同时观看两个模型生成的视频(不知道哪个是哪个模型做的),然后投票选择更好的一个。
评分机制:Elo积分制(就是国际象棋用的那套排名系统)。赢的多、赢强者加分多。
这套机制的好处是:结果完全由用户偏好决定,厂商无法刷分、无法控制。
HappyHorse的成绩单(截至2026年4月11日)
怎么理解这个差距?
Elo差距60分,意味着在盲测中,HappyHorse赢Seedance 2.0的概率是58-59%。换句话说,每打100场,HappyHorse赢58场左右——这在统计上是显著且稳定的优势。
有意思的是,当加入音频评测时,Seedance 2.0略微反超。这说明字节在音视频同步的打磨上确实下了功夫,但差距极小(仅14分和3分),几乎可以视为打平。
四、技术上到底强在哪?
作为一个非技术背景的普通用户,尝试解释HappyHorse的几个核心技术亮点。
1. 单流Transformer架构(Transfusion风格)
传统的视频生成模型往往是"分开处理"——先生成图像,再预测运动,最后合成视频。HappyHorse用的是统一的单流架构,视频的每一帧、每一个像素、甚至音频,都在同一个Transformer里一起处理。
好处:运动更连贯、画面更一致、音视频同步更自然。
2. 8步推理(DMD-2蒸馏)
大多数AI视频模型需要25-50步"去噪"才能生成一段视频,每多一步就多一份计算成本和等待时间。
HappyHorse通过一种叫"DMD-2蒸馏"的技术,把这个过程压缩到了8步。
效果:
同等算力下,速度快3-5倍 单张H100显卡,38秒生成15秒1080p视频 对于需要批量生成内容的创作者,这是实打实的效率提升
3. 原生音视频联合生成
这个功能听起来简单,但实现起来很难。
大多数AI视频工具的"音频"是这样做的:先生成无声视频,再调用另一个音频模型配音,最后合成。这种方式的问题是音画容易不同步,尤其是说话场景,嘴型和声音对不上会非常出戏。
HappyHorse的做法是在同一次推理中同时生成视频和音频,模型在生成每一帧画面时,就已经"知道"这一帧应该配什么声音。
实际效果:嘴型同步自然,环境音效契合画面,不需要后期调整。
4. 7语言口型同步
对于做跨境电商、多语言内容的创作者来说,这个功能太实用了。
支持的语言:中文普通话、英语、日语、韩语、德语、法语、粤语。
你可以用同一段文案,生成7个语言版本的视频,每个版本的口型都是对的。省掉了找配音演员、后期对口型的所有麻烦。
五、和主要竞品的完整对比
整理了一张对比表,覆盖了目前市面上最主流的10款AI视频工具:
| HappyHorse 1.0 | |||||||
几个关键发现:
- HappyHorse是唯一一个"顶级画质+原生音频+承诺开源"三合一的模型。其他要么画质不够,要么没音频,要么闭源。
- Seedance 2.0在时长上有优势——15秒 vs 5秒,如果你需要生成稍长的内容,Seedance可能更合适。
- Sora 2时长最长(20秒)但限制多——需要ChatGPT Plus订阅,而且OpenAI已经宣布关停旧版Sora。
- 如果你只看画质不需要音频——HappyHorse遥遥领先。
- 如果你需要成熟稳定的API——Seedance 2.0(通过Dreamina)目前更可靠,HappyHorse的API还没正式开放。
六、实际使用体验
如何体验HappyHorse?
目前有三种方式:
1. 官方Demo站点
地址:happyhorse.video 免费赠送一定额度的credits 支持文生视频和图生视频两种模式
2. 第三方集成平台
Ima Studio、AIImageToVideo.pro 等平台已经接入 可以同时对比多个模型的效果
3. 等待开源
官方承诺会开源模型权重 GitHub仓库目前显示"Coming Soon" 预计包括:基础模型、蒸馏版本、超分辨率模块、推理代码
我的实测感受
我在官方Demo站点做了几组测试,分享一些主观感受:
优点:
- 画面质感确实惊艳
——光影、材质、运动模糊都很自然,不像"AI生成的" - 音视频同步很好
——测试了一段"人物说话"的场景,嘴型和声音高度一致 - Prompt理解能力强
——复杂的场景描述("夕阳下,一只金毛犬在海边奔跑,海浪拍打沙滩")基本都能准确呈现
局限:
- 5秒时长确实短
——对于需要连贯叙事的内容,得分段生成再剪辑 - API还没开放
——想批量生成或集成到工作流里,暂时做不到 - 开源权重还没发布
——说好的Apache 2.0,目前只是承诺
七、关于张迪和这匹"快乐马"的故事
聊HappyHorse,绕不开张迪这个人。
张迪是谁?
前快手副总裁 快手可灵AI(Kling)的技术负责人,被称为"可灵之父" 2025年8月从快手离职 2025年11月加入阿里巴巴淘天集团,担任"未来生活实验室"负责人 直接汇报给淘天集团首席科学家郑波
一个有意思的细节:HappyHorse最初是匿名上榜的,没有任何品牌标识。直到社区猜测越来越集中,阿里才在4月10日正式认领。
这个"匿名发布"的策略其实很聪明:
- 去品牌化 = 更真实的验证——用户在盲测中不知道这是阿里的产品,投票完全基于画面质量,结果更有说服力。
- 避免早期舆论压力——如果一开始就打着"阿里出品"的旗号,任何瑕疵都会被放大讨论。匿名期相当于一个"安全打磨"的窗口。
- 制造话题性——"神秘黑马登顶"比"阿里发布新模型"有趣多了,媒体和社区的讨论量自然就高。
八、优劣势总结:HappyHorse适合谁?
核心优势
✅ 画质天花板——经过万人盲测验证的第一名,不是自卖自夸
✅ 原生音视频——一次生成,不需要后期配音
✅ 多语言口型——7种语言,跨境内容福音
✅ 高效推理——8步生成,速度快成本低
✅ 开源承诺——如果兑现,将是最强开源视频模型
主要局限
⚠️ 时长只有5秒——Seedance 15秒,Sora 20秒,这个差距客观存在
⚠️ API未开放——想批量使用、集成工作流,还得等
⚠️ 开源未兑现——GitHub显示Coming Soon已经好几天了
⚠️ 假冒网站泛滥——社区已发现多个钓鱼域名,务必认准官方地址
适合的人群
九、对普通人意味着什么?
写到最后,我想聊聊HappyHorse(以及整个AI视频生成领域)对我们普通人的意义。
一个显而易见的趋势是:AI视频生成的门槛正在快速降低。
2024年,Sora发布时惊艳全球,但普通人根本用不上。 2025年,可灵、Dreamina让AI视频进入"可用"阶段。 2026年,HappyHorse们正在让AI视频变得"好用"。
具体来说:
- 内容创作的成本在暴跌——以前做一支15秒的产品视频,得请摄影师、模特、后期,几千到几万不等。现在,几块钱的API调用费,几分钟的等待时间。
- 创意的试错成本在归零——"我想看看这个想法拍出来什么效果"——以前得真的拍出来才知道,现在打几行字就能预览。
- 个人创作者的竞争力在提升——一个人+AI工具,能做出以前一个小团队才能做出的东西。
当然,这也带来新的问题:版权归属、深度伪造、虚假信息……这些话题值得另开一篇文章讨论。
十、最后的话
HappyHorse能不能保持第一的位置?不好说。AI领域的迭代速度太快,今天的冠军可能下个月就被超越。
但它证明了一件事:在AI视频这个赛道上,中国团队已经走到了世界最前沿。
字节的Seedance、快手的Kling、现在阿里的HappyHorse——这三家的技术实力,放在全球范围内都是第一梯队。
对于普通创作者来说,这是好事。竞争越激烈,工具越好用,成本越低。
HappyHorse的开源承诺如果能兑现,意义会更大——它可能成为开源社区的新基准,让更多开发者能在它的基础上构建新的应用。
夜雨聆风