阿里深夜“放马”!150亿参数掀翻视频AI牌桌,1080P竟然单卡就能跑?

4月7日，一个叫HappyHorse的"匿名模型"空降全球AI评测平台Artificial Analysis，在文生视频和图生视频两个赛道同时登顶，把字节跳动的Seedance 2.0、快手可灵3.0、Google Veo 3全部踩在脚下。

三天后，阿里认领。

一场AI视频生成的技术路线之争，正式浮出水面。

HappyHorse（官方译名：快乐小马/欢乐马）是阿里巴巴ATH创新事业部推出的AI视频生成大模型。但真正让人坐不住的，不是它"匿名屠榜"的戏剧性——而是它背后的技术路线选择，跟行业主流完全不同。

我们拆了它的技术白皮书、看了同行的评测对比、翻完了外网的盲测数据，结论是：这匹小马不是在现有路线上加速，而是在换赛道。

HappyHorse-1.0登顶Artificial Analysis Video Arena文生视频与图生视频双榜

一、行业都在搞"两阶段"，它偏要"音画一起生"

现在市面上绝大多数AI视频生成模型，走的都是"两阶段"路线：

1第一阶段：生成一段无声视频

2第二阶段：给无声视频配音频、对口型

这个方案的好处是成熟、可控。坏处也很明显——音画不同步、口型错位、情绪对不上。你看过那些"嘴在动但眼神死的"AI数字人没？根子就在这儿。

HappyHorse走了完全不同的路：单流（Single-Stream）统一Transformer架构。

什么意思？

打个比方。两阶段方案像是先拍默片再后期配音——导演（第一阶段）和配音导演（第二阶段）是两个人，各自干活，出了问题互相推。单流架构则像是拍电影时摄影机和收音麦克风同时开着——画面和声音在同一个"创作现场"被生成出来。

技术上，HappyHorse把文本、视频、音频三种Token塞进了同一个Transformer序列里做联合建模。整张网络40层，前后各4层是模态特定层（处理各自模态的输入输出），中间32层全部共享参数——也就是说，画面和声音在32层共享网络里被"搅拌"在一起生成。

结果是：音画从底层就对齐了，不是后期拼接的。

HappyHorse单流统一Transformer架构示意：文本、视频、音频Token在同一序列中联合建模

对比一下行业现状：

	HappyHorse 1.0	Seedance 2.0（行业标杆）	可灵 3.0
架构	单流 Transformer	DB-DiT 并行扩散	类DiT扩散
音视频生成	原生联合生成	两路建模后合成	两阶段
去噪步数	8步（DMD-2蒸馏）	20+步	未公开
5秒1080P用时	~38秒（单H100）	~30秒（多卡）	需排队
参数规模	15B	约5-6B（估算）	未公开
最长视频	15秒	60秒	未公开

注：Seedance参数规模为行业估算值，官方未披露。

这个架构选择不是拍脑袋决定的。阿里ATH创新事业部的技术负责人张迪，之前是快手可灵AI的负责人——他自己就是"两阶段方案"的亲历者。2025年底跳到阿里后，第一件事就是换路线。你品，你细品。

人话版：张三开过一家两班倒的工厂，知道夜班和白班交接必出岔子。现在他开了新工厂，第一件事就是改成一条流水线干到底。

二、8步推理凭什么？拆解DMD-2蒸馏技术

AI视频生成最耗算力的环节是什么？去噪。

传统的扩散模型需要反复去噪——每一步都要"猜一猜、修正一下"，通常需要20步以上才能生成一个能看的视频。每多一步就多一次推理，多烧一次算力。

HappyHorse用了自研的DMD-2蒸馏技术，把去噪步数压缩到了8步。

这里有一个关键细节：DMD-2同时消除了Classifier-Free Guidance（CFG）的依赖。

CFG是扩散模型的"标配"。简单说，CFG需要每次推理跑两次前向传播——一次有条件、一次无条件——然后把两个结果做差值放大。相当于每步都要算两遍，再贵的显卡也扛不住。

DMD-2蒸馏直接把这套"算两遍"的机制训练进了模型参数里。模型自己学会了"什么样的结果是好的"，不需要每次推理时再搞条件/无条件的差值对比。

传统扩散模型20+步去噪 vs DMD-2蒸馏仅需8步

配合FP8量化优化后，整张NVIDIA H100显卡就能跑完整条1080P视频推理流水线。算力消耗比行业主流模型低了大约60%。

换算成更直观的数字：

•生成一条5秒1080P带音频的视频：38秒

•简单场景15秒视频：1-2分钟

•对比行业主流：快2-3倍

Seedance 2.0虽然生成一条5秒视频只要30秒左右，但那是多卡并行，而且排队动辄十来个小时。HappyHorse是单卡，高峰期不降速。

人话版：Seedance像是在高档餐厅——做菜快但排队排到饿死。HappyHorse像是你家楼下的快餐店——不一定比高档餐厅做得好，但你能吃上热乎的。

三、7种语言原生唇形同步，怎么做到的？

多语言唇形同步是AI视频的"照妖镜"——很多模型宣传图很唬人，一开口就露馅。

HappyHorse原生支持普通话、粤语、英语、日语、韩语、德语、法语7种语言的口型同步。关键数据：词错误率（WER）仅14.60%，同类开源模型普遍在19%-40%。

HappyHorse原生支持7种语言精准唇形同步，词错误率仅14.60%

这靠的不是"给每种语言单独训练一个模型"，而是单流架构的天然优势——音频Token和视频Token在同一序列里联合建模，嘴唇的运动和声音的频谱在训练阶段就是"同一条流水线上"的产物。

爱范儿在实测中的描述很形象：

"HappyHorse的对白真的有情境感。语气和语调贴着画面里的情绪，惊讶的时候语调是对的，轻松的时候节奏是松的。多人对话的场景里，听的那一方也是自然，会有表情，有细微的肌肉反应，不是在发呆等下一句。"

这背后其实是同一个技术原理在起作用：单流架构把"说话时的面部表情"和"说话的声音"当成了一个整体来生成，而不是分别生成再对齐。

人话版：传统方案是"画张嘴→贴音频→微调"。HappyHorse是"一边画嘴型一边念台词"，嘴唇动的幅度和声调的高低天然匹配。

四、说了这么多优势，缺点呢？

技术文章如果只吹不踩，跟广告没区别。HappyHorse有明显的短板：

1. 最长只有15秒，离"影视级"还远。 Seedance 2.0能做到60秒、4K/60fps。15秒够做短视频和广告，但想做短剧、微电影？远远不够。

2. 音频能力相对偏弱。 Artificial Analysis的含音频赛道，HappyHorse排第二，不如Seedance 2.0。单流架构在纯视觉质量上是断层领先的，但音频生成还在追赶。

3. 闭源。 虽然早期有大量"开源黑马"的宣传，甚至出现了冒牌开源网站（happyhourse.com），但官方已确认HappyHorse 1.0为闭源模型，仅通过云端API和官方平台提供服务。想私有化部署？目前不行。

4. 生态新生。 跟Seedance背靠即梦/TikTok、可灵背着快手的创作者生态比，HappyHorse还在"圈地"阶段。目前已接入千问App、阿里云百炼、万兴剧厂等，但这张网远没织完。

5. 数据质量的隐忧。 36氪引用了前阿里达摩院工程师姜奕祺的观点：HappyHorse参数是Seedance的近三倍，但表现力没有三倍差距，可能与短视频数据和影视级数据的质量差距有关。

五、对普通人来说，这意味着什么？

回到实际问题：这个技术对你有什么用？

第一，AI视频生成的成本正在断崖式下跌。 HappyHorse的会员价最低0.44元/秒，是行业主流定价的60%左右。一条10秒的电商商品展示视频，成本不到5块钱。一年前这个数字是几十到上百元。

HappyHorse官网提供免费版至专业版三档订阅方案，最低0.44元/秒

第二，"能用"的门槛被拉平了。 过去一年，AI视频赛道的竞争逻辑是"谁的模型更强"。HappyHorse的出现改变了一个事实：对80%的普通创作者来说，HappyHorse、Seedance、可灵的画面质量差距，已经小于"谁能让我不排队就用上"的体验差距。当"最强"和"第二强"之间的差距肉眼难辨时，"最低摩擦"就成了第一选择。

第三，技术路线还没收敛。 单流Transformer vs 多模态扩散——这跟当年LSTM vs Transformer的剧情很像。HappyHorse的出现证明"另一条路走得通"，这比任何一个单点技术突破都重要。竞争多了，价格就会降，产品就会好用。

对国内创作者的具体建议：

•电商/带货类视频：HappyHorse的图生视频+参考图一致性是强项，直接上

•短剧/剧情类：Seedance的多镜头叙事和角色一致性更强，长视频场景目前还是字节的天下

•多语言出海：HappyHorse的7语种唇形同步是独一档的存在

•纯粹尝鲜：千问App有免费额度，不用白不用

六、技术路线之争，才刚开始

HappyHorse的技术路线选择——单流统一架构、原生音画联合建模、8步蒸馏推理——本质上是在回答一个行业级命题：

AI视频生成的终局，是"画得更像电影"重要，还是"让每个人都能用得起"重要？

Seedance选了前者，HappyHorse选了后者。

但别忘了，这两个方向不是互斥的。当年GPT-3出来的时候，大家争论"大模型 vs 精调小模型"能吵三年。后来OpenAI的选择是：两个都要。

HappyHorse是一个1.0产品。张迪带着从快手可灵积累的经验到阿里，起点已经不低了。如果接下来的迭代能补上"视频时长"和"音频质量"两块短板，这匹小马就不是来抢跑道的，而是来重新画赛道的。

数据来源：阿里云开发者社区（HappyHorse技术文档）、Artificial Analysis Video Arena（2026.4排行榜数据）、36氪、爱范儿、雪球、AIHub.cn