AI视频生成观察|阿里这匹”欢乐马”把字节按住了,豆包的人脸却越长越像同一个人-夜雨聆风

AI视频生成观察|阿里这匹”欢乐马”把字节按住了,豆包的人脸却越长越像同一个人

昨天傍晚阿里把 HappyHorse 1.0 推到了灰测，从今天起开始送积分。这匹马背后到底是什么货色，我玩了一下，几个点是真的有点炸——但比”炸”更值得说的，是它逼着所有人重新看一眼这两年AI视频走过的路。这事放到2026年4月的视频生成赛道里看，分量不小。

先说 HappyHorse 这名字怎么来的。今年4月初，Artificial Analysis 的盲测榜单上突然冒出来一个匿名模型，叫 HappyHorse，没人认领，没发布会，没技术博客，就那么直接把字节的 Seedance 2.0 从 i2v 第一名的位置上拽了下来。在文本转视频赛道用 Elo 1333 到 1357 的分数压过 Seedance 2.0 的 1273 分，领先近 60 分；图生视频赛道更是刷到了 1391 到 1406 。官网的语言排序里普通话和粤语排在英语前面，懂的人立刻就明白了——这是中国队的活儿。后来阿里认领，说这是 ATH 创新事业部主导，联合通义实验室搞出来的。带队的是张迪，原快手副总裁，可灵的技术负责人，2025年底跳到了阿里。人是从隔壁挖来的，但活儿是新做的。

AI视频这条路，过去三年简直是一部”先吹牛、再翻车、再吹牛”的连续剧。
三年AI视频生成史，骨子里就一句话
2024年2月，OpenAI 把 Sora 的 demo 视频放出来那天，整个行业像被人捅了马蜂窝。一段海岸边小狗追海浪的视频，60秒，画面稳得像院线片。那之后所有人都在等 Sora 公测，结果等到的是——它一直在等。技术 demo 漂亮，落到产品手里费劲。
那段时间最重要的一个技术词是 DiT。就是把过去画图用的扩散模型（Diffusion）和写字用的 Transformer 拼到一起，让模型既会”涂鸦”又会”上下文”。这个思路是 William Peebles 和谢赛宁两个人在 2022 年的论文里提出来的，DiT 后来被广泛认为是 Sora 背后的技术基础之一。说白了就是 AI 不再像画家一样从白纸往上涂，而是先给你一张全是噪点的电视雪花屏，然后一遍一遍地”擦”，擦到你要的画面浮出来。
这条路一通，全行业就跟着钻进同一个洞里。
字节的 Seedance、快手的可灵、生数的 Vidu、爱诗的 PixVerse，技术路径全收敛到 DiT 扩散 Transformer 架构上。中间也有人想走另一条路——比如 Sand AI 坚持用自回归（就是大语言模型那种”猜下一个 token”的思路）来做视频，但坦白说没跑出多大水花。原因也直白：高维连续的像素空间充满了幻觉的深渊，单纯的自回归往往导致画面崩塌 ——一个像素一个像素往后猜，猜着猜着就猜歪了，跟一个微醺的人说话越说越离题是一个道理。

到了 2025 年下半年，DiT 这条路开始遇到天花板：画面是好看了，但音画对不上、人物动作飘、超过10秒就开始”脸跑了”。然后就是今年2月，字节的 Seedance 2.0 一上线就把社群冲爆，小云雀APP里生成15秒视频排队8小时，A股相关概念股集体涨停。冯骥发了那句”AIGC的童年时代结束了”。Seedance 2.0 的关键创新是把音视频联合生成做进了同一个模型里——以前是先出画面再贴音轨，现在是画面和声音一起长出来，自然就同步。
但 Seedance 2.0 有个让人扫兴的事。
那块”豆包脸”的玻璃，越擦越雾
你要是用过豆包生成视频，肯定有过这个感觉：生成出来的人，长得都像同一个表姐的同学。塌鼻梁微调过的、双眼皮像贴出来的、肤色统一带点滤镜光、笑起来嘴角弧度都一致——一种”AI网红脸”。男的也是同一套模板，浓眉、瘦脸、带点哭腔的眼神。

不怪豆包一家。它是整个 DiT 路线的通病。

技术上的根子有两条。第一条是训练数据。研究发现 Stable Diffusion 在生成人脸时存在严重的”种族同质化”——同一个种族的人被画得彼此过于相似。视频模型继承了图像模型的底子，这些偏差来自训练数据本身、算法设计和最终用户对输出的解读。中国互联网上喂给模型的”人脸”，大多数是抖音、小红书、淘宝模特照——本来就是经过滤镜、磨皮、拉鼻梁、瘦下巴标准化过一遍的脸。模型把这些当”美的样本”学，学出来的当然是同一张脸的不同角度。
第二条是平台主动做的安全约束。Seedance 2.0 上线后，即梦web端、小云雀等平台都明确提示暂不支持真人人脸作为参考素材；只有在即梦App和豆包App里完成活体认证后才能制作数字分身。意思就是：你想喂一张”具体的真人脸”进去？不行。你只能用模型脑子里”长得像某种人”的模板。这是为了防深度伪造，方向当然对——但代价就是模型只敢往最大公约数的脸上去靠。一张不会出事的脸，必然是一张谁都不像、谁也都像的脸。
这就好比让一个画家画肖像，但不准他看任何人。他画出来的所有人，最后都长得像他自己。
HappyHorse 这次的炸点，恰好就在这里。我玩的时候试了几张人脸图，真人感比 Seedance 2.0 强一个档次——不是说 Seedance 不好，是 HappyHorse 在”这是一个具体的人，不是一种人”这件事上更稳。技术上它用了纯自注意力单流架构，前后各4层模态特定层，中间32层共享参数；这种设计让音画对齐更天然，避免了多管道拼接带来的割裂感。再加上文本输入直接同步生成视频和音频，不需要单独的音频处理管道，从根上就跟 Seedance 不在同一个玩法里。
更关键的是——它开源。完整模型权重、蒸馏版本、视频超分辨率模块和全套推理代码都已通过 GitHub 公开发布，附带商业友好的授权许可。这就是为什么海外那些做出海短剧的团队这两天集体起夜——他们终于不用再求字节给内测码了，自己就能本地跑一份。

几个让我觉得”这下能搞事”的点
我在 happyhorse.cn 上玩了一晚上，以下几个细节是真的有点意思：
人脸不再”一眼假”。同一张参考图，HappyHorse 出的视频里这个人在不同镜头里还是这个人，不会”开头是表姐结尾变堂妹”。做海外真人短剧的兄弟们，这是你们等了一年的工具。
音视频联合生成，台词口型自动对，连环境音都给你做好。以前做一个5秒短视频，得分别处理画面、配音、音效、对口型——四道工序，至少一个下午。现在丢一段台词进去，出来就是齐活的成品。这不是省时间，这是把视频制作从一个工种变成一句话。
中英混说也能对口型。这点是真离谱。Seedance 2.0 的口型同步在纯中文或纯英文里做得不错，但中英夹杂的口播——比如出海广告里常见的”今天给大家recommend一款”——基本就废了。HappyHorse 在这块明显训过专门的数据。
最离谱的是榜单。在 Artificial Analysis 的 i2v 带音频排行榜上，HappyHorse 已经超过 Seedance 2.0，目前第一。一个开源模型把闭源商业模型按到地上，这事在大语言模型领域见过（DeepSeek），在视频生成领域是头一遭。
所以这事到底说明什么
说明 AI 视频生成这条路，从今天开始进入了开源跟闭源贴身肉搏的阶段。Seedance 2.0 还会继续好用，可灵也不会立刻死，但开源效果可以媲美闭源这个共识一旦立住，整个商业模式就要重新算账。你卖0.9元一秒的接口，对面同样的效果免费给你 GitHub 仓库——这门生意还做不做？
至于豆包那张”AI网红脸”，HappyHorse 不能根治，但至少证明了一件事：问题不是技术做不到，是有人选择不做。中国的视频模型平台过去几个月集体加严了真人人脸的约束，方向是对的，可代价就是每个人生成出来的视频都长着一张相似的脸。这是合规成本，不是技术上限。
现在阿里认领了 HappyHorse，开源了权重，你想怎么微调就怎么微调。保安总算把钥匙挂回了门口。能不能进去，看你自己想干嘛。
就在我写这篇的时候，HappyHorse 的官网积分系统刚刚开始送，刊例价 720P 视频生成 0.44 元/秒。对比一下 Seedance 2.0 的 0.9 元/秒，价格直接砍到一半。千问 App 更新到最新版，点首页下方”HappyHorse”按钮就能体验。
你今晚就能试。

长按关注，聊点硬核的。
往期推荐：微信里养小龙虾的时代正式开始
作者：AI临界点 · 用普通人听得懂的话聊AI
#AI视频生成 #HappyHorse #开源大模型 #AI工具 #普通人的AI指南