乐于分享
好东西不私藏

千问APP首发HappyHorse:阿里以“原生音画”重构AI视频生成范式

千问APP首发HappyHorse:阿里以“原生音画”重构AI视频生成范式

4月27日,千问APP首发灰测阿里自研视频生成模型HappyHorse1.0,用户更新至最新版本后,通过首页“HappyHorse”入口即可体验15秒多镜头叙事、多画幅适配及1080P超分输出等功能。这款由阿里ATH创新事业部主导研发的模型,不仅以1383分的Elo评分登顶VideoArena榜单,更以“原生音画同步”“单流联合建模”等技术突破,为AI视频生成领域树立了新的技术标杆。

技术突围:从“拼接”到“共生”的架构革命

当前AI视频生成领域普遍存在“视频与音频分离”的痛点:传统模型多采用“先生成视频、后匹配音频”的拼接模式,导致口型对不上、环境音违和等问题频发。HappyHorse1.0则通过150亿参数、40层统一自注意力Transformer架构,实现了文本、视频、音频三模态token的原生联合建模——在生成像素的同时对音频特征进行去噪处理,使配音、环境音与画面实现“基因级”对齐。
这种技术路径的革新,直接解决了创作者的核心痛点。例如,生成“雨夜对话”场景时,模型不仅能精准匹配人物口型,还能同步生成雨滴声、雷声等环境音效,无需后期二次处理。其支持的七种语言原生口型同步(包括粤语、英语、日语等),更打破了跨境内容创作的语言壁垒。

效率与成本的双重破局

在技术领先的HappyHorse1.0更注重落地实用性。通过DMD-2蒸馏技术,模型将采样步骤压缩至8步,使生成5秒1080P带音频视频仅需38秒(单张H100 GPU),效率较同类模型提升数倍。这种高效能设计,使得模型不仅能在云端部署,更具备在高端家用显卡(48GB显存以上)本地化运行的潜力,大幅降低了创作者的硬件门槛。
商业化层面,千问APP为720P/1080P视频设定了0.9元/秒及1.6元/秒的刊例价,专业会员叠加折扣后低至0.44元/秒。这一定价策略,配合“Prompt一键复刻”“创作模板”等平民化功能,正在加速AI视频从“技术玩具”向“生产力工具”的转变。

从“生成”到“创作”的范式升级

HappyHorse1.0的价值不仅在于技术参数的突破,更在于对内容创作逻辑的重构。其“多镜头叙事”能力,允许用户通过简单文字描述生成包含运镜切换、转场特效的完整短片。内测期间,创作者已用它生成“央视三国风职场梗”“TVB港风审讯猫”等爆款内容,甚至通过“测一测”玩法生成个人短剧角色——这种“低门槛、高上限”的特性,正在激活UGC(用户生成内容)生态的无限可能。
当AI视频生成从“单点技术突破”走向“全链路体验优化”,HappyHorse1.0的出现无疑提供了一个重要范本:真正的技术领先,不仅是榜单上的Elo评分,更是让每个普通人都能用15秒讲述一个声画俱佳的故事。