在AI视频生成领域,一场由阿里、字节和快手主导的“三国杀”正在上演。从技术突破到商业落地,中国大厂正以惊人的速度重塑这一赛道。
AI视频生成:从“玩具”到“工具”的蜕变
2024年,AI视频生成模型迎来了质变的关键节点。核心驱动力在于底层技术范式的根本性转变——从基于海量数据统计的模式匹配,升级为对物理世界规律进行模拟与理解的“世界模型”。这一转变解决了此前技术无法逾越的两大鸿沟:物理合理性和长期一致性。
以HappyHorse为例,它用一个统一的Transformer同时处理视频和音频,一次推理直接输出带声音的成片,不需要后期拼接。这种单流Transformer架构对提升长期一致性有显著优势。相比多个独立模型分别处理再协调的方式,这种方式减少了信息在模块间传递的损耗,理论上更有利于维持长时序的连贯叙事。
根据Artificial Analysis的评测指标(满分5分),HappyHorse在物理一致性方面得分为4.52,视觉质量得分为4.80,文本对齐得分为4.18。这表明其在基础一致性方面表现良好,但在复杂场景下的长期一致性仍有提升空间。
OpenAI退场,中国大厂上位
随着OpenAI关停Sora,AI视频生成领域的竞争格局发生了巨大变化。Sora的关停并非源于技术升级的困难,而是一笔算不过来的经济账。据Appfigures估算,Sora上线以来的应用程序内总收入仅约210万美元,投入产出比接近2500:1,堪称AI史上最昂贵的“技术烟花”。其低用户留存率也说明了商业应用的不可持续性。
在这种背景下,中国大厂迅速填补了市场空白。阿里、字节、快手等公司纷纷推出自己的视频生成模型,并在商业化道路上加速推进。其中,阿里HappyHorse的出现尤为引人注目,它不仅在技术上表现出色,还在商业模式上展现出强大的潜力。
HappyHorse原生支持多种语言的唇形同步,这很可能是为了将其应用于电商等实际场景中。张迪作为快手可灵和阿里HappyHorse之父,不仅懂技术,也很懂业务,这种双重优势使得HappyHorse在商业化道路上走得更远。
专家点评:AI视频生成已经不再是简单的技术展示,而是变成了企业级产品。谁能快速将技术转化为商业价值,谁就能在这个赛道上占据先机。
AI视频大有潜力:流量逻辑决定未来
视频是AI大模型很好的垂直应用方向,因为从流量逻辑看,视频是AI目前唯一能无缝嵌入娱乐、社交、电商三大现金牛领域的模态。ChatGPT(文本)的月活是亿级,TikTok(视频)的日活是十亿级。人类天生就懒于阅读文字,乐于消费视频。字节能深入所有互联网巨头的业务腹地,也是因为它抓住了视频这个关键点。
抖音上的视频流数据涵盖人物行为、物体运动、场景交互等多维度的动态信息,每一帧都是真实世界规律的记录。用这种优质数据训练出的垂直应用AI,很容易就赢在起跑线上。
Seedance2.0生成15秒视频的可用率或达到90%,相较此前行业内大概20%的平均值,提升幅度较大。 Seedance2.0的商业化推进节奏感极强,先用病毒式模板引爆社交媒体,完成零成本的流量引爆和用户教育。 HappyHorse的商业化推进节奏也非常快,从匿名冲榜到官宣认领,再到计划开放API、接入阿里百炼MaaS平台。
不止工具,生态协同
让AI与原本的核心业务深度协同,带来更大的生态繁荣,是现在每个互联网巨头都看重的事。阿里还有一个多年的心愿,即打造流量入口,反哺电商等核心业务。
理想情况下,HappyHorse可以同时踩中这两个关键点。作为视频生成工具,HappyHorse可以应用于商品广告、虚拟主播等电商业务场景中。如果还能在AI内容生成的源头占据一席之地,就能为电商交易等业务提供内生流量,从而构建“内容-交易-履约”的完整闭环。
对于大部分的投资者和从业人员来说,阿里作为电商一哥,似乎没有理由做不到类似的事情。HappyHorse这种阿里系视频生成工具的出现,某种意义上来说是符合公众预期的,毕竟,让商家可以在电商平台上直接用上稳定、可靠的视频生成工具,才是逻辑最顺畅的做法。
夜雨聆风