从首个AI视频软件Sora的猝死,讨论AI视频软件相对传统视频软件有何优势作者:王坚,芝加哥教授学者协会会长讨论者:中科大物理自由讨论群 Sora生成黑衣红裙女士漫步街头的视频2024年2月15日,OpenAI推出的首个AI视频软件Sora轰动全球。Sora能根据文字提示生成视频。给出一句话:"在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上",Sora就能生成一段栩栩如生的黑衣红裙女士漫步街头的视频。人们惊呼Sora要颠覆电影业。两年之后, 2026年3月25日,OpenAI宣布关停AI视频软件Sora。Sora迅速从巅峰跌落到谷底。AI软件的特征,是用大量的数据来训练。Sora和其他的美国AI视频,都不公布自己的训练数据的来源。根据Sora生成的视频的特征,有专家认为Sora不是用实际的视频来训练,而是用人工生成的视频来训练。什么软件能生成大量的视频来供Sora训练之用?业界人士普遍认为是虚幻引擎Unreal Engine 5。虚幻引擎有强悍的视频生成能力,能生成达到剧院放映水准的高质量视频。 Sora生成的视频,蚂蚁少两条腿Sora生成的视频有很多问题,包括蚂蚁少两条腿,风吹火焰纹丝不动,大象走路掀起漫天雪片,棋盘格数不对,椅子会飞,无中生有涌现出小狗等等。既然传统视频软件能生成高质量的视频来供Sora训练之用,而Sora生成的视频则是问题成堆,那么人们不仅要问:AI视频软件相对传统视频软件有何优势? 非AI视频软件生成的川普和希拉里对舞的视频十年前,用传统视频软件生成的川普和希拉里对舞的视频,质量高,时间长,现在的AI视频软件难以企及,Sora更是差得太远了。人们可能会讲,Sora的优势,是开创根据文字生成视频。在2021新榜大会上,剪映公开的新功能“图文成片”备受关注。用户输入一段文字,剪映智能匹配图片素材、添加字幕、旁白和音乐,自动生成视频。比Sora早3年,字节跳动的传统视频软件剪映,就可以根据文字生成视频。这样,就很难发现AI视频软件有何优势,Sora生成一段15秒左右的理想镜头需尝试5至10次,合计成本约800元人民币。同样是生成15秒高质量镜头,中国主流文生视频大模型的成本已被压缩至150元人民币左右。Sora等AI视频软件,在生成视频时,随机性很大,需要反复“抽卡”,撞了大运后,才能生成理想的结果。大部分视频生成的努力就白白浪费了,成本也更高。 在Sora生成的三只小狗嬉戏的视频中,就会无中生有地出现第四只甚至第五只小狗在用Sora生成三只小狗嬉戏的视频时,因为相互遮挡,4只小狗的图片有时只能看到3只小狗,4只小狗图片的流形就和三只小狗图片的流形有交集。于是在Sora生成的三只小狗嬉戏的视频中,就会无中生有地出现第四只小狗。LAION的4亿有文字标注的图片链接被AI公司用于训练。LAION打着科研的招牌摆脱了抄袭的指控。但是用LAION的图片链接下载图片的AI公司,会受到抄袭的指控。Sora等美国AI视频软件,遭到大公司指控抄袭,都不敢公布自己的训练视频数据。中国的AI视频软件公司,如字节跳动、快手等,很多年前就在开发视频平台和视频软件,早就积累了大量的图片素材、视频素材和视频制作经验。中国的AI视频软件Seedance 2.0,有素材库,有模板,更加像传统的视频软件。用Seedance 2.0生成三只小狗嬉戏的视频,可以先在素材库找到小狗的图像,再找到背景的图像,再选择模板,然后让小狗动起来,生成小狗嬉戏的视频,质量就会很高。AI图像和视频软件,需要用几亿个图像和视频素材来训练。比如将猫的图片转变为狗的图片,输入长耳朵猫的图片,最后AI视频软件输出一个长耳朵狗的图片,人手工操作很容易,AI也需要用几千个猫狗图片来进行训练,而且转换的效果常常会很差。根据文字来生成图像和视频,这个需要对几亿个图像和视频做文字标注,然后找到与提示词相关的图片和视频进行整合。现在常用的是Diffusion Transformer扩散转换器模型。很多号称是AI的图像、视频软件,内置现成的模块,实际上是在用传统编程。一个销路很好的AI画框,自我介绍就是用模版,每幅图像都很精美。AI画框实际上是用传统编程,从图片数据库选择高质量的图片,而不是用AI来生成质量没有保证的图片。很多号称是AI的图片和视频软件,都是用模板,也就是用传统编程,而不是用AI。OpenAI没有视频经验,没有视频素材,直接利用他人的图像和视频来训练AI视频软件Sora,就很被动,因为害怕被指控侵权而不能选择和加工素材。 2023年8月,有人用视频制作软件,将人置换为一个在多处使用的机器人形象,生成机器人与世界冠军级运动员打球的高难度视频而在视频领域,传统图像和视频软件早就是高度成熟了。视频制作软件早就可以将人置换为机器人,生成机器人打球、跳舞等热门视频。影视界已经积累了大量的视频素材,比如可以做各种三维动作的3D数字人。电子游戏中的角色也很逼真,网易甚至能在电子游戏中完全模仿挖掘机,并运用在电子游戏中积累的经验,开发出在高原作业的无人驾驶挖掘机。视频制作软件Unreal Engine可以生成达到剧院放映水准的视频。KIRI Engine可以将手机图片转化为3D模型,积累成全球最大的视频3D素材库。【图文来源】微信公众号:芝加哥百名教授学者论坛本文图文来源于网络,版权属于原作者或网站,内容为作者观点,并不代表本公众号赞同其观点及对其真实性负责。如有版权等问题,请与管理员邮箱联系,将立刻进行相应处理。【远方的家】集锦来自中国科学院汪寿阳研究员及其学生们的日常随笔,分享各类热点新闻、趣闻、消息。微信号:homeofcas投稿、意见,请直接回复或发信至:amssmadis@163.com