文|廖原 许英博 叶敏婷 连一席
丁晓月 徐航 张苡铭 王悦如
2023年起AI视频生成模型行业技术加速迭代,步入规模化落地期,但市场观点仍存在较大分歧。本文围绕市场核心关注展开研判:明确DiT主流技术路线及三层演进趋势;测算2030年市场规模可达450亿美元,呈阶梯式增长;点明算力、数据、人才、战略四大核心壁垒,类比成熟的游戏引擎行业,预判将形成头部差异化竞争格局而非“赢者通吃”;综合海内外估值体系,给予行业30倍P/ARR中性估值,认为优质国产多模态标的估值具备上行潜力。

▍报告缘起:AI视频生成及多模态大模型赛道热度持续攀升,已成为产业与资本共同聚焦的核心方向。
资本市场层面,根据The Information,快手可灵计划启动分拆融资,估值约200亿美元;智谱/Minimax自上市以来分别涨幅达686%/239%,资本端对头部模型企业追捧情绪高涨。产业端格局亦迎来明显变动,2026年3月OpenAI受算力成本掣肘关停Sora相关业务,4月可灵ARR达5亿美元,业内玩家发展路径逐步分化。当前市场对于AI视频与多模态领域发展进程仍存分歧,核心围绕技术演进路线、行业成长空间、竞争格局究竟走向赢者通吃还是多元共存、行业合理估值中枢等问题。立足行业当下发展现状与市场核心疑问,本篇报告深度梳理产业全貌,逐一解答市场重点关切。
▍技术层:DiT主导,关注三层演进方向。
DiT 仍为AI视频生成模型的底层主流架构,具备全局注意力范围、可拓展性强、控制更精准、连贯性更强等优势。从后续技术演进路径来看,我们预计行业将沿着以下方向推进:
1)短期,原生多模态能力成为共识,双流架构、MMDiT等DiT变体优化逐步落地。例如可灵3.0系列、Seedance 2.0、HappyHorse等。
2)中期,模型架构从稠密(Dense)向 MoE(混合专家模型)演进,参数规模扩容。例如通义万相Wan2.2、Mamoda2.5已经开启初步尝试。
3)远期:模型自学习与自主规划能力突破。随着2025年AR-DiT与Self Forcing的成功突破,世界模型的演进路径逐步具备清晰可行的基础,后续需聚焦因果性、交互性、持久性、实时性、物理准确性五大核心维度持续迭代。
▍商业化:初步预计2030年市场规模达450亿美元,符合阶梯式增长趋势。
商业模式:当前AI视频生成行业主要包括会员订阅、API计费、平台分发和生态合作等,不同厂商有差异化侧重。
市场规模:容量广阔且逐步突破,核心是模型能力突破与场景落地的正向循环,当前模型能力正处L3向L4升级期,我们预计2030年专业内容创作+广告设计制作+微短剧(含漫剧)+电影场景下的AI视频生成市场规模合计约450亿美元。
增长趋势:考虑模型能力提升可以进一步打开AI视频可触及的增量市场规模+用户付费意愿,我们预计商业化符合阶梯式增长趋势,技术突破是转折点。
▍行业壁垒:算力、数据、人才、战略的综合竞争。
如果将打造顶尖AI视频生成模型比作植树成长的全过程,我们认为,AI视频生成行业的竞争要素可分别对应:
1)算力对应承载根基的花盆,是模型运行迭代不可或缺的硬件基础,决定技术研发与量产落地的底层上限;
2)海量优质行业数据对应滋养生长的土壤,为模型学习画面逻辑、镜头语言与动态规律提供核心养分;
3)顶尖专业人才对应助力发育的肥料,持续优化模型架构、打磨生成效果,夯实技术核心实力;
4)企业发展战略则是选定的树种,直接决定发展方向、场景布局与商业化路径,最终拉开行业长期发展差距。
因此,算力、数据、人才、战略四大要素相辅相成,共同构筑起AI视频生成行业的核心竞争壁垒。
▍竞争格局:壁垒定格局,差异定竞争。
我们以游戏引擎行业近三十年的产业演化为参照系,对AI视频生成工具行业的远期竞争格局进行类比推演。我们认为,两个行业在多个维度可比,例如均属于内容创作产业链中的底层工具层,均以"赋能创作者实现视觉内容表达"为价值主张,均面临技术研发门槛高等共性特征。基于这一类比框架,我们得出两个核心判断:1)行业天然壁垒决定了能够穿越周期的有效玩家数量或被收敛至个位数;2)下游需求的结构性分化决定终局格局或将呈现"3–4家头部差异化并存"的寡头竞争态势。
▍估值定价:中性预计合理估值为30x P/ARR,具备上行空间。
整体来看,我们测算当前全球大模型厂商的P/ARR估值大多落在30-40x,港股上市公司代表P/ARR则超200x,我们认为支撑模型厂商高估值的原因主要包括:1)能力SOTA;2)商业化斜率超预期;3)稀缺性。
多模态领域中,国产厂商表现领先且有望持续。能力SOTA上,中国厂商凭借数据、算力、创新、工程等优势构建长期发展壁垒;商业化斜率上,国内厂商实现市场、需求、模式协同发展,率先打通产业商业闭环;稀缺性上,中国厂商具备全球领先的显著优势,根据POE,2025年9月中国厂商累计市占率达55%,伴随海外迭代滞后以及Seedance 2.0和可灵3.0的爆火,我们判断当前国产市场份额或进一步提升。
▍风险因素:
技术迭代不及预期;应用落地不及预期;行业竞争加剧;下游客户付费意愿不及预期;IP开发商业化不及预期;版权合规风险等。
▍盈利预测、估值与评级:
2023年起多模态行业技术加速迭代,步入规模化落地期,但市场观点仍存在较大分歧。本文围绕市场核心关注展开研判:明确DiT主流技术路线及三层演进趋势;预测2030年市场规模可达450亿美元,呈阶梯式增长;点明算力、数据、人才、战略四大核心壁垒,类比成熟的游戏引擎行业,预判多模态模型将形成头部差异化竞争格局而非“赢者通吃”;综合海内外估值体系,给予行业30倍P/ARR中性估值,优质国产多模态标的估值具备上行潜力。建议关注:1)布局视频模型的头部互联网公司;2)头部第三方模型公司;3)受益于AI视频生成应用的公司。

关于我们
中信证券研究网站:
https://research.citics.com
添加权限请联系您的对口客户经理
中信证券研究服务小程序
添加权限请联系您的对口客户经理
免责声明
本文节选自中信证券研究部已于2026年5月22日发布的《互联网行业AI系列研究专题—AI视频生成模型:如何看待市场、竞争、估值?》报告,具体分析内容(包括相关风险提示等)请详见报告。若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。
本资料所载的证券市场研究信息是由中信证券股份有限公司(以下简称“中信证券”)的研究部编写。中信证券研究部定位为面向专业机构投资者的卖方研究团队。通过微信形式制作的本资料仅面向中信证券客户中的金融机构专业投资者,请勿对本资料进行任何形式的转发行为。中信证券不因任何订阅本公众号的行为而将订阅人视为中信证券的客户。若您并非中信证券客户中的金融机构专业投资者,为保证服务质量、控制投资风险,应首先联系中信证券机构销售服务部门或经纪业务系统的客户经理,完成投资者适当性匹配,并充分了解该项服务的性质、特点、使用的注意事项以及若不当使用可能会带来的风险或损失,在此之前,请勿订阅、接收或使用本订阅号中的信息。本资料难以设置访问权限,若给您造成不便,还请见谅!感谢您给予的理解和配合。若有任何疑问,敬请发送邮件至信箱kehu@citics.com。
重要声明:
本资料定位为“投资信息参考服务”,而非具体的“投资决策服务”,并不涉及对具体证券或金融工具在具体价位、具体时点、具体市场表现的判断。需特别关注的是(1)本资料的接收者应当仔细阅读所附的各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。(2)本资料所载的信息来源被认为是可靠的,但是中信证券不保证其准确性或完整,同时其相关的分析意见及推测可能会根据中信证券研究部后续发布的证券研究报告在不发出通知的情形下做出更改,也可能会因为使用不同的假设和标准、采用不同观点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。(3)投资者在进行具体投资决策前,还须结合自身风险偏好、资金特点等具体情况并配合包括“选股”、“择时”分析在内的各种其它辅助分析手段形成自主决策。为避免对本资料所涉及的研究方法、投资评级、目标价格等内容产生理解上的歧义,进而造成投资损失,在必要时应寻求专业投资顾问的指导。(4)上述列示的风险事项并未囊括不当使用本资料所涉及的全部风险。投资者不应单纯依靠所接收的相关信息而取代自身的独立判断,须充分了解各类投资风险,自主作出投资决策并自行承担投资风险。
本订阅号中的所有资料版权均属中信证券。不得以任何方式修改、发送或复制本订阅号中的内容。除经中信证券认可的情况外,其他一切转载行为均属违法。版权所有,违者必究。
夜雨聆风