【转|太平洋传媒-AI 视频深度】模型加速迭代,工具和 IP 价值凸显-夜雨聆风

【转|太平洋传媒-AI 视频深度】模型加速迭代,工具和 IP 价值凸显

文章转自2026年3月15日太平洋传媒团队报告，分析师：郑磊，李林卉

投资要点

模型加速迭代，L3 短片级能力已能满足影视制作部分需求

模型方面，海外视频模型率先在物理模拟、保真性等前沿能力实现突破，国内模型持续追赶海外头部模型的同时，聚焦可控性、多模态交互、本土场景，形成差异化竞争。具体来看，目前视频模型原生分辨率最高达准 2K、单次生成时长最长达 25 秒。同时，支持音画同步输出，提升生成画面及叙事的可控性，更精准地模拟真实世界物理规律及人物动作与表情，并通过发布轻量模型及提质稳价间接降本。内容生成方面，主流模型目前已支持 L3 短片级内容创作，部分能力可达 L4长片级内容要求，一定程度上已能满足影视行业制作需求。

影视行业迈入 AI 普及期，渗透率仍有较大提升空间

依托视频模型快速迭代，AI 视频工具逐步赋能影视制作：1）漫剧：AI在内容制作环节应用比例达 50%-80%，推动漫剧供给爆发式增长，目前AI 漫剧数量占比超 70%。2）真人短剧：由“AI+实拍”发展到全 AI 制作，AI 仿真人剧快速起量，头部作品《斩仙台》上线 6 天播放量迅速破亿。3）电影、电视剧：仍以 AI 辅助制作为主。其中 AI 动画电影已率先落地，而真人电影仍处起步阶段。我们认为，AI 在影视素材拍摄环节显著降本，同时通过压缩内容制作周期、丰富内容题材及形式进行增效。潜在空间来看，全球视频制作市场规模约 3163 亿美元，目前全球 AI 视频市场规模约 45 亿美元，渗透率仅 1.4%，仍处较低水平。

视频工具为核心，IP 环节受益最大

AI 视频工具是模型能力转化为实际生产力的载体，因其既依赖于模型技术支撑，又需专业视频内容制作实践积累，目前形成了视频模型、IP 及影视、第三方工具公司协同发展的格局。未来，拥有技术领先优势的 AI 视频工具公司更易依托自身创作能力与平台生态，产出优质视频内容。同时，IP 公司因具备海量可视频化的内容库资源，有望充分受益于 AI 视频工具的成熟。

核心观点

我们认为，2025 年以来海内外视频模型在性能上加速迭代突破，已满足 L3 短片级内容制作能力，推动全球影视行业迈入 AI 普及期。目前，AI 在影视行业渗透率仍处于个位数，随着模型和视频工具的进一步迭代，行业渗透率有望迎来爆发式增长。而 AI 视频工具作为载体，产业链核心价值凸显。同时，IP 公司有望充分受益于此轮浪潮，实现内容资产价值重估。

风险提示

AI 技术发展不及预期、内容监管趋严、行业竞争加剧的风险。

报告正文

视频模型：海内外差异化竞争，已支持短片级内容创作

DiT 成为主流架构，目前 AI 视频模型处于快速迭代期。2022 年底以 GPT 为代表

的大语言模型实现关键突破，开启 AI 发展浪潮。在此背景下，AI 视频模型也迎来了

快速发展，其发展历程可分为三大阶段：1）技术架构扩散期：2014-2022 年，视频模型先后历经 GAN、Transformer、Diffussion 等技术架构迭代。2023 年 6 月，Runaway基于 Diffusion 架构推出 Gen-2，突破文生、图生视频能力，成为全球首个实现商业化的文生视频模型。2）DiT 架构普及期：2024 年 2 月，OpenAI Sora 将 DiT 架构引入视频生成领域，验证了技术的有效性。此后，基于 DiT 架构，各大模型厂商相继发布AI 视频模型，如海外谷歌 Veo，国内快手可灵 1.0、MiniMax 海螺 1.0 等，奠定了 DiT架构的主流地位。3）技术快速迭代期：2025 年以来，模型更新迭代速度显著加快，并实现统一多模态、音画同出、多镜头叙事等核心突破，模型生成可控性、美学风格、物理模拟等逐步提升。

参考 Artifical Analysis 视频模型排行榜，以及网页访问量数据，选取八个 AI视频模型，并按海外和国内模型进行划分。通过梳理各个模型的版本迭代细节，总结目前主流 AI 视频模型的演进趋势，以及内容生成能力所处的阶段。

1.1 海外：率先实现物理模拟、保真度等前沿突破，Veo 3 领跑全球

OpenAI Sora：确立 DiT 架构主流地位，上线应用开启 C 端尝试。1）开启 AI 视频新纪元：2024 年 2 月，OpenAI 发布 Sora 预览版，将 DiT 架构引入视频生成领域，奠定视频模型发展基础。2）已完成两个版本更新：2024 年 12 月，Sora Turbo 正式向用户开放使用，实现从预览版到商业化落地。时隔 10 个月后，Sora2 发布，单次生成时长 25 秒及原生生成分辨率准 2K，均为视频模型最高水平。同时，在物理规律和复杂指令遵循上实现显著提升。从生成样片来看，角色复杂动作、环境或物体表面光影等生成内容都较前代模型更接近真实世界。3）布局 C 端应用：Sora2 推出的同时，面向 C 端用户推出 Sora 应用。但因应用内大多为相似的 AI 视频导致用户审美疲劳、产品定位模糊等原因，Sora 应用近期下载量、活跃用户等数据持续下滑。

谷歌 Veo：专注电影级创作控制，生成视频质量领跑全球。2024 年 5 月，谷歌发布 Veo 预览版，模型专注于电影级创作控制。此后，Veo 围绕这一核心定位完成三次更新迭代。在模型能力上，依托对电影术语的深度理解，持续优化物理真实感、镜头语言表现力、叙事连贯性等。其中，2025 年 5 月发布的 Veo3 是最早实现音画同出的视频模型，且分辨率可通过超分功能升至 4K；最新迭代版 Veo3.1 位列 LMArena 文生视频榜榜首，生成视频质量领跑全球。在创意控制上，推出时长延长、对象增减、镜头控制等功能，使模型逐步向专业视频编辑工具演进。在产品生态上，发布面向电影制作人的 AI 电影制作工具 Flow，集成 Gemini、Imagen、Veo，提供剧本创作、角色创建、视频生成与编辑等功能。并搭建 Flow TV，提供展示和浏览生成视频的渠道。截至2025 年 10 月，Flow 累计生成视频超 2.75 亿个。

Runaway Gen：强调视频编辑能力，Gen2 为全球首个商业化文生视频模型。Runaway从视频编辑工具起家，2023 年 2 月发布 Gen-1，实现视频到视频的风格化转换，支持将提示词描述的风格应用于源视频。此后，Gen 完成四次更新迭代，始终强调视频编辑能力，于 2023 年 6 月最早推出镜头控制、动作笔刷等功能。未来，Gen 计划将已有的编辑控制功能拓展至图生视频和视频生视频领域，持续强化视频编辑优势。此外，2023 年 6 月发布的 Gen-2 是全球首个实现商业化的文生视频模型，其基于 Diffusion架构突破文生、图生视频能力，并推出订阅制+积分制的混合付费模式。

Luma Ray：构建垂类场景优势，Ray3 为全球首个原生 HDR 及推理驱动视频模型。Ray 聚焦专业影视创作场景，构建起垂类场景优势。在模型能力上，Ray3 是全球首个支持原生 HDR 的模型，且分辨率可通过超分功能升至 4K，生成视频质量达到部分影视级制作标准；同时，Ray3 也是全球首个推理驱动的模型，区别于非推理模型由提示词直接映射至像素生成，其通过提示词理解、意图推理、输出规划，实现生成视频的保真度 SOTA，更适配影视、CG 等高精度内容创作需求。在产品生态上，2024 年 11 月，Dream Machine v1 升级为 AI 多模态创作平台，完成 ios 应用开发、界面优化、Photon图像生成模型集成等迭代。平台依托多个自研多模态模型与多样化专业编辑功能，为创作者提供从生成到编辑的全流程工具。

1.2 国内：差异化突围，强化可控性、多模态交互与本土适配

快手可灵：深耕多模态及可控生成，主体一致性超 96%。2024 年 6 月，快手发布基于 DiT 架构的可灵 1.0，是全球首个用户可用的 DiT 架构视频模型。此后，可灵以2-4 个月为周期进行迭代，至今已完成 10 个版本的发布，其深耕多模态及可控生成，推动一致性持续提升。在多模态方面，可灵 2.0 提出全新的多模态视觉语言交互范式MVL，该范式将输入内容从自然语言升级为多模态视觉语言，弥补了纯文本提示词的信息短板，实现对角色、场景、镜头等内容的精准约束。在可控生成方面，模型相继推出多模态编辑、主体库、动作控制、自定义分镜等功能，通过对画面内容、角色特征、动作姿态、镜头语言等内容的精准调控，有效降低视频生成的随机性。依托多模态及可控生成能力，可灵模型主体一致性表现突出，其中可灵 o1 主体一致性超 96%。

字节 Seedance：具备原生导演级多镜头生成能力，生成可用率达到业界 SOTA。1）多镜头能力：2025 年 5 月，字节发布 Seedance 1.0 Pro，通过将文本提示拆解为专业镜头序列、跨镜头保持一致性等技术，实现 2-3 个连贯镜头的叙事生成。9 个月后发布的 Seedance 2.0 进一步提升多镜头叙事能力，通过分析叙事逻辑、自分镜和自运镜，实现原生导演级多分镜无缝生成，输出具有景别变化、机位运动、时空连贯的多镜头视频。2）全模态参考能力：Seedance 2.0 具备全模态参考功能，支持输入文本、以及最多 9 张图片、3 段视频、3 段音频作为生成参考，实现视频生成的精准可控。依托模型两大核心能力，Seedance 2.0 的视频生成可用率大幅提升，根据极客公园测算，其生成 15 秒视频的可用率或达 90%，远超此前业内均值 20%。

阿里万相：以中文创作需求为核心，最早实现音画同出、单次生成时长15秒。2024 年 9 月，阿里发布万相视频模型，该模型以中文创作需求为核心，针对中式元素的概念理解和生成表现力做了特别优化，擅长生成国风视频。时隔五个月后发布的万相2.1，延续了初代模型关注中文创作的特点，为首个支持中文文字及中英文文字特效生成的视频模型。此后，万相完成三次更新迭代，实现多个国内领先的技术突破：1）万相2.2是业界首个使用MoE架构的视频模型，在同参数规模下，实现算力消耗节省约50%；2）万相2.5采用原生多模态架构，是国内首个实现音画同步生成的模型；3）万相 2.6 是国内首个实现单次生成视频时长15秒的模型。

MiniMax 海螺：聚焦人物动作及表情表现力，推出细分场景视频模型。2024 年 8月，MiniMax 发布海螺 1.0，强调稳定的运动生成，以及细致真实的人物情感表现。此后，海螺围绕人物动作及表情表现力持续迭代，海螺 2.0 及 2.3 持续提升复杂指令遵循和复杂物理表现能力，在人物肢体动作、面部表演、微表情变化等细节的呈现中优势显著。此外，海螺针对细分场景推出专用视频模型：1）海螺 1.0-Live：专注于将静态 2D 图像转化为动态视频内容，聚焦二次元、插画风格的视频生成；2）海螺 1.0-Director：专注于镜头运动的可控生成，提供 15 种可自由组合的单一运镜。

1.3 模型已支持 L3 短片级内容创作，仍处技术快速迭代期

根据以上八个模型的版本迭代细节，总结 AI 视频模型的演进趋势，具体有以下五点：

画质与时长：从低清短片段向高清长视频演进，海外重分辨率、国内重时长。海内外主流模型均将提升分辨率、延长时长、优化画质作为迭代方向之一，并呈现海外优先突破分辨率，国内侧重拓展单次生成时长的差异化路径。具体来看：1）原生分辨率最高为准 2K：海外模型领先，Sora2 原生分辨率最高，为准 2K；Veo3、Ray3 可通过超分功能升至 4K；Ray3 支持生成 16bit-HDR，已达电影行业对母版的精度要求。而国内模型最高支持原生 1080p。2）单次生成时长最长为 25 秒：海外 Sora2单次生成时长最长，达 25 秒。国内万相 2.6 最先实现单次生成 15 秒，可灵 3.0、Seedance 2.0随后跟进，该时长长于除 Sora2 外的其他海外模型。同时，海内外模型均具备视频延长、拼接功能，可将时长延长至分钟级。

速度与成本：生成速度及成本持续优化，海外模型定价整体高于国内。海内外主流模型通过架构优化、发布轻量级模型等方式提升生成速度、降低生成成本，以适配C端创作者和 B 端创作团队的不同需求。具体来看：1）生成速度提升：海内外模型均在迭代中实现不同程度的生成速度提升。如 Ray2 通过投入 10 倍于前代模型的算力，实现生成速度提升，万相 2.2 图生视频模型的生成速度提升 12 倍。2）生成成本间接降低：一是发布轻量级模型，降低生成成本，如 Gen-4 的定价为 0.24 美元/秒，Gen-4 Turbo 的定价为 0.1 美元/秒。二是新版模型在提升生成质量的同时，维持定价不变，如 Veo、万相、海螺。3）海外模型定价整体高于国内：对比各模型最新版本的定价，以文生、无声、无参考、不含视频输入、720p 视频定价为例，海外模型定价区间为 0.1-0.5 美元/秒，国内模型定价区间为 0.4-1 元/秒。

多模态能力：输入端实现多模态混合，输出端实现音视频同出。在输入端，海内外主流模型通过创新多模态视觉语言交互范式、强化跨模态理解能力等方式，实现从仅支持文本或图像的单一模态输入，向支持文本+图片/音频/视频的多模态混合输入的升级，显著提升指令遵循、可控生成能力。在输出端，海内外模型均已实现音视频同步生成。具体来看，早在 2024 年 9 月，国内万相通过调用音频生成模型实现基础音效生成。随着多模态融合技术的成熟，2025 年 5 月，海外 Veo3 基于统一的多模态架构，率先实现原生音频与视频的同步生成，相较于早期的音频生成方式，显著提升音画同步精度。此后，国内主流模型自 2025 年 9 月起亦陆续完成音画同步生成的迭代。

可控性与适配性：从随机生成向精细化控制、专业化创作适配演进。海内外主流模型持续强化对人物、场景、镜头等创作要素的精细化控制能力，同时针对影视等专业场景进行优化，逐步适配专业创作流程。具体来看：1）全流程可控性提升：在画面可控性上，海内外模型均实现角色、场景等的一致性提升，并围绕创作流程推出增强可控性的功能，如参考生成、镜头控制、运动笔刷等。在叙事可控性上，2025 年末起，国内万相 2.6、可灵 3.0、Seedance2.0 相继更新分镜能力，支持生成多镜头连贯叙事视频。2）适配细分和专业领域需求：在内容生成上，海内外模型持续拓展美学风格覆盖广度，从基础风格向多元细分风格演进，满足多样化的创作需求，如 MiniMax 针对二次元、插画风格的视频生成推出海螺 1.0-Live。在专业场景适配上，Ray3 支持输出可供专业创作者编辑的 EXR 原始素材格式，直接适配后期制作。

模拟能力：从生成简单画面向精准模拟物理规律、人物动作与表情演进。海内外主流模型从最初仅能实现基础的画面与动作生成，逐步向遵循物理规律、还原复杂人物动作与微表情升级，生成内容的保真度与合理性大幅提升。具体来看：1）遵循真实物理规律：以 Sora 为例，根据 APIYI 数据，Sora2 的物理规律合规率为 88%，相较于前代模型 41%提升超一倍；人物行走、动态水流、烟雾扩散等具体情景的物理规律合规率相较于前代模型均实现提升。2）还原人物动作与表情：以海螺为例，得益于模型在复杂物理表现与复杂指令遵循的进一步增强，最新的海螺 2.3 模型可呈现出舞蹈、跳跃等更复杂的人物肢体动作，以及更真实自然的真人面部表演、微表情变化等细节。

基于“可控性、美学、物理”三大维度，评价模型内容生成能力。AIGC 内容创作分级标准可依据可控性、美学风格、物理模拟三大维度，将 AIGC 内容创作划分为五个级别，用于评价视频模型的能力等级。级别越高，代表模型支持生成的视频质量越高、时长越长。L1 级至 L5 级覆盖从基础素材到专业影视内容，即 L1 对应 5-10 秒的单镜头和分镜素材，L2 对应数十秒的短视频片段，L3 对应数分钟、带叙事结构的短片，L4对应 20 分钟以上的中长完整剧情视频，L5 对应消费级影视内容。

AI 视频模型目前已支持 L3 短片级内容创作，并部分满足 L4 长片级标准。基于AIGC 内容分级标准，并结合上文总结的目前 AI 视频模型的五大演进趋势，我们认为，目前 AI 视频模型已支持 L3 短片级内容创作。即：1）在可控性方面，达到角色形象、口型、动作基本可控，且拥有平移、垂直、推进等基础运镜；2）在美学风格方面，支持写实、电影、动漫等多种风格；3）在物理模拟方面，可对基础物理规律进行模拟，且可呈现常规动作和连续复合动作。此外，模型已部分满足 L4 长片级内容创作的标准，如实现多主体参考、影视级运镜控制等。

影视场景：细分领域渗透率提升，降本增效驱动增长

视频模型 L3 短片级内容制作能力融入影视工作流，推动行业迈入 AI 普及期。目前 AI 视频模型支持 L3 短片级内容创作，部分能力达到 L4 长片级内容要求，一定程度上已满足影视行业制作需求。同时，视频市场全球空间广阔，AI 渗透率仍处低位，技术持续落地将推动 AI 渗透率快速提升。但目前模型仍较难直接适配影视领域专业工作流，需与制片流程深度融合。因此，以 AI 视频模型为基础，集成角色及场景设计、智能剪辑等专业功能的 AI 视频工具同步加速迭代。

2.1 影视细分领域：AI 漫剧率先落地，AI 仿真人剧快速起量

目前，由 AI 辅助制作或完全由 AI 生成的 AI 原生影视作品，已在漫剧、短剧、电影和电视剧等领域崭露头角。

1）漫剧：AI 赋能全流程制作，漫剧供给迎来爆发式增长。2025 年，AI 生成技术已实现漫剧制作全流程赋能，形成 AI 漫剧的成熟工作流：1）剧本创作环节：AI 应用比例为 10%-30%，主要用于 IP 剧情理解和大纲拆解。未来随着样本量增加，AI渗透率还将逐步提升。2）内容制作环节：AI 应用比例为 50%-80%，主要用于角色、场景、分镜等内容的生成，以及后期剪辑。未来随着模型一致性、叙事可控性等能力提升，生成质量有望持续突破。得益于 AI 赋能全流程制作，2025 年漫剧行业迎来供给爆发式增长，AI 漫剧是核心驱动力。根据巨量引擎，2025 年 9 月后抖音漫剧供给数量持续提升，截至 11 月底，突破 10 万部，增速达 59%。同时，2025Q4 AI 漫剧在漫剧榜单中的占比已超 70%。

AI 赋能下，动态漫为发展最成熟的漫剧类型，现象级作品实现小成本撬动高收入。根据画风和动态精细度的不同，漫剧主要包括表情包漫剧和动态漫两种类型。根据DataEye-ADX，2026 年 1 月在播漫剧中，2D、3D 漫剧的占比达 71%，远高于表情包漫剧的 15%，是目前漫剧行业最成熟的内容形式。动态漫具有代表性的现象级作品为《斩仙台下，我震惊了诸神！》，该剧是抖音播放量首部突破 10 亿的漫剧作品。其实现了从情节爽点提取到角色建模、动画生成以及后期剪辑的全流程 AI 赋能，由 10 人团队在 10 天制作周期内，以 15 万元的成本完成制作。根据巨量引擎数据，截至 2026 年 1月，该剧在红果短剧及抖音平台上的累计分账收入达 140 万元。

2）真人短剧：由“AI+实拍”发展至全 AI 制作，AI 仿真人剧快速起量。随着AI技术的逐渐成熟，其在真人短剧制作中的应用已从早期相对保守的赋能具体环节，逐步发展至全流程生成。相应的，AI 短剧从早期的“AI+实拍”形式，发展至 AI 仿真人剧。根据巨量引擎数据，播放量方面，AI 仿真人剧的部均播放量增速最快，且在2025年11月达到峰值，高于2D、3D 动画漫、表情包动态漫等。供给方面，产量有所增加，12月上新50部。投流方面，自2025年11月开始起量，12月月在投900部，目前已有末世生存、悬疑诡秘等题材收获亮眼的播放数据，带动投流千万消耗增量。

AI 仿真人剧质量持续提升，头部作品播放量快速破亿。早期 AI 真人短剧以“AI+实拍”的方式完成制作，以古风奇幻题材短剧《浮梦吟》为例，AI 制作内容在全剧中的占比约为 15%。随着模型能力持续提升，完全由 AI 生成的 AI 仿真人剧崭露头角。以可梦 AI 相关作品为例，2025 年 8 月和 10 月、2026 年 1 月可梦 AI 分别上线了宫廷短剧《奶团太后宫心计》、年代歌舞短剧《我靠唱歌打脸全团》和神话仙侠短剧《斩仙台 AI 真人版》，三部作品在人物表情控制、画面特效丰富度等方面均实现显著提升。其中《斩仙台 AI 真人版》上线仅 6 天抖音播放量破亿，是目前播放量破亿最快的 AI仿真人剧。但其表现与真人实拍短剧仍存在一定差距，如《家里家外》上线 3 天红果短剧播放量破 10 亿。此外，《我靠唱歌打脸全团》和《斩仙台 AI 真人版》均跑通了商业化，ROI 突破 1.1。

3）电影、电视剧：受限于模型能力，AI 应用目前仍以辅助工具为主。目前 AI 在电影、电视剧的应用仍面临生成画质较难满足行业要求，人物微表情、肢体语言的情感传递能力有限等问题。同时，观众对电影、电视剧的质量要求相较短剧更高，因此目前 AI 在电影、电视剧，尤其是真人内容领域的应用仍以辅助工具为主。包括：AI 换脸、辅助大成本场景及特效生成等。如：由博纳影业出品的奇幻动作电影《传说》利用 AI 技术重现 27 岁的成龙形象，奈飞出品的阿根廷科幻剧集《El Eternauta》利用AI 技术生成布宜诺斯艾利斯建筑倒塌的灾难画面等。

AI 动画电影率先落地，真人电影仍处起步阶段。相较于真人电影对写实性的极高要求，动画电影的风格化表达为 AI 生成提供了容错空间，AI 生成更易实现其对角色面部表情、动作设计等内容的创作。因此，目前 AI 动画电影相较于 AI 真人电影发展更成熟。动画电影方面，中国首部全流程 AIGC 动画电影《团圆令》于 2 月 28 日正式上映，该影片采用 AI 全流程动画生产平台、历时 5 个月完成制作；中国首部全 AI 院线动画电影《山海经·玄武》预计于 2026 年暑期档上映。真人电影方面，2024 年 3月，全球首部 AI 长篇电影《Our T2 Remake》在洛杉矶上映；2025 年 4 月，全球首部院线公映的 AIGC 电影《海上女王郑一嫂》在新加坡上映。从影片画面来看，目前 AI真人电影仍存在人物表情缺乏情感传递、缺乏叙事逻辑等不足，与真人实拍电影存在较大差距。

2.2 AI 赋能降本增效，渗透率仍有较大提升空间

基于以上对漫剧、短剧、电影和电视剧等领域的梳理分析，我们认为，AI 在视频制作工作流中的深度融合，正推动视频行业实现降本增效，驱动行业增长。

1）降本：AI 驱动全流程降本，素材拍摄环节最受益

AI 驱动视频制作全流程降本。目前 AI 已对视频前、中、后期制作的各个环节实现降

本。1）前期制作：AI 可替代编剧、分镜师，自动生成大纲、剧本、分镜等内容，显著降低人力成本。根据短剧自习室，AI 分镜日均可生成 50 集标准化分镜，效率远高于人工分镜师月均 8-10 集。2）中期制作：AI 生成替代实景拍摄，其生成的人物形象、场景等均为数字资产，具备稳定可复用性。这将使得单一场景、人物角色可在同系列作品中持续复用，且可有效规避真人演员违法失德导致作品无法正常播出等风险，降低拍摄设备及场地租赁、演员片酬等支出、规避因演员风险带来的沉没成本等。3）后期制作：AI 智能剪辑等技术可大幅减少剪辑师的人数和工时。此外，模型音视频同出的能力，使得音效环节无需单独配音，减少后期制作成本。

素材拍摄环节因成本占比高、AI 替代潜力大，降本效应最为显著。以短剧行业为例，根据峯野掌镜人对爆款短剧的统计数据，制作拍摄环节成本在总成本中的占比最高，为 40%-50%。同时，根据短剧自习室，目前竖屏短剧头部演员的日薪已达 3-8 万元，相较 2024 年的 1-3 万元实现翻倍上涨，进一步推高短剧制作成本压力。而 AI 对素材拍摄环节具备较大的替代潜力，其可实现人物角色、场景等核心制作素材的全面数字化。在制作拍摄成本占比高、短剧演员片酬大幅上涨的行业背景下，AI 赋能短剧降本效应最显著的环节在于素材拍摄。

得益于成熟的 AI 工作流，AI 漫剧成本较传统漫剧已实现大幅下降。相较于传统动漫短剧，AI 在漫剧制作中的应用可显著降低内容成本与人力成本。1）内容成本：传统动漫短剧需经过手工绘图、逐帧制作、后期合成等复杂流程，内容成本较高，而AI 漫剧依托 AI 生成技术直接输出画面内容，大幅降低手绘、动画制作、渲染等内容成本。根据巨量引擎，AI 赋能可使漫剧的生产成本降低超 70%。2）人力成本：AI 在分镜生成、素材生成、剪辑等环节的成熟应用，使得大量原本依赖人工的工作被 AI 替代，带来团队规模大幅精简。相较传统动漫短剧需超百人的制作团队，AI 漫剧仅需数人至十余人即可完成制作，人力成本大幅下降。目前，AI 漫剧的制作成本为 1000-2500元/分钟，制作难度、质量相对更低的沙雕漫的制作成本为 200 元/分钟，相较于传统动漫短剧数万至十数万元/分钟的制作成本，实现大幅下降。

2）增效：AI 显著压缩内容制作周期，丰富内容题材及形式供给

效率方面：AI 从生产关系、制作流程与可控性方面，优化视频制作流程。人与 AI协作提高沟通效率：传统影视制作依赖导演、摄影等多岗位紧密配合，多环节的信息传递需耗费极大的沟通成本。AI 赋能后，导演可通过指令直接生成视频，提高沟通效率。并行可回溯流程提升制作效率：传统影视制作采用顺序工作流，剧本创作、角色及场景设定、拍摄等环环相扣，且前序流程更改牵动后续流程更改会产生较大成本。AI 赋能后，各环节可同时进行，且可反复回溯调整。指令化调控提高制作可控性：传统影视制作中的画面、光影、运镜等高度依赖导演、摄影的现场协作，在多环节、多人员的创作环境中，可控性较弱。AI 赋能下，可通过文本指令、参数设定等实现精准调控，有效降低人为偏差。

得益于流程优化推动效率提升，漫剧制作周期已压缩至周、月级别。以漫剧行业为例，传统动漫短剧的制作周期以年为单位，AI对制作流程的优化推动漫剧制作周期已压缩至以周、月为单位。具体来看，漫剧中的文本内容、出图上色等制作环节在 AI赋能下实现50%-80%的提效，这使得AI赋能下的漫剧制作能在30天内完成，显著低于纯人工制作的50-60天。此外，AI应用带来的降本增效亦在电影行业体现。根据公开数据，中国首部全流程AIGC动画电影《团圆令》的制作成本降低约30%，制作周期约5-6个月，约为传统动画电影2-3年制作周期的五分之一。

供给方面：题材上，AI 赋能超现实题材漫剧制作，补充短剧题材空白。根据巨量引擎，网文 IP 中超现实内容题材，如奇幻仙侠、玄幻脑洞等的占比约为 35%。这些内容题材因受制于制作成本高、周期长等问题，改编成短剧的难度较大，目前尚未被充分开发。相较于对真实性要求更高的真人短剧，目前视频模型与动画、漫画风格的漫剧制作适配度更高。同时，得益于 AI，漫剧制作成本及周期已实现大幅优化。因此，我们认为，超现实题材内容有望在 AI 赋能下改编为漫剧，丰富短剧行业内容供给。根据短剧自习室及 CSM 统计数据，2025 年漫剧题材播放量前三为架空玄幻、逆袭、奇幻，2025 年 1-9 月热播热议微短剧题材前三为情感、古装、都市。

供给形式上，AI 通过 IP 复用与品类拓展，推动存量短剧实现内容形式创新。以AI 转绘漫剧为例，其通过 AI 视频风格迁移技术，将存量真人短剧转绘为漫剧，满足年轻二次元用户观看需求，并有效激活存量真人短剧，实现爆款 IP 在真人短剧和漫剧的复用，进一步释放 IP 价值。根据短剧自习室，《办公室生存指南》经 AI 转绘为 Q版职场番后，18-25 岁观众占比从 12%提升至 58%，并带动衍生周边销售增长。根据巨量引擎，近一年商业化表现较好的存量真人短剧改编为漫剧的供给空间在 500-800+部。

3）市场空间：全球潜在市场近 3200 亿美元，AI 视频渗透率仍有较大提升空间

2025 年全球 AI 视频市场约 45 亿美元，渗透率仍处个位数。视频制作市场是 AI视频生成可触达的潜在市场。从潜在空间来看，根据 Business Research Insights 预测，2026 年全球电影及视频制作市场规模约 3163 亿美元，覆盖广告、动画、电影、电视节目等内容。从渗透率来看，根据 Grand View Research 预测，2025 年全球 AI 视频市场规模约 45 亿美元，对应渗透率约 1.4%，处于起步阶段。到 2033年，市场规模有望增长至 423 亿美元，CAGR 约 32%，对应渗透率约 10%，仍处较低水平。我们认为，更长期去看，假设 AI 视频数量占比为 70%，同时各环节 AI 视频工具应用比例为 70%，则远期 AI 视频渗透率有望达 50%。

AI 漫剧率先贡献增量，AI 真人短剧渗透率快速提升，电影、电视剧有望打开更大的市场空间。目前，AI 漫剧已成为 AI 内容产业发展最成熟的细分领域，贡献 AI 视频市场规模增量。我们认为，随着 AI 视频模型持续迭代，AI 内容创作将从动漫向真人内容扩圈：1）受众广度：AI 漫剧受众为泛二次元用户，具有明确圈层属性；而 AI 真人短剧受众覆盖近乎全民，具有更广泛的情感共鸣基础与消费习惯。2）市场规模：2026年中国漫剧市场规模约 220 亿元；而 2025 年中国真人短剧市场规模已近 750 亿元。随着 AI 仿真人剧的快速起量，AI 在真人短剧制作环节的渗透率有望迅速提升。展望未来，AI 电影、电视剧有望打开更大的市场空间。

AI 视频标的梳理：视频工具为核心，IP 环节受益最大

3.1 新“国九条”体系下券商的功能定位：从“通道中介”到“资本市场枢纽”

AI视频工具为产业链核心，视频模型、IP及影视、第三方工具公司参与布局。AI视频工具是模型能力转化为实际生产力的载体，以视频模型为基础，集成角色及场景设计、智能剪辑等专业内容制作功能。因既要依赖底层模型技术支撑，又需专业视频内容制作能力，所以目前AI视频工具领域已形成以互联网公司为代表的视频模型厂商，以及应用端IP及影视公司协同发展的格局。此外，第三方公司凭借AI工具开发技术与垂类内容制作经验，亦相继推出AI视频工具。我们认为，未来拥有技术领先优势的AI视频工具公司更易依托自身创作能力与平台生态，产出优质视频内容。同时，IP公司因具备海量可视频化的内容库资源，有望充分受益于 AI 视频工具的成熟。

3.1 视频模型公司：占据技术和商业化场景优势，处主导地位

视频模型公司依托底层模型技术、算力、生态流量等优势，推出可灵AI、即梦 AI等通用AI视频工具。相较于IP及影视、第三方工具公司，其凭借技术壁垒高、迭代快、商业化场景丰富等优势在 AI 视频工具领域占据主导地位。

1）快手：可灵 AI 构建全场景 AI 视频生产力，“工具+内容”共促 AI 视频发展

AI 视频工具：1）快手推出全场景 AI 视频生产力引擎可灵 AI，该平台基于自研可灵视频、可灵图片模型，面向影视制作、电商营销、数字人直播、社交内容等产业应用与个人创作场景，提供文生视频、图生视频、AI 换装等专业功能。得益于可灵 o1 发布，及可灵 2.6 动作控制功能在社交媒体引起广泛讨论，2025 年 12 月可灵 AI 单月收入超 2000 万美元，2026 年 1 月月活跃用户突破 1200 万。2）快手推出一站式漫剧创作工具造梦专家，实现将一段文字高效转化为一个拥有定制化角色、场景和动态画面的完整视频剧集。

AI 内容：可灵 AI 先后举办了导演共创计划、NEXTGEN 全球新影像创作大赛等 AIGC内容创作活动，推动 AI 视频从技术演示走向落地应用。活动中诞生了许多的优秀作品，如《新世界加载中》：全球首部 AI 单元剧集，在北京国际电影节 AIGC 单元获得最佳技术奖。《Kling 汉堡》：可灵 AI 视频大赛广告天才主题冠军等。此外，快手联合可灵 AI，通过现金激励、流量扶持、联合出品及运营等方式，扶持 AI 漫剧与短剧创作者，推动内容商业化落地。

2）字节：即梦 AI 提供全链路一站式 AI 创作，各类政策扶持 AI 视频商业化落地

AI 视频工具：字节跳动推出一站式 AI 创意创作平台即梦 AI，该平台依托自研Seedance、Seedream 等模型，提供文生图、文生视频、数字人制作等功能，支持从灵感搜索、到创意设计，再到生成编辑成片的全链路创作，满足个人与商业场景的视觉内容创作需求。根据量子位智库，2026 年 2 月即梦 AI 网页版月访问总量超 1600 万，环比增长 73%。根据 Insightrackr，海外版 Dreamina AI 下载量在 2025 年 12 月中下旬迎来显著增长。截至 12 月 26 日海外 12 国累计下载量约 29.5 万，主要系 Seedance 1.5 Pro 等发布，以及 AI 内容在社交媒体广泛传播。

AI 内容：即梦 AI 先后举办 AIGC 短剧招募计划、青年导演合作计划等 AIGC 内容创作活动，加速短剧、艺术短片等的工业化生产。活动中诞生了许多的优秀作品，如《老妈的心愿》：家庭温情 AI 短片，抖音上线 24 小时收获点赞超 3 万。《金鱼》：获得 2025 年上海国际电影节 AIGC 竞赛单元最佳视效奖等。此外，字节跳动依托即梦AI 与抖音、红果生态，通过 IP 开放、技术成本补贴、分级保底等方式，全面扶持 AI漫剧与短剧内容创作与商业化落地。

3.2 IP 及影视公司：将一线需求融入工具迭代，赋能 AI 影视工业化

IP 及影视公司依托影视内容制作经验，自研适配于影视工业化生产的 AI 视频工具。相较于视频模型、第三方工具公司，其 IP 转化与影视内容制作经验深厚，可将一线制作需求融入 AI 工具迭代，深度赋能 AI 影视工业化。

1）中文在线：次元神笔赋能 AI 短剧工业化，海内外爆款作品持续落地

AI 视频工具：中文在线推出全栈 AI 内容创作解决方案次元神笔，该平台针对 AI漫剧、真人短剧的内容创作工作流，提供涵盖 IP 选品、分镜生成、角色建模、视频生

成及智能配音的全流程 AI 功能。此外，自训练了针对北美市场的美漫风格 LoRA 模型，解决了国产漫剧出海的视觉本土化难题。根据公司内部测试和实践，公司开发的AI工具链整体可实现内容制作约 50%-70%的时间节省、超 60%的成本节省。

AI内容：目前公司已运用 AI 技术创作累计超 250 部 AI 漫剧，2025 年公司AI漫剧作品全网累计播放量突破 60 亿。其中，《仙尊归来：只手镇人间》：公司首部AI 3D

动漫，由次元神笔全程赋能制作，2025 年国庆档上线即登顶抖音动态漫热榜首位，全网播放量突破 1 亿。《愤怒的吸血鬼》：专为北美市场打造的 AI 美漫风格漫剧，TikTok 上线 3 天播放量达 2.3 亿，登顶北美短剧热榜。

2）博纳影业：博乐深度融合影视制作专业能力，AI 原生动画电影持续推进

AI 视频工具：博纳影业推出一键 AI 短剧智能生成平台博乐，该平台依托博纳AI自研算法、接入外部头部视频模型，深度融合生成式 AI 技术与影视制作专业知识，实现一键生成 AI 剧集。得益于公司在影视制作中积累的深厚经验，博乐结合创作者在使用过程中出现的真实需求，推出了：角色库及场景库功能，可将剧集中的人物角色及场景一键保存，实现跨集数的永久复用，并保证了角色特征与场景底色的一致。博乐成片预演系统，将成片修改环节提前到调用模型生成之前，提高了生成效果及效率。

AI内容：公司成立全资子公司博越星纪蓝图，实现 AI 业务的市场化独立运作，目前的内容布局有：1）2024 年 7 月公司推出国内首部全 AIGC 生成式科幻短剧集《三星堆：未来启示录》，全网播放量超 1.6 亿次，第二季已制作完成；2）由博乐生成 AI短剧，如《来自太平洋的你》、《关灯请闭眼》等，已在公司微信视频号、抖音官方

账号等播出；3）AI 原生动画电影《三星堆：未来往事》于 2025 年 9 月 4 日在家电影局立项公示，目前已进入制作收尾阶段，审核工作在同步开展。

3.3 第三方工具公司：初创公司为主，聚焦垂类应用场景

第三方工具公司以初创企业为主，专注短剧、漫剧等垂类场景，提供从剧本、分镜到成片的一站式创作工具。相较于视频模型、IP 及影视公司，其兼具 AI 工具开发的技术实力与垂类内容制作的实操经验，推动自研全流程工具在短剧、漫剧等细分赛道快速渗透。

1）智灵新境：Agent 化实现 10 倍效率提升，优质作品陆续上线

AI 视频工具：智灵新境推出一站式视频短剧创作平台新境 AI，该平台外接 Veo、Seedance、可灵等主流 AI 多模态模型，开发了适用于短片创作的数十个实用工具，如分镜联想、影视光照优化等，形成覆盖全流程、支持精细化控制与优化的 AI 创作能力。新境 AI 以 Agent 化的自动化处理为核心，打造了多个短片 Agent，如剧本二创、剧本拆分、分镜提取等，提升内容创作效率。根据公司数据，相较于传统方式，智灵新境通过 AI 智能体实现了 10 倍效率提升，即传统+AI 视频工具的方式每日仅能完成 1 分钟内容的产出，且需专注于单一项目的制作。AI 智能体每日可完成 10 分钟以上内容的产出，且可并行操作多个项目。

AI 内容：新境 AI 已赋能独立创作者、漫剧团队、影视公司等各类客户，代表作

品有：1）《浮光》：AI 科幻短剧，凭借精致的 CG 画风、鲜明的风格及宏大的世界观，全网播放量已破 500 万；2）《谁让他当鬼差的？》：S+级的 AI 玄幻穿越漫剧，红果短剧首日播放量近 400 万等。

2）可梦智能：构建企业级 AI 短剧创作平台，AI 仿真人剧标杆作品频出

AI 视频工具：可梦智能推出专为企业级用户打造的AI辅助创作平台可梦AI，该平台聚焦短剧、小说可视化两大核心场景，推出短剧创作模块和小说推文模块，通过AI技术打通从剧本、小说文本，到视频、可视化片段等成品内容的全流程创作。此外，平台具备通用宣发能力，通过为两大模块配套推广中心，实现描述需求即可生成专属海报、主题曲及歌词，无需依赖多工具切换。根据公司数据，运用可梦AI，可实现 10人团队10天完成100分钟短剧的高效产出。

AI内容：可梦AI已赋能短剧公司、工作室等各类客户，打造出多部AI仿真人剧的标杆作品，如《斩仙台》AI 真人版：AI 神话仙侠短剧，上线仅 6 天抖音播放量破亿，是目前播放量破亿最快的 AI 仿真人剧。《我靠唱歌打脸全团》：AI 年代歌舞短剧，播放量突破 1.17 亿，ROI 超 1.1 等。

3）灵境万维：自研 AI 原生动漫工业基座，构筑 AI 转绘漫剧优势

AI 视频工具：灵境万维推出一站式 AI 生产平台灵境 AI，该平台基于自研 AIGC 制作工具，提供视频创作、剧本创作、灵感选题三大功能，实现从选题、剧本创作到分镜成片的 AI 漫剧、AI 真人剧制作全流程。得益于自研 AI 原生动漫工业基座，以及制作中积累的大量优质动漫生产数据，公司在 AI 动漫领域具备领先优势。根据公司数据，相较于传统动漫制作，灵境 AI 可实现提效约 20 倍，降本约 90%，截至 2025年6月，灵境 AI 动漫的每分钟制作成本仅数百元。

AI 内容：基于对目前短剧存量大，AI 转绘漫剧对导演和编剧的依赖度较低、可实现大规模量产这两点判断，灵境 AI 开辟了 AI 转绘漫剧的业务线，打造出多部 AI 转绘漫剧的标杆作品，如《武极天尊》：改编自爆款武侠真人短剧，为行业早期案例。《抢

亲局中局》：改编自爆款古言类真人短剧，播放量超千万等。

风险提示

1）AI 技术发展不及预期的风险：不排除 AI 视频模型的生成效果、一致性、物理规律模拟等发展放缓，导致 AI 应用渗透率提升不及预期的风险；

2）内容监管趋严的风险：不排除 AI 生成内容监管趋严、内容审核标准收紧，导致内容商业化落地进展不及预期的风险；

3）行业竞争加剧的风险：不排除 AI 技术发展加剧行业竞争程度，从而使得个别公司市场份额流失的风险。

更多行业和公司研究成果，请长按图片关注“传媒互联网新视野”公众号

关注最新电子动态，前瞻行业投资趋势

欢迎点击“远峰电子”订阅

行业和公司更多研究结果，请长按图片关注“远峰电子”公众号

孙远峰：太平洋证券总裁助理&研究院院长&科技首席分析师，哈尔滨工业大学工学学士，清华大学工学博士，近3年电子实业工作经验；2013年到2018年多次获得新财富、保险资管IAMAC、水晶球、金牛奖等奖项的电子行业最佳分析师；2019年开始未参加任何个人评比，其骨干团队专注于创新&创业型研究所的一线具体创收&创誉工作，以“产业资源赋能深度研究”为导向，构建研究&销售一体化队伍，积累了健全的成熟团队自驱机制和年轻团队培养机制，获得市场验证；2023年带领崭新团队获得《证券时报》评选的中国证券业最具特色研究君鼎奖，2023年和2024年获得Wind第11届和第12届金牌分析师进步最快研究机构奖；清华校友总会电子工程系分会副秘书长，清华大学上海校友会电子信息专委会委员。

执业资格证书编号：S1190525020001

【转|太平洋传媒-AI 视频深度】模型加速迭代,工具和 IP 价值凸显

wang

猜你喜欢