AI 新视听专访(1) | 胡正荣:所有影视公司都只要一两个人就能搞定,这并不现实.

AI 新视听报道

首个聚焦 “AI × 视听”

双垂直领域产业新媒体

随着AI视频模型的飞速发展，AIGC 已从 “未来时” 变为 “现在进行时”，正以全新的新质生产力重构视听产业全链条。

在中国社会科学院新闻与传播研究所党委副书记、所长，中国社会科学院大学新闻传播学院院长胡正荣看来：

正是因为Seedance 2.0的视觉理解力、视觉建构力上来了，它在视听内容创作与生成能力上，也得到了前所未有的提高。

我个人更倾向于：真正达到专业级、影视级的视频大模型，大概率会在2028—2030年之间出现。

他认为，“一人影视公司 ”不能一概而论，认为未来所有影视公司都只要一两个人就能搞定，这并不现实。

中国社会科学院新闻与传播研究所党委副书记、所长，中国社会科学院大学新闻传播学院院长胡正荣

视觉理解、视觉建构上达到新高度

AI 视频生成行业长期存在痛点和难点

「AI新视听」：相较于同类 AI 视频生成模型及前代产品，Seedance 2.0、可灵3.0、Vidu Q3等的核心进步体现在哪些方面？具体解决了 AI 视频生成行业长期存在的哪些痛点难题？

胡正荣：我的看法是这样：Seedance 2.0等的推出，标志着 AI 生成式模型在两大核心能力上实现了显著突破。

第一，是视觉理解能力大幅提升；第二，是视觉建构能力明显增强。

这和过去的AIGC产品完全不一样。以往我们见到的很多AI视频工具，大多只能做一镜到底、简单画面，场景转换非常局限，整体表现力偏弱。

而Seedance 2.0、Seedance 2.0、可灵3.0、Vidu Q3在理解画面、构建复杂场景上，已经上了一个大台阶。

像Seedance 2.0这样的产品，其实已经把人工智能大模型，从单纯单向生成，开始向双向理解型模型进化。

也正因为如此，它在视觉理解能力和视觉建构能力上，才有了刚才说到的大幅提升。这主要体现在几个方面：

比如Seedance 2.0、可灵3.0、Vidu Q3生成的内容，在镜头景别变化、运镜流线、场景切换上，都已经做到非常丝滑、流畅。这在以往的AI视频工具里是很难看到的。

而且它生成出来的效果，非常接近人类专业创作的质感——比如远景、中景、近景、特写这些不同景别的自然切换，还有运镜的流畅度、节奏感，都已经具备了专业创作的质感。

由此也带来了另一大优势：正是因为Seedance 2.0等的视觉理解力、视觉建构力上来了，它在视听内容创作与生成能力上，也得到了前所未有的提高。

能力上去了，创作成本自然就降下来了。过去想要做出这种场景变化复杂、景别切换丰富、运镜要求高的视频，哪怕只是短视频，成本都很高。

随着这项技术不断成熟、模型理解能力持续提升，整体的人力成本、技术成本、时间成本，都会大幅下降。

从这一点也能看出，AI 视频生成行业长期存在的痛点和难点，恰恰就在于：过去的模型，对视频本身的理解能力是不足的。

很多产品还停留在把文字直接转成机器能生成的画面，在视觉理解、视觉建构上，远没有达到现在这样的高度。

所以我们目前看到的很多AI生成视频，在画面颗粒度、情感表达颗粒度、叙事有效性等方面，和专业创作相比，仍然存在比较明显的差距。

专业级、影视级的视频大模型

大概率会在2028—2030年之间出现

「AI新视听」：业内有观点认为，影视级水准的视频生成模型预计要到2027—2028年才能落地，结合当前 Seedance 2.0的技术突破，您认为影视级 AI视频生成模型最快可能在什么时候实现？核心判断依据是什么？

胡正荣：但我个人的判断不太一样，我觉得2027—2028年这个时间点，可能还是偏乐观了一些。

我个人更倾向于：真正达到专业级、影视级的视频大模型，大概率会在2028—2030年之间出现。

因为到那个阶段，模型就不再是简单的单向生成、文字转视频的工具，而是同时具备理解能力+生成能力的双向模型。

我们都知道，大模型发展其实有两条路径：一条是单向生成，另一条是双向理解。

我做出这个判断，主要基于两方面：一是技术涌现的水平、速度与能力，二是产业落地的成本核算。

第一，从今年包括 Seedance2.0 在内的技术突破来看，虽然已经出现了非常明显的技术涌现，但短期内，还没有完全彻底解决用 AI 模型实现高标准、高要求的专业级创作这一核心问题。

这项能力的成熟，我个人判断至少还需要两到三年的迭代周期。

也正是基于这一点，我才认为大概在2028—2030这个阶段，行业才会迎来真正的快速升级和成熟。

第二，因为真正的影视级视频大模型，既要达到极高的内容水准，又要能实现规模化、普及化应用，还需要满足一系列关键条件：

一、算力支撑。目前的算力水平，还不足以支撑大规模、高效率的影视级视频生成。

二、硬件条件。包括芯片、底层硬件、软件处理能力，都还需要持续升级。

三、也是最关键的 ——人才。既需要顶尖的技术人才，也需要懂内容、懂创作、懂影视语言的专业人才，深度参与模型精调、内容打磨。

这些条件，都需要时间逐步成熟、逐步完善，而这些，也正是影视级视频大模型真正落地前，需要跨越的现实障碍。

所有影视公司

都只要一两个人就能搞定，

这并不现实。

「AI新视听」：有观点认为 Seedance 2.0的出现有望催生大量“一人影视公司”，您如何看待这一趋势？这种模式的兴起具备哪些前提条件，又可能面临哪些挑战？

胡正荣：这个观点我非常认同。

正如我们刚才谈到的，技术门槛大幅降低后，AI 可以替代大量传统人力工作。

过去很多完全依靠人力完成的环节，比如创意策划、内容生成、后期制作，甚至市场捕捉、用户分析、营销推广、转化变现等，现在都可以由 AI 高效完成。

这也就意味着，过去可能需要上百人团队才能完成的影视项目，如今根本不需要这么多人。

如今，几个人的小团队就足够了：有人负责创意策划，有人负责营销，有人负责统筹协调，有人负责技术工具应用，完全可以实现高效产出。

未来，小团队、轻量化、AI 驱动，会成为视听行业非常主流的生产模式。

但我们也要清醒地看到，它在真正落地的过程中，还面临不少现实问题。

首先，视听内容本来就分两大类：虚构类和非虚构类。

这两类内容对团队结构、能力要求完全不一样，这本身就是一个现实障碍。

另外，短叙事和长叙事的创作逻辑也截然不同。

比如，真要做一部两小时的电影，或者一集时长较长的剧集、电视剧，那么长叙事对团队配置、人才多元化、技术标准的要求，都会复杂得多。

所以我个人认为，不要一概而论，认为未来所有影视公司都只要一两个人就能搞定，这并不现实。

我认为，在这项技术全面普及之后，整个视听行业会变得越来越多元、越来越丰富。

行业里的企业、机构，在结构、规模、类型、层级上也会更加细分、更加分层化，这是必然出现的趋势。

被替代的是执行性岗位，

被放大的是

人的创造力、判断力、审美力与决策力。

「AI新视听」：若“一人影视公司”广泛兴起，将对影视行业的就业结构产生哪些具体影响？哪些岗位最易被 AI 替代，又有哪些岗位会迎来新的需求增长点？

胡正荣：我的看法是：

一人或小团队影视公司广泛兴起，会让整个影视行业更加大众化、平民化，正如我们前面谈到的，行业门槛在持续降低。

但同时也要看到，有些岗位很容易被AI 替代，有些岗位则无法被替代。

容易被替代的，主要是偏执行、偏技术、偏重复、偏标准化的环节：

比如，技术生成、内容制作、基础加工、技巧优化、简单剪辑、常规营销推广、渠道分发等。这些工作 AI 都可以高效完成。

而真正无法被替代、永远需要人的，是核心创意与价值层面的能力：

比如，顶级优质创意、价值观植入、审美判断与选择、叙事设计与叙事优化，以及最终的决策与把控。

AI 可以生成三五个方案，但选A、选B还是选 C，最终要靠人；故事讲给谁、怎么讲、叙事结构怎么设计，依然要靠人；作品的情感、温度、价值导向，更是只能由人来完成。

所以我始终认为，未来一定是人机共生、人机协同，而不是机器完全取代人。

被替代的是重复性、执行性岗位，被放大的是人的创造力、判断力、审美力与决策力。

— 完 —