影视前沿专栏|从AI“基础设施”重新思考电影本体论-夜雨聆风

影视前沿专栏|从AI“基础设施”重新思考电影本体论

🔗 影视前沿专栏｜AI演员争议

🔗 影视前沿专栏｜AIGC与作者论

基础设施原本是工程领域概念，最早指铁路轨道之下或优先于轨道铺设的工程结构，后来逐渐扩展为支撑社会运行的各类物质系统与组织系统。在国内我们常形容中国为“基建狂魔”，这个词就是对中国基础设施建设能力极强的网络昵称，源于中国在高铁、桥梁、电力等领域的迅猛发展和世界领先的成就。

在人文社会科学中，基础设施不只指道路、桥梁、电站、通信网络等具体设施，也指支撑社会、技术、文化活动运转的深层关系网络。其核心特征在于系统性、关系性和隐蔽性：它通常隐藏在日常生活背后，只有在故障或失灵时才会变得明显。放到电影研究中，基础设施视角能够帮助研究者从银幕文本转向电影背后的生产、传播、观看和技术条件，分析摄影机、片场、院线、平台、数据、算法等因素如何共同支撑电影的生成与流通。因此，基础设施不是一个固定研究对象，而是一种理解电影及其社会技术关系的方法。

影像的“基础设施”，可以理解为支撑影像生产、生成、传播、观看和保存的整套基础条件，就像铁轨之于铁路、相纸之于摄影。传统电影的基础设施要依靠摄影机、胶片、片场、灯光、剪辑台、电影院和院线系统完成生产与传播；数字电影进一步依靠剪辑软件、存储设备、流媒体平台和服务器；AIGC时代则把模型、训练数据、算力中心、芯片、电力、云平台和算法推荐纳入影像生产的核心环节。在黄仁勋在《AI Is a 5-Layer Cake》中将AI描述为由能源、芯片、基础设施、模型和应用共同构成的“五层蛋糕”（可详见 NVIDIA英伟达公众号《NVIDIA CEO 黄仁勋发表最新署名文章：AI 的“五层蛋糕”》），这一说法有助于理解AI影像的完整支撑结构：屏幕上呈现的是生成结果，深层运转的是能源、硬件、算力、模型和应用共同组成的新型基础设施。

电影的基础设施也可以被视为好莱坞或类似全球电影工业体系的整体结构，涵盖器械制造、建筑、创作、发行、放映等环节，也包括编剧、导演、摄影、服装、道具、照明、录音、特效、剪辑等具体工种，是各种物料、物流和人力活动的综合体。20世纪末的数字化曾被视为电影本体论的重要转折，但从基础设施角度看，数字化主要改变了信息载体和传播形式，电影仍然属于依托多元人力物力的创作行业。真正更深层的变化发生在从“制作”到“生成”的转型之中，因为这一转型使电影生产的基础设施从摄影棚、片场和院线，进一步延伸到模型、数据、算力和平台系统。

韩晓强老师借用“堆栈”概念理解AI大模型，认为堆栈是一种行星规模的基础设施，连接智能电网、云计算、移动软件、城市级软件、通用寻址系统、普适计算和机器人技术等多个层面。它是一个巨大而连贯的整体，具有比单一技术工具更复杂的结构。韩晓强老师进一步指出，从物质或实体架构层面看，AI大模型可以被理解为“黑栈”；从隐喻层面看，世界模型则会成为未来影像的技术底座。换言之，过去的图像基础设施让世界被把握为图像，今天的影像基础设施则让世界逐渐被把握为模型，由此反向扩展了对影像本身的理解。

AI进入电影产业经历了从辅助工具到生成系统的发展过程。早期AI主要参与剧本写作、素材筛选、数字演员、智能剪辑和市场推荐等环节；随着视频大模型和多模态模型的发展，AI开始进入影像生产的核心流程。刁基诺较早从“媒介基础设施”的角度讨论人工智能在电影产业中的应用，指出AI既是推动媒介基础设施建设的重要技术，也可能在未来成为媒介基础设施本身。

在剧本阶段，AI可以学习大量类型片、情景喜剧和科幻片剧本，生成故事结构、人物关系和对白内容。刁基诺提到，早期已有AI程序学习《老友记》剧本并自动生成新剧本，也有递归神经网络Benjamin参与科幻短片《Sunspring》的剧本创作。在前期筹备阶段，AI可以辅助虚拟勘景、场景筛选和数字演员建模；在后期阶段，AI可以学习类型片节奏和视听模式，完成素材筛选、预告片剪辑和风格匹配。IBM Watson曾为惊悚片《Morgan》剪辑预告片，这一案例说明AI已经具备进入电影生产链条的实际能力。

传统电影生产通常围绕剧本创作、现场拍摄、演员表演、后期剪辑、声音设计和发行放映等流程展开，其核心逻辑是“制作”：创作者通过摄影机、片场、演员身体和后期工序来组织现实材料。AIGC影像则通过文字、图片、声音或视频输入，由模型生成画面、运动、音效和风格，其核心逻辑转向“生成”。韩晓强老师在《黑栈、算法与AIGC》中提出“从制作到生成”的判断，指出AIGC与普通数字技术的关键差别在于：数字技术主要改变电影的工具和流程，而生成式AI开始改变电影生产的基本逻辑，使影像从依靠现实拍摄和人工组织，转向依靠数据调用、模型预测和风格组合。

AI降低了部分影像生产门槛，小团队能够完成过去需要大量人员协作的视觉内容，创作者也可以通过提示词、模型调用和后期筛选完成更高效率的影像试验。与此同时，电影产业中的关键资源开始转向模型能力、训练数据、算力成本、平台接口和算法规则。传统电影产业中，制片公司、院线和流媒体平台掌握重要话语权；AIGC时代，模型公司、数据平台和算力平台也成为影像生产的重要力量。创作者的位置随之发生调整，从直接完成每一帧画面的人，转向提出创意、设计提示、筛选结果、统一风格和判断价值的人。

AIGC进入电影创作后，AI的角色逐渐从局部工具转向影像生产的底层支撑系统。韩晓强老师围绕“基础设施”这一关键问题展开了连续讨论：在《黑栈、算法与AIGC：行星智能时代的电影本体论》中，他将AI大模型理解为重构电影生产条件的新型基础设施，提出电影正在从“制作”走向“生成”；在《世界模型时代的影像基础设施》中，他进一步指出世界模型将成为未来影像生成、流转和演进的技术底座。由此，基础设施成为贯穿韩晓强老师相关研究的重要线索，也使AIGC问题从工具应用推进到电影本体论与未来影像形态的讨论。

韩晓强老师在《黑栈、算法与AIGC》中借用“黑栈”这个概念描述AI大模型。为了便于理解，可以把“黑栈”解释为一套庞大的分层机器系统。它包括底层的能源和矿产，中间的芯片、服务器、云计算和数据中心，上层的模型、平台、接口和用户应用。Sora、Veo这类视频生成工具只是前台界面，真正支撑影像生成的是背后那套由硬件、数据、算法、平台和能源组成的系统。韩晓强老师强调AI大模型的实质在于这个庞大的系统，而不是单个应用程序。“黑栈”由此可以被理解为AI时代的影像生产基础，它把电影生产从摄影棚、片场和院线，推向数据中心、模型平台和算力系统。

韩晓强老师在讨论AIGC电影本体论时提出“碎片美学”。这一概念可以理解为：AI生成影像通过学习大量已有图像、电影、文本、风格和类型规则，把这些材料拆成可计算的细小单位，再重新组合成新的画面。过去电影的基本单位常被理解为镜头、场面调度和剪辑段落；AI影像的基本单位则更接近数据碎片、风格碎片、动作碎片和图像碎片。比如一个AI生成画面可能同时带有好莱坞科幻片的光效、日漫角色的面部风格、广告影像的构图方式和短视频平台偏好的视觉节奏。这样生成出来的影像带有拼接、混合和再组合的特征，也就形成了韩晓强老师所说的“碎片美学”。这一概念适合用来说明AIGC如何改变电影美学，因为它揭示了AI影像的美学来源：海量文化材料经由模型重新组织之后生成新的视觉结果。

韩晓强老师在《世界模型时代的影像基础设施》中进一步提出“世界模型”问题。所谓世界模型，可以理解为一种让AI学习、模拟和预测现实世界的模型。大语言模型主要处理文字和语义，世界模型则试图理解空间、运动、物理关系和行动结果。

“大语言模型与世界模型之争，类似于分析哲学与欧陆哲学（尤其是现象学传统）之分野的延续：“语言的边界就是世界的边界”仿佛是大语言模型的信仰；而“视域”“生活世界”“世界的肉身”这些概念更多是围绕世界模型的沉思。考虑到语言是一系列知识性记忆的载具，而影像是具身性记忆的载具，那么从大语言模型到世界模型的转向，就意味着从一种基于语义一符号的世界理解扩展到基于影像一认知行动的世界理解。”（”世界模型时代的影像基础设施_韩晓强”，p.22)

比如自动驾驶系统需要理解道路、车辆、行人和交通规则；机器人需要理解房间、物体、身体动作和任务目标；视频生成模型需要理解物体如何运动、镜头如何变化、空间如何连续。韩晓强老师据此提出三种影像形态：环境-影像、生成影像和具身-心智影像。环境-影像指影像变成可进入、可导航、可互动的空间，比如自动驾驶看到的道路环境或游戏式三维场景；生成影像指由模型根据数据和提示生成的视频、图像和动态画面；具身-心智影像指未来智能体通过身体、感知和行动形成的内部影像，再通过技术转化为可见画面。这些概念说明，未来影像的功能正在扩展：影像既可以被观看，也可以成为机器理解世界的方式、用户进入空间的入口和智能体行动判断的依据。

AIGC时代的电影研究需要从作品表面进入影像背后的生产系统。基础设施这个概念能够帮助考生看到电影背后的设备、平台、数据、算力和能源，也帮助考生重新理解电影的存在方式。李辉《基础设施作为电影研究方法：一种视角，三条路径》一文适合用来学习基础设施作为电影研究方法的意义，刁基诺的文章适合用来说明AI在电影产业链中的具体应用，而韩晓强老师的《黑栈、算法与AIGC：行星智能时代的电影本体论》、《世界模型时代的影像基础设施》两篇文章则可以用来提升答案的理论高度，把AI影像问题推进到电影本体论和未来影像形态的层面。

考试中遇到“AI与电影”、“AIGC影像”、“电影本体论”、“生态电影”等题目，我们就可以围绕三个点来进行展开：第一，AI改变了电影生产的底层条件；第二，AI推动电影从拍摄和制作走向模型生成；第三，AI影像背后连接着数据、算力、平台和能源，因此它既是美学问题，也是产业问题和生态问题。

电影是一种技术媒介。请结合AIGC的发展，谈谈数字智能时代电影本体论的变化。

作答示范

电影从诞生起就与技术条件密切相关。摄影术使电影获得记录现实的能力，声音、彩色、宽银幕、数字特效和流媒体又不断重塑电影的形态。进入AIGC时代后，电影面对的变革越发彻底：AI不再只是改变某种过往影像创作环节的具体工具，而是已经更换了影像生产背后的整套支撑条件。传统电影依靠摄影机、片场、演员、灯光、剪辑和影院系统完成创作与传播，AIGC影像则依靠数据、模型、算力、芯片、服务器、电力和平台接口完成生成。由此，电影的底层条件正在从“拍摄系统”扩展为“生成系统”。

韩晓强老师在《黑栈、算法与AIGC：行星智能时代的电影本体论》中明确提出，AI大模型的发展使电影第一次面临“基础设施”的解构和重建，电影正在从“制作”走向“生成”。这里的“制作”指传统电影依靠剧本、置景、拍摄、表演、剪辑等流程完成作品；“生成”则指AI模型通过学习海量图像、视频、文本和风格材料，再根据提示词直接生成新的画面、运动和视听风格。韩晓强老师因此将AI大模型称为“黑栈”，这个概念可以理解为AI影像背后那套庞大的分层机器系统，包括数据、算法、云计算、芯片、能源、平台和产业结构。Sora、Veo等视频生成工具只是前台界面，真正支撑影像生成的是背后的基础设施系统。

这一判断改写了巴赞以来的电影真实观。传统电影的真实感主要来自摄影机与现实世界之间的联系，AIGC影像的真实感则更多来自模型生成的空间连续性、运动可信度和感知说服力。影像可以没有传统拍摄现场，却仍然制造出高度逼真的世界。因此，数字智能时代的电影本体论应从“现实的记录”扩展为“生成的世界”。

韩晓强老师在《世界模型时代的影像基础设施》中进一步推进这一问题。他认为AI正在从“大语言模型”走向“世界模型”。所谓世界模型，是指AI在内部建立一个关于外部世界的可推演模型，使它自身能够理解空间、物体、运动、因果和未来变化。现有的大语言模型更像一个会读写文字的AI，而未来的世界模型则更像一个能在内部模拟世界的AI。它不仅要知道“车在路上”这句话，还要理解车道、行人、速度、碰撞风险和下一秒可能发生的变化。它和元宇宙的区别在于：元宇宙更强调人进入一个虚拟空间，世界模型更强调AI在内部理解、预测和生成世界。

由此，未来影像不仅是供观众观看的画面，还可能成为自动驾驶理解道路的环境、机器人判断空间的依据，以及用户进入和互动的三维世界。韩晓强老师据此提出，世界模型将成为未来影像生成、流转和演进的基础设施。因而，AIGC时代的电影正在从由摄影机、演员和剪辑共同完成的艺术，转向由人、数据、模型、平台和算力共同生成的影像系统。

[1]黄仁勋：《AI Is a 5-Layer Cake》，NVIDIA Blog，2026年3月10日。

[2]刁基诺：《人工智能在媒介基础设施建设中的实践与辩证思考——以人工智能在电影产业的应用为例》，《当代电影》2021年第11期。

[3]李辉：《基础设施作为电影研究方法：一种视角，三条路径》，《电影理论研究（中英文）》。

[4]韩晓强：《黑栈、算法与AIGC：行星智能时代的电影本体论》，《电影艺术》2024年第5期。

[5]韩晓强：《世界模型时代的影像基础设施》，《电影艺术》2026年第1期。

作者/嘉良

排版/MIF

编辑/驹子