播放破亿的AI 短片《纸手机》!一个明显的「穿帮镜头」

这部《纸手机》影片我约莫在2026 清明节左右看到，这部片我大概看了3、4 次，当然有一次是认真的再看看有没有AI 的痕迹，但其他几次就是真的在享受这部影片。

无论他是不是AI 创作，我觉得这是一部短短的、温馨的、不是要刻意炫技的「影像作品」，很推荐给大家看看，同时《爱范儿》也有和这部影片的创作者聊聊，我觉得很适合给大家思考：在AI 势不可挡的年代，我们该如何看待AI 创作。

以下内容由《爱范儿》授权转载。

看这部短片时，你可能一开始不会怀疑自己正在看的是AI 生成作品，直到这个画面出现：

转盘式老电话，拨号时手指的位置怎么会在这里？更奇怪的是，片中的设定明明已经在烧iPhone 造型的纸扎，怎么还会出现这么老派的电话机？

这是AI 短片《纸手机》中最常被讨论的一幕，不是因为它多么出色，而是因为它彻底暴露了这部短片是由AI 生成的。尽管在这之前的几分钟，画面逼真到几乎让人察觉不出异样。

但留言区里几乎没有人责骂，评论总是「看到这里才发现是AI 做的」，接着是「完全不在意」、「AI 又怎样，又不影响我哭」。

自从AI 能完整生成影片以来，几乎没有任何一部AI 影像作品能避开同一个问题：到底有多逼真？模型更新的速度，常被视为技术进步的刻度。每一次新版本推出，都伴随着「这次终于分不出来了」的惊叹，或是「还是一眼假」的嘲讽。尤其是真人题材，仿佛只要够真，观众就一定会买单。

《纸手机》给出了一个反例。观众在清楚知道它是AI 生成之后，仍然被打动，而且愿意承认自己被感动。那个电话bug 并不是被「原谅」了，而是它根本不在观众评价这部作品的核心标准里。大家在意的是另一件事：一个还不懂死亡的小男孩，存了15 元，想替过世的奶奶烧一支手机。

这部播放量超过4000 万、被多家媒体转发的AI 短片，是由两位潮汕年轻人在三天内完成的。导演李婷，1998 年出生，做了五年产品经理后转型；搭档杨选是1990 后出生，原本是广告导演，具备美术史背景。在可灵AI 3.0 Omni 的协助下，除了那支用纸板做成的手机道具，画面中的一切，从光线、人物、场景到表情，全都由模型生成。

当一部没有任何一秒是物理意义上「真实」的短片，引发了真实的情感反应，「真」这个字究竟代表什么？

三天、两个人、一个模型

故事的起点，是一段和节令有关的记忆。

正值清明，李婷和杨选都是潮汕人，烧纸钱、祭祖、替过世亲人「寄东西」，是他们从小就熟悉到近乎身体记忆的习俗。杨选记得，小时候跟家人上山扫墓，看着纸扎的瓦斯桶、房子、车子在火里蜷曲变黑。「用纸做出这些东西，反而呈现出华人情感里那种内敛与延迟，」他说。

「纸手机」这个概念，便是从这些记忆中长出来的。但真正让它变成一个故事的，是一连串叙事设计上的选择。

在故事前段，面对身上只有15 元的孩子，纸扎店老板一开始随手画了一支假手机想打发他。直到得知这个孩子已经是孤儿，身边最后一位亲人也过世了，他才起身追了出去。

找到孩子后，老板没有直接说「我来帮你」，而是拐个弯说原本那支纸手机「讯号不好」，于是给了他一支新的。

李婷说，这些笨拙的说词，是她代入角色后想出来的：「这个人在这种情境下，会怎么反应？」她想起自己小时候问长辈「什么是死亡」，对方愣了一下才回答。那个「愣了一下」的瞬间，被她放进短片里，变成某个路人听到小男孩提问后的短暂停顿。

还有老板追出去之前，先把店面的铁卷门拉下一半，这代表着「暂时离开一下，很快回来」。

虽然这是一部AI 短片，但编剧过程完全由人完成。杨选在访谈中反覆强调，新手一定要自己写剧本，「从真实经验出发，才有机会打动人」。

剧本确定后，才进入AI 生成阶段。他们使用的可灵3.0 Omni，主要仰赖三个功能：多图参考，用来维持角色形象一致；音画同步生成，让画面与声音同时产出；以及主体素材中的音色锁定，确保角色声音在全片中保持一致。

整个工作流程从人物设计开始。先设计角色外型，再放进模型中让它自由产生台词，从中挑选最合适的声线，最后进行音色锁定。

李婷说，这个过程中最容易被忽略的一步，其实是「写提示词之前的思考」。「很多人觉得提示词要写得很长、很复杂，但更重要的是精准度：你到底想要什么。」

「精准度」这个词，在他们的工作流程里反覆出现。杨选为了理解不同视觉风格背后的逻辑，曾做过一个实验：用同一个模型生成10 种截然不同的电影质感，包括日系、贾樟柯式、现代感等。「不是在提示词里直接写『杨德昌风格』，」他说，「重点是分析那种风格为什么成立。日系的白柔感从哪里来？雪地这种材质又会怎么影响整体画面氛围？」

《纸手机》的底片感，正是这套方法论下的结果。有意思的是，他们在提示词中从未写下「颗粒感」或「底片」这类字眼。杨选说，那种质感是潜移默化、自然形成的。

「故事设定在那个年代，场景是午后暖光里的纸扎店、老式玻璃柜，这些元素放进去，质感自然就会出来。」他坦言自己喜欢杨德昌、李安、侯孝贤那一代人的镜头语言与叙事方式，但并不是刻意模仿，而是「当你在想这个故事时，自然会用那个时代的方式去想」。

最后一段车内长镜头，是全片最受称赞的片段之一。长达一分多钟，小男孩坐在车上，窗外风景掠过，没有台词，只有背景音乐。李婷说，提示词主要描述的是窗外景色、小男孩情绪的推进，以及车内的颠簸感，借此模拟真实坐车时的状态。

这个镜头一开始只有30 秒。杨选看完后觉得还可以更长，于是逐步延伸。「亲人过世时，悲伤可能不是立刻涌上来，」他说，「你可能连周遭的声音都没察觉。像耳鸣了一段时间，某种莫名的情绪才突然涌上来，像潮水一样。」

这个设计，不是资料分析得出的结果，也不是A/B 测试后的选择，而是他们作为创作者，受到个人记忆与情感驱动后做出的判断。

两个人，三天，极限压缩的话甚至可能不到三天。作为可灵平台的超级创作者，他们有算力支援，制作成本并不高。但李婷特别强调了一句话：「AI 降低制作成本之后，人的价值反而更凸显。成本里更应该包含导演和编剧的创意策划，这些看不见的东西所呈现出的价值，才是重点。」

相信角色，就会相信故事

访谈中，我问了一个假设性的问题：如果这个故事改用真人实拍，传递出的情感会不会不一样？

杨选回答得很坦率：「如果要用实拍完成，会非常吃力。小朋友演员能不能给到你想要的状态？导演能不能调度到位？摄影呢？牵涉的层面太多了。」

李婷的回答更务实：「实拍更考验演员对故事的理解和演技，AI 制作则更考验导演。所有调度与设计都由导演掌控。」她说，对她这种没有实拍经验的创作者而言，AI 工具提供了一种过去不存在的自由度。

这些回答听起来像是在替AI 辩护，但如果把它们和另一组回答放在一起看，会出现一个更有意思的图像。

当我问到「网友说『最没有人味的AI，做出了最有人味的短片』，你们怎么看这个评价」时，杨选说了这样一段话：

「就像画画一样，颜料是死的，演员演出来的也不是真的。但为什么能打动人？因为创作者是真诚的。我们相信自己的角色，也相信自己的故事。写提示词的时候，潜移默化地，很多真实感的东西就会被带出来。」

在传统影视里，「真实感」的来源大致是：编剧写出可信的人物，演员用身体与情感去「活成」那个角色，摄影与剪辑再捕捉并放大那些无法复制的瞬间。

这条路径的核心假设是，必须经过一具真实的身体作为中介。表演在叙事层面上是「假的」，因为演员是在扮演角色；但表演这个行为本身是真的：肌肉记忆、情绪调动、细微表情、呼吸节奏，这些都来自一个活生生的身体。

AI 影像取消了这个中介。没有演员，也没有真正「经历过」角色的身体，但《纸手机》仍然让人觉得「真」。

一种可能的解释是：那些被认为来自演员身体的「真实感」，很大一部分其实源自导演与编剧的观察力。当李婷代入角色思考「他会有什么反应」时，她调动的是自己的童年记忆、对人的观察，以及对情绪节奏的直觉。

这些内容透过提示词传递给模型，模型生成画面，画面再触发观众的共鸣。路径变了，但起点和终点没有变：都是人的经验抵达人的情感。

这也解释了为什么两人的搭配如此有效。杨选说，李婷负责「想像中的画面」，他负责「讲故事」。当不同的人带着各自的生活经验碰撞时，会产生他口中的「反情节」，那些不在剧本计画中、却因为足够真实而被留下来的细节。这些，是AI 无法自主生成的。

访谈中，杨选提到了杨德昌、侯孝贤、李安等台湾新浪潮一代导演。这些导演的镜头，定义了「真」更应该落在情感层面的诚实。侯孝贤拍《风柜来的人》时大量使用非职业演员，追求的正是这种「不在计画中」的真实。他要的不是精准表演，而是人在真实情境里的自然反应。

AI 创作者正在用不同的媒介延续这套逻辑。中介从演员的身体，变成模型的参数；但导演注入其中的东西并没有改变：对人的观察、对情绪的直觉，以及杨选反覆提到的「真诚」。

完美是创作的敌人

访谈快结束时，我问了一个假设性问题：如果未来AI 可以一键生成完美作品，没有bug、没有穿帮，每一秒都无可挑剔，你们会更满意，还是会觉得少了什么？

李婷回答得很直接：「太完美不一定好。」

她以老板这个角色为例。一开始他敷衍小男孩，后来追出去时找的理由也笨拙得有些可笑。但观众恰恰因为这种不完美，才觉得他立体、真实。

至于那个电话机的bug，李婷认为瑕不掩瑜。她选中那一版的原因，不是因为技术指标最完美，而是「人物的细微动作、细微表情，以及镜头衔接的流畅度，那就是我想要的演员真实演绎感」。

「工具越简单，表达的难度不一定会降低。」杨选的回答更往前推了一步，「你必须更清楚自己想要什么、喜欢什么，才能藉由更简单的方式，表达出更好的东西。」

这也正是外界反覆讨论的问题：当AI 工具持续迭代、技术摩擦不断降低，创作者真正的核心竞争力到底是什么？

杨选在访谈中提出三个关键的人工环节：编剧、导演、美术。「会用工具」是基本条件，但工具只会越来越顺手，因此它本身无法构成真正的护城河。

更重要的是一种能力：知道什么时候该停下来。

什么时候情绪已经到位，就不要再改；什么时候bug 反而成就了作品，就不要硬修；什么时候留白比填满更有力量，就不要多做。

这种判断力不来自模型，而来自人的经验与直觉。工具越强大，它反而越稀缺。

就像那个缺失的话筒，在技术层面上是一个错误。但在传播层面，它意外完成了一件事：它让观众确认「这是AI 做的」之后，反而更能把注意力放回故事本身。

这个bug 变成了一张通行证。观众不再需要纠结「这是不是真的」，因为答案已经很清楚了。他们转而判断一个更重要的问题：这个故事，好不好。

答案是4000 万次播放，以及影片内外一同流下的眼泪。

最没有人味的工具，做出了最有人味的短片。或许更准确的说法是：工具从来就没有人味。有温度的，始终是使用工具的人。