

「动作都有,但不像活人。不是模型不会演,而是我没有给它足够具体的表演指令。」 |
Hi,你好,我是彭俊旗。一个 FDE(前端 AI 部署工程师),一个能将 AI 部署到业务现场,并实现效益提升、拿到结果的人。
2026 年 5 月,我确认要做越南 AI 漫剧项目,从最初的选题到最后投向市场,形成商业模式,都由我负责。接下来我会记录这一过程。
这也是一个 AI 视频生成技术应用的生产实践案例:用工程化能力把内容、模型、资产、验证和迭代组织成生产流程。
我看自己最初生成出来的一些 AI 视频时,有一个很明显的感觉:角色像机器人。
他说台词。她转头。他递东西。她看一眼。动作都有,但不像活人。
后来我才意识到,不是模型不会演,而是我没有给它足够具体的表演指令。
抽象情绪不是可执行指令
我以前会写很多抽象词——女主难过、助理紧张、婆婆压迫、她认真起来、他心虚。
这些词人能懂,但模型不一定能演。就算演了,也很容易套路化:难过就大哭,紧张就瞪眼,压迫就大喊。这不是我要的短剧表演。
所以我后来开始把情绪翻译成可见动作。
▎ 难过——不写"她很难过",而写:眼皮慢慢垂下,嘴角向下收住,下唇轻抿,吸气停半拍▎ 紧张——不写"她很紧张",而写:嘴唇微张又合上,眼睛快速看一眼对方又垂下,指尖轻轻压住桌面▎ 心虚——不写"他心虚",而写:他没有立刻回答,眼神先避开女主,再落回合同,手指在咖啡杯旁收紧 |
这些东西才是模型能执行的表演。
人物要边做事边说话
另一个问题,是人物太静。很多 AI 视频里,角色说话时只是站着说、坐着说、看着说。短时间看还行,多了就像读台词。
真实的人不会这样,短剧人物尤其不会。
▎ 婆婆可以边走近柜台边看小票
▎ 女主可以边拍掉 áo dài 上的道具钱边伸手要片酬
▎ 助理可以边翻合同边压低声音报价
▎ Linh 可以边压住小票边抬眼回答
动作和台词同时发生,人物才会有生活感。这也是我后来把"复合表演层"放进任务包的原因。
角色不是完成一个动作,再说一句话。 角色是在做事的过程中说话,在说话的过程中暴露态度。 |
表演也要符合人物设定
同样是反击,不同人物不能演成一个样。
▎ Thảo 的反击——不是跳起来吵。她是片场打工人,有疲惫,也有经验。她不笑,直接伸手要钱,声音短,脸冷下来▎ Linh 的反击——也不是胜利表情。她是把婆婆说反话当真,所以她更像认真执行:眼睛看着对方,嘴唇轻轻合住,手仍压着小票,没有抢话▎ Bà Hạnh 的压迫——也不是大吼。她更像重面子、讲家规的人。下巴微抬,嘴角压低,尾音硬收,比夸张吵架更符合这个人物 |
如果不做这些区分,所有角色都会变成同一种短剧模板。
表演要进入时间轴
我后来还有一个经验:表演不能只写在基础设定里。如果只写"Linh 紧张但认真",时间轴里不落地,模型经常丢。
所以我现在会把表演写进具体镜头:
▎ 00:00-00:01.4:Linh 右手压小票,眼睛先看票面,嘴唇闭住▎ 00:01.4-00:03.2:Bà Hạnh 走近,汤勺轻碰台面,她嘴角压低,下巴微抬▎ 00:03.2-00:05.0:Linh 慢半拍抬头,眼睛看向柜台外侧,手指仍压纸边,不抢话 |
这就是 AI 视频里的表演接口。
KEY INSIGHT 人物鲜活性不是模型自动给的。它来自我有没有把角色在当下应该怎么控制脸、手、身体、声音和反应写清楚。如果只给情绪名,角色就会像机器人;如果给可见表演,它才有机会像一个人。 |
动作都有,但不像活人。问题不在模型,在你给的指令。 给可见表演,AI角色才有机会像一个人。 |
Resona · 鸣 · 让每一次对话,都有回响 2026-06-25 · 彭俊旗 |
夜雨聆风