如果你最近也在用 AI 做视频,应该很容易遇到一个问题:
提示词写得很认真,生成结果却很随机。
你让人物奔跑,它可能原地扭动
你让镜头后拉,它可能突然乱切
你让角色说一句台词,它可能根本没有声音
你想要电影感,它最后给你一段“AI 味”很重的废片
所以我这次做了一个很直接的测试:
看看 7 款 AI 生视频工具,
到底谁更能理解“动作、情绪和镜头”。
本次测试工具包括:
Happy Horse 1.0、Pixverse V5.5、Vidu Q3 Pro、MJ Video、Wan 2.5、Kling O3、Seedance 2.0 Vip
我不只看画面漂不漂亮,更看它能不能把一个小剧情讲清楚。

测试说明
本次测试是在模型集合工具 LibTV 中完成的。
LibTV 是一个集合多款 AI 视频模型的平台,可以在同一平台里调用不同模型进行测试和对比。本文中的“花费”统计,均基于 LibTV 平台内当次生成所消耗的价格,不代表各工具官网的官方定价、会员价格或 API 价格。
LibTV 官方网址:https://www.liblib.tv/
最终评价表(按生成效果排序)

测试画面:
高考结束后冲出校门
这次选的画面,是一个很有情绪感染力的场景:
高考结束后,男生和女生从校门口跑出来。背景有人群、家长、鲜花和横幅,整体是非常典型的青春毕业季氛围。

这个画面看似简单,
但对 AI 生视频来说,其实有几个难点。
第一,人物要动得自然。
奔跑、停下、挥手、回头看,这些都是连续动作,不是单纯让画面“晃动”。
第二,表情要有情绪。
高考结束后的释放感、开心、激动、如释重负,必须从人物表情里体现出来。
第三,镜头要有设计。
这次不是固定镜头,而是镜头要随着人物运动后拉,中间还要有慢放感。
第四,环境也要参与叙事。
风吹起头发,横幅轻轻晃动,人群有真实氛围,这些细节都会影响视频最终的真实感。
这次测试,我给所有工具使用的是同一段提示词:
镜头随男孩和女孩的运动而后拉。女孩蹦蹦跳跳地跑出考场,脸上洋溢着幸福的微笑,扫视人群,突然发现自己的爸爸,立定,扬起画面右侧的手,说:“爸,我在这儿呢!”男孩一边跑,一边宠溺地看着女孩儿,此时镜头慢放,风吹起人们的头发,吹得背景里的横幅轻轻晃动。
“
Happy Horse 1.0
花费:约 3.22 元
工具官方网址:https://www.happyhorse.com/
整体画面有些卡顿,人物运动不够顺滑,动态过程中五官有变化,人物一致性不够稳定。它基本完成了奔跑动作,但没有体现“慢放”,镜头节奏和情绪递进也偏弱,更像是让图片简单动了起来。
工具介绍
Happy Horse 官网定位为 AI 视频生成与编辑平台,特点是快速生成、编辑一体化。
“
Pixverse V5.5
花费:约 3.69 元
工具官方网址:https://pixverse.ai/
这一版镜头切换很乱,出现了不少提示词中没有要求的画面,有明显“无中生有”的情况。它没有准确理解“女孩发现爸爸后停下挥手”这个关键动作,台词也没有声音,整体完成度较低。
工具介绍
Pixverse 由 AIsphere 推出,2024 年上线。产品偏大众化 AI 视频创作,支持文生视频、图生视频、模板特效和运动控制。
“
Vidu Q3 Pro
花费:约 3.35 元
工具官方网址:https://www.vidu.com/
画面有一定卡顿感,虽然设置为 720p,但实际观感中人物五官偏模糊,清晰度较低。动作节奏相对自然,但台词没有准确还原,影响了剧情表达。整体有一点氛围,但稳定性和清晰度不够理想。
工具介绍
工具介绍
Vidu 由生数科技推出。Vidu Q3 主打原生音频、最长 16 秒视频生成,以及对白、音效、音乐的同步生成。
“
MJ Video
花费:约 12.06 元
工具官方网址:https://www.midjourney.com/
这一版人物五官变化明显,人物一致性较差,也没有生成台词声音。
从这次测试来看,Midjourney 依然更适合生图,有审美和风格优势,但不太适合处理人物一致性、剧情动作和台词表达。
工具介绍
MJ Video 是 Midjourney 的视频模型 V1,2025 年 6 月发布。它以图生视频为主,延续 Midjourney 的画面审美和风格化优势。
“
Wan 2.5
花费:约 4.355 元
工具官方网址:https://wan.video/
人物动作非常不自然,肢体运动缺乏真实感,整体比较生硬。提示词里的奔跑、停下、挥手、慢放等关键动作都没有很好地执行,人物关系和情绪表达也比较弱。
工具介绍
Wan 2.5 来自阿里巴巴通义万相团队。模型面向文生视频、图生视频,强调物理运动、主体保持和高分辨率输出。
“
Kling O3
花费:约 3.69 元
工具官方网址:https://kling.ai/
整体画面比较流畅,人物动态连续性不错,五官变化不大,稳定性较好。
不足是人物表情略显夸张,情绪表达有点过度,也没有明显体现“慢放”。整体观感不错,但细腻情绪还可以更自然。
工具介绍
Kling 由快手推出,最早于 2024 年上线测试。Kling 系列强调运动表现、镜头控制、写实输出和主体一致性。
“
Seedance 2.0 Vip
花费:约 8.17 元
工具官方网址:https://jimeng.jianying.com/ai-tool/home/
这一版是本次测试中完成度最高的一版。
它准确体现了“慢放”,对动作节奏、人物情绪和镜头整体性的理解都比较到位。画面流畅,人物身份保持自然,背景人物的动作和神态也有照顾到。
整体来看,镜头运动、人物表情和背景细节衔接自然,能感受到情绪递进,比较接近我预期中的效果。
工具介绍
Seedance 2.0 来自字节跳动 Seed 团队,2026 年 2 月发布。模型强调运动稳定性、音视频联合生成和导演级镜头控制。
这次测试给我的启发:
AI 视频提示词不能只写“动起来”
这次测试最大的感受是,
AI 生视频不是简单让画面动起来,而是要让模型清楚知道:谁在动、在哪里动、怎么动、镜头怎么拍、情绪怎么变化。
如果只写“人物跑起来”“画面更电影感”“镜头动一动”,模型就很容易自由发挥,出现乱切镜头、动作变形、人物五官变化、情绪不到位等问题。

更完整的 AI 生视频提示词,可以按这个结构来写:
基础设定:角色、场景、画面风格、光影基调。
空间锚点:人物在画面左侧/右侧/前景/背景,镜头从哪里看。
镜头设计:景别、拍摄角度、运镜方式、镜头速度。
角色动作:人物先做什么、再做什么,动作顺序要清楚。
表情情绪:开心、惊喜、紧张、温柔等情绪变化。
声音台词:对白、旁白、环境声、音效。
时长要求:视频秒数、节奏快慢。
约束条件:不要乱切镜头、不要改变五官、不要新增无关人物或场景。

比如这条提示词,如果重新强化可控性,可以写成:
5 秒视频,16:9,电影感写实摄影风,真实光影,夏日校园氛围。校门口人群和横幅作为背景,男孩和女孩位于画面中前景,从校门口向外奔跑。镜头跟随两人运动并平稳后拉,不要切换镜头。女孩先蹦跳着跑出来,扫视人群,随后发现画面右侧的爸爸,停下脚步,举起右手挥手,开心地说:“爸,我在这儿呢!”男孩始终在女孩身旁奔跑,转头温柔地看向女孩。中段进入轻微慢放,风吹起两人的头发,背景人群轻微欢呼,横幅自然晃动。保持人物五官一致,动作自然流畅,不要新增无关场景。
AI 视频提示词越像“导演调度”,
生成结果就越可控。
想要画面质感,就写清风格和光影。
想要人物剧情,就写清动作顺序。
想要情绪表达,就写清人物关系和表情变化。
想要结果稳定,就写清约束条件。
AI 视频的提示词,不是许愿,而是调度。
你写得越像导演,模型越知道该怎么拍。

夜雨聆风