一条AI科普视频播放量超200万,我只用了三个免费工具

翡翠玉石原本是一个非常小众的赛道，但是我最近创作的一条讲“翡翠种水”的短视频，在抖和快两个平台的播放量双双突破了100万，合计点赞超过2万。

你可能不知道的是：制作这条视频时，我没有拍摄任何真人素材，也没有使用复杂的专业软件。从确定选题、创作脚本，到生成画面、剪辑成片，主要使用了豆包、千问和剪映三个工具，全部制作时间大约两个小时，上下班的路上就能把核心素材创作完成。

至于我为什么选择这三个工具，原因很简单：即梦我用不起。生成视频需要大量算力，贵就不说了，还不可控，每一次重新生成，就意味着金钱的投入，而我用这三个免费工具分步创作，反而更能控制画面和情节，让画面更精美。

最近也有好多网友私信我，想学习如何制作，今天，我就以这条视频为例，分享一套普通人也能学会的 AI 科普短视频制作流程。

第一步：让豆包帮你寻找选题

制作短视频，最先要解决的问题不是技术，而是：做什么内容？现在的短视频平台从来不缺内容，用户也不是带着“认真学习”的任务来刷视频的。大多数人会在几秒钟内判断一条视频是否值得继续观看。

如果一个选题和用户没有关系，不能激发好奇心，或者一眼就能猜到答案，即使内容再专业、画面再精美，也很容易被直接划走。

因此，一个适合短视频传播的选题，通常要满足以下几个特点：

与普通人的生活、利益或认知有关
能够制造疑问、反差或悬念
不需要太高的理解门槛
能在几十秒内讲明白
看完后能让用户获得一个明确的新知识

很多生意人不是没有专业知识，而是习惯站在专业角度表达，不知道普通用户真正关心什么。

这时候，我们就可以让豆包帮忙寻找选题。例如，你可以这样问：

我是一名翡翠商家，想做一个翡翠玉石知识类短视频账号。请帮我设计10个适合短视频传播的科普选题。要求：
内容通俗易懂，有反差感；
能够引起普通人的好奇心；
与消费者购买翡翠时可能遇到的问题有关；
每个选题附带一句适合视频开头的钩子；
避免过于专业和学术化的表达。

豆包可能会给出这样的选题：

几百元和几万元的翡翠，究竟差在哪里？开场：看起来差不多的两只翡翠手镯，为什么价格能相差100倍？
翡翠越透明就一定越值钱吗？开场：很多人买翡翠只看透不透，这可能是你交学费的第一步。
翡翠里的棉，是瑕疵还是天然身份证？开场：翡翠里面有棉就不值钱？真相可能和你想的不一样。
商家常说的“种水”，到底是什么意思？开场：买翡翠听不懂“种水”，很可能连贵在哪里都不知道。
为什么翡翠在柜台里很好看，回家却变暗了？开场：不是翡翠变了，而是柜台里的这件东西消失了。
翡翠戴久了，真的会越来越透吗？开场：所谓“人养玉三年”，究竟是真的，还是心理作用？

……

选题不能只看“够不够专业”，还要考虑普通人是否关心。相比“翡翠的矿物结构分析”，用户显然更想知道：“几百元和几万元的翡翠，到底有什么区别？”

如果你已经有合适的创意，可以直接进入第二步；如果暂时没有灵感，就让豆包先帮你打开思路。

第二步：生成完整的分镜脚本

确定主题以后，需要让豆包把选题改写成一份能够直接用于制作的视频脚本。

一份实用的分镜脚本，至少应该包括：

每个分镜的画面内容
每个分镜的解说词或人物台词
每个分镜的文生图提示词（用来直接生成静态的分镜图片）
每个分镜的图生视频提示词（用来把静态的分镜图片生成视频）
每个镜头的运镜方式和建议时长

我的这条视频采用了一个比较有趣的创意：把不同种水的翡翠拟人成清宫妃嫔，用妃嫔等级对应翡翠的种水等级，让每个人物介绍自己的特点。

我给豆包的提示词，可以整理成下面这样：

请创作一条介绍翡翠种水的AI科普短视频。
核心创意：参考清朝后宫妃嫔的等级体系，为不同等级分别设计一名女性角色，并将玻璃种、冰种、糯种、豆种等不同翡翠种水与角色等级对应。每名角色依次出场，通过自我介绍、人物对话或旁白，向观众讲解相应翡翠种水的外观特征和等级差异。
视觉要求：所有人物均为瓷白色皮肤，头饰、头发、服装和身体的主要材质使用对应种水的翡翠质感。整体采用精致的3D渲染风格，清宫美学，电影级灯光，画面比例为竖屏9∶16。人物造型和整体画风必须保持统一。
内容要求：将视频拆分为8—10个分镜，整体时长控制在60秒左右。开头3秒必须制造悬念或反差，迅速吸引观众。台词要口语化、节奏紧凑、通俗易懂，避免堆砌专业术语。
请使用表格输出，每个分镜包括：
分镜序号和建议时长；
画面内容；
人物台词或旁白；
详细的文生图提示词；
详细的图生视频提示词；
运镜方式。
文生图提示词必须分别写清楚人物身份、翡翠种水材质、服装、头饰、动作、表情、场景、构图、灯光和镜头景别，并强调3D渲染、清宫美学、竖屏9∶16、无文字、无水印。
图生视频提示词重点描述人物动作、表情变化、说话状态、环境动态和镜头运动，同时强调动作自然、主体稳定、避免人物变形。

如果豆包第一次生成的内容不满意，可以继续提出更明确的修改要求。豆包生成的脚本只是初稿，不必一字不改地照搬。你可以结合自己的专业知识和创意，继续修改台词、调整顺序或更换画面。

你也可以根据自己的创意，在提示词中指定写实摄影、国风插画、三维动画、黏土动画等风格，以及横屏或竖屏比例。

第三步：根据提示词生成图片

分镜脚本完成后，把每个分镜的文生图提示词复制到豆包，逐张生成图片。

虽然也可以让豆包一次生成多张，但根据我的经验，一次生成的图片很难全部符合要求。逐张生成更容易发现提示词中的问题，并根据上一张图片的效果不断调整，也能减少无效生成。为了让整条视频的画面保持统一，提示词中最好固定以下内容：

统一使用竖屏9∶16
固定3D渲染、写实、国风等视觉风格
使用相近的色调、灯光和场景
固定人物的脸型、发型、服装和配饰
主体清晰，背景不要过于复杂
避免直接生成文字和标志
尽量减少复杂的手部动作

以“龙石种”皇太后为例，可以使用下面的提示词：

竖屏9∶16，精致的3D电影级渲染风格，一位清宫清宫皇太后站在华丽宫殿中，瓷白色皮肤，年轻端庄，五官精致。她的头发、清宫头饰、旗装和身体装饰均呈现半透明的满绿翡翠材质，质地清透水润，人物神态清冷高贵，正面全身构图，柔和的电影级侧光，整体画面高级、细腻、统一，无文字、无标志。

如果生成结果不理想，不要急着放弃。可以修改人物动作、镜头角度、服装材质、光线和构图，也可以用同一段提示词多生成几次，再选出最符合要求的一张。

如果一个角色需要出现在多个分镜中，建议使用“垫图”的方式：把之前生成的一张满意图片作为参考图，再让AI生成这个人物在不同场景、视角和姿态下的画面，否则，同一个人物到了下一个镜头，很可能突然“换脸”。

同时，可以在提示词中强调：

严格保持参考图中人物的脸型、五官、发型、头饰、服装材质和整体画风，只改变人物动作、镜头角度与场景。

同样，要保证所有人物所处的场景也保持一致，可以单独设计一张场景图作为参考，来保证最终生成的图片场景一致。

第四步：把图片变成视频

图片准备好后，可以使用豆包或千问的图生视频功能，把静态图片转化成动态视频。根据视频内容和制作目的，可以采用两种方式：一种是图片转视频，另一种是数字人口播。

第一种：图片转视频

这种方式主要通过人物动作、环境变化和镜头运动，让静态图片产生动态效果，适合旁白解说、氛围展示和转场画面。它不要求画面中的人物开口说话，因此生成难度相对较低，画面也更容易保持稳定。使用工具：豆包→ 照片动起来（无声音）或豆包→AI创作→视频生成或千问→AI生视频（会自动添加音效，可在后期剪辑时去除）

图生视频提示词的重点，不是重新描述图片里有什么，而是告诉AI：

人物如何动作
环境中的哪些元素需要变化
镜头如何运动
哪些内容必须保持稳定

例如，龙石种翡翠进场的视频可以先把前期生成的图片作为参考图，同时使用这样的提示词：

一个女人从远处走向镜头，镜头缓慢向前推进至上半身特写。

已关注

关注

重播分享赞

视频详情

常用的动态描述包括：

镜头缓慢向前推进
镜头从左向右平移
镜头围绕人物轻微旋转
人物自然眨眼并轻轻转头
人物衣袖、头饰或发丝轻微摆动
光线缓慢扫过翡翠服装表面
烛光、云雾或帷幔自然变化
背景保持稳定
避免人物变形和画面抖动

这种视频可以保留环境音效，但通常不需要保留人物声音。后期在剪映中添加统一旁白即可。

第二种：数字人口播

如果希望画面中的人物直接开口介绍知识，可以使用：豆包→AI创作→视频生成 或千问→AI生视频功能。

这种方式更适合人物自我介绍、角色对话或知识讲解。例如，开场时小太监高喊的“翡翠选美大赛，现在开始！"。

已关注

关注

重播分享赞

视频详情

制作时，一般需要上传人物图片，再输入该人物需要说的台词，由AI生成人物对口型的视频。

数字人口播的关键不是运镜，而是人物的口型、表情和声音是否自然。台词最好符合以下要求：

每句话不要太长
使用口语化表达
减少生僻字和复杂专业术语
使用逗号和句号控制停顿
避免连续使用过长的数字、英文或专有名词
如果使用千问，可以通过调整视频长度（5秒、10秒）来适配不同长度的台词

如果口型或表情不自然，可以缩短台词，将一段长台词拆成两个片段重新生成，也可以调整标点符号，让人物的停顿更加自然。

数字人口播生成后，还需要注意不同片段之间的声音是否统一。如果同一个角色的音色发生变化，可以在剪映中统一修改音色。

两种方式应该怎么选择？

如果视频主要依靠旁白讲解，建议使用“让照片动起来”。这种方式生成速度快、稳定性更高，也方便在剪映中统一配音。

如果视频的核心创意是让人物自己介绍知识，或者需要表现人物之间的对话，就可以使用“数字人口播”。需要注意的是，AI视频并不是动作越多越好。

“让照片动起来”时，通常只需要一个主要动作和一种镜头运动；“数字人口播”时，应尽量避免人物同时走路、转身、挥手和说话。

动作越复杂，人物的面部、手指和服装越容易变形。对科普视频而言，画面稳定、口型自然、信息清楚，远比动作丰富更重要。

第五步：使用剪映完成后期制作

所有视频片段生成以后，将它们导入剪映，并按照分镜脚本完成剪辑。

我通常按照下面的顺序操作：

导入视频片段，按照脚本在时间轴中排序
删除不自然的部分，调整镜头长度或播放速度
添加解说词或人物台词，并统一生成配音
识别字幕并检查错别字
调整字幕大小、位置、颜色和断句
添加必要的转场效果
添加背景音乐和环境音效
统一各个片段的音量、色彩和画面比例
完整播放检查一遍，再导出视频

这个环节需要特别注意以下几点。

首先，字幕一定要清晰。很多人刷短视频时不会打开声音，因此字幕不能太小，每行文字也不要太多。关键词可以改变颜色，但不要添加过于花哨的动画。

其次，背景音乐不能盖过人声。配音负责传递信息，音乐只负责营造氛围。

如果保留了图生视频自带的声音，还要注意不同片段可能存在音量忽大忽小的问题。需要在剪映中分别调整，让整条视频的声音尽量统一。

常见问题及解决办法

图片或视频上有水印怎么办？

将视频导入剪映后，把画面适当放大到110%左右，位于边缘的水印通常会被裁出画面。

放大后需要检查人物等主要画面内容是否被裁切，同时注意遵守素材来源及相关平台的使用规则。

不同片段的配音音色不一样怎么办？

可以关闭AI视频片段的原声，在剪映中统一添加全部台词，并选择同一个人物音色进行朗读。

如果需要表现多个角色，也要提前确定每个角色的音色，避免同一个人物在不同镜头中不断“换声音”。

豆包的图生视频次数不够用怎么办？

免费生成额度和使用规则可能随时调整，请以平台实际显示为准。

额度不够时，可以把豆包和千问、元宝等工具搭配使用，也可以等待额度恢复。也可以注册多个账号，可以分别使用各自的可用额度，但要遵守平台的账号规则。

同一个人物在不同镜头中长得不一样怎么办？

选出一张最满意的角色图片作为参考图，后续尽量使用图生图或上传参考图的方式生成。

提示词中还要固定人物的脸型、发型、服装、头饰、材质和配色，并明确要求保持角色一致。

生成的视频总是变形怎么办？

减少动作数量，不要让AI同时完成人物走路、转身、拿东西、挥手和说话等多个复杂动作。

可以在提示词末尾增加：

人物五官和主体结构保持稳定，动作自然缓慢，无肢体变形，无多余手指，无物体融化，无画面抖动，无突然切换。

AI生成的文字是乱码怎么办？

尽量不要让AI直接在图片中生成标题、标签或说明文字。先生成没有文字的纯画面，再到剪映中添加准确的标题和字幕，效果通常更可控。

视频看起来像幻灯片怎么办？

可以加入轻微的镜头推进、平移、人物表情变化和环境动态，再通过音效、转场及字幕节奏增强画面变化。

但不要让每个镜头都剧烈运动。科普视频首先要保证观众看得清、听得懂，然后才是视觉效果。

写在最后

一条AI科普短视频的制作流程，可以概括为：豆包策划选题 → 豆包生成分镜脚本 → 生成分镜图片 → 豆包和千问生成视频 → 剪映完成配音、字幕和剪辑。

过去，制作一条科普视频可能需要策划、编剧、摄影、演员、配音和剪辑共同完成。现在借助AI工具，一个人也可以完成其中的大部分工作。当然，即梦也非常优秀，如果大家想创作更复杂的剧情，也可以去尝试。

工具确实降低了制作门槛，但它不能代替选题和内容本身。这条翡翠种水视频能够获得百万播放，关键并不在于某个神奇的软件，而在于它把原本枯燥的翡翠知识，变成了观众容易理解、愿意看下去的故事。

AI只是放大器。真正决定一条视频能不能打动观众的，依然是你选择了什么主题、讲清楚了什么知识，以及有没有在开头几秒，给观众一个继续看下去的理由。

观看原视频：https://weixin.qq.com/sph/AdFHdAFgMe

翡翠玉石原本是一个非常小众的赛道，但是我最近创作的一条讲“翡翠种水”的短视频，在抖和快两个平台的播放量双双突破了100万，合计点赞超过2万。

第一步：让豆包帮你寻找选题

第二步：生成完整的分镜脚本

第三步：根据提示词生成图片

第四步：把图片变成视频

第一种：图片转视频

第二种：数字人口播

两种方式应该怎么选择？

第五步：使用剪映完成后期制作

常见问题及解决办法

图片或视频上有水印怎么办？

不同片段的配音音色不一样怎么办？

豆包的图生视频次数不够用怎么办？

同一个人物在不同镜头中长得不一样怎么办？

生成的视频总是变形怎么办？

AI生成的文字是乱码怎么办？

视频看起来像幻灯片怎么办？

写在最后