翡翠玉石原本是一个非常小众的赛道,但是我最近创作的一条讲“翡翠种水”的短视频,在抖和快两个平台的播放量双双突破了100万,合计点赞超过2万。

你可能不知道的是:制作这条视频时,我没有拍摄任何真人素材,也没有使用复杂的专业软件。从确定选题、创作脚本,到生成画面、剪辑成片,主要使用了豆包、千问和剪映三个工具,全部制作时间大约两个小时,上下班的路上就能把核心素材创作完成。

至于我为什么选择这三个工具,原因很简单:即梦我用不起。生成视频需要大量算力,贵就不说了,还不可控,每一次重新生成,就意味着金钱的投入,而我用这三个免费工具分步创作,反而更能控制画面和情节,让画面更精美。
最近也有好多网友私信我,想学习如何制作,今天,我就以这条视频为例,分享一套普通人也能学会的 AI 科普短视频制作流程。
第一步:让豆包帮你寻找选题
制作短视频,最先要解决的问题不是技术,而是:做什么内容?现在的短视频平台从来不缺内容,用户也不是带着“认真学习”的任务来刷视频的。大多数人会在几秒钟内判断一条视频是否值得继续观看。
如果一个选题和用户没有关系,不能激发好奇心,或者一眼就能猜到答案,即使内容再专业、画面再精美,也很容易被直接划走。
因此,一个适合短视频传播的选题,通常要满足以下几个特点:
与普通人的生活、利益或认知有关
能够制造疑问、反差或悬念
不需要太高的理解门槛
能在几十秒内讲明白
看完后能让用户获得一个明确的新知识
很多生意人不是没有专业知识,而是习惯站在专业角度表达,不知道普通用户真正关心什么。
这时候,我们就可以让豆包帮忙寻找选题。例如,你可以这样问:
我是一名翡翠商家,想做一个翡翠玉石知识类短视频账号。请帮我设计10个适合短视频传播的科普选题。要求:
内容通俗易懂,有反差感;
能够引起普通人的好奇心;
与消费者购买翡翠时可能遇到的问题有关;
每个选题附带一句适合视频开头的钩子;
避免过于专业和学术化的表达。
豆包可能会给出这样的选题:
几百元和几万元的翡翠,究竟差在哪里? 开场:看起来差不多的两只翡翠手镯,为什么价格能相差100倍?
翡翠越透明就一定越值钱吗? 开场:很多人买翡翠只看透不透,这可能是你交学费的第一步。
翡翠里的棉,是瑕疵还是天然身份证? 开场:翡翠里面有棉就不值钱?真相可能和你想的不一样。
商家常说的“种水”,到底是什么意思? 开场:买翡翠听不懂“种水”,很可能连贵在哪里都不知道。
为什么翡翠在柜台里很好看,回家却变暗了? 开场:不是翡翠变了,而是柜台里的这件东西消失了。
翡翠戴久了,真的会越来越透吗? 开场:所谓“人养玉三年”,究竟是真的,还是心理作用?
……
选题不能只看“够不够专业”,还要考虑普通人是否关心。相比“翡翠的矿物结构分析”,用户显然更想知道:“几百元和几万元的翡翠,到底有什么区别?”
如果你已经有合适的创意,可以直接进入第二步;如果暂时没有灵感,就让豆包先帮你打开思路。
第二步:生成完整的分镜脚本
确定主题以后,需要让豆包把选题改写成一份能够直接用于制作的视频脚本。
一份实用的分镜脚本,至少应该包括:
每个分镜的画面内容
每个分镜的解说词或人物台词
每个分镜的文生图提示词(用来直接生成静态的分镜图片)
每个分镜的图生视频提示词(用来把静态的分镜图片生成视频)
每个镜头的运镜方式和建议时长
我的这条视频采用了一个比较有趣的创意:把不同种水的翡翠拟人成清宫妃嫔,用妃嫔等级对应翡翠的种水等级,让每个人物介绍自己的特点。
我给豆包的提示词,可以整理成下面这样:
请创作一条介绍翡翠种水的AI科普短视频。
核心创意:参考清朝后宫妃嫔的等级体系,为不同等级分别设计一名女性角色,并将玻璃种、冰种、糯种、豆种等不同翡翠种水与角色等级对应。每名角色依次出场,通过自我介绍、人物对话或旁白,向观众讲解相应翡翠种水的外观特征和等级差异。
视觉要求:所有人物均为瓷白色皮肤,头饰、头发、服装和身体的主要材质使用对应种水的翡翠质感。整体采用精致的3D渲染风格,清宫美学,电影级灯光,画面比例为竖屏9∶16。人物造型和整体画风必须保持统一。
内容要求:将视频拆分为8—10个分镜,整体时长控制在60秒左右。开头3秒必须制造悬念或反差,迅速吸引观众。台词要口语化、节奏紧凑、通俗易懂,避免堆砌专业术语。
请使用表格输出,每个分镜包括:
分镜序号和建议时长;
画面内容;
人物台词或旁白;
详细的文生图提示词;
详细的图生视频提示词;
运镜方式。
文生图提示词必须分别写清楚人物身份、翡翠种水材质、服装、头饰、动作、表情、场景、构图、灯光和镜头景别,并强调3D渲染、清宫美学、竖屏9∶16、无文字、无水印。
图生视频提示词重点描述人物动作、表情变化、说话状态、环境动态和镜头运动,同时强调动作自然、主体稳定、避免人物变形。

如果豆包第一次生成的内容不满意,可以继续提出更明确的修改要求。豆包生成的脚本只是初稿,不必一字不改地照搬。你可以结合自己的专业知识和创意,继续修改台词、调整顺序或更换画面。
你也可以根据自己的创意,在提示词中指定写实摄影、国风插画、三维动画、黏土动画等风格,以及横屏或竖屏比例。
第三步:根据提示词生成图片
分镜脚本完成后,把每个分镜的文生图提示词复制到豆包,逐张生成图片。
虽然也可以让豆包一次生成多张,但根据我的经验,一次生成的图片很难全部符合要求。逐张生成更容易发现提示词中的问题,并根据上一张图片的效果不断调整,也能减少无效生成。为了让整条视频的画面保持统一,提示词中最好固定以下内容:
统一使用竖屏9∶16
固定3D渲染、写实、国风等视觉风格
使用相近的色调、灯光和场景
固定人物的脸型、发型、服装和配饰
主体清晰,背景不要过于复杂
避免直接生成文字和标志
尽量减少复杂的手部动作
以“龙石种”皇太后为例,可以使用下面的提示词:
竖屏9∶16,精致的3D电影级渲染风格,一位清宫清宫皇太后站在华丽宫殿中,瓷白色皮肤,年轻端庄,五官精致。她的头发、清宫头饰、旗装和身体装饰均呈现半透明的满绿翡翠材质,质地清透水润,人物神态清冷高贵,正面全身构图,柔和的电影级侧光,整体画面高级、细腻、统一,无文字、无标志。
如果生成结果不理想,不要急着放弃。可以修改人物动作、镜头角度、服装材质、光线和构图,也可以用同一段提示词多生成几次,再选出最符合要求的一张。

如果一个角色需要出现在多个分镜中,建议使用“垫图”的方式:把之前生成的一张满意图片作为参考图,再让AI生成这个人物在不同场景、视角和姿态下的画面,否则,同一个人物到了下一个镜头,很可能突然“换脸”。

同时,可以在提示词中强调:
严格保持参考图中人物的脸型、五官、发型、头饰、服装材质和整体画风,只改变人物动作、镜头角度与场景。
同样,要保证所有人物所处的场景也保持一致,可以单独设计一张场景图作为参考,来保证最终生成的图片场景一致。
第四步:把图片变成视频
图片准备好后,可以使用豆包或千问的图生视频功能,把静态图片转化成动态视频。根据视频内容和制作目的,可以采用两种方式:一种是图片转视频,另一种是数字人口播。

第一种:图片转视频
这种方式主要通过人物动作、环境变化和镜头运动,让静态图片产生动态效果,适合旁白解说、氛围展示和转场画面。它不要求画面中的人物开口说话,因此生成难度相对较低,画面也更容易保持稳定。使用工具:豆包→ 照片动起来(无声音)或豆包→AI创作→视频生成 或千问→AI生视频(会自动添加音效,可在后期剪辑时去除)
图生视频提示词的重点,不是重新描述图片里有什么,而是告诉AI:
人物如何动作
环境中的哪些元素需要变化
镜头如何运动
哪些内容必须保持稳定
例如,龙石种翡翠进场的视频可以先把前期生成的图片作为参考图,同时使用这样的提示词:
一个女人从远处走向镜头,镜头缓慢向前推进至上半身特写。
常用的动态描述包括:
镜头缓慢向前推进
镜头从左向右平移
镜头围绕人物轻微旋转
人物自然眨眼并轻轻转头
人物衣袖、头饰或发丝轻微摆动
光线缓慢扫过翡翠服装表面
烛光、云雾或帷幔自然变化
背景保持稳定
避免人物变形和画面抖动
这种视频可以保留环境音效,但通常不需要保留人物声音。后期在剪映中添加统一旁白即可。
第二种:数字人口播
如果希望画面中的人物直接开口介绍知识,可以使用:豆包→AI创作→视频生成 或千问→AI生视频功能。
这种方式更适合人物自我介绍、角色对话或知识讲解。例如,开场时小太监高喊的“翡翠选美大赛,现在开始!"。
制作时,一般需要上传人物图片,再输入该人物需要说的台词,由AI生成人物对口型的视频。
数字人口播的关键不是运镜,而是人物的口型、表情和声音是否自然。台词最好符合以下要求:
每句话不要太长
使用口语化表达
减少生僻字和复杂专业术语
使用逗号和句号控制停顿
避免连续使用过长的数字、英文或专有名词
如果使用千问,可以通过调整视频长度(5秒、10秒)来适配不同长度的台词
如果口型或表情不自然,可以缩短台词,将一段长台词拆成两个片段重新生成,也可以调整标点符号,让人物的停顿更加自然。
数字人口播生成后,还需要注意不同片段之间的声音是否统一。如果同一个角色的音色发生变化,可以在剪映中统一修改音色。

两种方式应该怎么选择?
如果视频主要依靠旁白讲解,建议使用“让照片动起来”。这种方式生成速度快、稳定性更高,也方便在剪映中统一配音。
如果视频的核心创意是让人物自己介绍知识,或者需要表现人物之间的对话,就可以使用“数字人口播”。需要注意的是,AI视频并不是动作越多越好。
“让照片动起来”时,通常只需要一个主要动作和一种镜头运动;“数字人口播”时,应尽量避免人物同时走路、转身、挥手和说话。
动作越复杂,人物的面部、手指和服装越容易变形。对科普视频而言,画面稳定、口型自然、信息清楚,远比动作丰富更重要。
第五步:使用剪映完成后期制作
所有视频片段生成以后,将它们导入剪映,并按照分镜脚本完成剪辑。

我通常按照下面的顺序操作:
导入视频片段,按照脚本在时间轴中排序
删除不自然的部分,调整镜头长度或播放速度
添加解说词或人物台词,并统一生成配音
识别字幕并检查错别字
调整字幕大小、位置、颜色和断句
添加必要的转场效果
添加背景音乐和环境音效
统一各个片段的音量、色彩和画面比例
完整播放检查一遍,再导出视频
这个环节需要特别注意以下几点。
首先,字幕一定要清晰。很多人刷短视频时不会打开声音,因此字幕不能太小,每行文字也不要太多。关键词可以改变颜色,但不要添加过于花哨的动画。
其次,背景音乐不能盖过人声。配音负责传递信息,音乐只负责营造氛围。
如果保留了图生视频自带的声音,还要注意不同片段可能存在音量忽大忽小的问题。需要在剪映中分别调整,让整条视频的声音尽量统一。
常见问题及解决办法
图片或视频上有水印怎么办?
将视频导入剪映后,把画面适当放大到110%左右,位于边缘的水印通常会被裁出画面。
放大后需要检查人物等主要画面内容是否被裁切,同时注意遵守素材来源及相关平台的使用规则。
不同片段的配音音色不一样怎么办?
可以关闭AI视频片段的原声,在剪映中统一添加全部台词,并选择同一个人物音色进行朗读。
如果需要表现多个角色,也要提前确定每个角色的音色,避免同一个人物在不同镜头中不断“换声音”。
豆包的图生视频次数不够用怎么办?
免费生成额度和使用规则可能随时调整,请以平台实际显示为准。
额度不够时,可以把豆包和千问、元宝等工具搭配使用,也可以等待额度恢复。也可以注册多个账号,可以分别使用各自的可用额度,但要遵守平台的账号规则。
同一个人物在不同镜头中长得不一样怎么办?
选出一张最满意的角色图片作为参考图,后续尽量使用图生图或上传参考图的方式生成。
提示词中还要固定人物的脸型、发型、服装、头饰、材质和配色,并明确要求保持角色一致。
生成的视频总是变形怎么办?
减少动作数量,不要让AI同时完成人物走路、转身、拿东西、挥手和说话等多个复杂动作。
可以在提示词末尾增加:
人物五官和主体结构保持稳定,动作自然缓慢,无肢体变形,无多余手指,无物体融化,无画面抖动,无突然切换。
AI生成的文字是乱码怎么办?
尽量不要让AI直接在图片中生成标题、标签或说明文字。先生成没有文字的纯画面,再到剪映中添加准确的标题和字幕,效果通常更可控。
视频看起来像幻灯片怎么办?
可以加入轻微的镜头推进、平移、人物表情变化和环境动态,再通过音效、转场及字幕节奏增强画面变化。
但不要让每个镜头都剧烈运动。科普视频首先要保证观众看得清、听得懂,然后才是视觉效果。
写在最后
一条AI科普短视频的制作流程,可以概括为:豆包策划选题 → 豆包生成分镜脚本 → 生成分镜图片 → 豆包和千问生成视频 → 剪映完成配音、字幕和剪辑。
过去,制作一条科普视频可能需要策划、编剧、摄影、演员、配音和剪辑共同完成。现在借助AI工具,一个人也可以完成其中的大部分工作。当然,即梦也非常优秀,如果大家想创作更复杂的剧情,也可以去尝试。
工具确实降低了制作门槛,但它不能代替选题和内容本身。这条翡翠种水视频能够获得百万播放,关键并不在于某个神奇的软件,而在于它把原本枯燥的翡翠知识,变成了观众容易理解、愿意看下去的故事。
AI只是放大器。真正决定一条视频能不能打动观众的,依然是你选择了什么主题、讲清楚了什么知识,以及有没有在开头几秒,给观众一个继续看下去的理由。
观看原视频:https://weixin.qq.com/sph/AdFHdAFgMe
夜雨聆风