乐于分享
好东西不私藏

我用 OpenClaw 5 分钟做了一条视频,连剪辑软件都没打开

我用 OpenClaw 5 分钟做了一条视频,连剪辑软件都没打开

我用 OpenClaw 5 分钟做了一条视频,连剪辑软件都没打开

2026年4月 

已关注

关注

重播 分享

是不是和我一样也经常刷到无数技术科普视频,画面流畅美观、逻辑清晰,轻松输出干货,我是找了好久方法想制作这样的视频。

就在今天扒公众号文章,折腾 skill 的时候,无意间发现了 HyperFrames 这个视频生成框架。立马告诉OpenClaw安装这个skill技能,试着生成了上面这条视频,效果看上去不错吧。

HyperFrames 把”生成视频”变得像”写文章”一样简单的框架。你只需要用自然语言描述你要什么,OpenClaw会帮你从零到一生成一条完整的短视频——动画、字幕、配音一气呵成,输出可以直接用的 MP4。

01 HyperFrames 是什么

简单说:HyperFrames 是一个用 HTML 定义视频的框架,配合 AI 使用,可以实现自然语言 → 短视频的完整流程。

它的底层逻辑很优雅,整个技术栈分四层:

你说的话

自然语言需求

AI 生成

HTML 布局CSS 样式GSAP 动画TTS 配音

渲染输出

MP4 视频文件

你不需要懂这些技术。你只需要告诉 OpenClaw想要什么,它来写代码,最后渲染成视频。

这和”用 剪映 剪视频”不一样。传统剪辑  是在已有素材上做后期;HyperFrames 是从零开始生成视频,没有任何原始素材也能做。

02 做你的第一条视频

流程就真的只是”说话”。假设你想做一条讲「时间管理四象限法则」的知识科普短视频,你只需要对 OpenClaw 说:

“帮我做一条 20 秒的短视频,主题是时间管理四象限法则。风格:深色背景,卡片式排版,关键词用不同颜色高亮。加上中文旁白,声音自然一点。”

OpenClaw 会自动完成做出来效果还不错:

已关注

关注

重播 分享

✅ 实测出片时间:从提需求到拿到 MP4,一条 30 秒的视频大概 5-8 分钟(含 OpenClaw 生成代码和本地渲染时间)。对比剪映至少 30 分钟的手工流程,效率不是一个量级的。

03 迭代优化:用自然语言改视频

第一版几乎不可能完美。但这不是问题,因为改起来和改提示词一样简单。

常见的优化场景:

场景 1:字幕挡住了卡片内容

直接说:「字幕移到画面底部,和卡片之间留 20px 间距」场景 2:配音语速太快直接说:「旁白语速调慢一点,每句话之间加 0.5 秒停顿」场景 3:想加个人品牌标识直接说:「片头加上我的公众号名字『XXX』,用白色小字显示在右上角,淡入效果」场景 4:某个场景画面太单调直接说:「第三个场景加一个数字从 0 到 100 的计数动画,放在卡片右侧」

你不需要知道这些改动对应的代码是什么,直接说想要的效果就行。OpenClaw 会定位到对应的 HTML/JS 代码并修改。

这种”对话式迭代”是 HyperFrames 最大的效率优势:你的注意力始终在内容和效果上,从不需要切换到”操作工具”的模式

04 中文配音踩坑记录

这里要重点说一下,因为这是最容易翻车的地方。

HyperFrames 内置的 TTS 引擎是 Kokoro-82M。英文效果挺好,但用来做中文长文本会报错——原因是 token 长度限制,中文字符算下来很快就超了。

解决方案:换成 edge-tts,用微软的 Azure TTS 服务,免费、稳定、没有长度限制。

换完之后,中文配音明显自然很多,长文本也不再报错了。直接发给OpenClaw就处理好了。

📌 声音选择参考

zh-CN-YunxiNeural — 男声,语调自然,适合知识科普类

zh-CN-XiaoxiaoNeural — 女声,亲切温和,适合故事叙述类

zh-CN-YunyangNeural — 男声,播报感强,适合资讯类

zh-TW-HsiaoChenNeural — 台湾口音,有特色

05 打造个人风格 Skill

用了几条视频之后,你会发现自己有一套固定的风格偏好——比如总是深色背景、总是用某个配色、片头片尾格式固定。

这些偏好每次都重复描述一遍,很烦。解决办法是让 OpenClaw帮你把这些偏好打包成一个专属视频 Skill

做法很简单:把你理想的视频风格用文字整理出来,然后告诉 OpenClaw

“帮我创建一个视频风格 skill,要求如下:– 背景:深蓝色渐变(#0a1628 → #1a2840– 排版:左侧文字区 + 右侧信息卡片– 关键词:黄色高亮(#f9c74f– 片头:我的公众号名字淡入,持续 1.5 秒– 片尾:’关注 [公众号名]’ + 二维码占位区– 配音:edge-tts,zh-CN-YunxiNeural,语速 0.95x”

OpenClaw 会生成一个 skill 文件,之后每次做视频,开头带上「用我的风格 skill」,就不需要重复描述了。一次定义,永久复用。

06 适合用 vs 不适合用

HyperFrames 不是万能的,要用对场景。

✅ 天然适合

✓  知识科普

✓  数据可视化

✓  工具评测介绍

✓  概念对比说明

✓  政策 / 规则解读

✓  读书笔记摘要

✗ 不适合

✗  真人出镜 Vlog

✗  实拍素材剪辑

✗  复杂特效大片

✗  音乐 MV 类型

✗  游戏录屏解说

说白了,凡是画面主体是文字、图表、动态信息卡片的视频,HyperFrames 都能做得很好。如果你的视频需要真实镜头或复杂特效,还是得靠剪映或 PR。

但对公众号作者来说,知识科普类内容占了大多数——这个赛道,HyperFrames 几乎是目前效率最高的方案。

07 完整工作流总结

1准备话题

一句话说清楚你的视频主题,比如「讲清楚什么是 RAG 技术」。

2告诉 AI 风格偏好

如果有专属 Skill,直接带上。如果没有,说清楚背景色、字幕风格、是否要旁白。

3让 AI 生成 HyperFrames 代码

等 AI 写完,先在浏览器预览效果,检查动画和排版是否符合预期。

4对话式修改

哪里不满意,直接说,让 AI 改,再预览,反复几轮直到满意。

5渲染输出

满意了运行渲染命令,输出 MP4,发布到视频号 / 抖音 / B站。

🎯 一鱼多吃的完整链路:一份内容 → 公众号图文 + 短视频(视频号 / 抖音 / B站),最大化单篇内容的传播价值。

08 几个实用小技巧

🔧 提升效果的实操技巧

先给 OpenClaw 看一个参考视频的截图,描述效果比单纯文字更准确

旁白文案单独提供,不让 OpenClaw 自己写,保持你的表达风格

分场景迭代:先把场景 1 做好,再做场景 2,不要一次性改整个视频

输出分辨率:默认 1920×1080,竖屏视频改成 1080×1920 即可

写在最后

HyperFrames 让我真正实现了”内容优先”的工作方式。我只需要想清楚说什么,剩下的交给 OpenClaw

它不是剪映的替代品,是另一条路。

剪映是给有大量原始素材、需要精细剪辑的人准备的。HyperFrames 是给有内容、有表达欲、但没时间学剪辑的人准备的。

如果你和我一样,是”文字型创作者”想进入视频赛道,不妨先跑通这个流程,做一条再说。实际上手之后,很多疑虑都会自动消失。

有问题欢迎评论区聊,我看到必回。

如果这篇文章对你有帮助

点个「在看」让更多人看到 ❤️关注公众号,每周分享 AI 工具实战经验少踩坑,多出活