我用 OpenClaw 5 分钟做了一条视频,连剪辑软件都没打开-夜雨聆风

我用 OpenClaw 5 分钟做了一条视频,连剪辑软件都没打开

我用 OpenClaw 5 分钟做了一条视频，连剪辑软件都没打开

2026年4月

已关注

关注

重播分享赞

视频详情

你是不是和我一样也经常刷到无数技术科普视频，画面流畅美观、逻辑清晰，轻松输出干货，我是找了好久方法想制作这样的视频。

就在今天扒公众号文章，折腾 skill 的时候，无意间发现了 HyperFrames 这个视频生成框架。立马告诉OpenClaw安装这个skill技能，试着生成了上面这条视频，效果看上去不错吧。

HyperFrames 把”生成视频”变得像”写文章”一样简单的框架。你只需要用自然语言描述你要什么，OpenClaw会帮你从零到一生成一条完整的短视频——动画、字幕、配音一气呵成，输出可以直接用的 MP4。

01 HyperFrames 是什么

简单说：HyperFrames 是一个用 HTML 定义视频的框架，配合 AI 使用，可以实现自然语言 → 短视频的完整流程。

它的底层逻辑很优雅，整个技术栈分四层：

你说的话

自然语言需求

↓

AI 生成

HTML 布局CSS 样式GSAP 动画TTS 配音

↓

渲染输出

MP4 视频文件

你不需要懂这些技术。你只需要告诉 OpenClaw想要什么，它来写代码，最后渲染成视频。

这和”用剪映剪视频”不一样。传统剪辑是在已有素材上做后期；HyperFrames 是从零开始生成视频，没有任何原始素材也能做。

02 做你的第一条视频

流程就真的只是”说话”。假设你想做一条讲「时间管理四象限法则」的知识科普短视频，你只需要对 OpenClaw 说：

“帮我做一条 20 秒的短视频，主题是时间管理四象限法则。风格：深色背景，卡片式排版，关键词用不同颜色高亮。加上中文旁白，声音自然一点。”

OpenClaw 会自动完成做出来效果还不错：

已关注

关注

重播分享赞

视频详情

✅ 实测出片时间：从提需求到拿到 MP4，一条 30 秒的视频大概 5-8 分钟（含 OpenClaw 生成代码和本地渲染时间）。对比剪映至少 30 分钟的手工流程，效率不是一个量级的。

03 迭代优化：用自然语言改视频

第一版几乎不可能完美。但这不是问题，因为改起来和改提示词一样简单。

常见的优化场景：

场景 1：字幕挡住了卡片内容

直接说：「字幕移到画面底部，和卡片之间留 20px 间距」场景 2：配音语速太快直接说：「旁白语速调慢一点，每句话之间加 0.5 秒停顿」场景 3：想加个人品牌标识直接说：「片头加上我的公众号名字『XXX』，用白色小字显示在右上角，淡入效果」场景 4：某个场景画面太单调直接说：「第三个场景加一个数字从 0 到 100 的计数动画，放在卡片右侧」

你不需要知道这些改动对应的代码是什么，直接说想要的效果就行。OpenClaw 会定位到对应的 HTML/JS 代码并修改。

这种”对话式迭代”是 HyperFrames 最大的效率优势：你的注意力始终在内容和效果上，从不需要切换到”操作工具”的模式。

04 中文配音踩坑记录

这里要重点说一下，因为这是最容易翻车的地方。

HyperFrames 内置的 TTS 引擎是 Kokoro-82M。英文效果挺好，但用来做中文长文本会报错——原因是 token 长度限制，中文字符算下来很快就超了。

解决方案：换成 edge-tts，用微软的 Azure TTS 服务，免费、稳定、没有长度限制。

换完之后，中文配音明显自然很多，长文本也不再报错了。直接发给OpenClaw就处理好了。

📌 声音选择参考

zh-CN-YunxiNeural — 男声，语调自然，适合知识科普类

zh-CN-XiaoxiaoNeural — 女声，亲切温和，适合故事叙述类

zh-CN-YunyangNeural — 男声，播报感强，适合资讯类

zh-TW-HsiaoChenNeural — 台湾口音，有特色

05 打造个人风格 Skill

用了几条视频之后，你会发现自己有一套固定的风格偏好——比如总是深色背景、总是用某个配色、片头片尾格式固定。

这些偏好每次都重复描述一遍，很烦。解决办法是让 OpenClaw帮你把这些偏好打包成一个专属视频 Skill。

做法很简单：把你理想的视频风格用文字整理出来，然后告诉 OpenClaw：

“帮我创建一个视频风格 skill，要求如下：– 背景：深蓝色渐变（#0a1628 → #1a2840）– 排版：左侧文字区 + 右侧信息卡片– 关键词：黄色高亮（#f9c74f）– 片头：我的公众号名字淡入，持续 1.5 秒– 片尾：’关注 [公众号名]’ + 二维码占位区– 配音：edge-tts，zh-CN-YunxiNeural，语速 0.95x”

OpenClaw 会生成一个 skill 文件，之后每次做视频，开头带上「用我的风格 skill」，就不需要重复描述了。一次定义，永久复用。

06 适合用 vs 不适合用

HyperFrames 不是万能的，要用对场景。

✅ 天然适合

✓ 知识科普

✓ 数据可视化

✓ 工具评测介绍

✓ 概念对比说明

✓ 政策 / 规则解读

✓ 读书笔记摘要

✗ 不适合

✗ 真人出镜 Vlog

✗ 实拍素材剪辑

✗ 复杂特效大片

✗ 音乐 MV 类型

✗ 游戏录屏解说

说白了，凡是画面主体是文字、图表、动态信息卡片的视频，HyperFrames 都能做得很好。如果你的视频需要真实镜头或复杂特效，还是得靠剪映或 PR。

但对公众号作者来说，知识科普类内容占了大多数——这个赛道，HyperFrames 几乎是目前效率最高的方案。

07 完整工作流总结

1准备话题

一句话说清楚你的视频主题，比如「讲清楚什么是 RAG 技术」。

2告诉 AI 风格偏好

如果有专属 Skill，直接带上。如果没有，说清楚背景色、字幕风格、是否要旁白。

3让 AI 生成 HyperFrames 代码

等 AI 写完，先在浏览器预览效果，检查动画和排版是否符合预期。

4对话式修改

哪里不满意，直接说，让 AI 改，再预览，反复几轮直到满意。

5渲染输出

满意了运行渲染命令，输出 MP4，发布到视频号 / 抖音 / B站。

🎯 一鱼多吃的完整链路：一份内容 → 公众号图文 + 短视频（视频号 / 抖音 / B站），最大化单篇内容的传播价值。

08 几个实用小技巧

🔧 提升效果的实操技巧

先给 OpenClaw 看一个参考视频的截图，描述效果比单纯文字更准确

旁白文案单独提供，不让 OpenClaw 自己写，保持你的表达风格

分场景迭代：先把场景 1 做好，再做场景 2，不要一次性改整个视频

输出分辨率：默认 1920×1080，竖屏视频改成 1080×1920 即可

写在最后

HyperFrames 让我真正实现了”内容优先”的工作方式。我只需要想清楚说什么，剩下的交给 OpenClaw。

它不是剪映的替代品，是另一条路。

剪映是给有大量原始素材、需要精细剪辑的人准备的。HyperFrames 是给有内容、有表达欲、但没时间学剪辑的人准备的。

如果你和我一样，是”文字型创作者”想进入视频赛道，不妨先跑通这个流程，做一条再说。实际上手之后，很多疑虑都会自动消失。

有问题欢迎评论区聊，我看到必回。

如果这篇文章对你有帮助

点个「在看」让更多人看到 ❤️关注公众号，每周分享 AI 工具实战经验少踩坑，多出活