AI搭子手册 017 | 小龙虾自己跑了70分钟,给我做出了一条AI视频

大家好，我是刘宸。

这里是「AI搭子手册」，咱们一起看懂AI。

今天这篇文章，开头先看一个视频。

已关注

关注

重播分享赞

视频详情

熟悉我的朋友可能知道，我之前一直在用 AI 克隆自己的声音，每天自动生成一段音频播客。

那我就在想：既然 AI 已经能帮我“开口说话”了，能不能再往前一步，直接把这段播客做成视频？

于是，就有了今天这个小实验：用小龙虾自动创作视频。

我没有自己剪视频，也没有打开剪映一帧一帧调。

我只是给了小龙虾一段 5 分钟左右的音频，然后让它自己去学习一个视频创作 Skill，自己搭项目、自己转录、自己写 HTML 视频页面、自己渲染，最后生成了一个 MP4 文件。

整个过程有点慢，但结果挺有意思。

因为这件事放在几个月前，我是真没想过：一个 AI Agent 竟然可以自己在服务器上跑一个多小时，然后给我交付一个视频成品。

这味儿，开始对了。

今天用到的免费 Skill：HyperFrames

这次的主角不是某个文生视频平台，而是一个免费 Skill：

HyperFrames

安装方式非常简单，直接把这句指令丢给你的小龙虾：

npx skills add heygen-com/hyperframes

然后它就会自己去安装和学习。

我当时的操作也很朴素，基本就是一句话：

你去学习一下这个 skill 技能，npx skills add heygen-com/hyperframes

安装过程中，小龙虾进入了交互式选择界面，需要选择要安装的技能。它自己重新用 PTY 模式运行，完成了安装，然后开始阅读核心文档。

学完之后，它给我总结了一遍。

HyperFrames 是干什么的？

如果用一句话解释：

HyperFrames 是一个用 HTML 做视频的框架。

它的核心理念是：

HTML 就是视频的源文件。

这句话一开始听起来有点抽象，但你可以这样理解：

以前我们做视频，可能需要用剪辑软件，把文字、图片、动画、字幕、音频都拖到时间线上。

而 HyperFrames 的思路是：

把这些东西写成一个 HTML 页面。

页面里可以有标题、文字、图片、卡片、动画、转场、音频、字幕，然后再通过工具把这个“会动的网页”渲染成 MP4。

所以它不是传统意义上的“文生视频”，更像是：

用前端技术做一个可渲染的视频工程。

有点取巧，但很聪明。

它大概包含哪些能力？

小龙虾学完之后告诉我，HyperFrames 这套技能主要包括 4 个核心部分：

（省流看图版）

1. hyperframes：写视频本体

这个是主技能，用来编写 HTML 视频合成。

比如：

场景动画字幕转场音频可视化页面布局

说白了，就是“视频长什么样、怎么动”，主要靠它。

2. hyperframes-cli：负责项目和渲染

这个是命令行工具。

它可以创建项目、检查项目、预览视频、最终渲染 MP4。

常见流程大概是：

npx hyperframes init my-videonpx hyperframes lintnpx hyperframes inspectnpx hyperframes previewnpx hyperframes render

如果把 HyperFrames 理解成“用网页做视频”，那 CLI 就是把网页变成视频文件的那套工具链。

3. hyperframes-media：处理音频、字幕和素材

这个部分更偏媒体预处理。

比如：

用 TTS 把文字变成语音用 Whisper 把音频转成字幕给图片或视频去背景

而且这些大多可以本地跑，不一定非要 API Key。

4. hyperframes-registry：组件市场

它还可以安装一些现成组件。

比如某些字幕样式、转场效果、特效组件，直接用命令添加。

这就有点像给视频项目装插件。

最关键的一点：基本不需要 API Key

我还专门问了小龙虾：

用这个 skill，你需要什么作为输入？音频？还是文字稿？你还需要哪些 API Key 之类的准备？

它的回答很直接：

几乎不需要 API Key。

你可以给它：

文字稿：它可以生成语音，再转录字幕音频文件：它可以直接用作旁白，并自动提取字幕视频文件：它可以作为素材嵌入，甚至做去背景一个想法：它也可以从零开始构建视频

这次我用的是第二种：

直接给它一段 MP3 音频。

因为我之前用 ListenHub，基于自己的声音生成了一期音频播客。所以这次我就想试试看：

如果我把一段 5 分钟左右的播客音频丢给小龙虾，它能不能自己做成一个视频？

我的实际流程：给它一段 MP3，然后等

我给小龙虾的任务是：

你基于这个 mp3 文件，创作一个视频，用 skill 试试效果。

音频文件大概 5 分 25 秒，主题是：

别再迷信大模型，AI 落地的生死线其实是数据。

接下来小龙虾就开始干活了。

它先初始化了 HyperFrames 项目，然后复制音频文件，准备做转录。一开始它尝试用 Whisper 转录，但进程被杀掉了，应该是内存不够。我的服务器配置比较低，只有双核 4G 内存，没有显卡。于是它换了更小的模型继续跑。它判断这期播报大概可以分成 4 个部分，然后开始设计视频结构。视觉风格是暗色科技风，尺寸是 1920×1080，配合原始音频旁白。场景之间有淡入淡出转场，元素入场用 GSAP 动画。（具体过程就略过吧，总之很长······）

还是看图吧。

最后终于完成了。（不得不说干活真卖力呀！）

实验成功！

但代价也很真实：它跑了 70 分钟

说个题外话，也是这次体验里非常现实的一点。

我只给小龙虾安排了这样一个任务。

但因为是第一次运行，需要安装不少必要的包、下载模型、初始化环境、转录音频、修复 FFmpeg、重新渲染视频……

它整整花了70 分钟，才给我最终的视频。

这个时间确实不短。

当然，这跟我的运行环境也有关系，如果换成本地高配机器，或者有更好的服务器，速度应该会好不少。

但这也说明一件事：

让 AI Agent 真正去“干活”，不是只聊两句话立等可取那么轻松。

它会调用工具、跑命令、等转录、等渲染、处理报错。

这背后消耗的是实打实的算力、时间和 Token。

Token 消耗也不小

还有一个很真实的细节。

当视频做完后，我想问它：

这个 MP4 文件存放到哪里了？

结果它直接告诉我：

也就是说，我的 Token Plan 里的 5 小时额度被用完了。

可见，这种任务的消耗并不小。

如果你只是偶尔玩一玩，问题不大。

但如果你要经常做视频，还是要提前准备好 Token 预算。

而且别忘了，这次还只是基于 HTML 页面转视频的“取巧办法”。

如果是直接文生视频，或者更复杂的视频生成链路，成本大概率只会更高。

我的感想：这件事以前真不敢想

这次体验下来，我最大的感受是：

AI Agent 正在从“陪你聊天”，变成“替你跑流程”。

放在几个月前，我想做一个视频，脑子里第一反应还是：

要写脚本、配音、找素材、做字幕、剪辑、导出……

每一步都得自己动手。

但这次，我只是给了小龙虾一段音频和一个目标。

它自己去学 Skill，自己搭环境，自己处理报错，自己完成渲染。

虽然花了 70 分钟，虽然中间踩了不少坑，虽然最后只是 draft 画质，但这条链路已经跑通了。

这就很关键。

因为一旦链路跑通，后面要优化的就是速度、质量和成本。

更大的趋势：一个 API Key，调用一堆能力

最近我也看到一个趋势，越来越明显。

像阿里出了千问云，很多大厂也开始推出类似的业务：

一个 API Key，可以调用很多种模型能力。

不只是文生文大模型，还包括：

文生图文生视频语音识别文本生成音频图片理解视频理解等等各类的配套工具模型

这意味着什么？

以前你想做一个完整内容工作流，要到处找工具、配接口、写脚本、拼流程。

以后可能就是：

你给小龙虾一个skill，给它一个 API Key，再告诉它你想要什么。

剩下的工作，它自己去做。

它可以抓网页、理解内容、生成脚本、配音、做字幕、生成画面、渲染视频、导出成片。

这一天我相信已经不远了。

甚至可以说，已经在路上了。

最后

这次尝试不是为了证明 HyperFrames 已经能替代专业剪辑软件。

它更像是一次信号验证：

AI Agent + Skill + 多模态工具链，真的可以把一个复杂任务端到端跑起来。

哪怕现在还慢，哪怕现在还贵，哪怕过程中还会报错。

但方向已经很清楚：

以后我们和 AI 的协作，不会只是“你问我答”。

而是你告诉它目标，它去调工具、写代码、修环境、跑流程，最后把结果交给你。

这才是我觉得最值得兴奋的地方。

PS：最近沉迷 Codex，有机会跟你们聊聊使用心得。

AI可思议，陪你看懂AI。

记得关注，别走丢！