
已关注
关注
重播 分享 赞
熟悉我的朋友可能知道,我之前一直在用 AI 克隆自己的声音,每天自动生成一段音频播客。
那我就在想:既然 AI 已经能帮我“开口说话”了,能不能再往前一步,直接把这段播客做成视频?
于是,就有了今天这个小实验:用小龙虾自动创作视频。
今天用到的免费 Skill:HyperFrames
npx skills add heygen-com/hyperframes你去学习一下这个 skill 技能,npx skills add heygen-com/hyperframesHyperFrames 是干什么的?
它大概包含哪些能力?

1. hyperframes:写视频本体
场景动画字幕转场音频可视化页面布局
2. hyperframes-cli:负责项目和渲染
npx hyperframes init my-videonpx hyperframes lintnpx hyperframes inspectnpx hyperframes previewnpx hyperframes render
3. hyperframes-media:处理音频、字幕和素材
用 TTS 把文字变成语音用 Whisper 把音频转成字幕给图片或视频去背景
4. hyperframes-registry:组件市场
比如某些字幕样式、转场效果、特效组件,直接用命令添加。最关键的一点:基本不需要 API Key
用这个 skill,你需要什么作为输入?音频?还是文字稿?你还需要哪些 API Key 之类的准备?
文字稿:它可以生成语音,再转录字幕音频文件:它可以直接用作旁白,并自动提取字幕视频文件:它可以作为素材嵌入,甚至做去背景一个想法:它也可以从零开始构建视频
我的实际流程:给它一段 MP3,然后等
你基于这个 mp3 文件,创作一个视频,用 skill 试试效果。它先初始化了 HyperFrames 项目,然后复制音频文件,准备做转录。一开始它尝试用 Whisper 转录,但进程被杀掉了,应该是内存不够。我的服务器配置比较低,只有双核 4G 内存,没有显卡。于是它换了更小的模型继续跑。它判断这期播报大概可以分成 4 个部分,然后开始设计视频结构。视觉风格是暗色科技风,尺寸是 1920×1080,配合原始音频旁白。场景之间有淡入淡出转场,元素入场用 GSAP 动画。(具体过程就略过吧,总之很长······)



但代价也很真实:它跑了 70 分钟
Token 消耗也不小

我的感想:这件事以前真不敢想
要写脚本、配音、找素材、做字幕、剪辑、导出……更大的趋势:一个 API Key,调用一堆能力
文生图文生视频语音识别文本生成音频图片理解视频理解等等各类的配套工具模型
夜雨聆风