乐于分享
好东西不私藏

让Claude Code搞定视频下载、字幕提取和自动配音

让Claude Code搞定视频下载、字幕提取和自动配音

大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。

看技术演讲视频,经常想把要点整理成文字。以前的做法是这样的:先搜在线下载工具把视频存下来,再找字幕提取服务,拿到的字幕格式五花八门,手动清理一遍又半小时过去了。工具找了一圈,笔记还一个字没写。

还有个更头疼的情况。录完一段产品演示视频,画面挺好,但没配声音。自己配音要反复调语气和节奏,录个两三分钟的片段可能要折腾一两个小时。

Claude Code 能写代码,能不能顺便把这些视频的活也干了?于是有了 video-skills。

这套工具包含什么

video-skills 是一个开源的视频处理技能集合,核心功能有三个。

下载视频。支持 YouTube、Bilibili、Twitter/X 在内的上千个平台,底层用的是 yt-dlp。

提取字幕。优先读取视频内嵌的字幕轨道,实在没有才调用语音转写接口,省时也省钱。

自动配音。根据画面内容生成解说词,再合成语音嵌进视频,画面和声音自动对齐。

这三个功能可以单独调用,也能串成一条流水线。

怎么装

安装方式有两种。

在 Claude Code 里直接执行:

/plugin marketplace add feiskyer/video-skills
/plugin install video-skills@video-skills

或者用 npx:

npx skills add feiskyer/video-skills

系统依赖只有两个:yt-dlp 和 ffmpeg。macOS 上用 Homebrew 一行搞定:

brew install yt-dlp ffmpeg

Linux 和 Windows 环境可以让 AI 帮你自动安装这些依赖。

场景一:YouTube 视频转文字笔记

打开 Claude Code,把视频链接扔过去就行:

帮我下载这个视频 https://www.youtube.com/watch?v=kwSVtQ7dziU

download-video 调用 yt-dlp 把视频拉下来,默认存到 ~/Downloads/Videos/。如果你只要音频,或者想指定分辨率,用自然语言说一下就好。

下载完接着说:

把刚下载的视频转成文字

transcribe-video 的处理逻辑比较聪明。它会先检查视频本身有没有内嵌字幕。YouTube 上不少视频自带字幕,质量通常比语音识别高出一截,处理速度快,而且不消耗 API 额度。只有视频确实没有字幕的时候,才会走语音转写接口做语音识别。

输出的文字稿会自动清理掉时间戳、格式标签之类的杂乱内容,直接给你一份干净的纯文本。

拿到文字稿再让 Claude 做个摘要,整套流程几分钟搞定。

如果你的视频没有内嵌字幕,需要配一个 API Key。创建 ~/.transcribe_video.env 文件:

OPENAI_API_KEY=your-key-here

也支持其他兼容 OpenAI 接口的服务,加上 OPENAI_API_BASE 环境变量指向对应的地址就行。

场景二:演示视频自动配音

自己录产品演示最烦的就是配音环节。口误、卡壳、节奏忽快忽慢,录完还得一帧一帧剪,两分钟的视频能搞一下午。

现在录好画面之后,一句话搞定:

给这个演示视频加上中文配音 demo.mp4

Claude Code 会先对视频按固定间隔截帧,分析每个时间点屏幕上在展示什么内容,建立一个场景时间表。然后根据画面内容逐段写解说词。每段文字的长度控制在对应时间窗口的 80% 以内,段落之间自然留出停顿,听起来不会像赶时间。

最后调用 Azure TTS 逐段生成语音,按时间戳拼接到视频轨道里。整个过程不需要手动对齐,也不需要反复调时间线。

配音功能需要配置 Azure 的密钥。创建 ~/.narrate_video.env:

AZURE_SPEECH_KEY=your-key-here
AZURE_SPEECH_REGION=eastus

底层做了什么

video-skills 本质上就是把 yt-dlp、ffmpeg、Azure Speech 这些命令行工具和 AI 接口封装成了 Claude Code 能直接调用的技能。但封装之后的使用体验完全是另一个级别,以前要在五六个工具之间来回切换的流程,现在变成几句自然语言就能完成。

https://github.com/feiskyer/video-skills

如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。

知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。

【ima知识库】苍一AI编程