用 OpenClaw 提取抖音小红书逐字稿,说一声就行

装 OpenClaw 有段时间了?今天聊一个你可能没注意到的实用玩法。
场景:你需要一段视频的逐字稿
做内容分析、竞品调研、二创,都绕不开这一步。
以前我习惯用豆包,上传视频等它处理完再复制出来。一两个还行,每天七八个视频的时候,光上传、等处理、复制粘贴这几步,就够把耐心耗光的。
后来发现,其实不用再多装任何东西——你电脑上已有的 OpenClaw,就能把这事儿一键串起来。

凭什么它能干这个
装 OpenClaw 的时候,下面这几个能力其实已经跟着一起到位了:
-
yt-dlp:能下抖音、小红书、B 站视频
-
Python / Whisper:能把音频转成文字
-
浏览器自动化:自己打开链接拿真实视频地址
-
exec 工具:跑命令,把上面的步骤串起来
我刚开始也没想到,这几个东西凑在一起,刚好能拼出一条“提取逐字稿”的流水线。剩下的事,就是告诉它一声。
实操:一句话丢过去,等结果
最省事的方式,直接把视频链接发给 OpenClaw,说:
帮我把这个视频的逐字稿提取出来
它会自己走完:打开链接 → 拿到真实视频地址 → 下载视频 → Whisper 转写 → 返回文字稿。
实测一条 3 分钟的口播视频,大概一分多钟出稿,你中途不用管。

想更快?花几分钟写个固定 Skill
如果你经常要干这事,可以写一个简单的 Skill,以后连那句长指令都省了,说“帮我提取这个视频”就行。
没写过 Skill 的话,操作其实不复杂:
-
打开任意文本编辑器
-
把下面这段内容复制进去,保存为
video-transcript.md -
把这个文件放进 OpenClaw 的 Skills 目录(一般在设置里能看到路径)
markdown
name: video-transcript
description: 提取抖音/小红书视频逐字稿
steps:
1. 用浏览器工具打开视频链接,获取视频真实地址
2. 用 yt-dlp 或直接下载视频文件到本地
3. 用 Whisper 转写音频为文字
4. 返回逐字稿
加载好之后,用起来就是一句:
/video-transcript https://v.douyin.com/xxxxx
和豆包比,实际用起来怎么样
拿三条视频大概测了下,说说真实感受:
-
3 分钟的口播讲解:豆包和 OpenClaw 都能在 2 分钟内搞定,差别不大。
-
5 分钟的游戏实况带 BGM:两边都慢一点,OpenClaw 大概 3 分钟,豆包快一些。
-
更长时间的口播视频:差距开始拉大。豆包光上传就要好几分钟,加起来奔着十分钟去了;OpenClaw不需要上传,下载加转写大概3分钟完事。
-
一次处理 5 个视频:这时候差距就出来了。豆包得一个一个上传,OpenClaw 可以全扔进去排队跑完,你不用守在电脑前。
所以如果只是偶尔弄一两个视频,豆包完全够用。但如果你的日常工作流里一天要处理好几个,OpenClaw 的效率和顺手程度是明显更高的。
不同视频类型,效果不一样
-
口播/讲解:几乎完美,基本不用改。
-
采访对谈:转写准确度不错,建议开时间戳方便定位。
-
配音搞笑/方言:有些口音会识别错,可能需要手动校对。
-
游戏+BGM:背景音乐太吵的话,Whisper 会吃力。
如果遇到 BGM 特别重的视频,可以在发指令的时候多嘱咐一句,比如:
这是游戏视频,BGM 比较大,尽量准确提取人声部分
OpenClaw 会自己试着调整参数。
三种用法,从懒到更懒
第一种:直接丢链接。把视频链接发给 OpenClaw,说“帮我提取逐字稿”,等结果就行。
第二种:自己写个 Skill。按上面的模板,几分钟搞定,以后就是一句话的事。
第三种:去社区看看现成的。如果你不想自己写,OpenClaw 社区里可能已经有人分享了写好的视频处理 Skill,找到加载就能用。
不是所有事都要自己动手
说实话,上面这几步对爱折腾的朋友来说,十几分钟就弄完了。
但如果你手头一堆事,根本不想花这个时间,我们也提供一条龙帮你配好的服务。你只管丢链接,逐字稿自动到手,省下来的时间研究内容本身。
有需要的话,直接找我们就行。
湖南AI中心📍 地点:长沙智谷AQ5栋一楼

编辑:盛夏
夜雨聆风