昨天晚上我让Claude帮我剪了个视频。从分析到出片,全程大概三分钟。
三分钟啊朋友们。
这是一键剪辑出来的翻译视频,加上字幕加配音加标题。原视频是纯英语没有字幕。
我之前干这活儿,同样的效果,得坐在电脑前两个多小时。
还可以一键剪出视频的的精华片段:
还能一键剪辑解说视频:
事情是这样的。我一直想做短视频,也确实在做,就是那个「AI剪精华」的视频号。内容方向很明确,从长视频里剪精华片段,做成一分钟的短视频分发。逻辑上很简单,找素材,分析精彩点,切割,加字幕,加标题,发布。但实际干起来,每一步都是体力活。
你想想看,一个一小时的技术演讲,你得先完整看一遍,边看边记录「这段不错」「那段有金句」,然后再手动切割、加字幕、加标题、导出。一个片段平均二十分钟,五个片段就是将近两个小时。
两个小时,对一个大公司来说不算什么,对一个视频剪辑团队来说也不算什么。但对我来说,一个人两个小时就是一整天可支配工作时间的四分之一。
这个成本,搞不起。
我一直觉得,这种重复性的、有规律的工作,就不该人来干。特别是现在AI的视频理解能力已经相当强了,看懂内容、判断精彩程度、生成字幕文本,这些AI都能做。那为啥整个流程不能串起来,让AI自动跑完呢?
想明白这件事之后,我就开始动手了。
花了一个晚上左右,写了一个命令行工具,叫 clipwise。
对,就是命令行。不是什么花里胡哨的桌面应用,也不是网页版。一个终端窗口,敲一行命令,它就把活干了。
你可能想问,为啥做成命令行,现在谁还用命令行啊?
坦率的讲,这个工具从一开始就不是设计给人用的。我的目标用户是AI Agent。
你想想看现在这个时代,Claude Code、Cursor这些AI编程工具已经非常成熟了。你跟AI说一句话,它就能帮你写代码、操作文件、执行命令。那如果有一个视频处理工具,它的输入输出都是AI能直接读懂的格式,AI是不是就可以自己完成整个视频剪辑流程了?
clipwise就是这么设计的。所有输入输出都是JSON。你给一个视频进去,它吐出来的不是一段视频加一堆乱七八糟的日志,而是一份结构化的JSON数据。里面清清楚楚写着视频时长多少、分辨率多少、精彩片段从第几秒到第几秒、每段的标题是什么、摘要是什么。AI拿到这个结果,该切割就切割,该加字幕就加字幕,全程不需要人介入。
听起来有点抽象对吧,我还是用真实场景来聊。
最基础的功能是 probe,探测视频信息。你扔一个视频进去,它告诉你时长多少、分辨率多大、有没有音轨、文件多大。这个看着不起眼,但对AI Agent来说特别重要,因为AI在做后续操作之前,得先知道这个视频的基本参数,才能决定后面怎么处理。
clipwise probe --input video.mp4
输出就是一份JSON,干干净净,没有多余的废话。
但probe只是热身。真正让我觉得「有点东西」的,是 highlights。
你给一个长视频,告诉它要剪几个片段,它先用AI分析整个视频,找出最精彩的几段,然后自动完成切片、去水印、配音、加字幕、加标题,一整套流程全部跑完。
clipwise highlights --input video.mp4 --output-dir ./out --clips 3
就这一行命令。然后你等着就行。
AI会先看一遍视频,分析出哪些片段最精彩,给每段打分、写标题、写摘要。然后按照分析结果自动切割,检测到水印就帮你去掉,如果是外文视频就自动配音翻译,最后加上字幕和标题。你拿到的就是几个可以直接发布的短视频。
整个过程大概两三分钟。想想之前的流程,我得看一遍视频,手动标记精彩点,一个一个切割,一个一个加字幕加标题。同样的效果,两个小时。现在三分钟。
那种感觉怎么说呢,有点像第一次用自动驾驶。方向盘还是你在握着,但车自己在跑。你只需要在关键节点看一眼,确认没问题就行。
不过 highlights 还不是最让我兴奋的。更让我兴奋的是 translate-video。
这个功能解决的是一个我之前一直很头疼的问题。很多优质的AI相关内容都是英文的,技术演讲、产品发布会、行业对谈,全是英文。我想把这些内容搬运到中文平台,但翻译加配音加字幕这个工作量太大了,大到我一直没动手。
translate-video 就是来干这个的。你扔一个英文视频进去,它先检测语言,然后逐句转录翻译,自动去水印,用中文TTS重新配音,最后烧录中文字幕。出来的就是一个完整的中文视频。
clipwise translate-video --input english_video.mp4 --output-dir ./out
还是一行命令。
说实话第一次跑通这个流程的时候,我愣了一下。一段五分钟的英文演讲,三分钟出来一个带中文配音和中文字幕的视频。配音用的是edge-tts,虽然不是真人,但语调自然度已经相当可以了。关键是它把时间轴对齐了,中文配音的节奏和原画面是匹配的。
这个效率提升是数量级的。以前我可能一个月才搬运一个视频,因为翻译配音太耗时间。现在理论上我每天可以搬运好几个。
但这还不是全部。最让我觉得「卧槽还能这样」的,是 narrate。
narrate 比 highlights 和 translate-video 都更进一步。它不只是切片或者翻译,而是做AI解说。
你想想看那种短视频解说的模式。一个长视频,AI先完整分析一遍,然后把视频分成一段一段的,每一段AI自己决定怎么处理。有些段落适合保留原声加中文字幕,有些段落适合用AI写一段中文解说词然后TTS配音覆盖掉原声。AI会自己判断每一段的最佳处理方式,然后全部执行完,输出一个完整的解说视频。
clipwise narrate --input video.mp4 --output-dir ./out
对,还是一行命令。
但背后的逻辑复杂多了。AI要分析视频内容、检测语言、判断风格、撰写解说词、规划节奏、决定哪些保留原声哪些覆盖配音、生成标题。这些都是AI自己完成的。
第一次跑通这个功能的时候,我真的一下子有点懵。不是因为它完美,当然不完美,配音的语调偶尔会有机器感,解说词有时候不够精准。让我懵的是,这个流程跑通了。从「一个人手动剪视频」到「AI Agent自动完成全流程」,这件事真的实现了。
我之前看过很多AI视频工具,各种产品都有。有做自动字幕的,有做AI剪辑的,有做数字人的。但我一直没找到一个是真正面向Agent设计的。大多数工具都是给人用的,有漂亮的界面,有拖拽操作,有实时预览。这些东西对人很重要,但对Agent来说完全是障碍。Agent不需要拖拽,Agent需要的是清晰的接口和结构化的数据。
所以 clipwise 从第一天开始就坚持一个原则,所有的输入输出都是JSON,日志全部走stderr不会污染输出,每条命令独立执行、幂等、可缓存。这些设计决策看着很工程化,但它们的目的是让AI Agent能够像调用API一样调用视频处理能力,不需要任何人为干预。
还有一点我觉得挺重要的,clipwise 是本地运行的。
视频文件不会上传到任何服务器,AI分析调用的是你配置的AI接口,视频处理全部在你自己机器上完成。这个对我来说不是什么技术决策,而是一个基本的安全底线。做内容的人都知道,未发布的素材就是命根子,上传到别人的服务器这个事,怎么想都不太放心。
而且本地运行还有个好处,快。ffmpeg的处理速度本来就很快,瓶颈只在AI分析那一步。如果你用的是国内的大模型接口,响应速度也很快。整个流程基本没有等待感。
clipwise 已经上传到了 GitHub[1] 上。macOS、Linux、Windows都有对应的二进制文件,下载就能用。外部依赖只有一个ffmpeg,想用配音功能再装一个edge-tts,其他什么都不需要。
安装也特别简单。最省事的方式是直接让AI帮你装。你在Claude Code里说一句「帮我安装clipwise」,Agent就会自己克隆仓库、选对应平台的二进制文件、放到PATH里、注册skill。装完之后你就可以用自然语言跟AI说「帮我分析这个视频」「帮我剪三个精华片段」「帮我把这个英文视频翻译成中文」,AI会自动调用对应的命令。
你敢信,从安装到剪出第一个视频,可能都用不了十分钟。
说真的,做这个工具的过程让我更坚信了一件事。
AI时代,个体的能力边界正在被快速拉宽。以前一个人想做短视频,得会拍摄、会剪辑、会配字幕、会配音,每一样都得花时间学。现在你只需要有想法,执行的部分AI可以帮你搞定。
不是说AI能完全替代人,至少现在还不行。配音的语调还不够自然,解说的措辞偶尔不够精准,有些复杂场景的判断还是需要人来看一眼。但80%的工作量,AI确实能帮你扛掉。剩下的20%,才是体现你个人品味和判断力的地方。
我自己的做法是这样的,AI跑完整个流程,产出几个成品短视频,我看一遍,挑最好的,偶尔微调一下标题或者字幕的措辞,然后发布。人工参与的时间从两小时降到了十到十五分钟。
十五分钟和两小时,这个差距不是优化,是质变。
两小时意味着你每天最多只能做一条视频,十五分钟意味着你可以做五六条。对一个靠内容驱动的业务来说,这个产出效率直接决定了你能不能规模化。
回到开头说的那个问题,一个人做短视频,怎么搞?
答案很简单,不要自己剪,让Agent剪。你去想选题、想定位、想内容策略,执行的事情交给工具和AI。
人的价值不在于会使用剪辑软件,而在于知道该剪什么、该说什么、该给谁看。
clipwise 是我在做「一个人就是一家公司」这件事的过程中产出的工具之一。它不完美,还有很多可以改进的地方。但它已经实实在在帮我每天处理视频了,省下来的时间够我多写一篇文章、多研究一个产品、多陪陪家人。
如果你也在做短视频,或者想尝试用AI来处理视频,可以试试看。有问题公众号后台留言就行,我看到了都会回。
如果觉得有帮助,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐
我是静远,一个人+AI,就是一家公司。
引用链接
[1]GitHub: https://github.com/jingyuan-opc/clipwise-cli
夜雨聆风