乐于分享
好东西不私藏

为了提高工作效率,我用AI做了一个口播剪辑软件

为了提高工作效率,我用AI做了一个口播剪辑软件

大家好,我是北陌!

上个月我做了一个口播视频,录了四十分钟。

剪完之后我直接崩溃了。

不是因为内容不好,是因为剪辑过程太折磨了。

四十分钟的原始素材,去掉停顿、语气词、重复表述,剪出二十分钟的成片。

我花了将近六个小时。

不是因为我慢,是因为这个过程太反人类了。

你要逐帧听,找到每一句话的开头结尾,标记,删除,再对齐音画。

更离谱的是,有些停顿只有零点几秒,删还是不删?

删了节奏会快,但可能切断情绪。不删又显得拖沓。

这种决策要做几百次。

我当时就想,这活儿能不能让AI干。

不是因为我想偷懒,是因为这种重复性的判断工作,人来做太慢了。

而且人会有遗漏,会有审美疲劳,剪到后面注意力下降,该删的没删,不该删的删了。

我算了笔账。

假设我每周发两个口播视频,每个视频剪辑要花四小时,一年下来就是四百多小时。

四百多小时,相当于两个月的工作时间,全花在一件AI理论上能做的事情上。

这太不划算了。

但我去搜了一圈市面上的工具,发现一个问题。

大部分剪辑软件都在卷特效、转场、调色,没人认真解决口播剪辑这个具体场景。

口播视频跟vlog不一样。

vlog需要节奏感、音乐卡点、画面切换。

口播的核心需求只有一个,去掉所有不该有的东西,让信息密度最大化。

停顿、语气词、重复表述、空白片段。

这些才是口播剪辑的敌人,不是特效不够炫。

所以我决定自己做一个。

这就是 Jaygo Cut 的由来。

但说实话,如果是放在两年前,我可能不会动手。

因为我有想法,但没技术。

我不是程序员出身,虽然平时写写代码脚本没问题,但要做一个完整的桌面软件,涉及Electron、FFmpeg、Whisper模型、音视频同步,这些技术栈对我来说是一道很高的门槛。

放在以前,有想法也只能光看着。

但AI来了之后,事情变了。

Coedex、Claude Code这些工具把技术门槛降到了前所未有的低。遇到不懂的API,直接问AI,它能给你完整的代码示例和解释。遇到bug,把报错丢给它,它能帮你定位问题。遇到架构设计上的困惑,它能给你几个方案让你选。

我不是说有了AI我就变成全栈工程师了。

而是说,AI让我可以边做边学,遇到问题立刻解决,而不是卡在那里几个月动不了。

以前做项目,70%的时间花在查文档、踩坑、调试。现在这些时间被压缩到了20%。

剩下的80%我可以真正花在产品逻辑、用户体验、功能设计上。

这才是AI对创作者最大的价值。

不是替代你,是让你有能力去做以前想做但做不了的事。

坦白说,做这个工具的过程比我想象的复杂得多。

一开始我以为就是个简单的脚本,调用一下 Whisper 语音识别,找一找静音段,ffmpeg 裁一下就行了。

但真开始做的时候才发现,光是静音检测这一步就有一堆坑。

不是所有的静音都应该删除。

有些停顿是思考间隙,是情绪节奏的一部分。

有些空白是转场需要,是段落之间的呼吸。

如果一刀切,剪出来的视频会有一种诡异的急促感,像在赶场,没有停顿就没有重点。

所以问题变成了,怎么让AI判断这个静音该不该删?

我试了很多方法。

最开始用的是固定阈值,比如超过零点五秒的静音就删。

结果不行,有些零点八秒的停顿是关键时刻的留白,删了特别突兀。

有些零点三秒的停顿虽然短,但连续出现几次,累积起来的拖沓感很强。

阈值是个伪命题,真正重要的是上下文。

后来我开始引入语义判断。

让AI不只是看音频波形,还要看转写出来的文字内容。

如果这个静音出现在一个完整句子的结尾,可能是在强调前面的内容,保留。

如果出现在半句话中间,大概率是口误或者忘词了,删除。

这个判断逻辑我调了好几个版本,每次都用自己真实的视频素材测试。

失败了很多次,剪出来的效果要么太碎,要么还是拖沓。

直到我加入了一个额外的维度,情绪节奏。

口播视频虽然以信息传递为主,但好的口播是有情绪起伏的。

讲到重点时放慢语速,总结时稍微停顿让听众消化。

这些设计如果被AI一刀切掉,视频就变成了机械的信息罗列。

所以最终的判断逻辑变成了三层。

第一层是音频波形,判断静音时长和频率。

第二层是语义分析,判断这个停顿在句子结构中的位置。

第三层是情绪节奏,判断这个停顿是否有设计意图。

三层叠加之后,AI的决策准确率提高了很多。

不是百分之百,但至少比我最初的阈值方案好太多。

另一个坑是语气词识别。

口播里最常见的就是那个“嗯、啊”然后所以。

有些语气词确实多余,但有些是口语的自然衔接,删了反而别扭。

AI在这上面犯过很多错。

比如它会把然后当成填充词删掉,但有些然后是真正的逻辑连接词,删掉之后上下文就断了。

还有一次,AI把“所以”删了,因为它是高频词,算法判定为填充词。

但那段话的结构就是前因后果,所以两个字是承上启下的关键,删掉之后整段话的逻辑就塌了。

我花了很多时间调试这个边界。

最后做了一个审核界面,让AI先标记出所有候选片段,但最终的删除决定权在你手里。

你可以逐条预览,觉得对就删,觉得不对就保留。

这样既享受了AI的效率,又保留了人的判断。

这个审核界面成了整个工具最核心的部分。

它不是一个炫技的功能,是真正能节省时间的。

你点一下就能听到那段音频,判断准不准。

以前剪辑要六小时,现在能缩短到1-2个小时。

因为AI已经把最耗时间的寻找和标记工作做完了,你只需要做最后的确认。

效率提升大概十倍。

但更准确地说,不是效率提升十倍,而是那六小时里真正需要人动脑的部分从六小时压缩到了三十分钟。

其余的时间都是AI在跑。

这个区别很重要。

AI替代的不是你的判断力,而是你的机械劳动。

做这个工具的过程中,我还有一个很深的体会。

关于本地化和云端的选择。

一开始我默认这个工具应该是云端的,上传视频,云端处理,速度快,模型大,识别准。

但跟几个内容创作者聊了之后,发现很多人对这个方案有顾虑。

原因很简单,视频素材里可能包含商业信息、未发布的内容、个人隐私。

上传到一个第三方服务器,即使有隐私协议,很多人心理上也不舒服。

但如果必须上传,那就没法用了。

所以我把本地模式做了出来。

本地模式不联网,所有处理都在你的电脑上完成。

视频不会离开你的电脑,隐私绝对有保障。

当然代价是速度会慢一些,特别是如果你的电脑配置和本地模型一般。

所以我保留了云端模式,处理速度比本地快五到十倍,适合不那么敏感的内容。

两个模式可以在设置里随时切换。

这个双模式设计不是我拍脑袋想的,是用户反馈逼出来的。

真的去做一个工具的时候,你会发现用户的需求跟你的假设经常不一样。

你以为是速度最重要,结果用户告诉你隐私更重要。

你以为功能越多越好,结果用户告诉你操作越简单越好。

这些反馈才是真正塑造产品的东西。

还有一个我觉得挺重要的细节是:在线更新和更新说明

很多人只会使用工具,并不会安装和更新工具。

所以我用自己的服务器做了“在线更新”,一有好的功能,一键就能升级体验。

说到这,我想聊聊做这个工具背后的想法。

不是每个人都想成为专业剪辑师。

大多数人的核心技能是内容创作,是思考,是表达。

剪辑只是附属品,是不得不做的后勤工作。

如果一个工具能把后勤工作压缩到原来的十分之一,创作者就能把时间花在真正重要的事情上。

这个逻辑其实不限于剪辑。

任何重复性的、规则明确的、但耗时的任务,都应该被工具替代。

AI的价值不在于替代人,而在于把时间还给创作者。

我自己用这个工具剪了几个月视频之后,有一个明显的变化。

以前剪辑是一种负担,录完视频之后想到要剪就头大,有时候会拖延好几天。

现在录完直接丢进去,半小时后就能导出成片。

这个体验上的改变,让我更愿意录制视频了。

因为心理负担降低了。

我觉得这个心理层面的变化,可能比节省的时间本身更重要。

当你知道后面的工作量只有1个小时的时候,你会更愿意开始录制。

而当你知道后面有六小时的剪辑在等你的时候,你会下意识地拖延。

这个心理暗示的影响,比大多数人想象的要大。

当然这个工具还有很多不足和缺点。

目前只支持Windows,由于没有Mac设备,Mac版本还在计划中。

视频格式支持还不够全面,有些冷门格式可能需要先转换。

LLM分析模式还需要再优化下。

AI的识别准确率虽然很高,但遇到口音很重或者背景噪音大的场景,还是会出错。

这些都是接下来要改进的方向。

但作为一个已经能用的工具,我觉得它解决了最核心的问题。

口播剪辑的自动化。

你可以不用精通剪辑软件,不用学复杂的操作,导入视频,AI分析,你审核确认,导出。

三步完成。

当然,如果你要更细致化,你还需要在剪辑软件里进行进一步的处理,但是,前期的工作时间,已经大大节省。

我把这个工具在Github上开源了,完全免费,没有订阅费,没有功能限制。

项目名字叫JaygoCut:https://github.com/lj1270998580-crypto/JaygoCut(支持npm安装)你也可以直接从我的网站:ailabing.cn/jaygo-cut.html 下载安装就能用。

如果你也是做口播视频的,欢迎试试。

有什么反馈可以在我的下方交流群,或者直接在公众号留言告诉我。

这个工具是我为了解决自己的痛点做的,但既然花了这么多时间,希望也能帮到其他人。

如果好用,在github上给我⭐支持!那里目前还有几个开源项目,感兴趣的可以试用~

————————————————————

我是北陌,一个相信工具应该为人服务的互联网深度学习者。还有很多项目正在开发学习中,有好用的我会及时分享给你……

以上,如果觉得 Jaygo Cut 对你有帮助,欢迎下载体验,顺手给项目点个star⭐。

我们,明天再见!