乐于分享
好东西不私藏

剪视频像删 Word 文档?这个开源项目让剪辑师失业

剪视频像删 Word 文档?这个开源项目让剪辑师失业

朋友发我一个 GitHub 链接,说”你看这个”。

点开一看——OneTake ,一个视频自动剪辑系统。

我本来以为是又一个”AI 帮你剪片”的工具。结果不是。

它做了一件更狠的事:把视频变成文本,删文字就是删片段

等等,这什么意思?

传统剪辑是什么?

拖时间轴。找入点。找出点。切。拖。再切。

一条 5 分钟的视频,你可能要在时间轴上折腾 2 小时。

OneTake 的逻辑是:

1.上传视频
2.AI 语音识别,把说的话转成文字
3.你看到一段文字,哪句不要——删掉
4.对应的视频片段自动消失

就这么简单。

技术上怎么做到的?

核心是 faster-whisper ,一个开源的语音识别引擎。

它能做到字级时间戳,精度 <100ms 。

什么意思?

每个字都有精确的起止时间。你点击”这句话不要”,系统就知道要从第 3 分 12 秒切到第 3 分 18 秒。

不用你手动找点。文字和视频是绑定的。

支持多语言。中英文都能识别。

实际用起来什么感觉?

想象一下:

你的视频是 20 分钟的访谈。嘉宾说了很多废话——”呃、这个、那个、怎么说呢”。

传统做法:听一遍,记住时间点,回去切。

OneTake 做法:看文字稿,把废话全删了,导出。

视频剪辑变成了文本编辑

还有别的功能吗?

有。

字幕生成——自动出 SRT 字幕文件,字体颜色位置都能调。

可视化编辑——有波形图,有视频预览,点文字的时候对应片段会高亮。

任务管理——剪到一半可以保存,下次继续。

多模型选择——Tiny/Base/Medium/Large 四档,精度和速度你自己权衡。

硬件要求呢?

最低 8GB 内存、 10GB 存储。

推荐 16GB 内存 + GPU ( CUDA 加速)。

没有 GPU 也能跑,就是慢点。

开源的, MIT 协议。自己部署, Docker 一键启动。

这东西能取代剪辑师吗?

不能。

但能取代剪辑师的重复劳动

粗剪、去废话、调顺序——这些工作,文字界面比时间轴快 10 倍。

精剪、节奏、情绪——这些还是要人。

最后

OneTake 不完美。语音识别有误差。复杂剪辑还是得回时间轴。

但它的思路值得看一眼:

把专业工具的门槛,降到”会打字就行”

这不就是 AI 该干的事吗?


项目地址: https://github.com/leejersey/OneTake