和AI聊天就能剪视频?这款开源神器让你告别剪辑软件

厌倦了在复杂的时间线上反复拖拽素材？开源项目video-use让你用自然语言和AI对话完成专业级视频剪辑。本文将手把手教你安装配置，并展示如何通过对话完成剪切、调色、加字幕等操作。

🎬 项目亮点

🚀 对话式剪辑：扔掉鼠标和时间线，直接用自然语言指挥AI：“把这段视频里的‘嗯’‘啊’都剪掉”

🎨 一键智能美化：自动调色、添加30毫秒的音频淡入淡出让转场丝般顺滑，还能自动识别并剪掉沉默和语气词

📝 魔法字幕：自动生成错落有致的双语字幕，读起来像真人说话一样有节奏感

🎭 叠加动画层：通过HyperFrames、Manim等工具生成数学公式、数据可视化动画并无缝叠加在视频上

💾 会话记忆：下次打开终端，AI还记得你上次剪辑到哪儿了

🤔 解决什么痛点？

你是否经历过这样的场景？

周末从外地旅行回来，手机里攒了50多段零碎的Vlog素材。有对着镜头说话的，有拍风景的，还有朋友聊天大笑的。你想把它们剪成一个3分钟的小视频发朋友圈。

你打开Final Cut Pro或者剪映，准备大干一场。

然后噩梦开始了。

你把所有素材拖进时间线，开始一帧一帧地听。听到一个“嗯”，切掉。听到一个长长的沉默，删掉。两段画面切换的地方“啪”的一声爆音，你得手动加上转场。录了两个小时的素材，你想找出其中最有意思的三句话，却得从头到尾听一遍。

好不容易剪出一个初稿，发给朋友看。朋友说：“颜色太暗了。” 你又得回去一个一个片段调色。

最后你想加上字幕。手工打时间轴？还是用自动识别然后一句一句校对？

折腾了整整一个下午，你终于放弃了。你想：“算了，就这样发吧。”

已关注

关注

重播分享赞

视频详情

这就是video-use要解决的问题。

这个项目的核心理念简单得令人发指：AI不应该看像素，AI应该读文字。

它会先把你的视频转录成文本，AI看着文字版的内容来决定怎么剪。只有在你需要确认画面细节的时候，它才会去抽帧生成一张“胶片+波形图”让你看一下。

你不再是一个技术操作工，你重新变回了一个导演。你只需要告诉AI你的想法，它去执行。

作者在项目里写道：“LLM推理的依据是原始的文字转录稿和按需调用的画面。音频是主要的，视觉是次要的。” —— 这句话点透了AI视频编辑的本质。

🛠️ 手把手教程

准备好了吗？让我们一步步把这个AI剪辑师装进你的电脑。整个过程可能需要10-15分钟。

➤ 前置准备

你需要先搞定两样东西：

一个聪明的AI助手：比如Claude Code、Codex、Hermes或者Openclaw。简单说，就是一个能直接操作你电脑终端的AI。如果你还没用过，推荐从Claude Code开始尝试。
一个ElevenLabs的API密钥：项目用它来做语音转文字。别担心，免费套餐够你玩很久了。

去这个网址注册：elevenlabs.io/app/settings/api-keys
注册后复制你的API Key，保存好，待会儿要用。

➤ 安装步骤

打开你的AI助手终端，复制粘贴下面这段话发送给它：

“帮我安装 https://github.com/browser-use/video-use 这个视频编辑工具。先读install.md文件来安装，配置好ffmpeg，注册好技能，还有设置ElevenLabs的API密钥——需要的时候我会提供给你。”

AI助手会自动完成这些事情：

克隆代码库
它会找个稳定的位置（比如~/Developer/video-use）把整个项目下载下来。
安装依赖
自动安装Python相关的库。
创建配置文件
在你项目根目录下创建一个.env文件，然后提示你输入刚才复制的ElevenLabs API Key。

把API Key粘贴进去，按回车。

就这么简单。AI会告诉你什么时候准备好了。整个过程它只会问你这一次。

➤ 基础使用流程：让AI帮你剪第一支视频

假设你有一个叫my_vlog的文件夹，里面放了几段没剪过的原始视频。

打开AI助手，进入文件夹在终端里输入：

cd my_vlogcodex .   # 或者 claude . 或者你用的其他AI命令

下达第一个指令在AI的对话窗口里输入：“帮我把这个文件夹里的视频素材，剪辑成一个30秒的精彩片段，去掉所有沉默和‘嗯’‘啊’这种语气词。”
看AI表演AI会开始工作。它会先调用helpers/transcribe_batch.py把文件夹里的所有视频转成文字。然后读取takes_packed.md这个精简的转录稿，根据你的要求找到最合适的片段。
确认方案AI不会直接动手剪，它会先跟你说它的计划，比如：“我找到了三段素材，第一段是你对着镜头说‘今天天气真好’，第二段是滑板的画面，第三段是你笑场。我准备把它们按这个顺序拼接，你觉得怎么样？”
你只需要回答：“好的，开始吧。”
等待成品AI调用helpers/render.py，自动进行色彩校正、添加30ms音频淡入淡出、烧录字幕。几秒钟后，一个final.mp4文件就出现在你的文件夹里了。

📊 同类项目对比

功能维度	video-use (AI对话式)	传统剪辑软件 (剪映/PR)	传统AI剪辑工具
交互方式	自然语言对话。你说：“把这段剪短点。”	鼠标拖拽、键盘快捷键。	预设模板、一键成片。
剪辑逻辑	语义理解。AI看懂内容再剪，能识别“笑点”、“金句”。	时间轴操作。你精确到帧，但不知道内容是什么。	机械识别。只剪沉默和重复，不理解情绪。
学习曲线	极低。会打字就会用。	极高。专业软件需要数月学习。	低。但缺乏创造性，像流水线产品。
输出质量	高度可控。你负责创意，AI负责实现，人机结合。	极高。取决于你的技术水平。	中等。模板化严重，千人一面。
定制化程度	无限。可以通过Manim生成任意数学动画，通过ffmpeg实现任何滤镜效果。	高。专业的软件提供海量参数调节。	低。只能在给定的模板里切换。

可以看到，video-use并不想替代专业的非编软件，它想替代的是那个繁琐、重复、“非创意”的脏活累活。它把最难的“技术实现”包揽了，让你只需要专注于“你想讲一个什么故事”。

💡 进阶玩法：生成教辅动画

video-use还有一个非常硬核的兄弟技能 —— Manim视频生成。如果你看过3Blue1Brown的数学视频，那你一定对那种丝滑的公式推导动画印象深刻。

现在，你只需要告诉AI：“用Manim帮我做一个视频，解释勾股定理。”

它会：

写出Python脚本，调用Manim库。
生成一个演示动画，构建一个直角三角形，然后画出以三边为边长向外作的正方形。
通过动画演示如何将两个小正方形剪拼成一个大正方形。

整个过程中，你完全不需要懂LaTeX语法，也不需要记Manim的各种API。

项目文档里详细说明了如何使用MovingCameraScene来做镜头推拉，用ThreeDScene来展示三维旋转，用LinearTransformationScene来演示线性代数。

✨ 写在最后

video-use的出现，有点像智能手机的摄像头之于单反相机。单反的画质依然是顶级的，但当我想随时记录生活、快速分享的时候，我拿起的一定是手机。

对于视频剪辑来说，video-use就是这个“智能手机”。

它不完美，依赖ElevenLabs的API（意味着需要网络），目前主要面向英语环境。但它指明了一个方向：未来的创作工具，应该是懂你的、会聊天的、能帮你完成脏活累活的伙伴，而不是一个需要你去学习它语言的黑箱子。

如果你也对视频创作感兴趣，却被繁杂的软件劝退，不妨去GitHub上搜一下video-use，按照本文的教程装起来试试。

对你的AI说：“帮我剪辑一下这个视频。”

然后，等着惊喜发生吧。