乐于分享
好东西不私藏

AI开源工具清单:从语音克隆到自动剪辑,这些项目值得收藏

AI开源工具清单:从语音克隆到自动剪辑,这些项目值得收藏

今天在整理文件夹的时候,我突然意识到一个问题。

我这一年下来,光是找到好用的AI工具、验证能不能跑通、研究怎么配置环境,花的时间可能比真正用起来的时间还多。

这种感觉太熟悉了。就跟当年学编程一样,光是配环境就配了一周,真正写代码反而只用了两天。

AI工具也是这样。前期调研的时间成本,有时候比工具本身的价值还高。

所以今天,我把最近折腾过的几个开源项目整理了一下。不整虚的,每个都带完整GitHub链接,保证你能直接clone下来跑通。


一、语音克隆工具:5秒音频就能克隆你的声音

先说一个最近让我特别兴奋的方向——语音克隆。

说实话,我以前觉得这东西是专业人士才能玩的。需要录音棚、需要高质量音频、需要大量算力。普通人根本沾不上边。

但现在不一样了。

GPT-SoVITS

GitHub: https://github.com/RVC-Boss/GPT-SoVITS

这个项目最大的特点是门槛低到什么程度呢?

你给它5秒的音频,它就能复刻出你的声音。

5秒。就录一句话的功夫。

我用它测试了一下,录了自己读的一段话,然后让它用我的声音读了一段完全不同的内容。效果怎么说呢,有七八分像了。

对于普通用户来说,最友好的地方在于它有Windows集成包。下载下来,双击一下,直接就能跑。不用折腾什么conda、Python环境这些。

它的核心功能包括:

  • Zero-shot TTS:5秒音频即时克隆
  • Few-shot TTS:1分钟训练数据微调,音色更逼真
  • 跨语言支持:中文、英文、日文、韩文、粤语都能跑

推理速度也不错。用RTX 4060Ti的话,1400字大概需要4分钟。如果是RTX 4090,那更快。

想体验的话,它有Hugging Face的在线Demo可以直接试:https://lj1995-gpt-sovits-proplus.hf.space/

CosyVoice

GitHub: https://github.com/FunAudioLLM/CosyVoice

这个是阿里出的开源项目。

相比GPT-SoVITS,它有一个很骚的功能——跨语种克隆。你给它一段中文音频,它可以用这个声音说英文。

坦率的讲,这对做跨境内容的朋友来说,应该挺有用的。

最低只需要3秒音频就能开始克隆,零样本复刻能力很强。多语言场景下用它会比较顺手。

F5-TTS

GitHub: https://github.com/SWivid/F5-TTS

上海交大开源的项目。

我是真的觉得,这个项目的强项是速度。极速推理,支持超长文本,而且可以做流式输出。

如果你是做批量生成的,比如需要快速生成大量语音内容,这个会非常合适。

我测试了一下,15秒的音频样本就能开始工作,生成出来的内容很流畅。

Fish-Speech

GitHub: https://github.com/fishaudio/fish-speech

这个项目的特点是什么?低延迟。

如果你做实时对话、数字人、语音助手这类场景,需要延迟越低越好。Fish-Speech就是为这个设计的。

它也支持多语言,中文效果不错。


二、自动剪辑视频:AI帮你剪掉口癖和废话

说完语音,再说说视频。

最近我花了点时间研究自动剪辑视频的工具。说真的,想看看AI能不能帮我把那些口播视频里的废话剪掉。

结果发现,这个领域已经有很多可以用的东西了。

video-use

GitHub: https://github.com/browser-use/video-use

这个是最近最火的一个。

它是一个Claude Code的Skill。简单来说,你把原始视频素材丢进一个文件夹,然后跟Claude Code对话,告诉它你想怎么剪辑,最后它会输出一个final.mp4。

核心功能包括:

  • 自动剪掉口头禅(嗯、啊、false start)和镜头间的空白
  • 自动对每个片段调色,支持暖色电影风、中性冲击感
  • 每个剪切点加30ms音频淡入淡出,消除爆音
  • 自动烧录字幕,默认两词一组全大写,可完全自定义
  • 通过Manim、Remotion或PIL生成动画叠加层
  • 每次渲染完成后在每个剪切点自动自评,通过后才呈现给你
  • 用project.md持久化会话记忆,下次打开继续上次进度

这个东西最骚的地方在于,它不是那种「一键剪辑」的黑盒。你可以通过对话来精细控制剪辑逻辑。比如「把所有出现’呃’的地方剪掉,但保留语速正常的地方」,这种模糊需求它都能理解。

安装方式也很简单:

git clone https://github.com/browser-use/video-usecd video-useln -s "$(pwd)" ~/.claude/skills/video-usepip install -e .brew install ffmpeg

需要Python 3.8以上,以及FFmpeg。

videocut-skills

GitHub: https://github.com/Ceeon/videocut-skills

这个是专门为口播视频设计的Claude Code Skill。

我测试了一下,19分钟的口播原片,丢进去,它自动识别了608处问题。其中静音114处,口误/重复494处。剪辑后视频72MB,全程AI辅助,人工只需要确认。

对比一下剪映,它有几个明显优势:

  • 语义理解:AI逐句分析,识别重说、纠正、卡顿。剪映只能模式匹配
  • 静音检测:超过0.3秒自动标记,可调节阈值。剪映是固定阈值
  • 重复句检测:相邻句开头超过5字相同就删前保后。剪映没有这个功能
  • 词典纠错:可以自定义专业术语词典。剪映没有
  • 自更新:记住你的偏好,越用越准

对于做口播内容的朋友来说,这个工具应该挺有用的。

Pilipili-AutoVideo

GitHub: https://github.com/OpenDemon/Pilipili-AutoVideo

这个项目的定位是全自动AI视频代理。

特点是「一句话生成带字幕成片」。你给它一个主题描述,它直接给你输出一段完整的视频。

支持本地部署。2026年3月刚刚做了大更新,修复了竖屏比例、角色一致性、风格漂移、字幕清洗等8个问题。

如果你想要一个完全自动化的流程,不想在剪辑上花太多时间,这个可以试试。

Crayotter

GitHub: https://github.com/idwts/Crayotter

这个项目的核心理念很有意思。

它把视频生成拆成了三个阶段:规划、剪辑研究、工具执行。不是把所有过程塞进一个大模型,而是分工合作。

每个阶段专注做一件事,串联起来完成整个视频创作流程。

有在线演示可以体验:https://idwts.github.io/Crayotter


三、LLM应用模板库:100多个可以直接跑的Agent

说完具体的工具,再说一个让我眼前一亮的项目。

awesome-llm-apps

GitHub: https://github.com/Shubhamsaboo/awesome-llm-apps

这个项目收录了100多个LLM应用模板,全部可以clone下来直接跑。

许可证是Apache-2.0,可以商用,没有付费墙、没有注册、没有遥测。

它的定位是「LLM应用的Cookbook」。就像做菜有食谱,做LLM应用有这个模板库。

模板按功能分类:

  • Starter AI Agents(12个):单文件Agent,只需API key即可运行
  • Advanced AI Agents(21个):生产级Agent,含工具、记忆、多步推理
  • Multi-agent Teams(13个):多Agent协作
  • Voice AI Agents(4个):语音Agent
  • MCP AI Agents(5个):MCP协议Agent
  • RAG(19个):检索增强生成
  • Agent Skills(19个):Agent技能系统

每个模板都是手写的原创代码,经过端到端测试才发布。3条命令就能运行,没有坏的requirements.txt。

支持的模型也很全面:Claude、Gemini、GPT、Llama、Qwen、xAI,一行配置就能切换。

快速开始:

git clone https://github.com/Shubhamsaboo/awesome-llm-apps.gitcd awesome-llm-apps/starter_ai_agents/ai_travel_agentpip install -r requirements.txtstreamlit run travel_agent.py

每个模板都有免费的step-by-step教程,地址是 https://www.theunwindai.com


说在最后

如果你也在折腾这些工具,别嫌麻烦。多花点时间把环境配好、把流程跑通,后面会省很多事。

这种投资,值。


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。

作者:剑飞,本文共3800字