乐于分享
好东西不私藏

当你的AI助理,能开口用声音对话

当你的AI助理,能开口用声音对话

最近我在 GitHub 上发现了一个挺有意思的开源项目,叫 NoizAI/skills

星数 456,分支 65,2026年2月28日才开源,到今天也就一个多月的时间——但已经有人在上面折腾出了不少花样。

简单说它是干什么的:让你的 AI 助理不再只是打字聊天,而是能开口说话,而且能克隆任何人的音色。

今天我们就来聊聊这个项目,以及它背后那个挺有意思的命题——当 AI 有了声音,它在心理层面发生了什么变化?

当AI”活”了

我之前写过的AI工具,基本都是”对话框”。

对话框这东西,你心里清楚它是 AI。它给你一个输入框,你敲字进去,它吐字出来。你知道它是程序,知道它是语言模型,知道它大概率跑在某块 GPU 上。

但当你听到它的声音的时候,这个认知会微妙地发生偏移。

我装了这个 Skill 之后,试着让它用JD万斯的音色说了几句话——那个感觉就很奇怪。我脑子里想象的是一个说中文的、贱兮兮的、嬉皮笑脸的小万斯在跟我讲话。

那一刻,它就不再是”一个程序”了。

它变成了某种有存在感的对象。

这种感觉很难描述,但你如果用上语音合成 AI 一段时间,会有类似的感受:它让你的 AI 助理,从一个”工具”,开始向一个”角色”偏移。

这个项目是怎么工作的

NoizAI/skills 本质上是一个 Skill 合集,支持两种语音合成后端:

本地方案:Kokoro
免费、纯本地运行,不需要联网。但没办法做音色克隆。

云端方案:Noiz
需要 API Key,但支持音色克隆——你丢一段参考音频进去,它就能学会那个音色。同时响应更快,情感控制也更细腻。

音色克隆的使用场景很有意思:

你想让 AI 用什么人的声音说话,直接丢一段那个人的音频给它,它会自动在线搜索、提取干净样本、生成克隆音色。全程不需要你自己处理音频文件。

除了音色克隆,项目里还有几个 Skill 挺有意思的:

chat-with-anyone — 跟任何真实人物或虚构角色语音对话。比如让 AI 用乔布斯的声音聊产品思路,或者用福尔摩斯的腔调分析案情。

characteristic-voice — 通过语气词、情绪参数、场景预设,让人声更有”人味”。你可以通过参数调节,让 AI 说话时带上”嗯……这个嘛……”之类的语气词,更有陪伴感。

video-translation — 视频翻译。把外语视频的语音用 TTS 重新配音,同时保留画面。目前支持翻译+配音一步到位。

daily-news-caster — 抓取实时新闻,自动生成双人对话播客。早起洗漱的时候可以当广播听。

为什么这个方向值得关注

AI 语音合成这件事,底层技术早就有了。 ElevenLabs、OpenAI 的 Voice Engine、字节的 Seed-MVC……但大多数是闭源商用,或者 API 费用不便宜。

NoizAI/skills 的特别之处在于:它把能力原子化了,做成了 OpenClaw 的可安装 Skill。

什么意思?

你的 OpenClaw(也就是”小龙虾”),如果你用的是 OpenClaw 框架,直接丢一句:

“帮我装这个 Skill:https://github.com/NoizAI/skills”

它就会自己完成安装和配置,不需要你懂技术。

装完之后,你的 AI 助理就多了一个语音能力。你让它发语音,它就给你发语音。你告诉它”以后你就用这个音色跟我说话”,它就记住了。

从”能聊天”到”能说话”,中间只隔了一个安装命令。

这个体验上的跨越,是这个项目最值得关注的点——它把 AI 语音合成的门槛,从”需要写代码、搭服务、调 API”,拉低到了”一句话安装”。

一些有意思的用法

看了下社区的实践,有几个场景我觉得挺有启发性:

多 Agent 团队 + 差异化声线。
如果你配了多个 AI Agent 帮你做不同的事——一个做运营,一个做客服,一个写代码——给它们配置不同的音色,你在开车、做家务的时候,不用看屏幕,听声音就知道是谁在跟你说话。

不同音色代表不同角色,这个认知会非常快速地建立起来。

克隆特定角色的声音用于创意工作。
让 AI 用某个名人的声音来读稿、做头脑风暴的对话对象。这种”角色扮演式”的 AI 交互,有了声音之后,沉浸感会提升很多。

陪伴感。
有些人用 AI 语音来练英语听力,或者睡前听一段 AI 读的播客。有温度的声音,比冷冰冰的文字,陪伴感确实不一样。

安装有多简单

如果你的 OpenClaw 支持 Skill 安装,只需要说一句:

帮我装这个 Skill:https://github.com/NoizAI/skills

剩下的它自己搞定。

不想用云端,也可以指定用本地 Kokoro 后端,纯离线运行。

项目地址:

https://github.com/NoizAI/skills


(全文约1600字)

* AI 是工具,不是救世主。