我给我的AI小龙虾装上了特朗普的声音,结果笑疯了-夜雨聆风

我给我的AI小龙虾装上了特朗普的声音,结果笑疯了

当你的AI助手突然开口说话，还用的是你偶像的声音，那种感觉真的太奇妙了。

事情是这样的。

前段时间我在GitHub上逛，发现了一个刚刚开源的Skill项目，名字叫NoizAI/skills。看描述说，它能让你的OpenClaw小龙虾开口说话，甚至能克隆任何人的音色。

我当时的第一反应是：真的假的？

于是我就试了试。结果一发不可收拾。

现在我的小龙虾“钱多多”用的音色是克隆的川普。每次它一本正经地用那种腔调跟我汇报工作进度，我就忍不住笑出声来。

但这还不是最离谱的。最离谱的是，这种“有声音”的AI，在心理层面上突然就有了存在感。以前它只是一个聊天框里的文字流，你看完就忘了。现在它一开口，你感觉旁边坐着一个人。

这种变化，真的很微妙。

01 先听听效果，笑死我了

装好这个Skill之后，我做的第一件事，就是找了一段川普的演讲音频，丢给了我的OpenClaw小龙虾“钱多多”。

它干了两件事：

第一，它分析并克隆了川普的音色。第二，它把这个音色设为了自己的默认声音。

然后我让它说了一句中文。

你们猜怎么着？

一个操着川普口音、但说着标准普通话的小龙虾，就这么诞生了。

那种感觉很难形容。声音里带着川普特有的那种抑扬顿挫和略带夸张的语调，但内容又是正经的“老板，今天的代码任务已经完成了”。

我听完直接笑喷了。

后来我去翻了翻GitHub上其他用户的反馈，发现大家都玩得很嗨。有人在飞书群里给自己的不同Agent配了不同声音——一个做运营，一个做客服，一个写代码。每个Agent开口说话的时候，光靠声音就知道是谁在发言。

还有人把这个Skill接入了Telegram和WhatsApp。开车的时候、做饭的时候，不用看屏幕，Agent直接语音汇报，方便得不行。

有网友评论说：“感觉我旁边坐了一整个办公室。”

02 安装特别简单，一句话的事

好了，不卖关子了。我直接说怎么装。

前提是你已经有一个OpenClaw小龙虾环境。如果没有的话，先去GitHub上把OpenClaw跑起来，这里就不展开说了。

安装这个语音Skill，真的只需要一句话。

在你的小龙虾对话框里输入：

帮我装这个 Skill：https://github.com/NoizAI/skills

然后你的小龙虾就会自己去读取那个GitHub仓库，自动下载安装。

就是这么简单。

装完之后，它会提示你有两种模式可选：

本地模式（Kokoro）

：完全离线运行，不需要联网。需要下载一个模型文件，优点是隐私安全、免费。缺点是不能克隆音色，只能用默认的几个声音。
云端模式（Noiz）

：需要注册一个Noiz API Key，有免费额度。优点是能克隆音色，而且音质更好。我自己用的就是云端模式。

我建议你先用云端模式，因为免费额度足够你玩很久了。注册也很简单，去Noiz AI官网注册一下，拿到API Key，然后告诉你的小龙虾：

配置一下 Noiz API Key，我的Key是xxxx

它会自己帮你配置好。

配置完成之后，你就可以让你的小龙虾说话了。

03 怎么让它用你想要的音色

这里有两个方法。

方法一：从官方音色库选

你可以直接问小龙虾：“帮我看看有哪些音色可以选？”它会返回一个列表，里面有各种各样的声音——男女老少、不同语言、不同风格。你选一个喜欢的，告诉它“以后就用这个音色了”。

方法二：克隆任意音色（这才是精髓）

你找一段目标人物的音频文件，比如一段演讲、一段播客、或者你自己的录音。把这段音频发给小龙虾，然后对它说：

“克隆这段音频的音色。”

它会自己处理。等几秒钟，它会告诉你“克隆成功啦”。

这时候你再说一句：

“记住，刚刚克隆的这个音色就是你的音色了。以后我让你发语音的时候，你就用这个音色。”

然后它就记住了。

以后你让它说话，它就会用那个声音回复你。

我克隆的是川普。有网友克隆了马斯克、林志玲、甚至自己的声音。还有人说，他给公司的客服Agent克隆了他们公司老板娘的声音，客户打电话进来还以为是在跟真人聊天。

04 什么场景下最有用？

我用了几天之后，发现这个东西最香的地方不是“好玩”，而是“好用”。

场景一：开车或做家务时

以前我在开车的时候，如果想让AI帮我查个东西或者安排个任务，我要么停下来打字，要么语音输入然后看屏幕上的回复。眼睛还是得离开路面。

现在不需要了。我直接对着小龙虾说话，它用语音回复我。我甚至不用看屏幕，听声音就知道它说了什么。它把事情办完之后，还会主动告诉我：“老板，搞定了。”

场景二：多个Agent协作时

如果你用OpenClaw的Agent Teams功能，同时跑了几个不同角色的Agent，视觉上很难区分谁是谁。都挤在同一个聊天窗口里，你得分不清哪个是回答你的。

但是一旦给每个Agent配上不同的声音，情况就完全不同了。运营Agent用温柔女声，客服Agent用沉稳男声，代码Agent用川普声。你闭着眼睛，光听声音就知道谁在说话。

这种感觉，就像你身边真的坐着三个不同性格的助理。

场景三：情感陪伴场景

我觉得这个是未来最有可能爆发的方向。

文字聊天和语音聊天的心理感受是完全不一样的。文字是冷冰冰的，语音是有温度的。尤其当你给AI配上一个你喜欢的、熟悉的声音时，你会不自觉地把它当成一个“人”来对待。

有个网友在GitHub issue里写道：“我给小龙虾克隆了我已故爷爷的声音，然后让它用那个声音跟我聊天。有点想哭。”

虽然这个用法有点沉重，但它确实说明了一件事：声音，是AI人格化最重要的一块拼图。

05 关于NoizAI/skills这个开源项目

说完了玩法，咱们正经介绍一下这个项目。

项目地址：https://github.com/NoizAI/skills

这是一个由Noiz AI平台开源的项目。Noiz AI本身是一家专注于语音AI的公司，他们的核心技术包括高质量语音克隆、情感化TTS、YouTube视频摘要等。

这次他们开源的skills项目，不只是简单的一个“文本转语音”工具包，而是一整套面向AI Agent的语音能力集合。

目前这个仓库包含了5个核心Skill：

Skill 1：文本转语音

支持Kokoro本地引擎和Noiz云端引擎。特点是可以精确控制时长、时间轴渲染，以及最重要的——参考音频音色克隆。就是上面我用到的那个功能。

Skill 2：用目标人物的声音进行对话

这个Skill更强。你不需要自己准备音频文件。你只要告诉小龙虾一个名字，比如“我想用奥巴马的声音”，它会自动去网上搜索奥巴马的公开演讲，提取干净的参考样本，然后克隆音色并生成语音回复。

整个过程全自动。

Skill 3：特色语音

这个Skill主要给语音加上“人味儿”。它支持语气词（嗯、啊、哦）、情绪参数（开心、严肃、生气）、场景预设（客服、闲聊、紧急通知）。生成的语音不再是冷冰冰的朗读，而是带着情绪的说话。

Skill 4：视频翻译

这是一个比较进阶的功能。你给小龙虾一个视频文件或者YouTube链接，它可以把视频里的语音翻译成另一种语言，然后用TTS生成配音并替换原音轨，同时保留视频画面和背景音。

相当于AI做了一次完整的视频配音+翻译。

Skill 5：安装与管理

提供了一个命令行工具，用来管理Skill的安装、列表、更新、删除。

命令行示例：

# 查看可安装的技能
npx skills add NoizAI/skills --list --full-depth

# 安装指定的技能
npx skills add NoizAI/skills --full-depth --skill tts -y

# 从GitHub仓库安装
npx skills add <owner>/<repo>

# 本地开发调试
npx skills add . --list --full-depth

如果你是自己开发Skill，也可以用这个命令行做本地调试。

06 一些你可能遇到的坑和解决办法

我在安装和使用过程中遇到了几个小问题，这里写出来，你们可以少走弯路。

问题1：小龙虾没办法给我发语音条

这个是最常见的问题。如果你在飞书里用，语音条的正确发送方式不是直接发mp3文件。

飞书的语音消息需要满足这几个条件：

文件格式必须是opus，不是mp3
发送时需要用到chat_id作为receive_id
消息类型是audio，content里要包含file_key和duration

更简单的方法：你直接跟小龙虾对话，让它自己学习。你给它说：“你现在给我发一条语音消息。”它会尝试，如果失败了，它会把错误信息反馈回来，然后自己调整。

如果实在搞不定，你就把下面这段话原封不动发给小龙虾：

“飞书语音条正确的发送方式：上传文件：file_type=opus，需要 receive_id_type=chat_id 和 receive_id。发送消息：msg_type=audio，receive_id_type=chat_id，content 包含 file_key 和 duration。”

它看完就会懂了。

问题2：克隆的音色不太像

这是因为你给的参考音频质量不高。最好用目标人物没有背景噪声、语速正常、长度在10-30秒之间的音频。如果是演讲片段，选清晰的那几秒。

另外，如果你用中文的参考音频去克隆，然后让AI说英文，效果会差一些。反过来也一样。尽量保持语言一致。

问题3：本地Kokoro模式不发音

Kokoro需要下载模型文件，大概几百MB。确保你的网络能连上Hugging Face或者镜像源。如果下载失败，可以手动下载模型放到指定目录。具体路径小龙虾安装的时候会告诉你。

07 一个值得期待的AI方向

NoizAI这个开源项目，我觉得最大的意义不在于“给AI装个声音”，而在于它展示了AI Agent能力的一个新维度——多模态主动交互。

过去的AI Agent，你问它答，它像一台被动的机器。现在它有了声音，你甚至可以不用主动问，它可以在合适的时机主动“说”给你听。

比如你让它去监控一个数据指标，一旦异常，它会主动给你发一条语音：“老板，订单量突然跌了30%，要不要看一下？”

这种体验，和看一条推送通知是完全不同的。

而且随着Agent Teams的流行，未来每个人身边可能会有几十个不同角色的AI助理在同时工作。如果它们都用文字跟你沟通，你的聊天窗口会被刷爆。但如果你给每个助理分配一个独特的声音，你就可以像一个大老板一样，光靠听就知道谁在说什么。

这可能是AI人机交互的一个新范式。

再往远了想，如果再加上视觉、加上身体，那就是真正的“数字人”了。

但那是后话。至少现在，你可以花几分钟，给你的OpenClaw小龙虾装上一个声音，让它活过来。

08 最后说两句

这个项目是刚刚开源的，代码还很新。如果你遇到问题，可以去看GitHub仓库的Issues，或者去Discord群里问。

作者很活跃，回复也很快。国内用户如果访问GitHub不方便，可以用镜像站，或者下载下来本地装。

另外，如果你是开发者，也可以参考这个项目的实现，给你的AI Agent加上语音能力。它本质上是一套Skills框架，你可以基于它开发更多有趣的功能。

比如：让AI朗读长文章、让AI做多语言配音、让AI用特定情绪跟你聊天……

想象空间很大。

好了，不废话了。

给AI装上声音这件事，一定要自己动手试一次。当你听到你的小龙虾开口说话的那一刻，你就知道我在说什么了。

GitHub地址：https://github.com/NoizAI/skills

安装命令（在你的OpenClaw对话框里输入）：

帮我装这个 Skill：https://github.com/NoizAI/skills

玩得开心。