乐于分享
好东西不私藏

OpenClaw 到底有哪些 Skill?拆完源码我愣住了

OpenClaw 到底有哪些 Skill?拆完源码我愣住了

大家好,这里是Microlab微造局

因为最近做了一个事情,基于PC集成了打包了一个OpenClaw到APP里,然后接入了大模型,自定义了聊天框,来使用OpenClaw,为了进一步研究它,所以就写了一篇文章,分享一下我的发现。

我其实也直在想一个问题,OpenClaw 这个东西,它到底能干啥?

不是那种架构图上的「Agent 层、Gateway 层、Provider 层」,那些太抽象了。我想搞明白的是,当你真的跟 OpenClaw 聊天的时候,它手里有哪些牌?

这两天我把 OpenClaw 的源码翻了一遍,重点看了 skills/ 目录下的 53 个 Skill,每个都读了 SKILL.md。

看完我是真的觉得OpenClaw 考虑得挺全面,觉得哇,怎么这么多,好强!

先说清楚,Skill 是什么

在聊具体有哪些 Skill 之前,需要先搞明白一件事,OpenClaw 的 Skill 不是传统意义上的「插件」或者「API」。

它本质上是一份入职指南

你可以这么理解,一个刚入职的实习生(Agent),他什么都不会。你给他一份文档,告诉他「遇到这种情况就这么干」,他就会了。Skill 就是这份文档。

每个 Skill 就是一个文件夹,里面有个 SKILL.md,用 YAML 写了元数据,用 Markdown 写了操作手册。Agent 启动的时候会扫一遍所有合格的 Skill,把它们的名字和描述塞进系统提示词里。等用户提了个需求,Agent 一看,「哦这个任务跟 weather 这个 Skill 描述匹配」,就把那个 SKILL.md 读进来,按里面的步骤执行。

坦率的讲,这个设计思路我觉得还是挺巧妙的。它没有用传统的代码插件机制,而是用纯文本来教 Agent 干活。这意味着你不需要写一行代码就能给 Agent 加新能力,写个 Markdown 就行。

53 个 Skill,我给分了 13 类

好,下面是正菜。我把 53 个内置 Skill 按功能分了类,每个都说说它干啥。

1. 通讯消息(7 个)

这块数量最多,也最能体现 OpenClaw 的定位,它本质上是个消息中间件。

  • bluebubbles — 通过 BlueBubbles 收发 iMessage,支持 tapback 表情回复、编辑撤回、群组管理

  • imsg — macOS 原生 iMessage/SMS CLI,列出聊天、查历史、发消息

  • himalaya — 通过 IMAP/SMTP 管理邮件,收发、搜索、归档,支持多账户

  • discord — 在 Discord 频道发消息、加反应、置顶、搜索、创建投票

  • slack — Slack 消息管理,发消息、加反应、置顶取消置顶、查成员信息

  • wacli — WhatsApp CLI,给第三方发消息、同步搜索聊天记录

  • voice-call — 语音通话,支持 Twilio、Telnyx、Plivo 三个运营商

你想想这意味着什么。。。

不对,这句话太 AI 了。

我换个说法,你把这 7 个加在一起想一下。一个 Agent,它能同时管你的 iMessage、邮件、Discord、Slack、WhatsApp,还能打电话。这已经不是一个聊天机器人了,这是个全渠道通讯管家。

2. 开发者工具(7 个)

作为程序员,这块我看得最仔细。

  • coding-agent — 这个最猛。它能把编码任务分派给 Codex、Claude Code、OpenCode 或 Pi,在后台并行跑。你可以同时开好几个 Codex 进程,每个修不同的 bug。修完了通过 openclaw message send 通知你

  • gh-issues — GitHub Issues 自动修复编排器。抓 issue → 分析 → 分派给子 Agent → 提 PR → 跟踪 review,全自动

  • github — GitHub CLI 技能,查 PR 状态、CI 日志、创建 issue、合并 PR

  • gemini — 调用 Gemini CLI 做一次性问答

  • oracle — 把 prompt 和文件打包发给另一个模型做 second opinion,比如让 GPT-5.2 Pro 帮你审代码

  • tmux — 远程控制 tmux 会话,发键盘输入、抓输出,用来监控 Claude Code 的后台进程

  • node-connect — 诊断 OpenClaw 移动端节点的配对和连接问题

coding-agent 这个 Skill 我读了好一会。它的设计哲学是「编排器模式」,Agent 自己不写代码,而是把活派给专业的编码 Agent。就像一个技术经理,手下有 Codex、Claude Code、Pi 这些干活的,它负责分配任务、监控进度、收集结果。

而且它强制要求所有编码任务都 background:true,后台运行。结合 tmux Skill,你可以同时开 5 个 worktree,每个里面跑一个 Codex 修不同的 issue,Agent 用 tmux 去轮询每个的进度。

这个并行能力太离谱了。

3. 笔记与知识管理(4 个)

  • apple-notes — 通过 memo CLI 管理 Apple Notes

  • bear-notes — 通过 grizzly CLI 管理 Bear 笔记

  • notion — 通过 Notion API 管理页面、数据库和块

  • obsidian — 操作 Obsidian 保险库里的 Markdown 笔记

这块挺实用的。你跟 Agent 说「帮我在 Notion 里建个数据库记录一下这次调研」,它就真的能做。

4. 任务管理(5 个)

  • apple-reminders — macOS 提醒事项,添加、完成、删除

  • things-mac — Things 3 待办事项管理

  • trello — Trello 看板操作

  • taskflow — 多步骤持久化任务编排,支持状态、等待、子任务

  • taskflow-inbox-triage — TaskFlow 的收件箱分类示例

taskflow 这个比较有意思,它不是外部工具的包装,而是 OpenClaw 自己的任务运行时。你可以创建一个长期运行的工作流,让 Agent 在不同会话之间保持状态。比如「帮我分类收件箱,商务的发到 Slack,私人的直接通知我,其他的攒到下班前汇总」。

5. 语音与 TTS(4 个)

  • openai-whisper — 本地语音转文字,不需要 API Key

  • openai-whisper-api — 通过 OpenAI API 转录音频

  • sag — ElevenLabs 文本转语音,支持情绪标签 [whispers][shouts][laughs]

  • sherpa-onnx-tts — 纯本地离线 TTS,不走云端

sag 这个 Skill 支持的情绪标签挺好玩的,你可以让 Agent 用耳语说一段话 [whispers] keep this quiet,或者兴奋地喊 [excited] 太棒了!

6. 媒体处理(4 个)

  • camsnap — RTSP/ONVIF 摄像头抓帧和录像

  • canvas — 在 OpenClaw 客户端(Mac/iOS/Android)上展示 HTML 内容

  • gifgrep — 搜索 GIF、下载、提取静帧和缩略图

  • video-frames — 用 ffmpeg 从视频提取帧

canvas 是个容易被忽视但很强的能力。它在客户端上开了个 WebView,Agent 可以往里面推 HTML 内容。你写个简单的 HTML 游戏放进去,就能在手机上跟 AI 一起玩。

7. 音乐与音频控制(3 个)

  • blucli — 控制 Bluesound/NAD 音响

  • sonoscli — 控制 Sonos 音箱

  • spotify-player — 终端控制 Spotify 播放

跟 Agent 说「播放 Spotify 上的 Lo-fi 歌单」,它就帮你放。这块主要是智能家居联动用的。

8. 智能家居(2 个)

  • eightctl — Eight Sleep 智能床垫控制,温度、闹钟、日程

  • openhue — Philips Hue 灯光和场景控制

说实话我觉得这两个 Skill 特别能代表 OpenClaw 的野心。它不只是想做个聊天机器人,它想做你生活中的通用管家。「睡前模式,灯光调暗到 20%,床垫温度设到 20 度」,一句话搞定。

9. 数据与内容(6 个)

  • summarize — URL、YouTube、PDF、播客、文章的摘要和转录

  • blogwatcher — 监控博客和 RSS 源的更新

  • nano-pdf — 用自然语言编辑 PDF

  • xurl — X(Twitter)API 操作,发帖、搜索、DM

  • session-logs — 搜索自己的历史会话日志

  • model-usage — 统计模型使用成本

summarize 这个用得会比较多,你丢个 YouTube 链接过去,它直接给你出摘要。

10. 位置与天气(2 个)

  • goplaces — Google Places 搜索,找餐厅、查评论

  • weather — 天气查询和预报,用的是 wttr.in,不需要 API Key

11. Google 办公(2 个)

  • gog — Google Workspace 全家桶 CLI,Gmail、Calendar、Drive、Contacts、Sheets、Docs

这个 gog 的覆盖面很广,一个 Skill 包了 Google 六个产品。

  • ordercli — Foodora 外卖订单查询

这个。。。好吧,可能是作者自己点外卖用的。

12. 安全与运维(3 个)

  • healthcheck — 审计和加固运行 OpenClaw 的主机安全

  • 1password — 通过 1Password CLI 管理密钥

  • mcporter — MCP 服务器管理,列出、配置、调用 MCP 工具

healthcheck 这个 Skill 写得非常详细,它会检查 SSH 配置、防火墙、暴露面、cron 任务,然后给出加固建议。它甚至会建议你用什么级别的模型来跑这个审计(推荐 Opus 4.5 或 GPT 5.2+)。

13. Skill 生态系统(2 个)

  • clawhub — ClawHub 技能注册表,搜索、安装、发布技能

  • skill-creator — 创建和优化 Skill 的元技能

这两个是「meta skill」,用来管理和创建其他 Skill 的。ClawHub 是 OpenClaw 的公共技能市场,你可以从上面安装别人写的 Skill,也可以把自己的 Skill 发布上去。

Skill 系统的技术设计,说几个我觉得有意思的点

门控机制

不是所有 Skill 都会被加载。每个 Skill 的 YAML 元数据里可以声明依赖条件,

  • requires.bins — 需要哪些命令行工具在 PATH 上

  • requires.env — 需要哪些环境变量

  • requires.config — 需要 openclaw.json 里的哪些配置

  • os — 只在特定操作系统上生效

比如 apple-notes 声明了 os: ["darwin"] 和 requires.bins: ["memo"],在 Linux 上或者没装 memo 的 Mac 上,它就不会出现在 Agent 的可用技能列表里。

这种设计确保了 Agent 只看到当前环境能用的技能,不会尝试调用一个根本不存在的工具然后报错。

快照机制

OpenClaw 在会话开始时对合格 Skill 拍一个快照,整个会话期间复用。修改了 Skill 文件不会立即生效,要开新会话。但它也支持文件监听热重载,改了 SKILL.md 后下一个 Agent 回合就能用上新版本。

环境注入

当 Agent 回合开始时,OpenClaw 会把 skills.entries..env 和 apiKey 注入到 process.env 里,回合结束后恢复。这意味着你在配置里填的 API Key 只在 Agent 实际执行技能的时候才会暴露,不会全局泄露。

每个 Agent 可以看到不同的 Skill

配置里可以给不同的 Agent 设置不同的技能允许列表,

{  "agents": {    "defaults": { "skills": ["github", "weather"] },    "list": [      { "id": "writer" },      { "id": "docs", "skills": ["docs-search"] },      { "id": "locked-down", "skills": [] }    ]  }}

writer 继承默认的 github 和 weather,docs 只看到 docs-search,locked-down 啥技能都没有。

Skill Workshop,让 Agent 自己学会新技能

翻源码的时候发现了一个实验性插件叫 Skill Workshop,这个东西挺有意思的。

它的作用是,Agent 在跟你聊天的过程中,如果发现了一个可复用的工作流程,它会自动把这个流程提取出来,写成一个新的 Skill。

它有三条捕获路径,

第一条是显式调用。Agent 直接调用 skill_workshop 工具说「我觉得这个流程应该被记住」。

第二条是启发式捕获。当你说「下次记得先验证 GIF 的归属信息」「以后都用这个方式」这种纠正性语句时,它会自动识别并创建提案。

第三条是 LLM 审查器。到了一定阈值(默认 15 个回合或 8 次工具调用)后,它会启动一个内嵌的小模型来审查最近的对话,看有没有值得提取的流程。

生成的提案会经过安全扫描,检测是否包含 prompt 注入、shell 管道攻击、密钥外泄等。有问题的会被隔离,安全的会进入待审批队列(或者自动写入)。

说白了。。。

不对,禁用词。

坦率的讲,这就是给 Agent 加了一个「长期程序性记忆」。它不是记住你说了什么(那是 Memory 的事),而是记住该怎么做

回过头来想想

53 个 Skill,覆盖了通讯、开发、笔记、任务、语音、媒体、音乐、智能家居、数据、位置、办公、安全、元管理。

再加上 100+ 个 Extension(模型提供商、消息通道、记忆系统等),OpenClaw 的能力矩阵已经远超一个「AI 聊天中间件」的范畴了。

我在 KM 那篇文章里说 OpenClaw 是「AI 对话中间件」,现在回看觉得这个定义太窄了。它更像是一个AI 能力操作系统,Skill 就是它的应用生态。

而且这个生态是开放的。你写个 SKILL.md,放到 ~/.openclaw/skills/ 下面,下次开会话它就会自动加载。不需要编译,不需要注册,不需要审核。一个 Markdown 文件就是一个新能力。

写到这里忍不住感叹一下,OpenClaw 的 Skill 体系有点像当年 iOS App Store 刚出来的时候。平台提供了基础设施(Gateway + Agent + 工具调用),社区提供内容(Skill)。平台每次更新只需要加几个新的底层能力,社区就会涌出一大堆新玩法。

目前 ClawHub 上已经有公共技能市场了,虽然还在早期,但方向对了。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。