OpenClaw技能 - 开发、媒体与智能硬件类

OpenClaw技能 - 开发、媒体与智能硬件类_媒体处理类

一、UI自动化类

（1）技能名称：peekaboo

功能概述

专为macOS系统设计的全功能UI自动化CLI工具，提供屏幕捕获与检查、UI 元素定位、输入模拟、应用/窗口/菜单管理等核心能力。所有命令均支持--json/-j参数，便于脚本集成，同时提供视觉反馈动画、权限检查等辅助功能。

核心能力：

屏幕操作
：屏幕/窗口截图、应用/窗口/菜单列表查询、权限检查、快照缓存管理
交互模拟
：点击、拖拽、快捷键、文本输入、滚动、手势等操作
系统控制
：应用启动/停止/隐藏/切换、剪贴板读写、系统对话框处理、桌面空间管理

部署说明

适用系统
：darwin（macOS）
依赖要求
：需安装peekaboo二进制文件
安装方式
：

Code

brew install steipete/tap/peekaboo

权限配置
：需开启屏幕录制和辅助功能权限

常用命令示例

Code

peekaboo app launch "Safari" --open https://example.com

# 捕获指定区域的实时画面（30秒）
peekaboo capture live --mode region --region 100,100,800,600 --duration 30 --path /tmp/capture

二、媒体检索/处理类

（2）技能名称：gifgrep

功能概述

GIF 资源检索工具，支持通过 CLI/TUI 方式搜索 Tenor/Giphy 等平台的 GIF 资源，可下载搜索结果、提取 GIF 单帧或帧序列网格图，便于快速预览和分享。

部署说明

依赖要求
：需安装gifgrep二进制文件
安装方式
（二选一）：

Code

# brew安装
brew install steipete/tap/gifgrep

# Go安装
go install github.com/steipete/gifgrep/cmd/gifgrep@latest

环境配置：

使用 Giphy 需配置GIPHYAPIKEY

Tenor 可选配置TENORAPIKEY（未设置则使用演示密钥）

常用命令示例

Code

# 提取GIF指定时间点的单帧
gifgrep still ./clip.gif --at 1.5s -o still.png

# 生成GIF的9帧网格图（3列）
gifgrep sheet ./clip.gif --frames 9 --cols 3 -o sheet.png

（3）技能名称：video-frames

功能概述

基于 ffmpeg 实现的视频帧提取工具，支持提取指定时间点的单帧、生成缩略图，适用于视频内容快速检查。

部署说明

依赖要求
：需安装ffmpeg
安装方式
：

Code

brew install ffmpeg

常用命令示例

Code

{baseDir}/scripts/frame.sh /path/to/video.mp4 --time 00:00:10 --out /tmp/frame-10s.jpg

三、语音处理类

（4）技能名称：openai-whisper

功能概述

本地运行的OpenAIWhisper 语音转文字工具，无需API密钥，支持音频转录、翻译，输出多种格式文件。

部署说明

依赖要求
：需安装whisper
安装方式
：

Code

brew install openai-whisper

注意事项
：首次运行会自动下载模型到~/.cache/whisper

常用命令示例

Code

whisper /path/audio.m4a --task translate --output_format srt

（5）技能名称：sherpa-onnx-tts

功能概述

离线本地文本转语音工具，基于 sherpa-onnx 实现，无云端依赖，支持多系统（macOS/Linux/Windows）。

部署说明

适用系统
：darwin、linux、win32
环境配置
：需配置SHERPAONNXRUNTIMEDIR和SHERPAONNXMODELDIR环境变量
安装步骤
：
下载对应系统的 runtime 包并解压到指定目录
下载语音模型包并解压到指定目录
配置~/.openclaw/openclaw.json：

Code

{

"skills": {

"entries": {

"sherpa-onnx-tts": {

"env": {

"SHERPA_ONNX_RUNTIME_DIR": "~/.openclaw/tools/sherpa-onnx-tts/runtime",

"SHERPA_ONNX_MODEL_DIR": "~/.openclaw/tools/sherpa-onnx-tts/models/vits-piper-en_US-lessac-high"

}

常用命令示例

Code

# macOS/Linux生成语音文件
{baseDir}/bin/sherpa-onnx-tts -o ./tts.wav "Hello from local TTS."

# Windows生成语音文件
node {baseDir}\\bin\\sherpa-onnx-tts -o tts.wav "Hello from local TTS."

（6）技能名称：sag

功能概述

基于 ElevenLabsAPI的文本转语音工具，适配macOS风格的say命令体验，支持多语音模型、发音定制、情感标签等高级能力。

部署说明

依赖要求
：需安装sag，配置ELEVENLABSAPIKEY（或SAGAPIKEY）
安装方式
：

Code

brew install steipete/tap/sag

常用命令示例

Code

# 基础语音合成
sag "Hello there"

# 指定语音（Roger）合成
sag speak -v "Roger" "Hello"

# 列出可用语音
sag voices

# 生成带情感标签的语音（低语）
sag "[whispers] keep this quiet. [short pause] ok?"

# 生成指定语音文件（Clawd音色）
sag -v Clawd -o /tmp/voice-reply.mp3 "Your message here"

四、视觉/交互展示类

（7）技能名称：canvas

功能概述

在连接的 OpenClaw 节点（Mac/iOS/Android）上展示HTML内容，支持静态/交互式网页、可视化图表、游戏等，内置热重载、截图、JS执行等能力，集成 Tailscale 实现跨网络访问。

部署说明

架构
：Canvas Host（HTTP服务，端口18793）→ NodeBridge（TCP服务，端口18790）→ 节点应用
配置~/.openclaw/openclaw.json
：

Code

{
  "canvasHost": {
    "enabled": true,
    "port": 18793,
    "root": "/Users/you/clawd/canvas",
    "liveReload": true
  },
  "gateway": {
    "bind": "auto"
  }
}

常用命令示例

Code

# 导航到新URL
canvas action:navigate node:<node-id> url:<new-url>

# 捕获canvas截图
canvas action:snapshot node:<node-id>

# 隐藏canvas
canvas action:hide node:<node-id>

（8）技能名称：openai-image-gen

功能概述

基于OpenAIImages API批量生成图片，支持随机结构化提示词、多模型（GPTImage/DALL-E 2/3）、自定义尺寸/质量/格式，自动生成index.html画廊便于预览。

部署说明

依赖要求
：需安装 python3，配置OPENAIAPIKEY
安装方式
：

Code

brew install python

常用命令示例

Code

# 基础生成（默认参数）
python3 {baseDir}/scripts/gen.py

# 生成16张图片（GPT Image 1模型）
python3 {baseDir}/scripts/gen.py --count 16 --model gpt-image-1

# DALL-E 3生成高清风景图
python3 {baseDir}/scripts/gen.py --model dall-e-3 --quality hd --size 1792x1024 --style natural --prompt "serene mountain landscape"

# 生成透明背景WebP格式图片
python3 {baseDir}/scripts/gen.py --model gpt-image-1.5 --background transparent --output-format webp

# 打开生成的画廊页面
open ~/Projects/tmp/openai-image-gen-*/index.html

本文由清风科技观察员基于实际使用体验整理，转载请注明出处。