专为macOS系统设计的全功能UI自动化CLI工具,提供屏幕捕获与检查、UI 元素定位、输入模拟、应用/窗口/菜单管理等核心能力。所有命令均支持--json/-j参数,便于脚本集成,同时提供视觉反馈动画、权限检查等辅助功能。
核心能力:
- 屏幕操作
:屏幕/窗口截图、应用/窗口/菜单列表查询、权限检查、快照缓存管理 - 交互模拟
:点击、拖拽、快捷键、文本输入、滚动、手势等操作 - 系统控制
:应用启动/停止/隐藏/切换、剪贴板读写、系统对话框处理、桌面空间管理
- 适用系统
:darwin(macOS) - 依赖要求
:需安装 peekaboo二进制文件 - 安装方式
:
Code
brew install steipete/tap/peekaboo- 权限配置
:需开启屏幕录制和辅助功能权限
Code
peekaboo app launch "Safari" --open https://example.com
# 捕获指定区域的实时画面(30秒)
peekaboo capture live --mode region --region 100,100,800,600 --duration 30 --path /tmp/captureGIF 资源检索工具,支持通过 CLI/TUI 方式搜索 Tenor/Giphy 等平台的 GIF 资源,可下载搜索结果、提取 GIF 单帧或帧序列网格图,便于快速预览和分享。
- 依赖要求
:需安装 gifgrep二进制文件 - 安装方式
(二选一):
Code
# brew安装
brew install steipete/tap/gifgrep
# Go安装
go install github.com/steipete/gifgrep/cmd/gifgrep@latest- 环境配置:
GIPHYAPIKEYTENORAPIKEY(未设置则使用演示密钥)Code
# 提取GIF指定时间点的单帧
gifgrep still ./clip.gif --at 1.5s -o still.png
# 生成GIF的9帧网格图(3列)
gifgrep sheet ./clip.gif --frames 9 --cols 3 -o sheet.png基于 ffmpeg 实现的视频帧提取工具,支持提取指定时间点的单帧、生成缩略图,适用于视频内容快速检查。
- 依赖要求
:需安装 ffmpeg - 安装方式
:
Code
brew install ffmpegCode
{baseDir}/scripts/frame.sh /path/to/video.mp4 --time 00:00:10 --out /tmp/frame-10s.jpg本地运行的OpenAIWhisper 语音转文字工具,无需API密钥,支持音频转录、翻译,输出多种格式文件。
- 依赖要求
:需安装 whisper - 安装方式
:
Code
brew install openai-whisper- 注意事项
:首次运行会自动下载模型到 ~/.cache/whisper
Code
whisper /path/audio.m4a --task translate --output_format srt离线本地文本转语音工具,基于 sherpa-onnx 实现,无云端依赖,支持多系统(macOS/Linux/Windows)。
- 适用系统
:darwin、linux、win32 - 环境配置
:需配置 SHERPAONNXRUNTIMEDIR和SHERPAONNXMODELDIR环境变量 - 安装步骤
: 下载对应系统的 runtime 包并解压到指定目录 下载语音模型包并解压到指定目录 配置 ~/.openclaw/openclaw.json:
Code
{
"skills": {
"entries": {
"sherpa-onnx-tts": {
"env": {
"SHERPA_ONNX_RUNTIME_DIR": "~/.openclaw/tools/sherpa-onnx-tts/runtime",
"SHERPA_ONNX_MODEL_DIR": "~/.openclaw/tools/sherpa-onnx-tts/models/vits-piper-en_US-lessac-high"
}
}
}
}
}
Code
# macOS/Linux生成语音文件
{baseDir}/bin/sherpa-onnx-tts -o ./tts.wav "Hello from local TTS."
# Windows生成语音文件
node {baseDir}\\bin\\sherpa-onnx-tts -o tts.wav "Hello from local TTS."基于 ElevenLabsAPI的文本转语音工具,适配macOS风格的say命令体验,支持多语音模型、发音定制、情感标签等高级能力。
- 依赖要求
:需安装 sag,配置ELEVENLABSAPIKEY(或SAGAPIKEY) - 安装方式
:
Code
brew install steipete/tap/sagCode
# 基础语音合成
sag "Hello there"
# 指定语音(Roger)合成
sag speak -v "Roger" "Hello"
# 列出可用语音
sag voices
# 生成带情感标签的语音(低语)
sag "[whispers] keep this quiet. [short pause] ok?"
# 生成指定语音文件(Clawd音色)
sag -v Clawd -o /tmp/voice-reply.mp3 "Your message here"
在连接的 OpenClaw 节点(Mac/iOS/Android)上展示HTML内容,支持静态/交互式网页、可视化图表、游戏等,内置热重载、截图、JS执行等能力,集成 Tailscale 实现跨网络访问。
- 架构
:Canvas Host(HTTP服务,端口18793)→ NodeBridge(TCP服务,端口18790)→ 节点应用 - 配置
~/.openclaw/openclaw.json:
Code
{
"canvasHost": {
"enabled": true,
"port": 18793,
"root": "/Users/you/clawd/canvas",
"liveReload": true
},
"gateway": {
"bind": "auto"
}
}
Code
# 导航到新URL
canvas action:navigate node:<node-id> url:<new-url>
# 捕获canvas截图
canvas action:snapshot node:<node-id>
# 隐藏canvas
canvas action:hide node:<node-id>基于OpenAIImages API批量生成图片,支持随机结构化提示词、多模型(GPTImage/DALL-E 2/3)、自定义尺寸/质量/格式,自动生成index.html画廊便于预览。
- 依赖要求
:需安装 python3,配置 OPENAIAPIKEY - 安装方式
:
Code
brew install pythonCode
# 基础生成(默认参数)
python3 {baseDir}/scripts/gen.py
# 生成16张图片(GPT Image 1模型)
python3 {baseDir}/scripts/gen.py --count 16 --model gpt-image-1
# DALL-E 3生成高清风景图
python3 {baseDir}/scripts/gen.py --model dall-e-3 --quality hd --size 1792x1024 --style natural --prompt "serene mountain landscape"
# 生成透明背景WebP格式图片
python3 {baseDir}/scripts/gen.py --model gpt-image-1.5 --background transparent --output-format webp
# 打开生成的画廊页面
open ~/Projects/tmp/openai-image-gen-*/index.html
本文由清风科技观察员基于实际使用体验整理,转载请注明出处。
夜雨聆风