我把 AI 助手武装到了牙齿:这9个Skill让它能听能看能搜能写
过去几个月,我一直在给自己的 AI 助手(小虾米)安装各种 Skill——语音识别、视频理解、文档解析、数字人视频生成……每装一个,它就多一项能力。
今天把这 9 个 Skill 整理出来,分享给同样在折腾 AI 助手的你。
///
PART 01
PART 01 语音交互:真正的双向对话
voice-recognition — QQ 语音双向交流
这是我最常用的 Skill 之一。
以前跟 AI 助手交流只能打字,现在可以直接发语音——它会自动识别成文字,处理完再用语音回复我。整个链路是:
- 语音识别(STT):本地部署 OpenAI Whisper,不联网,隐私有保障
- 语音合成(TTS):微软 Edge TTS,YunxiNeural 男声,听起来自然不机械
- 格式转换:MP3 → WAV → SILK,完整适配 QQ 语音格式
实际体验是:我躺着发一条语音,它几秒后用语音回我。比打字爽多了。
技术栈:OpenAI Whisper · Edge-TTS · SILK · ffmpeg
///
PART 02
PART 02 视觉能力:看视频、生视频
volcengine-video-understanding — 视频内容理解
上传一段视频,AI 帮你分析里面发生了什么。
支持最大 512MB 的视频文件,通过火山方舟的 Files API 上传后,调用豆包视觉模型进行分析。可以用来:
- 会议录像自动提取要点
- 产品演示视频生成文字说明
- 教学视频内容索引
技术栈:Python · 火山方舟 Files API · doubao-vision
///
flyworks-avatar-video — 数字人视频生成
给一张照片,配上文字,生成一段”真人说话”的视频。
三种模式:
- 说话照片:上传任意人脸照片 + 文字,生成口型同步视频
- 公共数字人:直接用平台提供的数字人形象 + TTS 配音
- 声音克隆:上传声音样本,克隆特定人声
适合做产品介绍、课程讲解、短视频内容。
技术栈:Python · Flyworks API
///
PART 03
PART 03 文档处理:读懂复杂文件
paddleocr-doc-parsing — 复杂文档解析
普通 PDF 解析工具遇到扫描件、表格、多栏排版就歇菜了。这个 Skill 用 PaddleOCR 处理,能保留原始结构,输出 Markdown + JSON。
实测场景:
- 26 页合同 PDF,完整提取所有条款
- 含表格的财务报告,表格结构完整保留
- 扫描版证件,文字识别准确率高
超过 10 页的文件建议先分段处理,单次处理约 10 分钟。
技术栈:Python · PaddleOCR · REST API
///
doc-reader — 大文档阅读节省 Context
AI 助手的上下文窗口是有限的。读一个大文件可能直接把 Context 塞满,后续对话就变笨了。
这个 Skill 的思路是:把大文档阅读任务委托给一个独立的子 Agent(Claude Opus),主 Agent 只接收结果摘要,Context 保持干净。
适合场景:读大型配置文件、扫描源码目录、分析多个文档后汇总。
技术栈:Claude Opus · Sub-agent · OpenClaw sessions
///
md-to-pdf — Markdown 转漂亮 PDF
写完文档,一键转成专业 PDF。
亮点功能:
- AI 生成封面图:根据文章主题自动生成封面
- Mermaid 图表支持:流程图、时序图直接渲染
- 自定义主题:页眉页脚、字体、配色都能改
- 封面与正文分离:封面单独一页,正文从第二页开始
技术栈:Puppeteer · Mermaid · Gemini Pro · Node.js
///
PART 04
PART 04 搜索能力:找到你想要的
web-search-plus — 统一搜索智能路由
一个搜索入口,背后接了 6 个引擎:Serper(Google)、Tavily(AI 优化)、Exa(语义搜索)、Perplexity(AI 问答)、You.com(实时)、SearXNG(隐私)。
根据查询类型自动选择最合适的引擎,不用手动切换。
技术栈:Python · Bash · Multi-API
///
PART 05
PART 05 创意工具:生成有趣内容
english-comic-strip — 英语课文连环画
把新概念英语等对话课文,自动生成连环画记忆辅助图。
流程:
- 解析对话,识别角色和场景
- Gemini Pro 为每个场景生成插图(含对话气泡)
- PIL 负责拼版 + 标题栏
- 输出 A4 PNG,可直接打印
给孩子学英语用,比干背课文有趣多了。
技术栈:Gemini Pro · PIL · Python
///
find-skills — 技能发现助手
当你不知道”有没有能做 X 的 Skill”时,这个 Skill 帮你搜索 ClawHub 技能市场,找到合适的工具并指导安装。
///
PART 06
写在最后
这 9 个 Skill 覆盖了语音、视觉、文档、搜索、创意五个方向,基本上把 AI 助手从”聊天机器人”升级成了”全能助理”。
每个 Skill 都是独立模块,按需安装,不用全装。
如果你也在用 OpenClaw 搭建自己的 AI 助手,欢迎参考这套配置。有问题可以在评论区交流。
THANKS FOR READING
🦐 龙虾 · OpenClaw 技术分享
夜雨聆风