我把 AI 助手武装到了牙齿:这9个Skill让它能听能看能搜能写-夜雨聆风

我把 AI 助手武装到了牙齿:这9个Skill让它能听能看能搜能写

一个 AI 助手能做什么，取决于你给它装了什么工具。

过去几个月，我一直在给自己的 AI 助手（小虾米）安装各种 Skill——语音识别、视频理解、文档解析、数字人视频生成……每装一个，它就多一项能力。

今天把这 9 个 Skill 整理出来，分享给同样在折腾 AI 助手的你。

///

PART 01

PART 01 语音交互：真正的双向对话

voice-recognition — QQ 语音双向交流

这是我最常用的 Skill 之一。

以前跟 AI 助手交流只能打字，现在可以直接发语音——它会自动识别成文字，处理完再用语音回复我。整个链路是：

语音识别（STT）：本地部署 OpenAI Whisper，不联网，隐私有保障
语音合成（TTS）：微软 Edge TTS，YunxiNeural 男声，听起来自然不机械
格式转换：MP3 → WAV → SILK，完整适配 QQ 语音格式

实际体验是：我躺着发一条语音，它几秒后用语音回我。比打字爽多了。

技术栈：OpenAI Whisper · Edge-TTS · SILK · ffmpeg

///

PART 02

PART 02 视觉能力：看视频、生视频

volcengine-video-understanding — 视频内容理解

上传一段视频，AI 帮你分析里面发生了什么。

支持最大 512MB 的视频文件，通过火山方舟的 Files API 上传后，调用豆包视觉模型进行分析。可以用来：

会议录像自动提取要点
产品演示视频生成文字说明
教学视频内容索引

技术栈：Python · 火山方舟 Files API · doubao-vision

///

flyworks-avatar-video — 数字人视频生成

给一张照片，配上文字，生成一段”真人说话”的视频。

三种模式：

说话照片：上传任意人脸照片 + 文字，生成口型同步视频
公共数字人：直接用平台提供的数字人形象 + TTS 配音
声音克隆：上传声音样本，克隆特定人声

适合做产品介绍、课程讲解、短视频内容。

技术栈：Python · Flyworks API

///

PART 03

PART 03 文档处理：读懂复杂文件

paddleocr-doc-parsing — 复杂文档解析

普通 PDF 解析工具遇到扫描件、表格、多栏排版就歇菜了。这个 Skill 用 PaddleOCR 处理，能保留原始结构，输出 Markdown + JSON。

实测场景：

26 页合同 PDF，完整提取所有条款
含表格的财务报告，表格结构完整保留
扫描版证件，文字识别准确率高

超过 10 页的文件建议先分段处理，单次处理约 10 分钟。

技术栈：Python · PaddleOCR · REST API

///

doc-reader — 大文档阅读节省 Context

AI 助手的上下文窗口是有限的。读一个大文件可能直接把 Context 塞满，后续对话就变笨了。

这个 Skill 的思路是：把大文档阅读任务委托给一个独立的子 Agent（Claude Opus），主 Agent 只接收结果摘要，Context 保持干净。

适合场景：读大型配置文件、扫描源码目录、分析多个文档后汇总。

技术栈：Claude Opus · Sub-agent · OpenClaw sessions

///

md-to-pdf — Markdown 转漂亮 PDF

写完文档，一键转成专业 PDF。

亮点功能：

AI 生成封面图：根据文章主题自动生成封面
Mermaid 图表支持：流程图、时序图直接渲染
自定义主题：页眉页脚、字体、配色都能改
封面与正文分离：封面单独一页，正文从第二页开始

技术栈：Puppeteer · Mermaid · Gemini Pro · Node.js

///

PART 04

PART 04 搜索能力：找到你想要的

web-search-plus — 统一搜索智能路由

一个搜索入口，背后接了 6 个引擎：Serper（Google）、Tavily（AI 优化）、Exa（语义搜索）、Perplexity（AI 问答）、You.com（实时）、SearXNG（隐私）。

根据查询类型自动选择最合适的引擎，不用手动切换。

技术栈：Python · Bash · Multi-API

///

PART 05

PART 05 创意工具：生成有趣内容

english-comic-strip — 英语课文连环画

把新概念英语等对话课文，自动生成连环画记忆辅助图。

流程：

解析对话，识别角色和场景
Gemini Pro 为每个场景生成插图（含对话气泡）
PIL 负责拼版 + 标题栏
输出 A4 PNG，可直接打印

给孩子学英语用，比干背课文有趣多了。

技术栈：Gemini Pro · PIL · Python

///

find-skills — 技能发现助手

当你不知道”有没有能做 X 的 Skill”时，这个 Skill 帮你搜索 ClawHub 技能市场，找到合适的工具并指导安装。

///

PART 06

写在最后

这 9 个 Skill 覆盖了语音、视觉、文档、搜索、创意五个方向，基本上把 AI 助手从”聊天机器人”升级成了”全能助理”。

每个 Skill 都是独立模块，按需安装，不用全装。

如果你也在用 OpenClaw 搭建自己的 AI 助手，欢迎参考这套配置。有问题可以在评论区交流。

工具是死的，用法是活的。AI 助手能做多少，取决于你愿意花多少时间去折腾它。

THANKS FOR READING

🦐 龙虾 · OpenClaw 技术分享