乐于分享
好东西不私藏

我把 AI 助手武装到了牙齿:这9个Skill让它能听能看能搜能写

我把 AI 助手武装到了牙齿:这9个Skill让它能听能看能搜能写

一个 AI 助手能做什么,取决于你给它装了什么工具。

过去几个月,我一直在给自己的 AI 助手(小虾米)安装各种 Skill——语音识别、视频理解、文档解析、数字人视频生成……每装一个,它就多一项能力。

今天把这 9 个 Skill 整理出来,分享给同样在折腾 AI 助手的你。

///

PART 01

PART 01 语音交互:真正的双向对话

voice-recognition — QQ 语音双向交流

这是我最常用的 Skill 之一。

以前跟 AI 助手交流只能打字,现在可以直接发语音——它会自动识别成文字,处理完再用语音回复我。整个链路是:

  • 语音识别(STT):本地部署 OpenAI Whisper,不联网,隐私有保障
  • 语音合成(TTS):微软 Edge TTS,YunxiNeural 男声,听起来自然不机械
  • 格式转换:MP3 → WAV → SILK,完整适配 QQ 语音格式

实际体验是:我躺着发一条语音,它几秒后用语音回我。比打字爽多了。

技术栈:OpenAI Whisper · Edge-TTS · SILK · ffmpeg

///

PART 02

PART 02 视觉能力:看视频、生视频

volcengine-video-understanding — 视频内容理解

上传一段视频,AI 帮你分析里面发生了什么。

支持最大 512MB 的视频文件,通过火山方舟的 Files API 上传后,调用豆包视觉模型进行分析。可以用来:

  • 会议录像自动提取要点
  • 产品演示视频生成文字说明
  • 教学视频内容索引

技术栈:Python · 火山方舟 Files API · doubao-vision

///

flyworks-avatar-video — 数字人视频生成

给一张照片,配上文字,生成一段”真人说话”的视频。

三种模式:

  1. 说话照片:上传任意人脸照片 + 文字,生成口型同步视频
  2. 公共数字人:直接用平台提供的数字人形象 + TTS 配音
  3. 声音克隆:上传声音样本,克隆特定人声

适合做产品介绍、课程讲解、短视频内容。

技术栈:Python · Flyworks API

///

PART 03

PART 03 文档处理:读懂复杂文件

paddleocr-doc-parsing — 复杂文档解析

普通 PDF 解析工具遇到扫描件、表格、多栏排版就歇菜了。这个 Skill 用 PaddleOCR 处理,能保留原始结构,输出 Markdown + JSON。

实测场景:

  • 26 页合同 PDF,完整提取所有条款
  • 含表格的财务报告,表格结构完整保留
  • 扫描版证件,文字识别准确率高

超过 10 页的文件建议先分段处理,单次处理约 10 分钟。

技术栈:Python · PaddleOCR · REST API

///

doc-reader — 大文档阅读节省 Context

AI 助手的上下文窗口是有限的。读一个大文件可能直接把 Context 塞满,后续对话就变笨了。

这个 Skill 的思路是:把大文档阅读任务委托给一个独立的子 Agent(Claude Opus),主 Agent 只接收结果摘要,Context 保持干净。

适合场景:读大型配置文件、扫描源码目录、分析多个文档后汇总。

技术栈:Claude Opus · Sub-agent · OpenClaw sessions

///

md-to-pdf — Markdown 转漂亮 PDF

写完文档,一键转成专业 PDF。

亮点功能:

  • AI 生成封面图:根据文章主题自动生成封面
  • Mermaid 图表支持:流程图、时序图直接渲染
  • 自定义主题:页眉页脚、字体、配色都能改
  • 封面与正文分离:封面单独一页,正文从第二页开始

技术栈:Puppeteer · Mermaid · Gemini Pro · Node.js

///

PART 04

PART 04 搜索能力:找到你想要的

web-search-plus — 统一搜索智能路由

一个搜索入口,背后接了 6 个引擎:Serper(Google)、Tavily(AI 优化)、Exa(语义搜索)、Perplexity(AI 问答)、You.com(实时)、SearXNG(隐私)。

根据查询类型自动选择最合适的引擎,不用手动切换。

技术栈:Python · Bash · Multi-API

///

PART 05

PART 05 创意工具:生成有趣内容

english-comic-strip — 英语课文连环画

把新概念英语等对话课文,自动生成连环画记忆辅助图。

流程:

  1. 解析对话,识别角色和场景
  2. Gemini Pro 为每个场景生成插图(含对话气泡)
  3. PIL 负责拼版 + 标题栏
  4. 输出 A4 PNG,可直接打印

给孩子学英语用,比干背课文有趣多了。

技术栈:Gemini Pro · PIL · Python

///

find-skills — 技能发现助手

当你不知道”有没有能做 X 的 Skill”时,这个 Skill 帮你搜索 ClawHub 技能市场,找到合适的工具并指导安装。

///

PART 06

写在最后

这 9 个 Skill 覆盖了语音、视觉、文档、搜索、创意五个方向,基本上把 AI 助手从”聊天机器人”升级成了”全能助理”。

每个 Skill 都是独立模块,按需安装,不用全装。

如果你也在用 OpenClaw 搭建自己的 AI 助手,欢迎参考这套配置。有问题可以在评论区交流。

工具是死的,用法是活的。AI 助手能做多少,取决于你愿意花多少时间去折腾它。

THANKS FOR READING

🦐 龙虾 · OpenClaw 技术分享

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 我把 AI 助手武装到了牙齿:这9个Skill让它能听能看能搜能写

猜你喜欢

  • 暂无文章