PDF2Skill:PDF 一键转 AI 技能,省下 90% 文档整理时间
一本 200 页的技术手册,手动整理成结构化文档需要多久?

python scripts/pdf2skill.py 手册.pdf -o ./my-skill# 3 分钟后,你得到:# - SKILL.md(完整的技能文档)# - scripts/(可执行脚本)# - references/(参考文档)
GitHub 地址:github.com/galaxygx1983/pdf2skill_skill
这不是魔法。这是 PDF2Skill——一个将 PDF/EPUB 技术文档转换为可执行 AI Skill 的流水线工具。
一、PDF2Skill 是什么?
一句话定义:PDF/EPUB 技术文档 → AI 可执行的 Skill 文件,全自动。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
核心能力

二、安装与基本使用
安装
# 核心依赖pip install markitdown# OCR 支持(可选,处理中文 PDF 必需)pip install PyMuPDF paddleocr paddlepaddle# 克隆项目git clone https://github.com/galaxygx1983/pdf2skill_skill.gitcd pdf2skill_skill
基本使用
# 最简单的用法python scripts/pdf2skill.py input.pdf -o ./output-skill# 指定 LLM(推荐使用 Claude)python scripts/pdf2skill.py input.pdf --model claude-sonnet-4-6# 处理中文 PDF(自动 OCR)python scripts/pdf2skill.py 中文手册.pdf --force-ocr
CLI 参数速查
|
|
|
|---|---|
input |
|
-o, --output |
|
--model |
|
--provider |
|
--mode |
|
--force-ocr |
|
--ocr-language |
|
三、两大输出模式

Workflow 模式(默认)
提取文档中的操作流程,生成可执行的 Skill。适用场景:技术手册、操作指南、API 文档
skill-name/├── SKILL.md # 主技能文件├── scripts/ # 可执行脚本│ ├── setup.sh│ └── validate.sh└── references/ # 参考文档 └── prompts.md
Q&A 模式
提取文档中的知识点,生成问答对。适用场景:FAQ 文档、培训资料、知识库建设
python scripts/pdf2skill.py manual.pdf --mode qa -o ./qa-skill
四、实战案例
场景一:技术手册转 Skill
输入:一本 80 页的《Redis 运维手册》PDF
python scripts/pdf2skill.py redis-manual.pdf \ --model claude-sonnet-4-6 \ --structure standard \ -o ./redis-ops-skill
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
场景二:企业知识库建设
输入:10 份内部培训 PDF + 5 份 SOP 文档
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
场景三:中文 PDF 的 OCR 处理
痛点:很多中文 PDF 使用内嵌字体,直接解析会乱码。
# 自动检测并回退到 OCRpython scripts/pdf2skill.py 中文教程.pdf# 强制使用 OCRpython scripts/pdf2skill.py 中文教程.pdf --force-ocr
五、技术架构
|
|
|
|---|---|
| 文档解析层 |
|
| AI 理解层 |
|
| Skill 生成层 |
|
六、拿走即用
# 快速安装git clone https://github.com/galaxygx1983/pdf2skill_skill.gitcd pdf2skill_skillpip install markitdown# 可选:OCR 支持pip install PyMuPDF paddleocr paddlepaddle
|
|
|
|---|---|
|
|
python scripts/pdf2skill.py input.pdf |
|
|
python scripts/pdf2skill.py input.pdf -o ./skill |
|
|
python scripts/pdf2skill.py input.pdf --mode qa |
|
|
python scripts/pdf2skill.py input.pdf --force-ocr |
|
|
python scripts/pdf2skill.py *.pdf -o ./output |
写在最后
这个工具最让我兴奋的不是技术本身,而是它解决的问题:
文档 → 可执行知识 → AI 助手,这个链条原本需要数天的人工整理,现在只需要一条命令。
适用人群:
-
技术写作者:快速生成文档骨架 -
企业培训:批量建设知识库 -
开发者:API 文档转 Skill -
个人学习者:教程转 Q&A 速查
项目地址:github.com/galaxygx1983/pdf2skill_skill
试试看?把你电脑里那本吃灰的技术手册,变成一个可执行的 AI 助手。
全文完,感谢您的阅读。
夜雨聆风