乐于分享
好东西不私藏

零代码爬取7881个金蝶API文档!这个AI工具太香了

零代码爬取7881个金蝶API文档!这个AI工具太香了

零代码爬取7881个金蝶API文档!这个AI工具太香了

对接金蝶ERP系统的开发者,是不是总被在线API文档折磨?频繁切页面、无批量导出、无法离线检索,简直是开发路上的“绊脚石”!

而我仅用6句话+1次登录,就让OpenClaw这个AI工具把金蝶开放平台16大业务领域、7881个API文档全量抓取离线,全程没写一行爬虫代码,今天就把这个真实实战案例分享给大家!

痛点拉满:金蝶API文档的使用困境

团队做金蝶星空系统对接时,面对openapi.open.kingdee.com上的海量API文档,直接陷入两难:

✅ 文档超全:覆盖16大业务领域、1076个表单、7881个API操作

❌ 体验拉胯:仅支持在线查看,无批量导出、无PDF下载,开发时频繁切浏览器查文档,效率极低

核心诉求很简单:把所有API文档离线保存,支持全文检索,方便团队共享!

主角登场:OpenClaw是什么?

它不是普通的聊天AI,而是开源的AI Agent框架,能连接飞书/微信/Telegram等工具,还能操控浏览器、执行代码、读写文件——简单说,是个能实实在在帮你干活的AI助手!

👉 项目地址:https://github.com/openclaw/openclaw

全程高能:4步搞定7881个API抓取

整个过程无需写代码,只需要和AI对话,剩下的全交给它,从分析页面到落地文件,一气呵成!

第一步:AI自动侦察,2分钟摸清页面底细

在飞书对OpenClaw说一句“获取下页面内容”,它自动打开金蝶API文档页面,我仅手动完成登录,AI就快速分析出页面核心信息:

技术栈:Vue.js + Element UI

关键数据:Vue组件menuData属性包含完整API目录树

加载规则:参数详情异步HTTP请求加载,代码示例藏在Tab面板

全程不到2分钟,页面结构一目了然!

第二步:秒级提取目录树,9042个节点一键拿下

告诉AI“把整个API文档目录抓下来”,它直接在浏览器注入JavaScript,从Vue组件的menuData中提取完整目录树,16大业务领域(员工服务、财务会计、供应链、生产制造等)的9042个节点瞬间获取——因为数据本就在前端内存,无需反复请求服务器,效率拉满!

第三步:攻克3大深坑,实现详细文档批量抓取

目录有了,抓取每个API的详细参数(请求/响应参数表、JSON示例、代码示例)时,遇到了3个工程问题,AI都一一找到解决方案,这也是整个过程的核心难点:

坑1:抓太快被服务器限流

❌ 初始300毫秒切换一个API,直接触发“请求错误”

✅ AI解决方案:控速至1.5秒/个,每抓取50个暂停3秒,完美避开限流

坑2:浏览器数据无法传到本地文件

现代浏览器安全策略限制,blob下载、剪贴板、DevTools协议等方法全失效,这是最意想不到的难题!

✅ AI终极方案:启动本地Node.js HTTP服务器,浏览器通过fetch把数据POST到本地(关键发现:HTTPS页面请求localhost的HTTP接口,不受混合内容限制,这是W3C规范的特殊处理)

数据传输链路:金蝶HTTPS页面 → 本地Node.js服务器(127.0.0.1:19877)→ 本地磁盘写入文件

坑3:异步数据加载的时序问题

切换API后,参数数据需等待后端返回,取太快会拿到上一个API的错误数据

✅ AI解决方案:切换后显式调用Vue组件方法vm.getApiParamData(),再等待1.2秒,确保数据完整加载

第四步:实时写入+进度监控,全程可视化

最终抓取脚本在浏览器后台运行,每完成20个API就批量写入本地,还能在飞书实时查看进度:

📊 当前进度:2386/7881(30.3%)

⏱️ 速度:~1.7s/API

✅ 0 错误

📁 实时写入 D:kingdee-apidocs\

每个API都会生成2个文件,兼顾人工阅读和程序处理:

.md文件:人类可读的Markdown格式,含参数表、示例、代码

.json文件:结构化原始数据,方便后续程序调用

最终产出:超规范的离线API文档库

抓取完成后,本地生成了按业务领域分类的规范文档库,共69个子目录,包含7881个.md文件+7881个.json文件,分类清晰,按需查阅:

Plain TextD:kingdee-apidocs├── 员工服务人人报销 (98 个 API)├── 财务会计总账 (131 个)├── 财务会计出纳管理 (384 个)├── 供应链采购管理 (359 个)├── 供应链销售管理 (401 个)├── 生产制造车间管理 (427 个)└── … 其余业务领域目录

每个Markdown文件信息超完整,开发时直接查阅,无需再打开浏览器:

接口基本信息(FormId、OperateKey、版本、更新日期)

请求/响应参数表格(含名称、类型、是否必录、示例值、描述)

请求/响应示例JSON(完整Model结构)

四语言代码示例(JAVA / C# / PHP / Python)

划重点:我到底做了什么?

全程仅6个指令+1次手动登录,剩下的所有技术工作全由AI自动完成,真正的零代码操作:

飞书发送:“获取页面内容”

手动完成金蝶账号登录

飞书发送:“把整个API文档目录抓下来”

飞书发送:“要把每个API的文档都抓取下来”

反馈AI:“内容不完整”、“要实时写入”

确认文件保存路径

而AI自动完成了:页面结构分析、Vue组件逆向、目录树提取、批量抓取脚本编写、本地中继服务器搭建、实时写入、进度监控、错误处理——全程省心!

核心价值:不止完成任务,更能沉淀技能

抓取完成后,OpenClaw会自动把整个过程沉淀为可复用技能web-scraper-spa

下次再遇到需要抓取SPA单页应用的场景,AI会直接复用本次的本地中继服务器、抓取循环模板,无需再重新踩坑,真正实现“一次解决,次次复用”,这就是AI Agent的核心魅力。

技术总结:核心组件各司其职

整个抓取过程的技术链路清晰,各组件精准配合,缺一不可:

组件

核心作用

OpenClaw

AI Agent框架,统筹协调所有工具

Browser Automation

操控浏览器,注入JS,提取前端数据

Vue.js 逆向

从组件data/store直接获取结构化数据

本地HTTP中继

解决浏览器→本地文件的跨域传输问题

飞书集成

对话式交互,实时反馈抓取进度

写在最后:开发效率的终极提升

传统抓取SPA网站的API文档,需要写Python爬虫(requests+BeautifulSoup)、处理登录态、解析前端代码、模拟浏览器……门槛高、耗时久,还需要专业的爬虫知识。

而OpenClaw让一切变得简单:你只需要像和同事说话一样,告诉它你的需求,它会自己思考解决方案,遇到问题自主解决,解决不了的再向你反馈——无需懂爬虫、无需写代码,普通人也能轻松搞定海量数据抓取。

这不是未来的技术,而是现在就能用的高效工具!对接ERP、查海量在线文档的开发者,赶紧试试这个开源神器,把时间真正用在核心开发上~

工具地址奉上

✅ OpenClaw开源地址:https://github.com/openclaw/openclaw

✅ 社区Discord:https://discord.com/invite/clawd

注:本文旨在技术交流与经验分享,不得将本项目中任何内容用于违反国家/地区/组织等的法律法规或相关规定的其他用途。文中所涉软件、框架的名称、商标及概念归其各自所有者所有。部分内容可能参考公开资料整理,若有雷同,纯属巧合,如有侵权请联系删除。