


支持
PDF、图片与DOCX、PPTX、XLSX输入删除页眉、页脚、脚注、页码等元素,确保语义连贯 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版 保留原文档的结构,包括标题、段落、列表等 提取图像、图片描述、表格、表格标题及脚注 自动识别并转换文档中的公式为LaTeX格式 自动识别并转换文档中的表格为HTML格式 自动检测扫描版PDF和乱码PDF,并启用OCR功能 OCR支持109种语言的检测与识别 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检 内置命令行、FastAPI、Gradio WebUI,支持本地编排和多服务部署 支持纯CPU环境运行,并支持 GPU/MPS加速,以及十余款国产算力平台的推理加速 兼容Windows、Linux和Mac平台
单日上限 5000 份|单文件 ≤200 页|高优每日 1000 页|频控优化
可是需要排队,等个半个小时以上是常事。
如果你不急可以使用官方现成的。
以上两款都是主要解析为markdown格式,json格式有页码字段。这是我自己项目正好需要的。
两款pdf解析器分享给大家,可以收藏,备用。
有需要的可以私信,我发给你链接
往期回顾:
不想被运营商偷窥上网记录?不想被 Cloudflare/Google DNS 收集行为数据?
感谢关注,点赞,分享,谢谢!
夜雨聆风