试试 Parsr — 将文档变成结构化数据-夜雨聆风

试试 Parsr — 将文档变成结构化数据

欢迎关注「几米宋」微信公众号，这里专注分享 AI 前沿、云原生技术、开源生态、行业洞察与个人思考。更多精彩内容，欢迎访问我的个人网站 jimmysong.io。

📄 文章摘要

一个开源的文档解析工具链，可将 PDF、图像与 Office 文档转换为结构化 JSON/Markdown/CSV。

项目概况

资源信息🌐 网站：hub.docker.com/r/axarev/parsr💻 GitHub：github.com/axa-group/Parsr✍️ 作者：AXA Group

详细介绍

Parsr 是 AXA 开源的轻量级文档解析工具链，用于将 PDF、图像、DOCX、EML 等多种格式的文档转换为可直接使用的结构化数据（JSON、Markdown、CSV/Pandas DataFrame 或纯文本）。平台侧重文档清洗与层级重建，输出包含标注的文本、段落、表格与元信息，便于下游的数据分析与自动化流水线部署。

主要特性

• 多格式支持：处理 PDF、扫描图像、Office 文档与邮件等多种输入格式。

• 文档清洗与重建：恢复行、段落与层次结构，检测标题、列表、页码、页眉/页脚与链接。

• 表格与列表识别：提取表格为结构化 CSV/DF 格式，支持复杂表格布局识别。

• 部署友好：提供 API、CLI、Docker 镜像与可视化查看器，支持私有化部署。

使用场景

适用于文档归档与检索预处理、发票与报表抽取、合同与合规审查、OCR 后的结构化数据生成、以及任何需要将非结构化文档转为可分析数据的 ETL 场景。可在本地或受控私有环境中运行以满足合规与隐私要求。

技术特点

• 模块化处理链：由清洗、布局分析、OCR 接入、表格解析与导出模块组成，易于扩展与替换组件。

• 多引擎兼容：可接入 Tesseract、PDF.js、Camelot 等第三方组件以提升识别能力。

• 可编程接口：提供 REST API 与 Python 客户端，方便与数据科学与流水线工具集成。

• 开源许可：采用 Apache-2.0 许可证，便于企业在私有化环境中部署与定制。

更多精彩内容 🌐 个人网站：jimmysong.io 🎥 Bilibili：space.bilibili.com/31004924 如果这篇文章对你有帮助，欢迎点赞、分享给更多朋友！

试试 Parsr — 将文档变成结构化数据

详细介绍

主要特性

使用场景

技术特点

wang

猜你喜欢

评论抢沙发

详细介绍

主要特性

使用场景

技术特点

wang

猜你喜欢

评论 抢沙发

评论抢沙发