乐于分享
好东西不私藏

深势发布AI科学文档解析引擎Uni-Parser:超5000万文献数据验证,分子、公式、复杂表格秒变结构化数据

深势发布AI科学文档解析引擎Uni-Parser:超5000万文献数据验证,分子、公式、复杂表格秒变结构化数据

什么是 

Uni-Parser

Uni-Parser 是深势科技自研的新一代多模态科学文档解析引擎,提供从“复杂科学 PDF”到“结构化数据”的一站式自动化解析能力,是当前少数能够同时处理分子结构、数学公式与复杂表格的工业级系统之一,在科学文献与专利解析场景中达到行业领先水平。
系统专为高复杂度科研场景设计,可对非结构化论文与专利中的文本、公式、表格、科学图表,以及分子结构式与化学反应式等多模态信息进行统一理解与高精度解析,并转化为结构化表示,显著提升科研数据的可用性与下游建模效率。
在核心能力上,Uni-Parser 针对化学与专利场景进行了深度优化,在分子结构解析、复杂嵌套表格理解,以及含化学结构的表格与段落联合建模等关键任务上表现领先。同时支持超过 100 种语言的高精度解析,并具备工业级高并发处理能力:快速模式下解析速度可达 0.05 秒/页,支持 SaaS API 与私有化部署,能够稳定支撑亿级文献规模的数据处理需求。
在技术底座上,Uni-Parser 基于深势科技自研的数据引擎与主动学习框架,从超过 2 亿规模科学文献中持续挖掘高价值样本,构建数据飞轮,不断提升模型能力。同时结合多模型协同解析与系统级优化,使系统在复杂科学文档与专利解析任务中持续保持领先,并具备良好的可扩展性与工程落地能力。

已关注

关注

重播 分享

Uni-Parser 解析能力示例

Uni-Parser 技术报告:
https://arxiv.org/abs/2512.15098
Uni-Parser 试用 Demo:
https://uniparser.dp.tech/

    工业级

    解析效率

    Uni-Parser 已具备真正工业级的大规模生产能力:支持超大与超长文档解析( 最大支持单文件超过 200MB、页面数超过 2000 页),并在千卡级集群上完成稳定部署与扩展优化。上线以来,系统累计解析专利与科研文献超过 5000 万篇,月均处理规模超过 10 亿页 PDF;在快速模式下可实现单文件 >20 页/秒的解析吞吐能力,能够稳定支撑亿级文献级数据处理与持续在线服务需求。
    在系统架构层面,Uni-Parser 采用微服务驱动的多专家架构(microservice-based multi-expert architecture),将文本、分子结构、公式、表格、化学反应及图表等不同模态能力解耦为独立解析服务,并通过分布式推理框架实现大规模并行处理。系统首先进行文档布局分析与区域切分,将不同类型内容分发至对应模态任务队列,由多节点专家服务异步执行,最终统一聚合为结构化 OCR 表示,并完成后处理与标准化输出,从而构建端到端的高吞吐多模态解析流水线。
    在工程优化层面,Uni-Parser 基于自研 Infra 构建的动态负载均衡与细粒度调度机制,使系统能从容应对超高并发的多模态任务,并维持极高的吞吐稳定性。通过流水线并行与异步 IO 重叠技术显著降低了计算气泡时间,确保在千卡级大规模部署下仍具备近乎线性的扩展能力与运行可靠性。

    首创层级化

    版面理解

    Uni-Parser 首创了层级化树结构的文档解析范式,在传统版面识别算法之外,针对科学文献和专利的特点,进一步引入底层、顶层两级分层的 group-level 的绑定机制,实现跨模态语义对齐与结构化重建。该机制可在统一框架下完成:
    • 图文绑定(figure-caption, table-title绑定)

    • 分子 ID 与分子结构精准匹配  (molecule-identifier 绑定)

    • 子图层级关系建模 (subfigure-figure 层级关系建模)

    • 多层嵌套结构(subfigure/table-in-figure/molecule-in-table)统一建模

    该能力显著区别于现有通用 OCR/MLLM-based 方法,这些方法普遍难以处理复杂的跨层级嵌套结构与一致性绑定问题。相比之下,Uni-Parser 在此类高复杂度科学文档中能够实现端到端的结构恢复,不仅提升了整体解析的完整性,也带来了更好的阅读顺序重建能力,并支持通过 figure 序号与分子 ID 进行高效检索与定位,具备更好的可解释性。

    上图:带有层级结构的复杂版面布局解析

    上图:科学论文中的复杂阅读顺序重建

    高精度

    化学结构识别

    在性能方面,Uni-Parser 在化学结构解析任务上展现出行业领先能力,能够稳定处理行内分子(inline molecules)与表格内分子(table-contained molecules)等复杂结构形态,显著突破传统 OCR 与多模态大模型在密集化学表达解析中的能力瓶颈。在分子定位与分子识别任务中,相较现有主流方法,其在复杂文献场景下表现出明显优势,尤其在结构完整性与跨区域一致性方面实现系统性提升。需要指出的是,现有通用 OCR/MLLM 系统(如 Hunyuan-OCR、PaddleOCR-VL、MinerU、DeepSeek-OCR 等)普遍缺乏针对化学结构的专门优化能力,难以直接满足高精度分子级解析需求。

    上图:分子-ID 精准解析与匹配

    上图:包含分子结构的段落精准解析

    上图:包含分子结构的表格精准解析

    针对化学结构解析任务,我们设计并集成了面向大规模化学场景解析的端到端 OCSR 子模块 MolParser,用于实现高精度、可规模化的分子结构解析。仅在单卡部署条件下,该模块即可达到约 3700 万分子/天的解析吞吐量,具备工业级的处理效率。此外,MolParser 不仅支持标准分子结构式识别,还能够处理复杂 Markush 结构与部分高分子结构解析任务,并支持超过 13,000 种缩写基团的自动替换与结构还原,从而显著提升对真实专利与文献场景中复杂化学表达的覆盖能力。在真实文献与专利场景构建的 Uni-Parser benchmark 上,Uni-Parser 在分子定位任务中取得 99.4% mAP@50,在常规分子结构识别任务中达到 97.9% 的准确率。在第三方基准 BioVista 上,模型在 Markush 结构识别、手性分子识别等多个子任务中均达到 SOTA 水平。

    上图:BioVista 分子识别榜单

    多模态解析

    精度领先

    上图:Uni-Parser 多模态解析能力评测

    在自建的科学文献与专利解析解析的基准测试(Uni-Parser Benchmark)中,Uni-Parser 相较于主流文档解析方法取得了显著领先的整体性能优势。尤其在科学文本、数学公式、分子定位和识别,以及复杂科学版面的阅读顺序上,有明显的优势。

    同时,在包含 PPT、金融报告及报纸等多类型通用 PDF 文档解析任务上,通用模式 Uni-Parser-G 表现出与第一梯队的文档解析方法相当的竞争力。

    零部署成本,

    一键快速接入

    Uni-Parser 提供标准化 API 服务能力,无需本地环境配置或复杂依赖部署,即可通过接口一键调用完整解析能力。该设计显著降低使用门槛,使科研用户与工业系统能够快速集成至现有工作流,实现“开箱即用”的高性能科学文档解析能力。并且基于此开源了 Uni-Parser Tools 工具箱,用于各类文献解析的下游任务以及文献 Agent 一键调用。

    多场景

    下游应用赋能

    OmniScience: 科学多模态基础数据集

    此外,基于 Uni-Parser,我们构建并开源了科学多模态数据集 OmniScience,并在 Hugging Face 上发布,上线数日即登上热度榜并实现万级下载。从商业角度看,OmniScience 构建了数据与系统协同驱动的核心壁垒:依托对海量科学文献与专利的深度解析能力,持续从非结构化 PDF 中自动化生成高信息密度的结构化多模态数据,并与模型训练形成闭环迭代。这一能力不仅决定了模型性能的上限,也构成了难以复制的数据生产体系,使我们在科研、制药与材料等高价值场景中具备长期竞争优势与规模化扩展潜力。

    https://huggingface.co/datasets/UniParser/OmniScience

    上图:OmniScience 数据集

    NMRExp:高质量核磁数据基础设施

    基于 Uni-Parser,我们还参与构建了大规模核磁谱数据库 NMRExp,从海量文献 Supporting Information 中自动解析实验谱图与结构信息,涵盖 ¹H、¹³C、¹⁹F、³¹P、²⁹Si、¹¹B 六类核种,总计 330 万余条结构–谱图对应记录,实现高精度的谱图数据抽取与结构关联(>99% 元数据解析准确率,>98% 分子骨架提取准确率)。该数据库为分子结构验证、反应分析及 AI for Chemistry 提供了关键数据基础设施。

    https://www.nature.com/articles/s41597-025-06245-5

    DocVQA: 迈向通用文档理解

    在最新发布的文档理解评测基准 DocVQA2026中,基于 Uni-Parser 的方法取得了显著领先的性能表现,整体成绩大幅超越当前主流大模型基线(如 Gemini-3.1-Pro-preview 与 GPT-5.4)。尤其在科学论文的 VQA 任务上,Uni-Parser 达到了 85.0 的高分,展现出在复杂科研文档解析与推理方面的卓越能力。

    上图:DocVQA2026 Benchmark 指标对比

    检索系统:玻尔·科学导航(化学版)

    基于 Uni-Parser 的结构化解析能力,构建面向科研场景的语义检索与知识导航系统——玻尔·科学导航(化学版),实现对文献、分子结构、反应信息与实验数据的统一索引与跨模态检索能力,使用户能够以自然语言或结构化条件快速定位科学知识,实现从“文献检索”到“知识导航”的升级。

    https://www.bohrium.com/chem-sn

    整体上,我们构建的是一个从科学文档理解 → 数据生产 → 模型训练 → 行业应用的闭环系统,并以 Uni-Parser 为核心引擎,形成持续演进的数据与能力壁垒。

    商业需求咨询

    Uni-Parser 现已支持私有化部署与 SaaS API 调用,欢迎垂询:bd@dp.tech

    加入我们

    实习:

    https://dptechnology.jobs.feishu.cn/index/position/7551731660225808676/detail

    FTE:

    https://dptechnology.jobs.feishu.cn/index/position/7486012032446138635/detail

    关于深势科技

    深势科技是全球 AI for Science 的开拓者和引领者,公司成立于2018年,在北京、上海、深圳、宜宾等地设有办公室和研发中心。以“加速科学发现,释放科学价值”为使命,致力于打造 AI 科学家(AI Scientist)及自主进行科学发现的智能系统。
    以深势·宇知®科学发现智能引擎为基座,深势构建了一系列“读文献、做计算、做实验”的智能科学工具,和各领域的科学智能体,构成了 Science as a Service 智能化科研产品和服务矩阵:玻尔·科学导航,玻尔·勒贝格智算以及 Hermite®、Piloteye® 等一系列研发软件,玻尔·跃迁实验室,SciMaster 科学智能体及面向科学发现的“大装置”和研发服务,为基础科研、生命科学、物质科学等领域的科学家和研发型组织提供深宽兼顾、灵活组合的解决方案。
    作为国家高新技术企业、国家专精特新“小巨人”企业,深势科技科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中博士及博士后在公司成员中占比超过35%。2020年,深势科技核心成员获得全球高性能计算领域的最高奖项“戈登贝尔奖”,相关工作入选2020年中国十大科技进展和全球 AI 领域十大技术突破。