乐于分享
好东西不私藏

腾讯优图-高效文档解析新模型

腾讯优图-高效文档解析新模型

腾讯优图-高效文档解析新模型

🚀研究方向
本文研究的是基于视觉-语言模型的高效文档解析。目标是在处理包含文本、表格、公式、图表等复杂结构文档时,同时实现高精度识别与工业级推理速度,服务于大规模文档数字化应用。

🔍主要工作(创新点)
🌟一,提出三阶段解耦式文档解析架构。
模型将文档解析拆分为共享视觉特征提取、版面分析和区域提示解码三步,在避免流水线误差累积的同时,显著提升了特征复用率与系统可扩展性。
🌟二,引入 Token Parallelism,实现无损并行解码。
通过一次预测多 token + 验证机制,模型在保持与自回归解码结果完全一致的前提下,实现 5–11× 的推理加速,尤其适用于表格、公式等高结构化内容。
🌟三,引入 Query Parallelism,提升区域级并发能力。
模型可同时解析多个版面区域,有效利用解码冗余,对短文本密集型文档带来约 2× 的额外速度提升。

📖实验结果总结
在 OmniDocBench 和 olmOCR-bench 等权威基准上,Youtu-Parsing 在综合解析精度上达到 SOTA,同时在表格、公式、图表等关键子任务中全面领先。结合双并行策略,其端到端推理速度相比传统方法提升可达一个数量级。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~本文仅做学术分享,如有侵权、笔误等,请联系修改、删文。

江苏,35分钟前,
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 腾讯优图-高效文档解析新模型

评论 抢沙发

9 + 8 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮