乐于分享
好东西不私藏

文档智能方向思考:文档图表方向能做哪些花样?解析、复原、翻译、OCR、VQA及比对

文档智能方向思考:文档图表方向能做哪些花样?解析、复原、翻译、OCR、VQA及比对

今天是2026年3月23日,星期一,北京,天气晴

继续看技术,回到文档解析领域,看个应用的点,文档中的chart图表能够做出哪些花样?

在论文、技术类文档中,有大量的图表,包括柱状图、饼图等数值图,也有流程图、架构图等具有位置逻辑关系的图。这块的论文发了很多,

结合平时的观察和实际应用,可以做图表解析、图表复原、图表翻译和图表OCR,这几个应用点靠谱程度依次提升。

也有一些图表VQA图表差异性比对、可信度计算与其他信息进行审核的场景,这个在这里不做介绍。

1、图表解析

图表解析主要是将数值类图表转为底层的json或者markdown格式。

而对于逻辑类图表转为mermaid或者uml形式。

这个功能很多模型都是自带的,但是很受限于训练数据,因为从像素刻度到实际的标签映射是很难的,大多都是靠猜

2、图表复原

图表复原,指的是,高保真的将原图重绘出来,这个见于dotsmocr,将图片转为svg,但是这个鲁棒性很差,如下:

另外,也可以也可以直接转code(matplotlib、pyecharts),然后执行渲染,对原图进行恢复。

当然,从论文发文章的角度上是可以的,作为前沿技术的探索。

3、图表翻译

图表翻译与实际的应用更贴合了,是前面说的几个图片原位翻译在图表场景的一个特例。

4、图表OCR

前面几个都不太鲁棒,放到真实场景下,如果只是单单地将图表进行ocr,是个兜底的产出。

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 文档智能方向思考:文档图表方向能做哪些花样?解析、复原、翻译、OCR、VQA及比对

猜你喜欢

  • 暂无文章