文档智能方向思考:文档图表方向能做哪些花样?解析、复原、翻译、OCR、VQA及比对
今天是2026年3月23日,星期一,北京,天气晴
继续看技术,回到文档解析领域,看个应用的点,文档中的chart图表能够做出哪些花样?
在论文、技术类文档中,有大量的图表,包括柱状图、饼图等数值图,也有流程图、架构图等具有位置逻辑关系的图。这块的论文发了很多,
结合平时的观察和实际应用,可以做图表解析、图表复原、图表翻译和图表OCR,这几个应用点靠谱程度依次提升。
也有一些图表VQA、图表差异性比对、可信度计算与其他信息进行审核的场景,这个在这里不做介绍。
1、图表解析
图表解析主要是将数值类图表转为底层的json或者markdown格式。


而对于逻辑类图表转为mermaid或者uml形式。

这个功能很多模型都是自带的,但是很受限于训练数据,因为从像素刻度到实际的标签映射是很难的,大多都是靠猜。
2、图表复原
图表复原,指的是,高保真的将原图重绘出来,这个见于dotsmocr,将图片转为svg,但是这个鲁棒性很差,如下:

另外,也可以也可以直接转code(matplotlib、pyecharts),然后执行渲染,对原图进行恢复。
当然,从论文发文章的角度上是可以的,作为前沿技术的探索。
3、图表翻译
图表翻译与实际的应用更贴合了,是前面说的几个图片原位翻译在图表场景的一个特例。

4、图表OCR
前面几个都不太鲁棒,放到真实场景下,如果只是单单地将图表进行ocr,是个兜底的产出。

关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。
夜雨聆风