文档智能方向思考:文档图表方向能做哪些花样?解析、复原、翻译、OCR、VQA及比对-夜雨聆风

文档智能方向思考:文档图表方向能做哪些花样?解析、复原、翻译、OCR、VQA及比对

今天是2026年3月23日，星期一，北京，天气晴

继续看技术，回到文档解析领域，看个应用的点，文档中的chart图表能够做出哪些花样？

在论文、技术类文档中，有大量的图表，包括柱状图、饼图等数值图，也有流程图、架构图等具有位置逻辑关系的图。这块的论文发了很多，

结合平时的观察和实际应用，可以做图表解析、图表复原、图表翻译和图表OCR，这几个应用点靠谱程度依次提升。

也有一些图表VQA、图表差异性比对、可信度计算与其他信息进行审核的场景，这个在这里不做介绍。

1、图表解析

图表解析主要是将数值类图表转为底层的json或者markdown格式。

而对于逻辑类图表转为mermaid或者uml形式。

这个功能很多模型都是自带的，但是很受限于训练数据，因为从像素刻度到实际的标签映射是很难的，大多都是靠猜。

图表复原，指的是，高保真的将原图重绘出来，这个见于dotsmocr，将图片转为svg，但是这个鲁棒性很差，如下：

另外，也可以也可以直接转code（matplotlib、pyecharts），然后执行渲染，对原图进行恢复。

当然，从论文发文章的角度上是可以的，作为前沿技术的探索。

图表翻译与实际的应用更贴合了，是前面说的几个图片原位翻译在图表场景的一个特例。

前面几个都不太鲁棒，放到真实场景下，如果只是单单地将图表进行ocr，是个兜底的产出。

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。