将图片、PDF转为可编辑格式!开源Edit-Banana:将静态图表重建为可编辑的矢量文件!

别再重画流程图了,今天小编给大家推荐一款开源工具:Edit-Banana!
它可以把静态图表(图片、PDF)还原成可编辑的 DrawIO(XML)或 PPTX 文件。

Edit-Banana是一款致力于提升技术文档与论文撰写效率的神器,精准击中了内容创作者的一个常见痛点:当图表仅存为 PNG、PDF 等静态格式,缺乏源文件时,任何细微的修改都意味着需要耗费大量时间从头重绘。

该项目旨在通过先进的技术,将不可编辑的静态图表,智能重建为完全可编辑的矢量文件,从而告别重复性绘图劳动。
▲原始静态图(输入·不可编辑)

▲重建结果(输出·完全可编辑)
功能特点
格式转换
核心功能是将输入的静态图片(如 PNG)或 PDF 文件,转换为可编辑的 Drawio (XML) 或 PPTX 格式文件。
元素级编辑
生成的文件中,每一个元素(文本、图形、连线)都是独立且可编辑的对象,用户可以直接修改文字内容、拖拽图形位置、调整连线样式或进行重新排版。

▲原始静态图(输入·不可编辑)

▲重建结果(输出·完全可编辑)
结构级重建
不同于简单的截图拼接或文字提取,Edit-Banana 会对图像进行深度解析,识别并分割图中的各类元素,包括文本块、图形框、连接线、箭头关系等,并理解其语义与层级结构。
学术公式支持
针对学术场景的特殊需求,工具能够识别图表中的数学公式,并输出为 LaTeX 格式,极大方便了研究者在论文中直接使用。

▲原始静态图(输入·不可编辑)
▲重建结果(输出·完全可编辑)
核心亮点
真正的可编辑性:输出不是一张嵌入的图片,而是一个由独立矢量元素构成的可维护画布,实现了“所见即所得”的编辑体验。
技术架构先进:项目由 SAM3(Segment Anything Model 3) 与多模态大语言模型(LLM) 共同驱动,确保了元素分割的准确性与语义理解的深度。

效果还原度高:从提供的对比示例看,无论是复杂的技术多级架构图、逻辑示意图,还是包含公式的科学图表,其重建结果在视觉保真度和结构还原度上都表现优异。
▲原始静态图(输入·不可编辑)

▲重建结果(输出·完全可编辑)
灵活的使用方式:提供在线体验(开箱即用)和本地部署两种模式,满足临时使用与集成开发的不同需求。本地部署还提供了网页界面和命令行界面(CLI),适应不同用户习惯。
应用场景
技术文档编写:快速修改已有的系统架构图、流程图、部署图。
学术论文撰写:重用或调整文献中的示意图、实验框图,并准确提取公式为LaTeX。
方案与报告制作:将客户或合作方提供的不可编辑图表素材,轻松转换为可直接在 PPT 中修改的幻灯片。
知识库维护:对历史遗留的图片格式资料进行数字化与可编辑化改造,便于持续更新。
结语
Edit-Banana 通过将静态图表解构并重组为可编辑的矢量元素,有效地将用户从繁琐、低效的重复绘图工作中解放出来。
它抓住了技术文档与学术创作中的真实需求,以其切实可用的转换效果,成为了提升内容创作效率的一款实用工具。
GitHub:https://github.com/BIT-DataLab/Edit-Banana
欢迎扫码加入社群
一起交流AI前沿技术!

小编免费共享AI开源项目知识库,
实现大家的AI资讯自由!
直接扫码或点击链接即可查看!

AI开源项目知识库:https://qyxznlkmwx.feishu.cn/wiki/BwWIwsCOuiMWGmkUzNHcKLvPnPh
夜雨聆风
