AI科研绘图终于开窍了:出图就是可编辑SVG

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | PaperWeekly

现在让 AI 先画一版论文配图，已经不算难事。

方法图、架构图、poster 配图，给模型一段说明文本，往往能出一张看起来不错的初稿。

可一旦进入论文写作流程，箭头要调，标签要改，颜色要统一，模块位置也要微调。模型给你的却是一张 PNG，细节一多，很多人还是得回到 PPT、Illustrator 或 Figma 里重新画。

围绕这个问题，UIUC、清华、北大的作者团队推出了 CRAFTER 和 CRAFTEDITOR。

前者负责生成科研插图，后者负责把生成图或外部已有栅格图转成可编辑 SVG，让论文内容、草图、参考图这些常见输入，能继续进入可编辑的后续流程。

〓CraftEditor与Edit-Banana、AutoFigure-Edit的SVG转换效果对比

论文标题：

CRAFTER: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

论文地址：

https://arxiv.org/pdf/2605.30611

代码地址：

https://github.com/HaozheZhao/Crafter

大模型为什么越改越乱？

一张论文配图能不能用，常常卡在几个很小的地方。箭头接错，方法逻辑会变；模块漏掉，流程会断；文字糊成一团，读者很难判断图里到底写了什么。

这类图由标签、箭头、模块、图标和空间关系组成，每个组件都对应明确语义，不能只看整体观感。

论文把 CRAFTER 定义为一个 Multi-Agent Harness：它不是单次调用图像模型，而是在生成、检查、修订之间搭了一个闭环。

〓CRAFTER 的多智能体绘图流程

系统会先理解论文内容和用户意图，生成多版视觉方案，再调用图像生成模型出图。

每轮生成后，它会检查内容准确性、布局一致性、文字可读性和视觉瑕疵，并把修改意见写回一份结构化记录里，决定继续修改、接受当前结果，或回退到更好的版本。

多轮修改不会简单堆成越来越长的提示词，而是变成一组可合并的结构化操作：增加布局约束、调整指定元素大小，或禁止某类视觉瑕疵反复出现。这样更适合处理论文配图里反复出现的局部问题。

在 PaperBanana-Bench 和 CRAFTBENCH 上，CRAFTER 的综合得分均为最高；消融实验也显示，去掉任一核心机制，整体分数都会下降 5.04 到 8.90 分。

从 PNG 到 SVG

具体到 SVG 转换，重点就在 CRAFTEDITOR。它先清理画布，抽取图中元素。再给元素生成描述、定位位置，判断它更适合作为矢量元素处理，还是作为图像资产保留。

最后组装 SVG 骨架，继续检查布局、文本溢出、箭头端点、元素重叠和组件缺失。

〓CRAFTEDITOR 将栅格图转成可编辑 SVG 的流程

视觉语言模型负责判断整体布局和语义对应，程序检查器补上更细的结构检查。这些最容易卡住后期修改的局部组件和结构关系，都被纳入转换流程。

论文在 80 个 CRAFTER 输出上评估栅格图到 SVG 的转换质量。

三个 VLM 评审打分后，CRAFTEDITOR 的综合得分为 8.04，高于 AutoFigure-Edit 的 6.91 和 Edit-Banana的 3.69；位置、颜色、文本、图标、箭头、风格等维度也都领先。

它不能保证直接生成终稿，但能把AI生成的论文配图从一张只能看的 PNG，变成可以拆开改的 SVG。

多条件输入支持

CRAFTER 也没有把输入限制在文本。

作者构建的 CRAFTBENCH 包含 279 个样本，覆盖学术图、poster、infographic 三类图，以及文生图、mask 补全、关键元素组合、草图条件生成四种输入条件。

〓CRAFTBENCH 中四类任务样例

写论文时，可以给它论文上下文和图注生成方法图初稿；做 poster 时，可以让它补全空白区域；讨论方案时，可以把草图作为参考；手里只有关键图标或部分元素，也可以让它据此生成完整图。

〓CRAFTER 与基线方法在多种输入条件下的生成效果对比

结语

项目已经开源，可以从文本生成、参考图条件生成、栅格图转 SVG 几个入口上手。

CRAFTEDITOR 这部分还需要配置 SAM3 grounding server，整体更像一个可上手的开源原型，而不是即开即用的网页产品。

最终能不能进论文，还是要作者自己把关。箭头关系、模块命名、标签表述、投稿版式，都要再检查一遍。

如果你正好有方法图、草图或旧图要处理，可以直接拿来跑一下，看看它生成和转 SVG 的效果。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向

（如：小张-哈工大-对话系统）

即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。