
现在让 AI 先画一版论文配图,已经不算难事。
方法图、架构图、poster 配图,给模型一段说明文本,往往能出一张看起来不错的初稿。
可一旦进入论文写作流程,箭头要调,标签要改,颜色要统一,模块位置也要微调。模型给你的却是一张 PNG,细节一多,很多人还是得回到 PPT、Illustrator 或 Figma 里重新画。
围绕这个问题,UIUC、清华、北大的作者团队推出了 CRAFTER 和 CRAFTEDITOR。
前者负责生成科研插图,后者负责把生成图或外部已有栅格图转成可编辑 SVG,让论文内容、草图、参考图这些常见输入,能继续进入可编辑的后续流程。

〓CraftEditor与Edit-Banana、AutoFigure-Edit的SVG转换效果对比

论文标题:
CRAFTER: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
论文地址:
https://arxiv.org/pdf/2605.30611
代码地址:
https://github.com/HaozheZhao/Crafter
大模型为什么越改越乱?
一张论文配图能不能用,常常卡在几个很小的地方。箭头接错,方法逻辑会变;模块漏掉,流程会断;文字糊成一团,读者很难判断图里到底写了什么。
这类图由标签、箭头、模块、图标和空间关系组成,每个组件都对应明确语义,不能只看整体观感。
论文把 CRAFTER 定义为一个 Multi-Agent Harness:它不是单次调用图像模型,而是在生成、检查、修订之间搭了一个闭环。

〓CRAFTER 的多智能体绘图流程
系统会先理解论文内容和用户意图,生成多版视觉方案,再调用图像生成模型出图。
每轮生成后,它会检查内容准确性、布局一致性、文字可读性和视觉瑕疵,并把修改意见写回一份结构化记录里,决定继续修改、接受当前结果,或回退到更好的版本。
多轮修改不会简单堆成越来越长的提示词,而是变成一组可合并的结构化操作:增加布局约束、调整指定元素大小,或禁止某类视觉瑕疵反复出现。这样更适合处理论文配图里反复出现的局部问题。
在 PaperBanana-Bench 和 CRAFTBENCH 上,CRAFTER 的综合得分均为最高;消融实验也显示,去掉任一核心机制,整体分数都会下降 5.04 到 8.90 分。
从 PNG 到 SVG
具体到 SVG 转换,重点就在 CRAFTEDITOR。它先清理画布,抽取图中元素。再给元素生成描述、定位位置,判断它更适合作为矢量元素处理,还是作为图像资产保留。
最后组装 SVG 骨架,继续检查布局、文本溢出、箭头端点、元素重叠和组件缺失。

〓CRAFTEDITOR 将栅格图转成可编辑 SVG 的流程
视觉语言模型负责判断整体布局和语义对应,程序检查器补上更细的结构检查。这些最容易卡住后期修改的局部组件和结构关系,都被纳入转换流程。
论文在 80 个 CRAFTER 输出上评估栅格图到 SVG 的转换质量。
三个 VLM 评审打分后,CRAFTEDITOR 的综合得分为 8.04,高于 AutoFigure-Edit 的 6.91 和 Edit-Banana的 3.69;位置、颜色、文本、图标、箭头、风格等维度也都领先。
它不能保证直接生成终稿,但能把AI生成的论文配图从一张只能看的 PNG,变成可以拆开改的 SVG。
多条件输入支持
CRAFTER 也没有把输入限制在文本。
作者构建的 CRAFTBENCH 包含 279 个样本,覆盖学术图、poster、infographic 三类图,以及文生图、mask 补全、关键元素组合、草图条件生成四种输入条件。

〓CRAFTBENCH 中四类任务样例
写论文时,可以给它论文上下文和图注生成方法图初稿;做 poster 时,可以让它补全空白区域;讨论方案时,可以把草图作为参考;手里只有关键图标或部分元素,也可以让它据此生成完整图。

〓CRAFTER 与基线方法在多种输入条件下的生成效果对比
结语
项目已经开源,可以从文本生成、参考图条件生成、栅格图转 SVG 几个入口上手。
CRAFTEDITOR 这部分还需要配置 SAM3 grounding server,整体更像一个可上手的开源原型,而不是即开即用的网页产品。
最终能不能进论文,还是要作者自己把关。箭头关系、模块命名、标签表述、投稿版式,都要再检查一遍。
如果你正好有方法图、草图或旧图要处理,可以直接拿来跑一下,看看它生成和转 SVG 的效果。

扫描二维码添加小助手微信
关于我们

夜雨聆风