
如今AI绘图工具层出不穷,可选择什么样的AI工具,又让我们犯了难。这次我们就找来了五款当下热门的AI绘图工具,让它们同台PK。选择一篇顶刊论文,用Claude提取出论文研究方法部分的描述,生成prompt,给每款工具都输入同样的prompt,从还原度、规范性、美观度、可用性四个维度来给它们打分,看看哪家AI最懂科研人的"流程图焦虑"。
01
谁才是科研人的"绘图神器"?
首先,我们欢迎五位AI绘图选手登场:Nano Banana、GPT-Image-2、Grok、豆包、通义万相。
我们选择一篇论文的流程图,为什么要选它?当然是结构完整、全流程逻辑清晰、模块划分合理,很考验AI对层级关系和流程走向的理解能力,很适合用来测评不同工具的还原能力。具体来说,该图包含四大核心模块:
① INPUT:多源时空数据(Precipitation / Temperature / NDVI / ET / GWL)+ HGU 水文单元图结构演化
② Fourier Processor + Dynamic Graph Learning:双分支并行处理
③ Aggregation & Representation Learning:GATConv + Multi-Head Attention + 残差
④ Output Layer:Linear → GELU → Linear,输出多站点预测时序

Flgure 2. Sche matic architecture of the GFN model, incorporating Fourier-based temporal decomposition, dynamicinterregional graph learning, and multi-head spatial attention to predict groundwater levels.
流程图出处:
Wu, Y., et al., Graph Fourier Deep Learning for Groundwater Levels in the Yellow River Basin. Water Resources Research, 2025, 61(11).DOI:10.1029/2025WR041215.
02
Claude写prompt
Create a vertical (top-to-bottom) schematic architecture diagram of the"Graph Fourier Network (GFN)" deep learning model for groundwater levelprediction, in the style of Water Resources Research / Nature journal figures.Aspect ratio: 3:4 portrait. Flat vector style. Rounded rectangle blocks.Whole diagram enclosed in one large dashed rounded rectangle.LAYER 1 (TOP) — Input Data + Hydrogeological PriorTop row (5 horizontally aligned small maps/time-series):Precipitation, Temperature, NDVI, ET, GWLBottom row of Layer 1:Left: Yellow River Basin map with HGU1~HGU9 colored partitionsRight: 3 circular insets showing graph structures inside HGU₁, HGU₉, HGU₃LAYER 2 — Two Parallel Sub-modules (side by side)Fourier Processor (left panel):Token EmbeddingRFFT1st Linear Layer (gc1)Formula: O₁ʳ = W₁₁Xʳ − W₁₂Xⁱ + b₁₁Formula: O₁ⁱ = W₁₂Xʳ − W₁₁Xⁱ + b₁₂ReLU Activation2nd Linear Layer (gc2)Formula: O₂ʳ = ReLU(W₂₁O₁ʳ − W₂₂O₁ⁱ + b₂₁)Formula: O₂ⁱ = ReLU(W₂₂O₁ʳ + W₂₁O₁ⁱ + b₂₂)ReLU ActivationIRFFT (pink output)Dynamic Graph Learning (right panel):Node EmbeddingEdge Feature ConcatenationFormula: sᵢⱼ = σ(W₂ᵀg · ReLU(W₁ᵀPᵢⱼ))Similarity LearningTop-k SelectionDynamic Edge Index (pink output)Both sub-modules merge downward into Layer 3.LAYER 3 — Graph Attention with Multi-HeadGATConv (stacked pink blocks)Head 1 (green arrow), Head 2 (blue arrow), Head N (orange arrow)Multi-Head Attention (Edge Aggregation)LeakyReLUResidual Projection (teal block, dashed arrow connecting GATConv to LeakyReLU)LAYER 4 (BOTTOM) — Output MLPLinear (N×E → 512)GELULinear (512 → T_pred × N)Multi-station predictions: Station 1, Station 2, …, Station N (t = 1, 2, 3 …)Color scheme:Input layer: light blueFourier Processor / DGL panels: light purpleOutput boxes (IRFFT, Dynamic Edge Index): pinkGATConv: pink/redMulti-Head Attention and LeakyReLU: yellowResidual Projection: tealLinear/GELU: light blue/pinkRules:Strictly top-to-bottom main flow.Layer 2 has two parallel sub-modules merging downward into Layer 3.Show key equations as small gray boxes beside relevant modules.Use multi-color arrows for multi-head attention.Use dashed arrow for residual connection.Sans-serif font (Arial/Helvetica), italic for math.Clean, AGU/Nature journal figure style.
03
AI绘图PK——Nona Banan

Nano Banana 给出的版本几乎是对原图的"逐模块对位还原":
Layer 标签清晰地标注在左侧,自上而下贯穿全图;
顶部输入区的五个变量图标 + 迷你时序曲线、黄河流域 HGU 分区图、三个 HGU 子图,一一对应原图布局;
Layer 3 的 Multi-Head(Head 1 / Head 2 / Head N)→ 聚合 → LeakyReLU → 残差投影,流程方向与原图完全一致;
底部三个 Station 输出的小折线图,也忠实保留了原图风格。
整体配色克制、字体干净、连线规整,最接近"论文级正图"的观感。
04
AI绘图PK——GPT-Image-2

GPT-Image-2 走的是"杂志级科普海报"路线,值得单独称赞的是:
它把顶部五个输入变量,真实地"画"成了带 colorbar 的栅格地图(Precipitation 用蓝色降水量、Temperature 用红橙温度场、NDVI 用绿色植被场……)外加迷你时序图,可视化层次比原图更丰富;
黄河流域 HGU 分区图配色明快、图例完整,几乎可以直接作为成果展示插图;
底部多站点预测图也细致地画出了 GWL 时序曲线和坐标轴。
需注意的是,它把原图的四层结构编号成了 ①②③④ 的"教程式分块",与原图严格的 Layer 命名稍有差异;此外,GATConv 多头分支被简化成了直接输出 Head 1~N,残差路径以虚线表示,信息密度比原图更"轻"了一些。
05
AI绘图PK——Grok

Grok 的输出整体骨架是齐的:Fourier 分支、Dynamic Graph 分支、GATConv 多头、Output MLP 都按预期出现了,黄河流域底图与三个 HGU 子图也一并保留。
需要友善提示的几个观察点:
顶部地图区的 HGU 标签 (HGU1 / HGU4 / HGU8 / HGU9) 出现了重复叠加和位置错位,可读性受到影响;
公式区部分变量名出现了"全角下标""字符走样"等现象,例如 RELU Activvion(应为 Activation);
Layer 3 的 GATConv被画成了三块平行的大块,但 Head 1 / Head 2 / Head N 的连线与残差投影路径有些缠绕;
底部出现了 LeakyREU(应为 LeakyReLU)等小拼写问题。
06
AI绘图PK——豆包
豆包这一版最有"个人特色"的地方,是它把顶部的输入数据渲染成了实拍/卫星照片风格(街景、温度图斑、植被遥感、河口卫片、河流影像),视觉冲击力很强,适合作为封面或宣传图。
但从"科研流程图复现"的视角看:
整体流向不再是严格的自上而下:Graph Attention 模块被放到了页面中段并向两侧发散,Fourier Processor 和 Dynamic Graph Learning 则与之并列,主流程方向略显发散;
Output MLP 被压在最底部,但 IRFFT 和 Residual Edge Index 等节点出现在了不太合常理的位置;
多站点输出区没有像原图那样画出三条独立时序曲线,而是用图标+文字代替。
07
AI绘图PK——通义万相
通义万相能正确识别出 Layer 1 / Layer 2 / Layer 3 的层级语义,这一点值得肯定:
Layer 1 顶部的五个输入图标整齐排布,黄河流域底图 + 三个 HGU 子图也都保留了下来;
Layer 2 同样画出了 Token Embedding → RFFT → 第一线性层 → ReLU → 第二线性层 → IRFFT 的双分支结构,以及右侧 Dynamic Graph Learning 的 Node Embedding → Edge Concat → Similarity → Top-k → Dynamic Edge Index 的完整流水线。
不过几处可以打磨的地方:
底图上的 HGU 标签沿四周循环排布(HGU1 HGU2 HGU3 HGU4…),与"分区地图"的常规呈现方式有出入;
Layer 3 的 GATConv 被简化成了三条平行色条,没有展开多头注意力 / 残差 / LeakyReLU 等子模块;
Layer 4 的 Output MLP 在本次输出中没有完整呈现,导致整张图在视觉上略显"未完待续"。
08
PK结果
在这个"忠实还原"优先的场景里,Nano Banana 交出了最贴近原图的答卷。对科研人来说,它真正的价值不仅是"省事",更是把画图的时间还给科研本身。
总结:每款 AI 都有自己擅长的方向——有的更适合创意发挥,有的更擅长风格化表达,有的在本地化交互上更顺手。本次比拼聚焦于"顶刊流程图的高保真复现"这一相对垂直的科研场景,结果仅反映在这一特定任务下的表现,并不代表工具的整体能力。
转载自 Hydro90
文章仅代表作者观点,与本公众号无关,版权归原作者所有。
原文标题:HF.128|五大AI同台PK:谁能复刻顶刊论文的"灵魂流程图"?
END
图文编辑:徐芮涵 邓惠玲
审编:周刘妮 郭书阳
终审:罗凌志 武园伊 王晓慧 常紫怡
猜你喜欢
佳文赏析 | 国土空间开发与治理战略体系叠加效应的机制与愿景 地学招聘|中国科学院沈阳应用生态研究所环境生态工程创新组群招聘启事(科研助理) 地理数据 | 基于冻结数模型的多情景多模型全球冻土分布数据集(1950-2099) 会议通知 | 2026年中国城市与区域管理学术年会通知(第二号)

夜雨聆风