干货分享 | 五大AI同台PK:谁能复刻顶刊论文的＂灵魂流程图＂?

如今AI绘图工具层出不穷，可选择什么样的AI工具，又让我们犯了难。这次我们就找来了五款当下热门的AI绘图工具，让它们同台PK。选择一篇顶刊论文，用Claude提取出论文研究方法部分的描述，生成prompt，给每款工具都输入同样的prompt，从还原度、规范性、美观度、可用性四个维度来给它们打分，看看哪家AI最懂科研人的"流程图焦虑"。

谁才是科研人的"绘图神器"？

首先，我们欢迎五位AI绘图选手登场：Nano Banana、GPT-Image-2、Grok、豆包、通义万相。

我们选择一篇论文的流程图，为什么要选它？当然是结构完整、全流程逻辑清晰、模块划分合理，很考验AI对层级关系和流程走向的理解能力，很适合用来测评不同工具的还原能力。具体来说，该图包含四大核心模块：

① INPUT：多源时空数据（Precipitation / Temperature / NDVI / ET / GWL）+ HGU 水文单元图结构演化

② Fourier Processor + Dynamic Graph Learning：双分支并行处理

③ Aggregation & Representation Learning：GATConv + Multi-Head Attention + 残差

④ Output Layer：Linear → GELU → Linear，输出多站点预测时序

Flgure 2. Sche matic architecture of the GFN model, incorporating Fourier-based temporal decomposition, dynamicinterregional graph learning, and multi-head spatial attention to predict groundwater levels.

流程图出处：

Wu, Y., et al., Graph Fourier Deep Learning for Groundwater Levels in the Yellow River Basin. Water Resources Research, 2025, 61(11).DOI:10.1029/2025WR041215.

Claude写prompt

Create a vertical (top-to-bottom) schematic architecture diagram of the"Graph Fourier Network (GFN)" deep learning model for groundwater levelprediction, in the style of Water Resources Research / Nature journal figures.Aspect ratio: 3:4 portrait. Flat vector style. Rounded rectangle blocks.Whole diagram enclosed in one large dashed rounded rectangle.LAYER 1 (TOP) — Input Data + Hydrogeological PriorTop row (5 horizontally aligned small maps/time-series):Precipitation, Temperature, NDVI, ET, GWLBottom row of Layer 1:Left: Yellow River Basin map with HGU1~HGU9 colored partitionsRight: 3 circular insets showing graph structures inside HGU₁, HGU₉, HGU₃LAYER 2 — Two Parallel Sub-modules (side by side)Fourier Processor (left panel):Token EmbeddingRFFT1st Linear Layer (gc1)Formula: O₁ʳ = W₁₁Xʳ − W₁₂Xⁱ + b₁₁Formula: O₁ⁱ = W₁₂Xʳ − W₁₁Xⁱ + b₁₂ReLU Activation2nd Linear Layer (gc2)Formula: O₂ʳ = ReLU(W₂₁O₁ʳ − W₂₂O₁ⁱ + b₂₁)Formula: O₂ⁱ = ReLU(W₂₂O₁ʳ + W₂₁O₁ⁱ + b₂₂)ReLU ActivationIRFFT (pink output)Dynamic Graph Learning (right panel):Node EmbeddingEdge Feature ConcatenationFormula: sᵢⱼ = σ(W₂ᵀg · ReLU(W₁ᵀPᵢⱼ))Similarity LearningTop-k SelectionDynamic Edge Index (pink output)Both sub-modules merge downward into Layer 3.LAYER 3 — Graph Attention with Multi-HeadGATConv (stacked pink blocks)Head 1 (green arrow), Head 2 (blue arrow), Head N (orange arrow)Multi-Head Attention (Edge Aggregation)LeakyReLUResidual Projection (teal block, dashed arrow connecting GATConv to LeakyReLU)LAYER 4 (BOTTOM) — Output MLPLinear (N×E → 512)GELULinear (512 → T_pred × N)Multi-station predictions: Station 1, Station 2, …, Station N (t = 1, 2, 3 …)Color scheme:Input layer: light blueFourier Processor / DGL panels: light purpleOutput boxes (IRFFT, Dynamic Edge Index): pinkGATConv: pink/redMulti-Head Attention and LeakyReLU: yellowResidual Projection: tealLinear/GELU: light blue/pinkRules:Strictly top-to-bottom main flow.Layer 2 has two parallel sub-modules merging downward into Layer 3.Show key equations as small gray boxes beside relevant modules.Use multi-color arrows for multi-head attention.Use dashed arrow for residual connection.Sans-serif font (Arial/Helvetica), italic for math.Clean, AGU/Nature journal figure style.

AI绘图PK——Nona Banan

Nano Banana 给出的版本几乎是对原图的"逐模块对位还原":

Layer 标签清晰地标注在左侧,自上而下贯穿全图;

顶部输入区的五个变量图标 + 迷你时序曲线、黄河流域 HGU 分区图、三个 HGU 子图,一一对应原图布局;

Layer 3 的 Multi-Head(Head 1 / Head 2 / Head N)→ 聚合 → LeakyReLU → 残差投影,流程方向与原图完全一致;

底部三个 Station 输出的小折线图,也忠实保留了原图风格。

整体配色克制、字体干净、连线规整,最接近"论文级正图"的观感。

AI绘图PK——GPT-Image-2

GPT-Image-2 走的是"杂志级科普海报"路线,值得单独称赞的是:

它把顶部五个输入变量,真实地"画"成了带 colorbar 的栅格地图(Precipitation 用蓝色降水量、Temperature 用红橙温度场、NDVI 用绿色植被场……)外加迷你时序图,可视化层次比原图更丰富;

黄河流域 HGU 分区图配色明快、图例完整,几乎可以直接作为成果展示插图;

底部多站点预测图也细致地画出了 GWL 时序曲线和坐标轴。

需注意的是,它把原图的四层结构编号成了 ①②③④ 的"教程式分块",与原图严格的 Layer 命名稍有差异;此外,GATConv 多头分支被简化成了直接输出 Head 1~N,残差路径以虚线表示,信息密度比原图更"轻"了一些。

AI绘图PK——Grok

Grok 的输出整体骨架是齐的:Fourier 分支、Dynamic Graph 分支、GATConv 多头、Output MLP 都按预期出现了,黄河流域底图与三个 HGU 子图也一并保留。

需要友善提示的几个观察点:

顶部地图区的 HGU 标签 (HGU1 / HGU4 / HGU8 / HGU9) 出现了重复叠加和位置错位,可读性受到影响;

公式区部分变量名出现了"全角下标""字符走样"等现象,例如 RELU Activvion(应为 Activation);

Layer 3 的 GATConv被画成了三块平行的大块,但 Head 1 / Head 2 / Head N 的连线与残差投影路径有些缠绕;

底部出现了 LeakyREU(应为 LeakyReLU)等小拼写问题。

AI绘图PK——豆包

豆包这一版最有"个人特色"的地方,是它把顶部的输入数据渲染成了实拍/卫星照片风格(街景、温度图斑、植被遥感、河口卫片、河流影像),视觉冲击力很强,适合作为封面或宣传图。

但从"科研流程图复现"的视角看:

整体流向不再是严格的自上而下:Graph Attention 模块被放到了页面中段并向两侧发散,Fourier Processor 和 Dynamic Graph Learning 则与之并列,主流程方向略显发散;

Output MLP 被压在最底部,但 IRFFT 和 Residual Edge Index 等节点出现在了不太合常理的位置;

多站点输出区没有像原图那样画出三条独立时序曲线,而是用图标+文字代替。

AI绘图PK——通义万相

通义万相能正确识别出 Layer 1 / Layer 2 / Layer 3 的层级语义,这一点值得肯定:

Layer 1 顶部的五个输入图标整齐排布,黄河流域底图 + 三个 HGU 子图也都保留了下来;

Layer 2 同样画出了 Token Embedding → RFFT → 第一线性层 → ReLU → 第二线性层 → IRFFT 的双分支结构,以及右侧 Dynamic Graph Learning 的 Node Embedding → Edge Concat → Similarity → Top-k → Dynamic Edge Index 的完整流水线。

不过几处可以打磨的地方:

底图上的 HGU 标签沿四周循环排布(HGU1 HGU2 HGU3 HGU4…),与"分区地图"的常规呈现方式有出入;

Layer 3 的 GATConv 被简化成了三条平行色条,没有展开多头注意力 / 残差 / LeakyReLU 等子模块;

Layer 4 的 Output MLP 在本次输出中没有完整呈现,导致整张图在视觉上略显"未完待续"。

PK结果

在这个"忠实还原"优先的场景里,Nano Banana 交出了最贴近原图的答卷。对科研人来说,它真正的价值不仅是"省事",更是把画图的时间还给科研本身。

总结：每款 AI 都有自己擅长的方向——有的更适合创意发挥,有的更擅长风格化表达,有的在本地化交互上更顺手。本次比拼聚焦于"顶刊流程图的高保真复现"这一相对垂直的科研场景,结果仅反映在这一特定任务下的表现,并不代表工具的整体能力。

转载自 Hydro90

文章仅代表作者观点，与本公众号无关，版权归原作者所有。

原文标题：HF.128｜五大AI同台PK：谁能复刻顶刊论文的"灵魂流程图"？

END

图文编辑：徐芮涵邓惠玲

审编：周刘妮郭书阳

终审：罗凌志武园伊王晓慧常紫怡