试了一圈,我现在这样用 AI 画软件工程图-夜雨聆风

试了一圈,我现在这样用 AI 画软件工程图

我这段时间一直在探索用 AI 画软件工程图。

平时写方案、做设计、讲系统关系，经常会用到 ER 图、架构图、时序图、流程图。这个事情不大，但很烦。图画粗了，别人看不懂；图画细了，后面自己改起来又痛苦。如果能很好的用上AI，对提高工作效率是非常有帮助的。

我最先尝试的是 GPT-image-2 和 Nano Banana Pro 这样的文生图模型。

这个路线一开始很惊艳。比如我让它画一张支付场景时序图，包含用户端、商户系统、订单系统、支付网关、第三方支付平台、银行系统。它很快就能给出一张完整、有设计感的图。

【图 1：GPT-image-2 直接生成的支付场景时序图】

这张图第一眼是很能打的。参与方有区分，颜色也舒服，还有图例和流程说明。单纯放到文章或者汇报里，已经很像成品。

但真要放进工作流里，问题很快就来了。

工程图不是海报，它经常是拿来继续改的。评审会上有人会说这里关系不对，产品会说这个状态漏了，研发会说这条链路要拆开。第二天自己也可能发现，某个字段不该放。

这时候图片模型就很别扭。它最后给我的还是一张图片，不能直接拖一个实体、补一个字段、换一条连线，只能重新描述、重新生成。新图可能解决了 A，又改坏了 B。

所以我后来慢慢意识到，这事不能只问哪个工具画得最好看。要先想清楚，这张图最后是展示图片、文档代码块、可编辑画布，还是一份可以反复复用的工作底稿。

如果目标是嵌进文档，我试过 AI + Mermaid。

这条路很适合技术人，也很适合 agent。GitHub、Notion、技术文档站支持 Mermaid 渲染的地方，直接放进 Markdown 代码块就能用。图错了改文本，关系漏了补一行，放到版本管理里还能看 diff。

流程图、简单时序图、状态图、模块关系图，用 AI + Mermaid 都比较顺。它对 agent 也友好，不需要理解复杂画布坐标，改几行文本就能继续生成、审查和调整。

但它也有边界。AI + Mermaid 还是靠文本定义，再交给渲染器自动布局。图稍微复杂一点，你想精确控制对象位置、分组关系、重点对象和边线避让，它就不一定听话。

所以我后来把它放在轻量文档图这一类：优先用 AI + Mermaid。它轻、快、好维护，也方便 agent 接着改，没有必要为了形式感换方案。

只是我当时想解决的不是这个层级的问题。我想要的是复杂一点、有一定视觉要求、后面还要继续编辑的图。

再往后，我开始试 Codex + Draw.io MCP。

Draw.io 的优点很朴素，就是能拖、能改、能让别人接着画。MCP 的作用，是让 Codex 不只在旁边给建议，而是真的把图画进 Draw.io 里。

我还是拿同一个支付场景时序图试了一次：用户端、商户系统、订单系统、支付网关、第三方支付平台、银行系统，创建订单、发起支付、跳转支付平台、银行扣款、返回结果、更新订单、通知用户。

【图 2：Codex + Draw.io MCP 生成的支付场景时序图】

它没有图 1 那种图片模型的成品感，视觉上更克制，信息也更像一张工作底稿。但参与方都在，主流程也串起来了，还能打开继续改。

这对工程图来说很关键。很多时候我们不是缺一张完美图，而是缺一个能开始讨论的底稿。只要这个底稿能改，就已经有价值。

试到这一步，如果没有更复杂、更高视觉要求的话，Codex + Draw.io MCP 已经可以用了。

但继续用几次，又会发现另一个问题。

它能画出来，不代表每次都画得稳。有时候主对象不够突出，有时候字段放得太多，有时候线条绕得不舒服，有时候这张图和下一张图完全不是一个风格。

这些不是“会不会调用 Draw.io”的问题，而是我每次都在反复提醒它：先选图型，别什么都塞进去，主对象要突出，关系线别乱，颜色和边框统一一点。

说多了我就觉得，这些话不应该每次都重新说。

于是我把这些反复出现的要求，沉淀成了一个 software-diagrammer skill。

我想沉淀的，其实是两类东西。

一类是资产。比如画布、字体、边框、强调色、图例这些设计体系怎么保持一致，也包括某类图的最佳实践。

另一类是流程。选哪种图，画布怎么分区设计，节点和连线怎么按网格摆，最后怎么检查有没有重叠、遮挡、压线，如果有问题再进行修复。

后来我又用它画了一张经典电商核心交易 ERD。

【图 3：用 software-diagrammer 画出的经典电商核心交易 ERD】

一句话说，skill 就是把这些资产、设计体系、图的设计流程和 Draw.io 画图流程，变成下一次默认会执行的规则。

创建这个 skill 也不是一次完成的。我是用 multi-agent 的方式跑：一个 agent 按规则画，另一个 agent 按标准审，看图型对不对、布局乱不乱、风格是否统一、能不能继续编辑。审出来的问题再回到 skill 里，变成下一轮默认规则。跑多了，它就不只是一份提示词，而是在尝试、检查、修正里慢慢进化。

现在回头看，我大概会按四种场景来选。

一、只是要一张好看的展示图，用图片模型。

文章配图、汇报里的氛围图、封面图，重点是第一眼好看，不太需要后续编辑。这种情况下，GPT-image-2、Nano Banana Pro 这类文生图模型已经很能打。

二、视觉要求不高、复杂度不高，还要嵌进文档，用 AI + Mermaid。

流程图、简单时序图、状态图、模块关系图，要放到 Notion、GitHub、技术文档站里，AI + Mermaid 最轻便，对 agent 也最友好。

三、图复杂一点，有一定视觉要求，还希望后面继续改，用 Codex + Draw.io MCP。

比如支付时序图、架构图、复杂流程图，自己或者同事还能继续拖拽、调整、补线，这时候 Codex + Draw.io MCP 就很合适。

四、要求再高一点，需要反复改、反复审、还要保持统一风格，就加上 skill。

现在我画工程图，基本就按这几类场景来选。

这套方法肯定不是标准答案，也不排除后面还有更顺手的工具和流程。但对我目前的日常工作来说，它已经把 AI 画图从“看一眼挺惊艳”，往“真的可以继续改、继续用”推了一步。

后面我应该还会继续试。AI 时代好玩的地方也在这里，路很多，最后都是为了少手搓一点，多把问题讲清楚一点。

光谱与手册

看结构（光谱），给路径（手册）

关注我，把复杂变简单