试了一圈,我现在这样用 AI 画软件工程图
我这段时间一直在探索用 AI 画软件工程图。
平时写方案、做设计、讲系统关系,经常会用到 ER 图、架构图、时序图、流程图。这个事情不大,但很烦。图画粗了,别人看不懂;图画细了,后面自己改起来又痛苦。如果能很好的用上AI,对提高工作效率是非常有帮助的。
我最先尝试的是 GPT-image-2 和 Nano Banana Pro 这样的文生图模型。

这个路线一开始很惊艳。比如我让它画一张支付场景时序图,包含用户端、商户系统、订单系统、支付网关、第三方支付平台、银行系统。它很快就能给出一张完整、有设计感的图。
【图 1:GPT-image-2 直接生成的支付场景时序图】

这张图第一眼是很能打的。参与方有区分,颜色也舒服,还有图例和流程说明。单纯放到文章或者汇报里,已经很像成品。
但真要放进工作流里,问题很快就来了。
工程图不是海报,它经常是拿来继续改的。评审会上有人会说这里关系不对,产品会说这个状态漏了,研发会说这条链路要拆开。第二天自己也可能发现,某个字段不该放。
这时候图片模型就很别扭。它最后给我的还是一张图片,不能直接拖一个实体、补一个字段、换一条连线,只能重新描述、重新生成。新图可能解决了 A,又改坏了 B。
所以我后来慢慢意识到,这事不能只问哪个工具画得最好看。要先想清楚,这张图最后是展示图片、文档代码块、可编辑画布,还是一份可以反复复用的工作底稿。
如果目标是嵌进文档,我试过 AI + Mermaid。
这条路很适合技术人,也很适合 agent。GitHub、Notion、技术文档站支持 Mermaid 渲染的地方,直接放进 Markdown 代码块就能用。图错了改文本,关系漏了补一行,放到版本管理里还能看 diff。
流程图、简单时序图、状态图、模块关系图,用 AI + Mermaid 都比较顺。它对 agent 也友好,不需要理解复杂画布坐标,改几行文本就能继续生成、审查和调整。
但它也有边界。AI + Mermaid 还是靠文本定义,再交给渲染器自动布局。图稍微复杂一点,你想精确控制对象位置、分组关系、重点对象和边线避让,它就不一定听话。
所以我后来把它放在轻量文档图这一类:优先用 AI + Mermaid。它轻、快、好维护,也方便 agent 接着改,没有必要为了形式感换方案。
只是我当时想解决的不是这个层级的问题。我想要的是复杂一点、有一定视觉要求、后面还要继续编辑的图。
再往后,我开始试 Codex + Draw.io MCP。
Draw.io 的优点很朴素,就是能拖、能改、能让别人接着画。MCP 的作用,是让 Codex 不只在旁边给建议,而是真的把图画进 Draw.io 里。
我还是拿同一个支付场景时序图试了一次:用户端、商户系统、订单系统、支付网关、第三方支付平台、银行系统,创建订单、发起支付、跳转支付平台、银行扣款、返回结果、更新订单、通知用户。
【图 2:Codex + Draw.io MCP 生成的支付场景时序图】

它没有图 1 那种图片模型的成品感,视觉上更克制,信息也更像一张工作底稿。但参与方都在,主流程也串起来了,还能打开继续改。
这对工程图来说很关键。很多时候我们不是缺一张完美图,而是缺一个能开始讨论的底稿。只要这个底稿能改,就已经有价值。
试到这一步,如果没有更复杂、更高视觉要求的话,Codex + Draw.io MCP 已经可以用了。
但继续用几次,又会发现另一个问题。
它能画出来,不代表每次都画得稳。有时候主对象不够突出,有时候字段放得太多,有时候线条绕得不舒服,有时候这张图和下一张图完全不是一个风格。
这些不是“会不会调用 Draw.io”的问题,而是我每次都在反复提醒它:先选图型,别什么都塞进去,主对象要突出,关系线别乱,颜色和边框统一一点。
说多了我就觉得,这些话不应该每次都重新说。
于是我把这些反复出现的要求,沉淀成了一个 software-diagrammer skill。
我想沉淀的,其实是两类东西。
一类是资产。比如画布、字体、边框、强调色、图例这些设计体系怎么保持一致,也包括某类图的最佳实践。
另一类是流程。选哪种图,画布怎么分区设计,节点和连线怎么按网格摆,最后怎么检查有没有重叠、遮挡、压线,如果有问题再进行修复。
后来我又用它画了一张经典电商核心交易 ERD。
【图 3:用 software-diagrammer 画出的经典电商核心交易 ERD】

一句话说,skill 就是把这些资产、设计体系、图的设计流程和 Draw.io 画图流程,变成下一次默认会执行的规则。
创建这个 skill 也不是一次完成的。我是用 multi-agent 的方式跑:一个 agent 按规则画,另一个 agent 按标准审,看图型对不对、布局乱不乱、风格是否统一、能不能继续编辑。审出来的问题再回到 skill 里,变成下一轮默认规则。跑多了,它就不只是一份提示词,而是在尝试、检查、修正里慢慢进化。
现在回头看,我大概会按四种场景来选。
一、只是要一张好看的展示图,用图片模型。
文章配图、汇报里的氛围图、封面图,重点是第一眼好看,不太需要后续编辑。这种情况下,GPT-image-2、Nano Banana Pro 这类文生图模型已经很能打。
二、视觉要求不高、复杂度不高,还要嵌进文档,用 AI + Mermaid。
流程图、简单时序图、状态图、模块关系图,要放到 Notion、GitHub、技术文档站里,AI + Mermaid 最轻便,对 agent 也最友好。
三、图复杂一点,有一定视觉要求,还希望后面继续改,用 Codex + Draw.io MCP。
比如支付时序图、架构图、复杂流程图,自己或者同事还能继续拖拽、调整、补线,这时候 Codex + Draw.io MCP 就很合适。
四、要求再高一点,需要反复改、反复审、还要保持统一风格,就加上 skill。
现在我画工程图,基本就按这几类场景来选。
这套方法肯定不是标准答案,也不排除后面还有更顺手的工具和流程。但对我目前的日常工作来说,它已经把 AI 画图从“看一眼挺惊艳”,往“真的可以继续改、继续用”推了一步。
后面我应该还会继续试。AI 时代好玩的地方也在这里,路很多,最后都是为了少手搓一点,多把问题讲清楚一点。
光谱与手册
看结构(光谱),给路径(手册)
关注我,把复杂变简单
夜雨聆风