乐于分享
好东西不私藏

AI+MD多智能体-四天运行复盘

AI+MD多智能体-四天运行复盘

先总结结论:人工参与很少,基本AI智能体负责,只在重要时刻飞书通知我。

四天踩了五个深坑,增加了TOKEN消耗:

坑 1:Intel MPI 把 CP2K 钉死在一个核上

坑 2:几何构造公式错了,BDE 偏差高达 61 kcal/mol

坑 3:O 原子 SCF 死活不收敛,O 原子的自洽场计算振荡不停。原因是开壳层单原子使用传统对角化方法容易陷入振荡。

坑 4:LAMMPS 源码硬编码,P 和 Si 元素消失

坑 5:漏写 timestep,步数 9999 时全线崩溃

以上都为AI团队处理,自动修复

一、为什么要搭多智能体,而不是写脚本?

科学计算有一个特点:流程长、环节多、崩溃频繁、人工干预成本高

一次完整的计算工作流可能跨越多个软件(量子化学软件、分子动力学引擎)、多个阶段(参数优化 → 短时验证 → 长时模拟),单次任务动辄几小时到几天。中间任何一个环节崩溃,如果没有人盯着,计算资源就白白浪费了。

传统做法是写 shell 脚本轮询日志、发邮件告警。问题在于:脚本没有记忆,没有决策能力,没有容错隔离。一个环节挂掉,往往带崩整个流程。

多智能体的思路不同:把每个职责拆成一个独立 Agent,各自运行,通过共享状态协调,互不阻塞,互不拖累。

二、整体架构:三层两总线

三个核心设计原则:

  • 文件总线解耦
    :所有 Agent 无 socket 直连,通过 status_bus.json 交换状态,单个 Agent 崩溃不影响其他
  • 上下文隔离
    :底层计算层只传文件路径,不传文件内容,防止上下文溢出
  • 人在环保留
    :重大决策(力场晋级、混沌注入)必须经用户确认,AI 不自作主张

三、六个 Runtime Agent 的职责

【Make MD Easier】

Lammps 模块化教程:分子模拟模块化教程合集

Lammps in文件案例合集:1)Lammps 模拟案例合集(一)2)Lammps 模拟案例合集(二)3) Lammps 模拟案例合集(三)