AI 破解全球海洋化学污染密码——3,000 种化学品生态风险一键盘清论文导读 | 大连理工大学李雪花团队在 Environmental Science & Technology (2026, 60:10651-10662) 发表研究成果——首次用 多模态深度学习+ 物种敏感性分布(SSD) 构建全链条AI 框架,无需动物实验即可预测 3,000 种化学品 对全球近岸海洋的生态风险,并揪出 6 种高风险化合物 和 黑海混合物污染 这一隐形杀手。 ────────────────────────────────────────────
一、研究背景:海洋污染的"数据黑洞" 想象一下,全球已注册的化学品超过 35 万种 ,它们通过工业排放、农业径流和生活污水,源源不断地流入海洋。但问题是—— 我们根本不知道绝大多数化学品对海洋生物有多毒。
海洋污染现状触目惊心 91%的黑海、87%的地中海、75%的东北大西洋受到化学混合物污染 约 60%的全球海洋哺乳动物受到海洋污染威胁,污染已成为海洋生物多样性的第二大威胁 全球 661 个海湾中,超过 25%的站点里除草剂抑制了 >5% 的海洋浮游植物初级生产力 多氯联苯(PCBs)在虎鲸组织中的浓度,已威胁到全球 >50% 种群的长期生存 核心悖论:数据爆炸 vs. 毒性无知 科学家手里有50 万+ 条海洋化学暴露数据,但毒性数据却极度匮乏: 在ECOTOX 数据库的 1,895 种海洋化学品中, 仅约250 种 拥有覆盖 8 种以上 跨 3 门 物种的毒性数据—— 96% 的化合物"毒性不明" 。 这意味着什么?当你想评估一种新发现污染物对海洋生态系统的影响时,传统方法几乎无能为力。SSD(物种敏感性分布) 是国际公认的概率风险评估方法,但它需要充足的种间毒性数据才能构建——而这恰恰是最稀缺的资源。 三大关键问题 全球近岸环境中到底存在哪些有机微污染物(OMPs)? ────────────────────────────────────────────
二、研究目标:AI全链条破解海洋生态风险 本研究提出了一个划时代的AI-4-SSD框架 ,打通从"化学暴露"到"毒性预测"再到"风险定量"的全链路: ✅ 建立全球海洋多媒体暴露数据库(50万+ 记录,近3,000 种化学品)✅ 开发MM-GCN多模态图神经网络 ,预测8种跨3门海洋物种的时间依赖性毒性 ✅ 构建AI驱动的SSD方法 ,为数据稀缺的化学品自动生成物种敏感性分布曲线✅ 鉴定全球海水中的高风险化合物 ,并揭示化学混合物 与生物多样性丧失的隐秘关联 AI-4-SSD全链条框架 环节
核心技术
输出
暴露数据挖掘
NORMAN 数据库 + 文献
500,721条环境浓度数据
毒性智能预测
MM-GCN(分子图+物种编码+暴露时间)
8物种LC50/EC50
风险概率量化
AI-4-SSD 曲线 → HC5 → PAF/msPAF
生态风险等级
混合物风险诊断
浓度加和( CA)+ 独立作用(IA)模型
联合生态风险评估
────────────────────────────────────────────
三、方法框架:多模态深度学习赋能生态毒理 整体框架 图1:AI 赋能的全球近岸环境化学危害与风险预测方法
图1 :AI 赋能方法的全链条流程。(A) 通过数据挖掘建立 OMPs 的暴露和毒性数据集;(B) 使用多模态图卷积网络(MM-GCN)预测化学品对海洋多物种的毒性;(C) 基于 SSD 曲线的 HC5 进行危害排名。(D) OMPs 对甲壳类和鱼类的概率风险评估,以及对藻类种群衰退的影响;(E) OMP 混合物与海洋生物多样性的对比分析。核心技术模块 1️⃣ MM-GCN:三模态融合的深度毒性预测引擎 为什么叫"多模态"? 因为模型同时消化三种不同类型的信息:模态
信息内容
编码方式
生态意义
模态 I
化学品分子结构( SMILES)
分子图(节点 =原子,边=化学键)
决定化学品的内在毒性潜力
模态 II
受试物种身份
One-hot 编码(8 个物种 → 0-7)
捕获种间敏感性差异
模态 III
暴露持续时间
连续值( 0.0138–50 天)
学习时间 -毒性关系
1.多模态数据收集 :从 2,995 条毒性记录中提取三模态信息 2.多模态数据融合 :分别编码后通过 stacking 方法融合 3.MM 驱动生成 :融合表征经 GCN 图注意力机制生成深度特征 4.关系挖掘 :隐藏层自动学习分子结构-物种-时间 → 毒性的复杂映射 关键突破 :传统QSAR 模型一个物种建一个模型,MM-GCN 把 8 个物种、不同暴露时间 的毒性数据"一锅炖",让数据稀缺的物种也能"蹭"到数据丰富物种的学习成果。 2️⃣ AI-4-SSD:从预测毒性到概率风险 SSD(物种敏感性分布)是生态风险 assessment 的金标准——但它需要至少 8 种跨 3 门物种的毒性数据才能构建。AI-4-SSD 的革命性在于 :用 MM-GCN 预测的毒性值代替实验值,为数据稀缺的化学品"凭空"生成 SSD 曲线。 流程 :预测LC50/EC50 →构建SSD曲线→推导HC5(危害5%物种的浓度)→计算PAF(潜在受影响物种比例)→评估msPAF(混合物联合风险) • 基于转换 NOEC(L(E)C50 ÷ 528)的慢性 SSD 高风险判定 :PAF ≥1% → 生态风险不可忽略(99% 保护水平)3️⃣ 适用域(AD)表征 模型不是"万能药"——研究团队用ADSAL(结构-活性景观) 方法划定适用域: • 建议阈值:s,T = 0.01,IA,T = 1.0 •>85% 的候选化学品落入适用域,说明模型对结构多样的化学品具有广泛适用性 ────────────────────────────────────────────
四、研究结果:四大关键发现 发现 1:MM-GCN 以 R² = 0.85 刷新海洋毒性预测精度 图4:MM-GCN 框架与预测性能
图4 :海洋多物种化学毒性预测框架与 MM-GCN 模型预测性能。(E) 训练集和测试集的整体观测-预测散点图;(F-M) 8 种海洋物种的单独散点图;(N) 不同暴露时间下的毒性分布。数据集
R² 范围
亮点
训练集
0.73–0.96
稳定收敛
测试集
0.64–0.96
整体 R² = 0.85
物种
数据量
传统 ML 问题
MM-GCN R²test
Skeletonema costatum (藻类)
502
—
0.96
Americamysis bahia (甲壳类)
323
—
0.93
Artemia salina (甲壳类)
460
—
0.90
Crangon crangon (甲壳类)
61
严重过拟合
0.70
Palaemonetes pugio (甲壳类)
372
—
0.91
Cyprinodon variegatus (鱼类)
978
—
0.89
Fundulus heteroclitus (鱼类)
154
过拟合
0.91
Leiostomus xanthurus (鱼类)
145
过拟合
0.86
关键takeaway :尽管训练数据在物种间极不平衡(61–978 条),MM-GCN 对所有物种均表现出一致的预测性能—— 多模态融合让小样本物种也能精准预测 。 发现 2:种间敏感性规律被 AI 成功"复现" MM-GCN 不仅预测准,还学到了真实的生态毒理规律: •营养级效应 :6/8 物种中,中位毒性值随营养级下降而降低 → 低营养级生物(如甲壳类)对化学品更敏感 •时间效应 :6/8 物种中,毒性随暴露时间延长而增强(1 天 → 3 天 → 5 天) •最敏感物种 :Palaemonetes pugio(甲壳类)和Leiostomus xanthurus(鱼类)——它们的急性毒性在短期暴露内即显现,动态变化不显著 •理化规律 :预测毒性与分子量(p < 0.01)和 log Kow(p < 0.01)显著负相关 →高脂溶性、高分子量化学品更易在生物体内积累 这些规律与实验观测高度一致,验证了 MM-GCN 不是在"死记硬背",而是在学习有生物学意义的模式。 发现 3:AI-4-SSD 揪出 6 种全球海洋"隐形杀手" 图5:AI-4-SSD 框架与 OMPs 危害排名
图5 :(A) AI-4-SSD 框架描述;(B) 2,917 种 OMPs 的 HC5 危害排名和正态分布。基于 95th 百分位环境浓度,研究鉴定出6 种全球海水中高风险化合物 (PAF ≥ 1%): 排名
化合物
PAF
类别
关键信息
6:2/8:2 diPAP
5.6%
新兴 PFAS
未禁用,可降解为 PFOA/PFBA
DDT
3.2%
有机氯农药
已禁用数十年, legacy 残留仍具威胁
DBSA
2.1%
表面活性剂
广泛使用的工业化学品
4
4-MBC
1.7%
紫外滤光剂
个人护理品活性成分
5
8:2 diPAP
1.3%
新兴 PFAS
未禁用,危害被严重低估
6
Chlorpyrifos
1.3%
有机磷农药
已禁用,残留风险持续
•农药25 种 (其中拟除虫菊酯 20 种)→ 水生毒性最高的农药类别 •阻燃剂3 种 (得克隆等)→ 塑料添加剂的生态风险被忽视 •PFASs 2 种 (8:2 diPAP, 6:2/8:2 diPAP)→比传统PFASs(PFOA, PFHpA)危害高 100–1000 倍 最震撼发现 :两种 未禁用的diPAPs (PFAS 替代品)的海洋生态风险,远超传统 PFASs!它们的 HC5(0.04–0.07 μg/L)比 PFOA(9.0 μg/L)和 PFBA(961 μg/L)低 2–4 个数量级 。 发现 4:黑海混合物风险——"无害"的叠加=致命的累积 图6:全球海水概率风险评估与黑海混合物分析
图6 :(A) 全球海水中 PAF ≥ 1% 的高风险 OMPs;(B) 黑海 2016–2019 年 OMPs 检出情况;(C) msPAF 与海洋营养指数(MTI)的关系。研究团队选择数据最丰富的黑海 进行深度案例分析,结果令人警醒: • 2016 年:检出 139 种 OMPs(来自 2,135 种目标物) • msPAFCA(浓度加和模型)和 msPAFIA(独立作用模型)均接近或高于1% • 单个化学品的风险几乎都可忽略,但数百种化学品的联合效应不可忽视 • 2016–2019 年间,msPAF 与 MTI(海洋营养指数)呈显著负相关 • MTI 同期呈下降趋势 → 指示海洋生物多样性正在丧失 •结论:化学混合物的累积风险是黑海生物多样性丧失的关键驱动因素之一 �� 深刻洞察 :杀死海洋生态系统的可能不是某一种"超级毒药",而是数百种"看似无害"的化学品的 协同累积 。 ────────────────────────────────────────────
五、研究意义:精准海洋保护的"AI 雷达" 学术价值 1.首次 将多模态深度学习与 SSD 方法结合,实现无需动物实验的海洋生态毒性高通量预测 2. 建立覆盖近3,000 种化学品 的全球海洋生态风险数据库,是迄今最全面的海洋风险 assessment 工作 3. 定量揭示化学混合物与海洋生物多样性丧失的因果关系,为混合物风险管理提供科学依据 4. 验证 MM-GCN 不仅预测精度高,还能学习有生物学意义的种间敏感性和时间-毒性关系 应用价值 1️⃣ 新化学品快速筛查 MM-GCN 模型可为全球近岸环境中新发现的化学品即时预测 海洋生态毒性,无需等待耗时费力的动物实验。对于监管机构和化工企业而言,这意味着:在化学品上市前就能预判其海洋生态风险 。 2️⃣ 基于风险的优先级排序 AI-4-SSD 框架可自动对数千种化学品进行概率风险排序,识别高风险混合物,指导靶向监测和精准管控 。相比传统 RQ 方法仅基于少数物种推导阈值,AI-4-SSD 整合了 8 种跨 3 门物种的敏感性差异,结果更可靠。 3️⃣ 混合物风险预警 研究首次从定量分析角度证实:化学混合物是黑海生物多样性丧失的关键驱动因素。这提示全球其他近岸海域(尤其是半封闭内海)也面临类似威胁,混合物风险管理刻不容缓 。 4️⃣ 政策制定支撑 • 两种未禁用的diPAPs 被鉴定为高风险→ 呼吁重新评估 PFAS 替代品的安全性 • DDT、chlorpyrifos 等已禁用农药仍具显著风险 → 强调 legacy 污染物的长期监测必要性 • DBSA 等广泛使用的工业化学品风险被低估 → 推动表面活性剂类物质的海洋环境标准制定 技术亮点 ✨亮点1:三模态融合范式 • 分子图 + 物种编码 + 暴露时间的创新融合,让小样本物种"蹭"大数据物种的学习成果 • 有效解决传统单物种 QSAR 模型数据稀疏、过拟合严重的痛点 ✨亮点2:全链条自动化 • 从暴露数据 → 毒性预测 → SSD 构建 → 风险量化的全流程 AI 化 • 大幅降低海洋生态风险 assessment 的技术门槛和时间成本 ✨亮点3:适用域严格划定 • ADSAL 方法确保模型预测在可靠范围内,避免盲目外推 ✨亮点4:混合模型验证 • 25 种化合物的实测 vs 预测 SSD 曲线高度一致(多数在 10 倍差异内) • 不确定性(10–100 倍)在生态危害评估中完全可接受 ─────────────────────────────────────────────
六、研究局限与未来展望 现存局限 急性毒性为主 :MM-GCN 目前专注预测急性毒性(LC50/EC50),慢性生态风险(生殖、发育、行为毒性)的预测模型有待开发作用模式未知 :不同化学品的毒性作用模式(MoA)各异,当前知识不足以理解数万种化学品的具体机制,混合物风险评估提供的是近似范围 而非精确值地理覆盖有限 :黑海的混合物-生物多样性关联分析有待推广到其他海域数据依赖性 :模型性能受限于训练数据的覆盖范围,对于结构极度新颖的化学品预测能力可能下降未来方向 慢性毒性预测 :整合长期暴露实验数据,开发慢性生态风险预测模块AOP 网络融合 :将不良结局通路(Adverse Outcome Pathway)网络和毒理基因组数据纳入模型,按毒性作用模式分组化学品全球海域拓展 :将混合物风险分析推广到地中海、东海、北极等数据积累中的海域实时更新系统 :随着新暴露数据和毒性数据的积累,模型在线学习和自适应更新监管工具转化 :将 AI-4-SSD 框架转化为监管部门可用的标准化软件工具────────────────────────────────────────────
七、总结 这项研究的意义远不止于技术突破——它为全球海洋化学污染风险评估提供了一套"AI 操作系统":从暴露数据到毒性预测,从单物种风险到混合物联合效应,从实验室到全球海洋。
三大核心贡献 :1. ✅首次 开发MM-GCN 多模态深度学习模型 ,无需动物实验即可预测 8 种跨 3 门海洋物种的时间依赖性毒性(R² = 0.85) 2. ✅ 构建AI-4-SSD 全链条框架 ,为近 3,000 种化学品自动生成物种敏感性分布,鉴定出6 种全球海洋高风险化合物 3. ✅ 提供定量证据 支持化学混合物累积风险是黑海生物多样性丧失的关键驱动因素 深刻洞察 :当单一化学品的风险都被判定为"可忽略"时,数百种化学品的混合物却可能正在悄悄摧毁整个海洋生态系统。AI-4-SSD 框架的价值,在于 让这种"隐形的累积杀手"变得可见、可测、可管 。 未来已来 :全球 50 万+ 条海洋化学暴露数据已静静躺在数据库中,等待被 AI 唤醒。当多模态深度学习与生态毒理学的智慧相遇,我们正站在精准海洋保护 的新起点上。────────────────────────────────────────────
资源链接 • 论文DOI :10.1021/acs.est.6c00675 • 期刊 :Environmental Science & Technology, 2026, 60, 10651-10662 • 代码仓库 :github.com/Zhu-lele/AI-4-SSD • NORMAN 数据库 :norman-network.com/nds/ • ECOTOX Knowledgebase :cfpub.epa.gov/ecotox/ 致谢与基金支持 本研究由国家重点研发计划(2024YFC3712004)和国家自然科学基金联合基金(U25A20580)资助。 ⚡ 本期金句 :「 全球海洋生物的生存正日益受到威胁——威胁并非来自单一的持久性有机污染物或新兴化学品,而是来自有毒物质的复杂混合物。这凸显了化学混合物联合风险日益增长的担忧,其在全球海洋环境中的生态风险远大于单个化学品。 」— Zhu et al., 2026