AI 破解全球海洋化学污染密码——3,000 种化学品生态风险一键盘清

论文导读| 大连理工大学李雪花团队在 Environmental Science & Technology (2026, 60:10651-10662) 发表研究成果——首次用多模态深度学习+ 物种敏感性分布（SSD）构建全链条AI 框架，无需动物实验即可预测3,000 种化学品对全球近岸海洋的生态风险，并揪出6 种高风险化合物和黑海混合物污染这一隐形杀手。

────────────────────────────────────────────

一、研究背景：海洋污染的"数据黑洞"

想象一下，全球已注册的化学品超过35 万种，它们通过工业排放、农业径流和生活污水，源源不断地流入海洋。但问题是——

我们根本不知道绝大多数化学品对海洋生物有多毒。

海洋污染现状触目惊心

91%的黑海、87%的地中海、75%的东北大西洋受到化学混合物污染
约 60%的全球海洋哺乳动物受到海洋污染威胁，污染已成为海洋生物多样性的第二大威胁
全球 661 个海湾中，超过 25%的站点里除草剂抑制了 >5% 的海洋浮游植物初级生产力
多氯联苯（PCBs）在虎鲸组织中的浓度，已威胁到全球 >50% 种群的长期生存

核心悖论：数据爆炸 vs. 毒性无知

科学家手里有50 万+条海洋化学暴露数据，但毒性数据却极度匮乏：

在ECOTOX 数据库的 1,895 种海洋化学品中，仅约250 种拥有覆盖8 种以上跨3 门物种的毒性数据——96% 的化合物"毒性不明"。

这意味着什么？当你想评估一种新发现污染物对海洋生态系统的影响时，传统方法几乎无能为力。SSD（物种敏感性分布）是国际公认的概率风险评估方法，但它需要充足的种间毒性数据才能构建——而这恰恰是最稀缺的资源。

三大关键问题

全球近岸环境中到底存在哪些有机微污染物（OMPs）？
哪些海洋物种对它们最敏感？
这些化学品最终是否正在摧毁海洋生物多样性？

────────────────────────────────────────────

二、研究目标：AI全链条破解海洋生态风险

本研究提出了一个划时代的AI-4-SSD框架，打通从"化学暴露"到"毒性预测"再到"风险定量"的全链路：

✅ 建立全球海洋多媒体暴露数据库（50万+记录，近3,000种化学品）✅ 开发MM-GCN多模态图神经网络，预测8种跨3门海洋物种的时间依赖性毒性 ✅ 构建AI驱动的SSD方法，为数据稀缺的化学品自动生成物种敏感性分布曲线✅ 鉴定全球海水中的高风险化合物，并揭示化学混合物与生物多样性丧失的隐秘关联

AI-4-SSD全链条框架

环节	核心技术	输出
暴露数据挖掘	NORMAN 数据库 + 文献	500,721条环境浓度数据
毒性智能预测	MM-GCN（分子图+物种编码+暴露时间）	8物种LC50/EC50
风险概率量化	AI-4-SSD 曲线 → HC5 → PAF/msPAF	生态风险等级
混合物风险诊断	浓度加和（CA）+ 独立作用（IA）模型	联合生态风险评估

────────────────────────────────────────────

三、方法框架：多模态深度学习赋能生态毒理

整体框架

图1：AI 赋能的全球近岸环境化学危害与风险预测方法

图1：AI 赋能方法的全链条流程。(A) 通过数据挖掘建立 OMPs 的暴露和毒性数据集；(B) 使用多模态图卷积网络（MM-GCN）预测化学品对海洋多物种的毒性；(C) 基于 SSD 曲线的 HC5 进行危害排名。(D) OMPs 对甲壳类和鱼类的概率风险评估，以及对藻类种群衰退的影响；(E) OMP 混合物与海洋生物多样性的对比分析。

核心技术模块

1️⃣ MM-GCN：三模态融合的深度毒性预测引擎

为什么叫"多模态"？因为模型同时消化三种不同类型的信息：

模态	信息内容	编码方式	生态意义
模态 I	化学品分子结构（SMILES）	分子图（节点=原子，边=化学键）	决定化学品的内在毒性潜力
模态 II	受试物种身份	One-hot 编码（8 个物种 → 0-7）	捕获种间敏感性差异
模态 III	暴露持续时间	连续值（0.0138–50 天）	学习时间-毒性关系

模型架构四步走：

1.多模态数据收集：从 2,995 条毒性记录中提取三模态信息

2.多模态数据融合：分别编码后通过 stacking 方法融合

3.MM 驱动生成：融合表征经 GCN 图注意力机制生成深度特征

4.关系挖掘：隐藏层自动学习分子结构-物种-时间 → 毒性的复杂映射

关键突破：传统QSAR 模型一个物种建一个模型，MM-GCN 把8 个物种、不同暴露时间的毒性数据"一锅炖"，让数据稀缺的物种也能"蹭"到数据丰富物种的学习成果。

2️⃣ AI-4-SSD：从预测毒性到概率风险

SSD（物种敏感性分布）是生态风险 assessment 的金标准——但它需要至少 8 种跨 3 门物种的毒性数据才能构建。AI-4-SSD 的革命性在于：用 MM-GCN 预测的毒性值代替实验值，为数据稀缺的化学品"凭空"生成 SSD 曲线。

流程：预测LC50/EC50 →构建SSD曲线→推导HC5（危害5%物种的浓度）→计算PAF（潜在受影响物种比例）→评估msPAF（混合物联合风险）

两种SSD 曲线：

• 基于预测 L(E)C50 的急性 SSD

• 基于转换 NOEC（L(E)C50 ÷ 528）的慢性 SSD

高风险判定：PAF ≥1%→ 生态风险不可忽略（99% 保护水平）

3️⃣ 适用域（AD）表征

模型不是"万能药"——研究团队用ADSAL（结构-活性景观）方法划定适用域：

• 建议阈值：s,T = 0.01，IA,T = 1.0

• 对应测试集 R² =0.874

•>85%的候选化学品落入适用域，说明模型对结构多样的化学品具有广泛适用性

────────────────────────────────────────────

四、研究结果：四大关键发现

发现 1：MM-GCN 以 R² = 0.85 刷新海洋毒性预测精度

图4：MM-GCN 框架与预测性能

图4：海洋多物种化学毒性预测框架与 MM-GCN 模型预测性能。(E) 训练集和测试集的整体观测-预测散点图；(F-M) 8 种海洋物种的单独散点图；(N) 不同暴露时间下的毒性分布。

性能指标：

数据集	R² 范围	亮点
训练集	0.73–0.96	稳定收敛
测试集	0.64–0.96	整体 R² = 0.85

基线模型对比（测试集R²提升幅度）：

物种	数据量	传统 ML 问题	MM-GCN R²test
Skeletonema costatum（藻类）	502	—	0.96
Americamysis bahia（甲壳类）	323	—	0.93
Artemia salina（甲壳类）	460	—	0.90
Crangon crangon（甲壳类）	61	严重过拟合	0.70
Palaemonetes pugio（甲壳类）	372	—	0.91
Cyprinodon variegatus（鱼类）	978	—	0.89
Fundulus heteroclitus（鱼类）	154	过拟合	0.91
Leiostomus xanthurus（鱼类）	145	过拟合	0.86

关键takeaway：尽管训练数据在物种间极不平衡（61–978 条），MM-GCN 对所有物种均表现出一致的预测性能——多模态融合让小样本物种也能精准预测。

发现 2：种间敏感性规律被 AI 成功"复现"

MM-GCN 不仅预测准，还学到了真实的生态毒理规律：

•营养级效应：6/8 物种中，中位毒性值随营养级下降而降低 → 低营养级生物（如甲壳类）对化学品更敏感

•时间效应：6/8 物种中，毒性随暴露时间延长而增强（1 天 → 3 天 → 5 天）

•最敏感物种：Palaemonetes pugio（甲壳类）和Leiostomus xanthurus（鱼类）——它们的急性毒性在短期暴露内即显现，动态变化不显著

•理化规律：预测毒性与分子量（p < 0.01）和 log Kow（p < 0.01）显著负相关 →高脂溶性、高分子量化学品更易在生物体内积累

这些规律与实验观测高度一致，验证了 MM-GCN 不是在"死记硬背"，而是在学习有生物学意义的模式。

发现 3：AI-4-SSD 揪出 6 种全球海洋"隐形杀手"

图5：AI-4-SSD 框架与 OMPs 危害排名

图5：(A) AI-4-SSD 框架描述；(B) 2,917 种 OMPs 的 HC5 危害排名和正态分布。

基于 95th 百分位环境浓度，研究鉴定出6 种全球海水中高风险化合物（PAF ≥ 1%）：

排名	化合物	PAF	类别	关键信息
	6:2/8:2 diPAP	5.6%	新兴 PFAS	未禁用，可降解为 PFOA/PFBA
	DDT	3.2%	有机氯农药	已禁用数十年，legacy 残留仍具威胁
	DBSA	2.1%	表面活性剂	广泛使用的工业化学品
4	4-MBC	1.7%	紫外滤光剂	个人护理品活性成分
5	8:2 diPAP	1.3%	新兴 PFAS	未禁用，危害被严重低估
6	Chlorpyrifos	1.3%	有机磷农药	已禁用，残留风险持续

危害排名前30 的化合物特征：

•农药25 种（其中拟除虫菊酯 20 种）→ 水生毒性最高的农药类别

•阻燃剂3 种（得克隆等）→ 塑料添加剂的生态风险被忽视

•PFASs 2 种（8:2 diPAP, 6:2/8:2 diPAP）→比传统PFASs（PFOA, PFHpA）危害高 100–1000 倍

最震撼发现：两种未禁用的diPAPs（PFAS 替代品）的海洋生态风险，远超传统 PFASs！它们的 HC5（0.04–0.07 μg/L）比 PFOA（9.0 μg/L）和 PFBA（961 μg/L）低2–4 个数量级。

发现 4：黑海混合物风险——"无害"的叠加=致命的累积

图6：全球海水概率风险评估与黑海混合物分析

图6：(A) 全球海水中 PAF ≥ 1% 的高风险 OMPs；(B) 黑海 2016–2019 年 OMPs 检出情况；(C) msPAF 与海洋营养指数（MTI）的关系。

研究团队选择数据最丰富的黑海进行深度案例分析，结果令人警醒：

检出规模：

• 2016 年：检出 139 种 OMPs（来自 2,135 种目标物）

• 2017 年：检出 90 种 OMPs

• 2019 年：检出 121 种 OMPs

混合物联合风险：

• msPAFCA（浓度加和模型）和 msPAFIA（独立作用模型）均接近或高于1%

• 单个化学品的风险几乎都可忽略，但数百种化学品的联合效应不可忽视

与生物多样性的致命关联：

• 2016–2019 年间，msPAF 与 MTI（海洋营养指数）呈显著负相关

• MTI 同期呈下降趋势 → 指示海洋生物多样性正在丧失

•结论：化学混合物的累积风险是黑海生物多样性丧失的关键驱动因素之一

��深刻洞察：杀死海洋生态系统的可能不是某一种"超级毒药"，而是数百种"看似无害"的化学品的协同累积。

────────────────────────────────────────────

五、研究意义：精准海洋保护的"AI 雷达"

学术价值

1.首次将多模态深度学习与 SSD 方法结合，实现无需动物实验的海洋生态毒性高通量预测

2. 建立覆盖近3,000 种化学品的全球海洋生态风险数据库，是迄今最全面的海洋风险 assessment 工作

3. 定量揭示化学混合物与海洋生物多样性丧失的因果关系，为混合物风险管理提供科学依据

4. 验证 MM-GCN 不仅预测精度高，还能学习有生物学意义的种间敏感性和时间-毒性关系

应用价值

1️⃣ 新化学品快速筛查

MM-GCN 模型可为全球近岸环境中新发现的化学品即时预测海洋生态毒性，无需等待耗时费力的动物实验。对于监管机构和化工企业而言，这意味着：在化学品上市前就能预判其海洋生态风险。

2️⃣ 基于风险的优先级排序

AI-4-SSD 框架可自动对数千种化学品进行概率风险排序，识别高风险混合物，指导靶向监测和精准管控。相比传统 RQ 方法仅基于少数物种推导阈值，AI-4-SSD 整合了 8 种跨 3 门物种的敏感性差异，结果更可靠。

3️⃣ 混合物风险预警

研究首次从定量分析角度证实：化学混合物是黑海生物多样性丧失的关键驱动因素。这提示全球其他近岸海域（尤其是半封闭内海）也面临类似威胁，混合物风险管理刻不容缓。

4️⃣ 政策制定支撑

• 两种未禁用的diPAPs被鉴定为高风险→ 呼吁重新评估 PFAS 替代品的安全性

• DDT、chlorpyrifos 等已禁用农药仍具显著风险 → 强调 legacy 污染物的长期监测必要性

• DBSA 等广泛使用的工业化学品风险被低估 → 推动表面活性剂类物质的海洋环境标准制定

技术亮点

✨亮点1：三模态融合范式

• 分子图 + 物种编码 + 暴露时间的创新融合，让小样本物种"蹭"大数据物种的学习成果

• 有效解决传统单物种 QSAR 模型数据稀疏、过拟合严重的痛点

✨亮点2：全链条自动化

• 从暴露数据 → 毒性预测 → SSD 构建 → 风险量化的全流程 AI 化

• 大幅降低海洋生态风险 assessment 的技术门槛和时间成本

✨亮点3：适用域严格划定

• ADSAL 方法确保模型预测在可靠范围内，避免盲目外推

• 85%+ 覆盖率兼顾了广度与精度

✨亮点4：混合模型验证

• 25 种化合物的实测 vs 预测 SSD 曲线高度一致（多数在 10 倍差异内）

• 不确定性（10–100 倍）在生态危害评估中完全可接受

─────────────────────────────────────────────

六、研究局限与未来展望

现存局限

急性毒性为主：MM-GCN 目前专注预测急性毒性（LC50/EC50），慢性生态风险（生殖、发育、行为毒性）的预测模型有待开发

作用模式未知：不同化学品的毒性作用模式（MoA）各异，当前知识不足以理解数万种化学品的具体机制，混合物风险评估提供的是近似范围而非精确值

地理覆盖有限：黑海的混合物-生物多样性关联分析有待推广到其他海域

数据依赖性：模型性能受限于训练数据的覆盖范围，对于结构极度新颖的化学品预测能力可能下降

未来方向

慢性毒性预测：整合长期暴露实验数据，开发慢性生态风险预测模块

AOP 网络融合：将不良结局通路（Adverse Outcome Pathway）网络和毒理基因组数据纳入模型，按毒性作用模式分组化学品

全球海域拓展：将混合物风险分析推广到地中海、东海、北极等数据积累中的海域

实时更新系统：随着新暴露数据和毒性数据的积累，模型在线学习和自适应更新

监管工具转化：将 AI-4-SSD 框架转化为监管部门可用的标准化软件工具

────────────────────────────────────────────

七、总结

这项研究的意义远不止于技术突破——它为全球海洋化学污染风险评估提供了一套"AI 操作系统"：从暴露数据到毒性预测，从单物种风险到混合物联合效应，从实验室到全球海洋。

三大核心贡献：

1. ✅首次开发MM-GCN 多模态深度学习模型，无需动物实验即可预测 8 种跨 3 门海洋物种的时间依赖性毒性（R² = 0.85）

2. ✅ 构建AI-4-SSD 全链条框架，为近 3,000 种化学品自动生成物种敏感性分布，鉴定出6 种全球海洋高风险化合物

3. ✅ 提供定量证据支持化学混合物累积风险是黑海生物多样性丧失的关键驱动因素

深刻洞察：当单一化学品的风险都被判定为"可忽略"时，数百种化学品的混合物却可能正在悄悄摧毁整个海洋生态系统。AI-4-SSD 框架的价值，在于让这种"隐形的累积杀手"变得可见、可测、可管。

未来已来：全球 50 万+ 条海洋化学暴露数据已静静躺在数据库中，等待被 AI 唤醒。当多模态深度学习与生态毒理学的智慧相遇，我们正站在精准海洋保护的新起点上。

────────────────────────────────────────────

资源链接

• 论文DOI：10.1021/acs.est.6c00675

• 期刊：Environmental Science & Technology, 2026, 60, 10651-10662

• 代码仓库：github.com/Zhu-lele/AI-4-SSD

• NORMAN 数据库：norman-network.com/nds/

• ECOTOX Knowledgebase：cfpub.epa.gov/ecotox/

致谢与基金支持

本研究由国家重点研发计划（2024YFC3712004）和国家自然科学基金联合基金（U25A20580）资助。

⚡本期金句：「全球海洋生物的生存正日益受到威胁——威胁并非来自单一的持久性有机污染物或新兴化学品，而是来自有毒物质的复杂混合物。这凸显了化学混合物联合风险日益增长的担忧，其在全球海洋环境中的生态风险远大于单个化学品。」— Zhu et al., 2026