文章荐读 | 西北工业大学软件学院贺亮教授课题组:基于分布式强化学习的风光氢系统节能调度方法

原文链接：

https://www.oaepublish.com/articles/aiagent.2026.01

How to Cite:

Zhang, B.; Wang, C.; Ma, Y.; Xie, J.; He, L. An energy-efficient scheduling approach for wind-solar-hydrogen systems based on distributed reinforcement learning. AI Agent2026, 2, 21. https://dx.doi.org/10.20517/aiagent.2026.01

扫码阅读原文

近年来，随着“双碳”目标和高比例可再生能源并网进程持续推进，风电、光伏、氢储能与传统火电之间的协同调度成为综合能源系统研究中的重要问题。风光出力具有明显的间歇性和季节性，负荷需求也存在日内波动与典型模式差异，这使得系统调度不仅要满足供需平衡，还需要同时兼顾燃煤成本、碳排放成本、外购电成本以及储能运行约束。如何在复杂不确定环境下实现低碳、经济、稳定的能量管理，是当前新能源电力系统面临的关键挑战。

本期推荐阅读西北工业大学软件学院贺亮教授课题组博士研究生张波撰写的研究论文“An Energy-Efficient Scheduling Approach for Wind-Solar-Hydrogen Systems Based on Distributed Reinforcement Learning”（基于分布式强化学习的风光氢系统节能调度方法）。文章面向并网型风-光-氢综合能源系统，提出了一套融合数据驱动场景提取、氢储能建模、碳交易成本约束与分布式深度强化学习的调度框架，为高比例可再生能源系统的智能优化运行提供了一个较为完整的解决方案。

文章简介

文章首先从数据表征入手，针对全年负荷数据提出了基于主成分分析和 K-means 聚类的典型负荷模式识别方法。通过主成分分析压缩 24 小时负荷曲线的高维信息，在保留主要波动特征的同时降低计算复杂度；随后利用 K-means 聚类提取典型日负荷曲线，为后续调度模型提供具有代表性的需求场景。结果表明，前四个主成分即可保留超过 95% 的信息量，说明该方法能够在减少计算负担的同时较好地保留负荷变化规律。

针对风电和光伏出力的不确定性，文章进一步提出了基于动态时间规整和 DBSCAN 的代表性发电场景提取方法。与传统欧氏距离聚类相比，动态时间规整能够更好地刻画峰值错位、持续时间变化和非线性时间变形等现象；DBSCAN 则能够在无需预设聚类数量的情况下识别相似发电模式并过滤异常样本。通过对全年风光数据按季节提取代表性日，文章较好地保留了可再生能源出力的日内特征和季节差异，为调度策略学习提供了更贴近实际运行条件的输入。

在系统建模层面，文章将氢储能系统作为连接富余可再生电力和负荷缺口的重要柔性环节。系统由电解槽、储氢装置和质子交换膜燃料电池组成：当风光出力过剩时，电解槽将电能转化为氢能进行储存；当供电不足时，燃料电池消耗储氢并向系统补充电能。为兼顾模型可解性和长期调度效率，文章采用固定充放电效率近似描述氢储能状态变化，并将其纳入供需平衡、容量限制、充放电功率限制等约束之中。

在调度优化方法上，文章以深度确定性策略梯度算法为基础，构建了面向连续动作空间的强化学习调度模型。状态空间包括火电出力、风电出力、光伏出力、外购电量、氢储能输出和负荷需求；动作主要对应火电机组出力调节；奖励函数则综合考虑燃煤成本、碳排放交易成本和外购电成本。通过这种设计，智能体能够在逐时交互中学习如何平衡当前运行成本与储能系统的长期灵活性，从而形成适用于风光氢系统的动态调度策略。

文章的一个重要创新点在于引入分布式强化学习训练框架。传统集中式强化学习在面对大规模、多变量、长时间序列调度任务时容易受到维度灾难和训练效率限制。为此，文章采用“多执行器-集中学习器”的并行结构，多个执行器分别在不同环境实例中采集经验，并通过共享经验池和周期性参数同步更新全局策略。实验中，系统利用 MATLAB Parallel Server 部署三个并行执行节点，并设置每 10 次参数迭代进行一次同步，从而提升数据吞吐量并缓解分布式训练中的梯度滞后问题。

实验部分设置了十个对比场景，覆盖传统 SLSQP 优化、普通 DDPG、分布式强化学习、有无氢储能、含风光噪声扰动以及燃煤成本、碳排放成本、外购电成本敏感性分析等不同情形。结果显示，分布式强化学习结合氢储能的方案取得了最低总运行成本，总成本为 5.360×10^7 美元；相比无氢储能的分布式强化学习方案，虽然燃煤成本有所增加，但外购电成本由 5.334×10^6 美元降至 2.910×10^6 美元，碳排放成本也由 2.305×10^7 美元降至 2.246×10^7 美元，说明氢储能的能量时移能力可以有效减少高成本外购电和高排放峰值出力。

在鲁棒性验证中，文章通过一阶自回归噪声模型模拟风光预测误差。引入噪声后，最优框架的总运行成本从 5.360×10^7 美元小幅上升至 5.379×10^7 美元，增幅约为 0.35%，说明模型在可再生能源预测不确定条件下仍能保持接近最优的经济性能。

在训练效率方面，分布式训练同样表现突出：单线程训练耗时 72.5 小时，而 2、4、6 个并行线程分别将训练时间缩短至 37.2、19.1 和 11.5 小时，对应加速比分别达到 1.95 倍、3.80 倍和 5.50 倍。

结论与展望

总体而言，文章围绕“典型场景提取-风光氢系统建模-分布式强化学习调度”构建了一套面向新能源综合能源系统的智能优化框架。该方法通过 PCA-K-means 降低负荷表征复杂度，通过 DTW-DBSCAN 捕捉风光出力的不确定性和季节性，通过氢储能实现可再生能源的跨时段利用，并将燃煤成本、碳交易成本和外购电成本共同纳入强化学习奖励设计。实验结果表明，该框架相较基线场景可将总运行成本从 5.696×10^7 美元降至 5.360×10^7 美元，降幅约为 6%，同时显著提升训练效率与不确定条件下的运行鲁棒性。

文章的价值不仅在于给出了一个成本更低的调度结果，更在于展示了氢储能从“被动备用设备”转变为“主动灵活调节资产”的潜力。未来，相关研究可进一步拓展至多智能体协同调度、更复杂的碳电联动市场机制，以及更加精细的非线性氢储能模型，从而提高模型对真实综合能源系统运行过程的刻画能力和工程适用性。

「AI Agent」期刊

关注我们

‍

✦

•

✦

期刊推荐