中科院软件所DGF:狄利克雷分组时序预测,彻底解决均值平滑、丢失突变尖峰痛点

文末附带顶会创新Idea，科研选题直接复用！

导读前言

现有时序预测模型普遍存在过度平滑核心缺陷：训练仅用单条真实轨迹做监督，模型会把上升、震荡、下跌等多种潜在未来模式平均融合，输出平缓无突变预测曲线，丢失负荷尖峰、气温拐点、车流骤变等关键决策信息，金融、电网、交通等高波动场景预测失效。中国科学院软件研究所团队提出DGF（Dirichlet-Guided Group Forecasting）狄利克雷引导分组预测框架，从理论证明单真值监督会导致非凸时序模式坍缩，设计K组模式条件预测头搭配狄利克雷分布建模模式选择不确定性；创新分层GRPO奖励优化机制，同步约束单点精度、时序动态一致性、模式多样性三大目标，避免多头坍缩。在长短时序、概率预测两大任务，ETT/电力/气象/车流等11套基准全面超越Moirai、PatchTST、TimeMixer等主流SOTA，既能输出多组差异化可信未来轨迹，又可输出精准单点预测，完美解决平滑失真、极值低估行业顽疾。

论文核心信息

论文标题：Dirichlet-Guided Group Forecasting for Alleviating Over-smoothing in Time Series Forecasting
作者：张星宇、王景瑶、余鑫、宋泽恩、张建齐、郑昌文、强雯雯
单位：中国科学院软件研究所
发布：arXiv预印本（2026年6月，顶会投递）
开源状态：暂未公开完整代码
核心方向：多模态时序预测、狄利克雷分布、模式分离、对抗过度平滑、GRPO分层优化、长短时序统一、概率区间预测、时序基础模型微调

现有时序模型五大固有痛点

单真值监督引发模式坍缩：每条历史序列仅对应一条真实未来，模型训练时强制所有预测头逼近同一真值，多种潜在时序模式相互平均，生成平滑无波动失效曲线。
非凸时序空间均值失真：上涨、下跌、震荡轨迹混合后均值无实际物理意义，峰值、突变拐点被完全抹平，无法支撑风险类业务决策。
多头设计普遍失效：简单增加输出头不做分布约束，训练后全部收敛至同一均值，无法生成差异化候选预测轨迹。
优化目标单一失衡：传统MSE损失仅衡量数值误差，忽略趋势、曲率、波动幅度等动态时序特征，拟合精度高但结构失真。
通用基座适配缺陷：Moirai、Chronos等时序基座微调后仍存在平滑问题，缺少专门分离多模式的轻量化插件方案。

核心创新与关键技术

1 理论证明：过平滑源于隐时序模式压缩

论文完成两条关键定理推导：

定理1：时序可行轨迹集合为非凸集，平方损失最优均值预测会落在所有有效模式之外，天然失真；
定理2：仅用MSE监督的多头网络，全部输出会坍缩至单一条均值轨迹，单纯加头无法生成多样预测。从数学层面解释行业普遍存在的平滑问题，为DGF分组狄利克雷架构提供理论支撑。

2 双层核心架构：模式头+狄利克雷分组采样

完整DGF流水线分为两大核心模块：

K组模式条件预测头：独立K条输出分支，每条学习一类专属时序动态模式（上升/平稳/震荡/下跌），互不干扰；
狄利克雷分布采样层：输入时序特征生成浓度参数α，采样概率向量π代表各模式置信度；推理时按π采样模式索引，调取对应预测头生成完整未来序列，实现一组历史对应多条差异化可信轨迹。

3 分层GRPO多目标奖励优化（核心训练方案）

摒弃单一MSE损失，三层奖励联合优化，同步解决精度、动态、坍缩三大问题：

轨迹精度奖励：MSE负向收益，保证单条轨迹贴合真实值；
动态一致性奖励：约束一阶/二阶差分、频谱、时序跃迁特征，保留尖峰与拐点；
分布多样性正则：控制K组模式头分布距离，防止多头坍缩；分层梯度更新：样本层优化单条轨迹、狄利克雷层优化分组概率，双层级优势归一化稳定训练。

4 通用基座兼容微调方案

原生适配Moirai-small/Moirai-base两类主流时序基座，提供三种微调范式：

全微调：更新基座全部参数+DGF模块，精度上限最高；
LoRA微调：仅低秩矩阵+DGF可训练，显存开销大幅降低；
软提示微调：冻结主干，仅训练时序提示与DGF，零样本场景适配；无需修改原有时序骨干，作为即插即用增强模块，适配所有Transformer类时序模型。

5 标准化多任务评测流水线

统一两套评测赛道，覆盖工业主流需求：

长序列单点预测：96/192/336/720四档预测长度，指标MSE、MAE；
概率区间预测：输出多组采样轨迹，采用CRPS、MSIS量化区间可靠性；配套STRIPE平滑量化指标，专门衡量模型峰值、突变保留能力，直观对比平滑程度。

6 轻量化工程优化设计

分组采样可控超参：K（模式头数）、B（分组数）、G（每组采样量）验证最优区间；
计算开销平衡：对比原生Moirai，训练、推理耗时、显存无明显上涨；
多输出决策方案：提供MAP最优、随机采样、最优N筛选三种输出策略，兼顾单点业务与风险研判。

实验验证效果

1 长时序单点预测（ETT/电力/气象6大数据集）

对比基线：DLinear、PatchTST、iTransformer、TimeMixer、SimpleTM、Moirai全系列微调方案

Moirai-base搭配DGF在全部数据集MSE、MAE全场最优，ETTm2数据集平均MSE降低12.1%；
超长720步预测优势放大，传统模型平滑失真严重，DGF完整保留月度负荷尖峰；
三种微调方案下DGF均稳定优于原生基座、LoRA、提示微调基线，增益稳定。

2 概率预测（电力/光伏/气象/车流/电力5套）

指标CRPS、MSIS：

DGF-Moirai-base光伏数据集CRPS低至0.164，相较原版Moirai下降39.7%；
车流突变场景区间贴合度大幅提升，预测上下限精准覆盖真实尖峰；
多组采样可视化可见多条趋势分化轨迹，无统一平滑均值曲线。

3 消融实验核心结论

移除狄利克雷分组层：多头快速坍缩，MSE暴涨18%以上，多模式完全丢失；
去掉动态一致性奖励：时序拐点、峰值全部抹平，STRIPE指标大幅劣化；
取消多样性正则：K个模式输出高度重合，失去多轨迹生成能力；
仅使用单头无分组：退化为普通时序模型，平滑问题完全复发。

4 算力开销对比

同硬件H100、输入96预测24场景：原生Moirai-base推理1.07s，DGF全微调仅1.04s，显存增加不足0.03GB，几乎无额外推理成本。

核心亮点总结

1 中科院软件所原创狄利克雷分组时序框架，从理论根源解决时序预测过度平滑、极值低估行业痛点； 2 K组模式头+狄利克雷分布分层建模，可同时输出精准单点与多条差异化可信未来轨迹； 3 GRPO三层奖励联合优化，兼顾数值精度、时序动态特征、模式多样性，多头不再坍缩； 4 即插即用适配Moirai等所有主流时序基础模型，全微调/LoRA/软提示三种轻量化微调可选； 5 长短时序、概率预测双赛道全域SOTA，电网、风电、交通、气象等高波动工业场景刚需； 6 推理算力开销极小，不增加线上服务延迟，兼顾精度与工程落地性能。

💡 可延伸研究 Idea

1 DGF-MoE混合专家版：按时序平稳度动态激活不同模式头，进一步降低参数量； 2 流式在线DGF：增量更新狄利克雷浓度参数，适配实时漂移传感器数据流； 3 多变量DGF拓展：新增变量交叉注意力，适配上千维工业传感器多元时序； 4 扩散模型融合DGF：将分组模式作为扩散参考样本，缓解扩散预测平滑问题； 5 轻量化DGF蒸馏：模式头裁剪量化，IoT边缘设备本地多轨迹推理； 6 时序异常检测一体化：不同模式表征距离作为异常打分，预测+故障识别统一框架。