文末附带顶会创新Idea,科研选题直接复用!

导读前言
现有时序预测模型普遍存在过度平滑核心缺陷:训练仅用单条真实轨迹做监督,模型会把上升、震荡、下跌等多种潜在未来模式平均融合,输出平缓无突变预测曲线,丢失负荷尖峰、气温拐点、车流骤变等关键决策信息,金融、电网、交通等高波动场景预测失效。中国科学院软件研究所团队提出DGF(Dirichlet-Guided Group Forecasting)狄利克雷引导分组预测框架,从理论证明单真值监督会导致非凸时序模式坍缩,设计K组模式条件预测头搭配狄利克雷分布建模模式选择不确定性;创新分层GRPO奖励优化机制,同步约束单点精度、时序动态一致性、模式多样性三大目标,避免多头坍缩。在长短时序、概率预测两大任务,ETT/电力/气象/车流等11套基准全面超越Moirai、PatchTST、TimeMixer等主流SOTA,既能输出多组差异化可信未来轨迹,又可输出精准单点预测,完美解决平滑失真、极值低估行业顽疾。
论文核心信息
论文标题:Dirichlet-Guided Group Forecasting for Alleviating Over-smoothing in Time Series Forecasting 作者:张星宇、王景瑶、余鑫、宋泽恩、张建齐、郑昌文、强雯雯 单位:中国科学院软件研究所 发布:arXiv预印本(2026年6月,顶会投递) 开源状态:暂未公开完整代码 核心方向:多模态时序预测、狄利克雷分布、模式分离、对抗过度平滑、GRPO分层优化、长短时序统一、概率区间预测、时序基础模型微调
现有时序模型五大固有痛点
单真值监督引发模式坍缩:每条历史序列仅对应一条真实未来,模型训练时强制所有预测头逼近同一真值,多种潜在时序模式相互平均,生成平滑无波动失效曲线。 非凸时序空间均值失真:上涨、下跌、震荡轨迹混合后均值无实际物理意义,峰值、突变拐点被完全抹平,无法支撑风险类业务决策。 多头设计普遍失效:简单增加输出头不做分布约束,训练后全部收敛至同一均值,无法生成差异化候选预测轨迹。 优化目标单一失衡:传统MSE损失仅衡量数值误差,忽略趋势、曲率、波动幅度等动态时序特征,拟合精度高但结构失真。 通用基座适配缺陷:Moirai、Chronos等时序基座微调后仍存在平滑问题,缺少专门分离多模式的轻量化插件方案。
核心创新与关键技术

1 理论证明:过平滑源于隐时序模式压缩
论文完成两条关键定理推导:
定理1:时序可行轨迹集合为非凸集,平方损失最优均值预测会落在所有有效模式之外,天然失真; 定理2:仅用MSE监督的多头网络,全部输出会坍缩至单一条均值轨迹,单纯加头无法生成多样预测。 从数学层面解释行业普遍存在的平滑问题,为DGF分组狄利克雷架构提供理论支撑。
2 双层核心架构:模式头+狄利克雷分组采样
完整DGF流水线分为两大核心模块:
K组模式条件预测头:独立K条输出分支,每条学习一类专属时序动态模式(上升/平稳/震荡/下跌),互不干扰; 狄利克雷分布采样层:输入时序特征生成浓度参数α,采样概率向量π代表各模式置信度; 推理时按π采样模式索引,调取对应预测头生成完整未来序列,实现一组历史对应多条差异化可信轨迹。
3 分层GRPO多目标奖励优化(核心训练方案)
摒弃单一MSE损失,三层奖励联合优化,同步解决精度、动态、坍缩三大问题:
轨迹精度奖励:MSE负向收益,保证单条轨迹贴合真实值; 动态一致性奖励:约束一阶/二阶差分、频谱、时序跃迁特征,保留尖峰与拐点; 分布多样性正则:控制K组模式头分布距离,防止多头坍缩; 分层梯度更新:样本层优化单条轨迹、狄利克雷层优化分组概率,双层级优势归一化稳定训练。
4 通用基座兼容微调方案
原生适配Moirai-small/Moirai-base两类主流时序基座,提供三种微调范式:
全微调:更新基座全部参数+DGF模块,精度上限最高; LoRA微调:仅低秩矩阵+DGF可训练,显存开销大幅降低; 软提示微调:冻结主干,仅训练时序提示与DGF,零样本场景适配; 无需修改原有时序骨干,作为即插即用增强模块,适配所有Transformer类时序模型。
5 标准化多任务评测流水线
统一两套评测赛道,覆盖工业主流需求:
长序列单点预测:96/192/336/720四档预测长度,指标MSE、MAE; 概率区间预测:输出多组采样轨迹,采用CRPS、MSIS量化区间可靠性; 配套STRIPE平滑量化指标,专门衡量模型峰值、突变保留能力,直观对比平滑程度。
6 轻量化工程优化设计
分组采样可控超参:K(模式头数)、B(分组数)、G(每组采样量)验证最优区间; 计算开销平衡:对比原生Moirai,训练、推理耗时、显存无明显上涨; 多输出决策方案:提供MAP最优、随机采样、最优N筛选三种输出策略,兼顾单点业务与风险研判。
实验验证效果
1 长时序单点预测(ETT/电力/气象6大数据集)
对比基线:DLinear、PatchTST、iTransformer、TimeMixer、SimpleTM、Moirai全系列微调方案
Moirai-base搭配DGF在全部数据集MSE、MAE全场最优,ETTm2数据集平均MSE降低12.1%; 超长720步预测优势放大,传统模型平滑失真严重,DGF完整保留月度负荷尖峰; 三种微调方案下DGF均稳定优于原生基座、LoRA、提示微调基线,增益稳定。
2 概率预测(电力/光伏/气象/车流/电力5套)
指标CRPS、MSIS:
DGF-Moirai-base光伏数据集CRPS低至0.164,相较原版Moirai下降39.7%; 车流突变场景区间贴合度大幅提升,预测上下限精准覆盖真实尖峰; 多组采样可视化可见多条趋势分化轨迹,无统一平滑均值曲线。
3 消融实验核心结论
移除狄利克雷分组层:多头快速坍缩,MSE暴涨18%以上,多模式完全丢失; 去掉动态一致性奖励:时序拐点、峰值全部抹平,STRIPE指标大幅劣化; 取消多样性正则:K个模式输出高度重合,失去多轨迹生成能力; 仅使用单头无分组:退化为普通时序模型,平滑问题完全复发。
4 算力开销对比
同硬件H100、输入96预测24场景: 原生Moirai-base推理1.07s,DGF全微调仅1.04s,显存增加不足0.03GB,几乎无额外推理成本。
核心亮点总结
1 中科院软件所原创狄利克雷分组时序框架,从理论根源解决时序预测过度平滑、极值低估行业痛点; 2 K组模式头+狄利克雷分布分层建模,可同时输出精准单点与多条差异化可信未来轨迹; 3 GRPO三层奖励联合优化,兼顾数值精度、时序动态特征、模式多样性,多头不再坍缩; 4 即插即用适配Moirai等所有主流时序基础模型,全微调/LoRA/软提示三种轻量化微调可选; 5 长短时序、概率预测双赛道全域SOTA,电网、风电、交通、气象等高波动工业场景刚需; 6 推理算力开销极小,不增加线上服务延迟,兼顾精度与工程落地性能。
💡 可延伸研究 Idea
1 DGF-MoE混合专家版:按时序平稳度动态激活不同模式头,进一步降低参数量; 2 流式在线DGF:增量更新狄利克雷浓度参数,适配实时漂移传感器数据流; 3 多变量DGF拓展:新增变量交叉注意力,适配上千维工业传感器多元时序; 4 扩散模型融合DGF:将分组模式作为扩散参考样本,缓解扩散预测平滑问题; 5 轻量化DGF蒸馏:模式头裁剪量化,IoT边缘设备本地多轨迹推理; 6 时序异常检测一体化:不同模式表征距离作为异常打分,预测+故障识别统一框架。
夜雨聆风