☀️ 论文标题:DropoutTS: Sample-Adaptive Dropout for Robust Time Series Forecasting
🌱 作者: Siru Zhong, Yiqiu Liu, Zhiqing Cui, Zezhi Shao, Fei Wang, Qingsong Wen, Yuxuan Liang
🌼 机构:香港科技大学(广州),中国科学院计算技术研究所,松鼠 AI
🔗 论文链接:https://arxiv.org/abs/2601.21726
🌐 项目主页:https://github.com/CityMind-Lab/DropoutTS

点击文末阅读原文跳转本文arXiv链接
深度时间序列模型在真实应用中普遍面临噪声干扰。现有鲁棒性建模策略往往走向两个极端:一类方法通过样本筛除等方式决定”哪些数据该学,哪些数据要丢掉”,另一类方法则引入额外先验或复杂不确定性建模,代价较高,难以兼顾效果与效率。针对这一问题,DropoutTS 提出了一种新的思路:不再重点回答”学什么”,而是回答”学多少”。
论文提出了一个与模型无关的插件式方法,通过样本自适应 Dropout(Sample-Adaptive Dropout) 动态调节模型的学习容量。具体来说,DropoutTS 利用频谱稀疏性,在频域中估计样本级噪声强度,并将噪声分数映射为不同的 dropout rate。这样一来,模型可以对干净样本保留更多表达能力,对高噪声样本施加更强正则化。
论文在多种噪声条件和公开基准上的实验表明,DropoutTS 能够在无需修改主干架构、且仅引入极少额外参数的前提下,稳定提升强基线模型的鲁棒性与预测表现。
真实世界中的时间序列往往包含复杂噪声,包括传感器误差、随机扰动和异常事件。对于深度模型而言,这些噪声很容易被误当作有效模式加以拟合,进而影响预测精度和泛化能力。
现有鲁棒时间序列建模策略主要可以分为两类,都通过决定模型“学什么”来达到更加鲁棒的效果:
我们提出将研究视角从传统的”学什么”转向”学多少”,并将这一新范式概括为以容量调节为中心(Capacity-Centric):不是通过删除数据或引入重型先验去处理噪声,而是直接调节模型对不同样本的有效学习容量。
基于上述观察,我们提出了 DropoutTS。该方法是一个模型无关、即插即用且以容量调节为核心的鲁棒学习框架,能够在避免信息损失的同时,绕开复杂先验鲁棒性建模所带来的额外负担。

三种范式对比图
图 1:不同鲁棒性范式的对比。(1) 以数据为中心:数据的剔除会导致不可避免的信息损失。(2) 以模型为中心:僵化的概率约束增加了建模复杂度。(3) 以容量为中心:通过样本自适应 Dropout(Sample-Adaptive Dropout)动态调节模型容量,兼顾预测保真度与鲁棒性。
DropoutTS 的整体框架由两个核心组件组成:频域噪声评分器(Spectral Noise Scorer) 和 样本自适应 Dropout(Sample-Adaptive Dropout)。其核心思想是,先在频域中估计样本级噪声强度,再将噪声分数映射为动态 dropout rate,从而在端到端训练过程中按样本调节模型学习容量。

DropoutTS 整体框架示意图
图 3. DropoutTS 整体框架示意图。作为一个模型无关的插件,DropoutTS 将默认时序建模骨干网络的 dropout 替换为自适应 dropout,整体由两个核心组件构成:(1)频域噪声评分器(Spectral Noise Scorer),用于量化样本级噪声;(2)样本自适应 Dropout(Sample-Adaptive Dropout),将噪声分数映射为动态 dropout rate。
为了给不同样本分配不同 dropout rate,首先需要估计每个样本的噪声强度。DropoutTS 没有直接在时域中做启发式判断,而是转向频域分析。实验表明,时间序列中的有效结构通常会在频谱中表现出相对集中的模式,而噪声更可能表现为分散、振幅较低的、缺乏主导峰值的频谱形态。

图 2:频谱稀疏性验证。
图 2:频谱稀疏性验证。该图展示了复合信号(周期项(Periodic)+ 趋势项(Trend)+ 变频信号(Chirp)+ 非平稳方差(AM))在不同噪声条件下的分析结果。左图为受扰动的时域输入;中图表明频域中稀疏的高能信号成分与分散噪声之间具有清晰分离;右图说明基于频谱阈值化的重建结果与真实信号高度一致,验证了该方法对异常值与缺失数据的鲁棒性。
这一模块可以分成四步。
换句话说,如果一个样本难以被主要频率成分稳定重建,它更可能是一个高噪声样本。
这一模块可分成三步。
我们在多个层次上使用多种主流 backbone 进行评测验证了 DropoutTS 的有效性。以下是核心实验发现的快速总结:
📊 核心实验亮点
首先,在可控噪声强度的合成场景(Synth-12)下验证了方法的基本行为。Synth-12 是一个物理驱动的合成基准,通过动态信号耦合(叠加非线性趋势、准周期循环、变频信号等)和对抗性噪声注入(叠加高斯噪声、重尾尖峰、随机观测缺失)构建复合时序流形。通过调节噪声强度 ,创建了从 SNR 23.77 dB 到 7.39 dB 的难度梯度。
如图 4 所示,随着噪声水平增强(),固定 dropout 的最优点并不一致,而 DropoutTS 可以根据样本噪声自动分配正则化强度,从而比固定 dropout 表现更稳定。

合成实验结果:不同噪声水平下的性能对比
图 4:合成数据集(Synth-12)上的鲁棒性验证。横轴为噪声强度 ,纵轴为预测误差(MSE)。DropoutTS(蓝色)在各噪声水平下均优于固定 dropout(红色),且有效缓解了 Fixed Dropout Paradox。
定量结果显示,DropoutTS 对噪声敏感的模型(如 Informer)提升最为显著:
如图 5 所示,为了深入理解固定 dropout 的问题,论文对 Informer 和 Crossformer 的性能轨迹进行了可视化分析:

Fixed Dropout Paradox 可视化分析
图 5:Fixed Dropout Paradox 的定量可视化。(a) Informer 在固定 dropout 下呈现非单调的"三阶段行为";(b) Crossformer 出现反直觉的误差随噪声增加而下降的现象。DropoutTS(蓝色)修正了这些异常,恢复了合理的单调性。
关键观察:
在真实公开基准(ETTh1/h2、ETTm1/m2、Electricity、Weather、ILI)上,添加 DropoutTS 的 backbone 均能带来稳定收益。如图 6 所示,效果并不局限于某个单独模型或某类特定数据。

真实基准实验结果
图 6:公开基准上的性能提升。展示了在多个数据集和预测长度下,DropoutTS 对 6 种主流 backbone 的增益。颜色越深表示提升幅度越大。
关键定量结果:
如图 7 所示,论文还提供了预测曲线的定性对比,直观展示 DropoutTS 如何改善预测质量:

预测效果定性对比
图 7:定性可视化对比。蓝色曲线为 DropoutTS,红色为原始 Informer,绿色为真实值。DropoutTS 能更好地跟踪时序动态,避免了原始模型的"均值趋平"现象。
观察发现:
论文特别强调,DropoutTS 是一个模型无关插件(model-agnostic plugin)。实验结果显示,它能够与已有强基线模型自然结合,并在不改变主干网络结构的前提下提升性能。这一点非常关键,因为它意味着方法的贡献不仅是“提出了一个新模块”,而是“为已有模型提供了一个可直接复用的鲁棒增强手段”。
兼容性覆盖范围:
所有实验均严格遵循原模型的超参数设置,仅调优 DropoutTS 的初始敏感度参数 ,验证了即插即用的便利性。
除了性能提升之外,论文还强调了方法的效率优势。与依赖复杂先验建模或额外网络分支的鲁棒方法相比,DropoutTS 只引入极少额外参数(仅 +4 个参数),且无需对 backbone 结构进行改造。
如表 1 所示,尽管频域操作(FFT/IFFT)会带来一定的训练延迟,但这一开销被加速收敛大幅抵消:
模型 | 参数量增加 | 训练轮数 | 总训练时间 | 时间节省 | 加速比 |
|---|---|---|---|---|---|
Informer | +4 | 30 → 16 | 2873 → 1982 | 31.0% | 1.45× |
TimeMixer | +4 | 20 → 16 | 2045 → 1819 | 11.0% | 1.12× |
更重要的是,自适应机制在推理阶段完全关闭,零额外推理延迟,非常适合实时部署场景。
论文还对方法中的关键设计做了系统分析,如图 8 和表 2 所示:

消融实验结果
图 8:消融实验分析。展示了各组件对最终性能的贡献程度。
变体 | 去趋势 | 谱归一化 | SFM 锚点 | MSE | 相对变化 |
|---|---|---|---|---|---|
Baseline(固定 dropout) | - | - | - | 1.159 | - |
w/o Detrend | ✗ | ✓ | ✓ | 1.642 | 恶化 41.7% |
w/o SFM Anchor | ✓ | ✓ | ✗ | 1.520 | 恶化 31.1% |
w/o Spectral Norm | ✓ | ✗ | ✓ | 1.308 | 恶化 12.9% |
DropoutTS(完整) | ✓ | ✓ | ✓ | 1.076 | 改善 7.2% |
消融实验表明:
这些结果共同支撑了论文的核心论点:DropoutTS 的性能提升不是某个局部技巧偶然带来的,而是来自“频域估噪 + 动态容量调节”这一路径本身的合理性。
论文还验证了 DropoutTS 对超参数的敏感性。方法仅将初始敏感度参数 作为主要可调超参数,其余参数(dropout 上下界 、掩码锐度 、偏置 )均采用经验默认值。
如图 9 所示,实验发现:

超参数敏感性分析
图 9:超参数敏感性分析。(a) 不同 值在各噪声水平()下的误差表现;(b) 各设置下的误差分布(菱形为均值,点为多次试验结果)。 作为保守默认值在所有噪声水平下均表现稳定。
这说明敏感度参数需要根据噪声 régime 进行特定校准,而 作为一个保守默认值具有良好的鲁棒性。这一特性大大降低了方法的调参负担,即插即用性更强。
一个关键问题是:DropoutTS 是否与现有的数据-centric鲁棒方法(如 Selective Learning)存在竞争关系?论文通过组合实验验证了二者的正交性。
如图 10 和表 3 所示,在 Illness 数据集上:
方法策略 | 机制 | MSE | MAE | 相对提升 |
|---|---|---|---|---|
Baseline (Raw) | - | 8.038 | 2.047 | - |
DropoutTS 单独使用 | 容量调节 | 7.343 | 1.928 | 8.6% |
Selective Learning (SL) | 数据筛选 | 6.461 | 1.902 | 19.6% |
SL + DropoutTS(组合) | 协同作用 | 6.336 | 1.774 | 21.2% |

与 Selective Learning 的兼容性验证
图 10:与 Selective Learning 的兼容性验证。展示了数据-centric 方法(SL)与容量-centric 方法(DropoutTS)的组合效果,证实二者正交互补。
核心发现:
这意味着 DropoutTS 不仅可以独立使用,还能无缝集成到现有的数据清洗流程中,进一步提升最终性能。
本文提出的 DropoutTS 通过将频域噪声估计与样本自适应 Dropout 相结合,首次从容量调节视角系统解决时间序列鲁棒预测问题。实验结果表明,该方法在预测精度、鲁棒性与计算效率上均显著优于现有方法,为真实噪声场景下的时间序列预测提供了一种即插即用且理论支撑的解决方案。