时间序列预测近期核心研究点总结
时间序列领域最近几年的变化非常大,在2018年左右,RNN这类模型才刚在时间序列上应用,而目前已经基本和NLP、CV等领域对齐了。随着深度学习在时间序列预测领域研究的深入,最近一年也出现了很多新的时间序列预测研究方向。这篇文章就给大家汇总一下最近比较热门的时间序列研究点。
很多同学都感觉现在各种公众号上时间序列的知识太杂太散,很难串联成一个整体,系统性的学习。圆圆在知识星球中开设了系统性学习时间序列预测的专题课程,从最基础的时间序列预测各类任务定义、数据处理,到模型结构优化、创新应用。系统性梳理从2017年以来的近百篇时间序列论文工作,让你对时间序列有一个全面的认识和深入理解。
1.变量间关系建模
多元时间序列预测问题中,输入是多条时间序列。最开始的研究并没有特别关注这个点,每个时间步多个值就直接输入到MLP中编码,再输入到后续的模型中。然而,在PatchTST中,提出了用channel independent的方式建模,即每个变量独立预测,虽然损失了变量之间的关系的信息,但是却取得了更好的效果。这个发现启发了研究者,应该如何进行更好的多变量间关系建模。
近期也出现了很多多变量关系建模的相关工作。这些建模方法的核心思路,基本是将变量间关系建模,与时序建模这两个问题拆解开,用不同的模块分别建模,防止两部分信息纠缠在一起造成的过拟合问题。比如iTransformer中,直接将时间维度的建模变成MLP,专门用transformer进行变量间关系建模。再比如InjectTST中,每个变量仍然是独立建模,但是单独增加一个全局信息模块,输入所有变量的信息,再拼接回每个变量的时序表征,来完成变量间关系建模的目的。
2.频域信息应用
频域信息一直是时间序列中的一个核心点,传统的时间序列分析方法中,傅里叶变换等将时域映射到频域的方法,是非常常用的。但是在最开始的深度学习时间序列模型中,很少用到频域信息,更多是时间将时域的时间序列本身输入到模型,忽略了频域信息对于序列全局性特性刻画的能力。因此,最近很多工作都开始将频域信息融入到深度时间序列预测模型中。
这类方法的核心是,将时域中已经成功应用的建模方法,在频域中也使用一遍,然后将时域和频域独立建模的表征融合到一起,进行后续的预测。例如Frequency-domain MLP这篇文章中,将纯MLP的时间序列建模方法直接迁移到频域,验证了频域MLP是更好的时序建模方法。FEDformer则是将self-attention在频域中进行一次,补充了频域信息。
3.大模型时间序列
由于大模型潮流的星期,时间序列也有很多工作开始朝着大模型的方向研究。大模型时间序列工作,基本可以分为两种类型:第一种是直接用NLP的大模型做时间序列预测。这类方法中,使用GPT、Llama等NLP大模型进行时间序列预测,重点是如何将时间序列数据转换成适合大模型的输入数据。第二种是训练时间序列领域的大模型。这类方法中,使用大量的时间序列数据集,联合训练一个时间序列领域的GPT或者Llama等大模型,并用于下游时间序列任务。这类大模型的目的也不同,有的是搭建一个可以用于各类domain数据的时间序列预测大模型,有的则是搭建一个能用于各类时间序列问题的大模型。
比如TIME_LLM提出了一种reprogramming方法,将时间序列映射到文本,实现时间序列和文本这两种模态之间的对齐。TimeGPT则是基于时间序列数据和GPT的结构,训练了一个时间序列领域的大模型。
4.Mamba模型
Mamba是最近最火的模型之一,更是被业内认为可以有取代Transformer的潜力,在NLP中已经取得了比较成功的效果验证。这种序列建模方法,是非常适用于时间序列这种数据的,因此,最近也有很多工作尝试将Mamba应用到时间序列领域,验证Mamba这种结构对于时间序列场景的有效性。
在Is Mamba Effective for Time Series Forecasting?这篇文章中,初步验证了Mamba结构在时间序列上的效果,并验证了有效性。在其后的一些文章中,则是不断改进Mamba结构,适配时间序列,或者迁移Mamba在NLP最新的应用方法到时间序列。例如MambaFormer将NLP中Transformer+Mamba的结构从NLP领域迁移到时间序列领域,也取得了不错的效果。
5.Patch建模优化
Patch的时间序列处理方法是PatchTST中首先提出的,将原来的时间序列处理方法从点变成patch,增强每个区块序列的完整性。这种建模方法也自此被广泛应用,目前成为了时间序列预测中的主流数据处理方法。
然而,基础的Patch处理方法也存在问题,例如patch窗口的大小是固定的,灵活性较差。针对这类问题,一些工作对patch建模进行优化。例如,很多工作如patchformer,通过不同粒度的patch划分,并行或串行的ensemble多个表征,实现对不同粒度信息的提取。在今年AAAI2024的工作HDMixer中,则是提出了一种可学习的动态patch方法,实现每个patch的窗口长度随信息量动态变化的目的。
6.时序扩散模型
扩散模型也是最近很多的一个研究方向,在生成式模型中成为主流,在Sora等应用中都有扩散模型的身影。因此,基于扩散模型的生成式时间序列概率预测,也成为一个目前比较新颖的研究方向。
早在2021年的工作TimeGrad中,就开始用扩撒模型做时间序列生成了。在近期的工作TDSTF中,采用了Diffusion Transformer的框架,进行时间序列生成,整体对齐了图像生成中的SOTA方法。
本文转载自 圆圆的算法笔记,作者: Fareise