1. 时序预测模型
1.1 分类
- 统计学模型,较为经典的AR系列,包括AR、MA、ARMA以及ARIMA等,另外Facebook(Meta)推出的Prophet模型,其实本质上也是一种统计学模型,只不过是传统的趋势、周期性成分的基础上,进一步细化考虑了节假日、时序拐点等因素的影响,以期带来更为精准的时序规律刻画;
- 机器学习模型,在有监督机器学习中,回归问题主要解决的是基于一系列Feature来预测某一Label的可能取值的问题,那么当以历史数据作为Feature时其实自然也就可以将时序预测问题抽象为回归问题,从这一角度讲,所有回归模型都可用于解决时序预测。关于用机器学习抽象时序预测,推荐查看这篇论文《Machine Learning Strategies for Time Series Forecasting》;
- 深度学习模型,深度学习主流的应用场景当属CV和NLP两大领域,其中后者就是专门用于解决序列问题建模的问题,而时间序列当然属于序列数据的一种特殊形式,所以自然可以运用循环神经网络来建模时序预测;
- 隐马尔科夫模型,马尔科夫模型是用于刻画相邻状态转换间的经典抽象,而隐马尔科夫模型则在其基础上进一步增加了隐藏状态,来以此丰富模型的表达能力。但其一大假设条件是未来状态仅与当前状态有关,而不利于利用多个历史状态来共同参与预测。
1.2 时间序列的预处理
- 非等间隔
内插法或者直接对数据建模(把处理等间隔时间序列方法通过某种变换再应用或者直接考虑新的适用于非等间隔时间序列的模型) - 缺失值
直接丢弃含缺失数据的记录或则和用新值代替缺失数据。
若用新值代替缺失数据,有以下几种方法:
- 替代法:用已观测序列值的均值替代或者最近邻域替代
- 内插法:线性内插或者K-最近距离法
- 统计模型:样条法(通过已观测序列值建立样条模型)和回归模型(一元线性回归和多元线性回归)
- 多重插补:思想来源于贝叶斯估计。待插补的值随机的,通常先估计出待插补的值,再加上不同的噪声,形成多组可选插补值;对每个差不数据集合都用针对完整数据集的统计方法进行统计分析,从而得到不同的结果;并根据评分函数进行选择产生最终的插补值。
回归模型效果不错,比较流行;多重插补可以得到再某种评分准则下最优的处理方法,应用较多
- 离群点或奇异点
- 加性离群点。造成这种离群点的干扰,只影响该干扰发生的那一时刻T上的序列值,即XT而不影响该时刻以后的序列值;
- 更新离群点,造成离群点的干扰不仅作用于XT,而且影响T时刻以后序列的所有观察值,它的出现意味着一个外部干扰作用于系统的开始,并且其作用方式与系统的动态模型有关;
- 水平位移离群点,造成这种离群点的干扰素在某一时刻T,系统的结构发生了变化,并持续影响T时刻以后的所有行为,在数列上往往变现为T时刻前后的序列均值发生水平位移;
- 暂时变更离群点,造成这种离群点的干扰是在T时刻干扰发生时具有一定初始效应,以后随时间根据衰减因子的大小呈指数衰减的一类干扰事件
方法1 :将时序序列与平滑值及逆行比较,根据差异,结合相应的评价准则,检验其是否显著大或者小
方法2:干预分析法。首先根据数据建立模型,利用拟合模型的残差序列计算特定的统计量,测出显著的离群点及类型,并用其所建立的模型对离群点进行修正,然后用修正后的时间序列再建立模型,重复上面的工作
方法3:检测序列值与其相应的时间序列平滑估计值的绝对离差是都大于某一预先设定的值
1.3 常见的随机过程
- 二阶矩过程
一阶矩是均值函数,二阶矩是均方值函数()
随机过程的一阶矩和二阶矩都有限,则该随机过程为二阶矩过程 - 独立增量过程
X(t2)-X(t1),X(t3)-X(t2),…X(tn)-X(tn-1)是相互独立的 - 正交增量过程
前提是二阶矩过程,任意t1<t2<=t3<=t4,X(t2)-X(t1),X(t4)-X(t3)相互独立,即E[(X(t2)-X(t1))(X(t4)-X(t3))]=0,则是正交增量过程 - 马尔可夫过程
将来时刻的状态只与当前时刻有关,与过去无关
无后效性 - 鞅过程
体现了公平性 - 平稳过程
严平稳过程的有限维分布不随时间的推移而变化,其一维分布函数与时间无关,二维分布函数仅是时间间隔的函数
宽平稳过程 - 维纳过程
1.4 傅里叶变换
傅里叶原理表明:任何连续测量的时间序列或信号,都可以表示为不同频率的正弦波信号的无限叠加
序列傅里叶变换的性质:
周期性
线性性
时移与频移性
时域卷积性
频域卷积性
帕塞瓦尔定理
Z变换
1.5 差分方程与系统
差分方程是一个关于变量与它的前期值之间关系的表示
时域离散系统
- 线性系统:输入和输出之间是线性关系
- 时不变系统:整个运算过程不随时间变化
- 线性时不变系统:满足线性和时不变系统,LSI系统
- 因果系统:t时刻输出只与t时刻以及之前的输入相关
- 稳定系统指对于有界输入,系统输出也是有限的
1.6 平稳时间序列
严平稳时间序列和宽平稳时间序列
白噪声序列是指功率谱密度再整个频域内均匀分布的噪声
一、平稳性检验
- 平稳序列的时序图 有以下特点:
- 始终在一个常数值上下随机波动
- 波动强度随时间变化不大
- 没有明显的趋势性和周期性
- 自相关系数检验
平稳序列具有短期相关性,其自相关系数表现为要么截尾要么拖尾 - 分段检验法
由平稳时间序列的定义可知,其均值和方差都与时间无关,且自协方差函数只与时间间隔有关。
分段检验就是对样本序列分段后,通过判断各段子序列间的样本均值、样本方差和样本自协方差函数来陪那段平稳性 - 游程检验法
对一个随机平稳序列,每个观测值应该在均值附近随机波荡,因此高于或低于平均值的变化应该适当
二、平稳化方法
实际中,时间序列具有非平稳性,需要通过一些简单的预处理方法将非平稳序列转化为平稳序列,常用的有稳定性分析和随机分析,这部分讲的是稳定性方法
(1)分解定理
- WOLD分解定理说明任何平稳序列都可以分解为确定性序列和随机性平稳序列之和
- Cramer分解定理:任何一个方差齐性时间序列可以分解为两部分之和,变量收到的随机影响和确定性影响
(2)确定性因素分析方法
确定性分析法认为产生非平稳现象的确定性因素有长期趋势变动和季节性变化。
其中,是趋势项,是季节项,是随机项
那么时间序列分析的首要任务是将这三项分解出来
趋势拟合法
线性拟合:如果时间序列长期趋势呈现出显著的线性特性,那么首先尝试用线性模型来拟合,然后再来检验模型的适应性
非线性拟合:首先考虑把曲线模型转化成线性模型,然后用线性最小二乘法进行参数估计;对于不能转化为线性模型的,可采用迭代法进行参数估计
季节分析法
利用时间平均代替空间平均提取季节变动指数
序列平滑法
如果在一定的时间段内取值稳定,差异主要由随机波动造成的,用平滑法来修匀序列。滑动平均法、加权平均法和指数平均法
平滑法适用于没有明显趋势和季节性变动的非平稳序列。在短期预测时精度较高
滑动平均法
受临近t时刻的k个序列值的影响,且影响程度的权重相等
指数平滑法
权重和为1,离k时刻越远,的权重越小
(3)随机性序列差分法