LSTM:长短期记忆,主要功能就是利用三个门控制前期状态和当前输入,这一系列运算操作使得 LSTM具有能选择保存信息或遗忘信息的功能。所以可以用于时间序列数据的预测。
理解时间序列与稳定性
1.首先理解时间序列。时间序列是时间间隔不变的情况下收集的时间点集合。这些集合被分析用来了解长期发展趋势,为了预测未来或者表现分析的其他形式。这里理解好像就是一个时间对应一个值,完全可以用线性时间来做。但并不是这样。因为:
- 虽然一个时间点对应一份数据,但是该数据理论上并不是因为y=wx+b的公式输出的,因为这种分布是很复杂的,包括下面三个特点:1、趋势性(Trend):即在一定时间内的单调性,一般来说斜率是固定的。2、季节性(Seasonal):固定长度的变化,就像春夏秋冬的温度变化一样。波动的时间频率是固定的,3、周期性(Cyclic):与季节性很像,但是它的波动的时间频率不是固定的。
- 时间序列获得的数据并不是独立的。基于线性回归模型的假设要求观察结果是独立,这也显然不正确。
2.如果要处理时间序列,那么首先要判断时间序列是否是可预测的。例如有些数据是完全随机的,根本就找不到预测逻辑,还有的数据就是不稳定的,就是一些重要的统计学变量(这些变量体现了数据的分布特征)是一直变化的,并不能根据给出的数据集就预测整体的数据分布,也就是该时间序列不具有代表性,不能够预测未来。
形象地理解,平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去;如果数据非平稳,则说明样本拟合曲线的形态不具有“惯性”延续的特点,也就是基于未来将要获得的样本时间序列所拟合出来的曲线将迥异于当前的样本拟合曲线。
稳定性描述链接 所以综上,其实时间序列分析并不是为了获得一个准确的函数,以后可以根据直接代入时间得出相对应的值,而是为了找出数据的总体分布,用以预测未来的数据。
所以检测数据的稳定性是十分重要的,稳定性的确定标准是非常严格的。但是,如果时间序列随着时间产生恒定的统计特征,根据实际目的我们可以假设该序列是稳定的。如下:
- 恒定的平均数
恒定的方差
不随时间变化的自协方差
测试方法
1. 季节性测试方法:
上图为这个是自相关图像,下面会介绍自相关系数。该图看起来像正弦函数。这是一个关于季节性的提示,你可以通过找到上面图中的周期找到它的值,是24h。2. 平稳性测试方法
平稳性是时间序列的一个重要特征。如果一个时间序列的统计性质不随时间变化,那么它就是平稳的。换句话说,它有恒定的均值和方差,协方差与时间无关。
方法:①时序图检验。即直接看数据的趋势,例如递增,肯定是不稳定的,因为平均数是一直在增加的。②自相关系数和偏相关系数
③ADF检测:检验是否存在单位根,如果存在就是非平稳序列。不平稳怎么办?
下面是要对一些重要的定义做解释:参考链接
重要统计学变量
- 自相关系数
其实自相关系数可以这么理解:把一列数据按照滞后数拆成两列数据,在对这两列数据做类似相关系数的操作。坦白讲自相关是它们与它们的时间延迟构成的函数之间的相似性。
看一个例子:
这组数据是求滞后数为2的自相关系数,则变成求{x1,x2,…,x8}和{x3,x4,…,x10}两者的“相关系数”,相关系数打引号是因为这个相关系数的公式和以往的有点不一样。下面看一下公式的对比:
#自相关图
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()
- 偏自相关系数
偏自相关是剔除干扰后时间序列观察与先前时间步长时间序列观察之间关系的总结。在滞后k处的偏自相关是在消除由于较短滞后条件导致的任何相关性的影响之后产生的相关性。一项观察的自相关和在先验时间步上的观测包括直接相关和间接相关。这些间接相关是线性函数观察(这个观察在两个时间步长之间)的相关。偏自相关函数试图移除这些间接相关。
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(D_data).show()```
- ADF检测
ADF检验的原理:
ADF检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。
所以,ADF检验的 H0 假设就是存在单位根,如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。
# 平稳性检测,ADF检测,也叫做单位根检验。
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF检验结果为:', ADF(data[u'销量']))
- 差分其实就是一组数据,后一个数据与前一个数据的差值。二阶就是在一阶的基础上再进行差分。而且数量的大小是减一的(显而易见),下面的结果可以直观展示。在我感觉,其实差分就是为了 消除趋势性
import numpy as np
arr=np.asarray(np.arange(0,10))
print(arr)
diff1 = np.diff(arr)
diff2=np.diff(diff1)
print(diff1)
print(diff2)
输出结果:
[0 1 2 3 4 5 6 7 8 9]
[1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0]
Process finished with exit code 0
时间序列建模
看这里!!!参考内容 某个时间序列经过预处理,被判定为平稳非白噪声序列,就可以进行建模了!
这里介绍三种方法
- 移动平均
- 指数平滑法
- ARIMA
移动平均: 这个模型简单地说,下一个观测值是所有过去观测值的平均值。因此可以很好的消除周期性,因为周期性实在一个局部的变化,但从全局看,周期也是很平均的状态。
指数平滑:
指数平滑法使用了与移动平均相似的逻辑,但是这一次,每个观测值都被赋予了不同的“递减权值”。换句话说,随着我们离现在越来越远,观察的重要性也越来越小。
数学上,指数平滑表示为:
在这里,α是一个平滑因子,取值范围在0到1之间。它决定了在之前的观测中权重下降的速度。
可见Alpha越小,之前的观测数据的权重就越大,当前数据权重越小,因此会使图像更平滑
双指数平滑
当时间序列中存在趋势时,采用双指数平滑法。 在这种情况下,我们使用这种技术,它只是递归地使用了两次指数平滑。 数学式子:
三次指数平滑 该方法扩展了双指数平滑,增加了季节平滑因子。当然。如果你注意到时间序列中的季节性,这是很有用的。 数学上,三指数平滑表示为:
式中γ为季节平滑因子,L为季节长度
季节自回归积分移动平均模型(SARIMA)
首先,我们得到自回归模型AR§。该函数仅通过时间序列变量的自身历史观测值来反映有关因素对预测目标的影响和作用,不受模型变量相互独立的假设条件约束,这基本上是对时间序列的回归。在这里,我们假设当前值依赖于它的前一个值,但有一定的延迟。它使用一个参数p表示最大延迟。为了找到它,我们查看局部自相关图,并确定大多数滞后不显著的滞后。
在下面的例子中,p等于4。
然后,我们加入移动平均模型MA(q)。这个参数q表示自相关图中其他滞后不显著的最大滞后,序列当前时刻的时序值是过去q阶白噪声的线性组合。(在我理解的话,可能这里的噪声其实就是上面所说的其他滞后不显著的最大滞后,因为会对数据造成干扰,但又不显著。
该模型的目的是 1.找出过去几期的白噪声影响了当前值。2.找出过去q期冲击效应对当前值的影响。
下面,q等于4。
然后,我们添加积分阶I(d)。参数d表示使级数平稳所需的差分数。
最后,我们添加最后一个组件:季节性S(P, D, Q, S),其中S 只是季节的长度。此外,这个组件需要参数P和Q,它们与p和q相同,但是对于季节性组件。最后,D是季节整合的顺序,表示从序列中移除季节性所需的差异数量。
结合所有这些,我们得到SARIMA(p, d, q)(P, D, Q, s)模型。
参考链接:
时间序列-MA模型时间序列详解如何理解自相关和偏自相关图(最全面的讲解)你需要了解的关于时间序列的一些内容Python时间序列中ADF检验详解