时序数据介绍
时间序列数据( Time Series) 是指一系列依时间为序的观察值的集合。
- 按照时序数据变量,可分为单变量时间序列和多变量时间序列;
- 按其变量波动性,可分为平稳性时间序列和非平稳性时间序列;
- 按其连续性,可分为连续时间序列和离散时间序列;
时序数据分析经历了描述性时序分析、统计性时序分析、频域分析、时域分析,时间序列数据挖掘几个阶段。
时序数据缺失
在数据采集过程中,产生数据缺失的机制主要有完全随机缺失、随机缺失和非随机缺失三种情况。其中,完全随机缺失完全由随机因素造成,随机缺失只依赖于已观测到的变量值,非随机缺失与缺失值自身有关。
基于统计学的填充方法
固定值填充、常用值填充、均值填充、中值填充、上下文数据填充、插值填充。
基于模型的填充方法
自回归模型和自回归差分移动平均模型
基于机器学习的填充方法
KNN、RNN和EM
时序数据噪音
时域滤波方法
用一个滤波器来去除噪声,滤波器通常是一个滑动窗口,而去噪就是用窗口内数据的统计值( 如均值、中值等) 来代替当前值。
频域滤波方法
将信号从时域变换到频域,通过设定阈值将不同频率的信号分开,,主要有低通滤波、高通滤波、带通滤波等,但由于需要获取序列的先验知识且一定程度忽视了时间这一特征,无法准确展示序列细节变化,所以实际应用较少。
时序离群点&异常值
“异常”可能是在特定时间点的外部误差或外生变化,只影响此特定时刻的观测值。也可能是由于内部变化或噪声过程中的内源性作用引起,影响所有后 续观测值。
基于统计学的方法
3σ 法则
回归分析
相似性度量
聚类分析
基于模式表示的方法
Shaplet
SVD
符号聚合近似
分段线性表示
时序特征
直接处理时序原数据会占用大量资源,目前主要有基于统计特征、基于预测模型、基于变换、基于分段函数的表示方式。
基于统计特征的时序表示
时域包括最大值、最小值、峰值、均值、方差、均方值、均方根值等有量纲特征,以及峰值因子、脉冲因子、裕度因子、峭度因子、波形因子、偏度等无量纲特征。
频域包括重心频率、均方频率、均方根频率、频率方差、频率标准差等特征
基于预测模型的时序表示
假设时间序列是某个预测模型的观测值,确定该预测模型的参数值,构建合适的模型。
分为模型假设、模型估计、参数估计、模型检验几个步骤,代表性的方法有自回归移动平均模型。