1、总括

时间序列是一种衡量事物随时间变化的数据类型。在一个时间序列数据集中,时间列本身不代表一个变量:它实际上是一个基本结构,可以使用它对数据集排序。由于我们需要应用特定的数据预处理和特征工程技术来处理时间序列数据,因此这种基本的时间结构使时间序列问题更具有挑战性。

2、时间序列分析

是要确定时间序列数据的内在结构并推断其隐藏特征,以便从中获得有用的信息。利用时序分析的原因。

  • 对历史时间序列数据的基本结构有清晰的认识
  • 提高时间序列特征解释的质量,以更好地告知问题域。
  • 预处理冰执行高质量的特征工程,以获得更丰富、更深入的历史数据集。

它通常被认为是为时序预测分析和准备时序数据的第一步。

时序分析的三/四个重要组成部分:

  • 长期运动或趋势
  • 短期运动
  • 季节性变化
  • 周期性变化
  • 随机或不规则波动

需要仔细确定时间序列数据中的每个组成部分,才能构建一个精确的机器学习预测解决方案。建议首先执行一个分解过程,从数据中去除组成部分的影响。在识别和度量了这些组成部分并用它们构建其他功能以提高预测准确率后,我们可以利用不同的方法在预测结果中重组和添加各组成部分。

理解这四个时间序列组成部分以及如何识别和删除它们是构建任何时间序列预测解决方案的第一步,因为它们可以帮助解决时间序列中的另一个重要概念——平稳性
**平稳性:**时间序列的统计参数不会随时间变化,也就是说,时间序列数据分布的基本属性(如均值和方差),不随时间变化。这样更容易建模,因为其基本假设是,它们的属性不依赖于时间,未来将与它们在历史时期一样的。

  • 强平稳性:时间序列的所有统计参数不随时间变化。
  • 弱平稳性:时间序列的均值和自协方差不随时间变化。

3、时间序列预测

1、在预测方案之前

  1. 预测模型的输入和输出
  2. 预测模型的粒度级别
  3. 预测模型的范围:未来预测所需要的时间长度。
  4. 预测模型的内源性和外源性特征:影响预测的内部和外部因素
  • 外源性变量的共同特征:
  • 在进入模型时时固定的
  • 在模型中被认为是给定的
  • 影响模型中的内源性变量
  • 不能由模型决定
  • 不能用模型来解释。
  1. 预测模型的结构化或非结构化特征
  2. 预测模型的单变量或多变量特征
  3. 预测模型的单步或多步结构
  • 仅预测下一个时间步的预测值,是单步预测
  • 多步预测
  • 直接多步预测:为每个预测时间戳创建一个单独的模型。需要开发一个模型来预测第一个小时的能源消耗,再开发一个模型来预测第二个小时的能源消耗。
  • 递归多步预测:将该模型用于预测下一个小时的能源消耗,之后将该预测作为输入,以预测第二个小时的能源消耗。
  • 直接递归混合多步预测:结合上面两种方法的优势。对于预测两个小时的情况,构建两个模型,第一个模型的输出作为第二个模型的输入
  • 多输出预测:要求开发一个能够预测整个预测序列的模型。在预测未来两个小时的能源消耗的情况下,只开发一个模型直接预测未来两个小时情况。
  • 预测模型的连续或非连续时间序列值:
  • (1)连续:彼此之间呈现一致的时间间隔
  • (2)非连续:时间间隔不一致(原因通常是含有缺失值或损坏值)
    数据缺失原因:
    (1)随机缺失:意味着数据点缺失的倾向与缺失数据无关,而与某些观测到的数据有关。
    (2)完全随机确实:某个值缺失的事实与其假设值和其他变量的值没有关系。
    (3)非随机缺失:两个可能的原因,缺失值取决于假设值/缺失值取决于其他变量的值。【一般采用补全】
    删除方法
  • 列表删除
  • 成对删除
  • 列删除
    补全方法:
  • 线性插值【对有趋势和没有季节性的数据】
  • 季节调整和线性插值【对有缺失和季节性的数据】
  • 均值、中位数和众数【对没有趋势和季节性的数据】:优点快,缺点时均值插补会降低数据集的方差。

2、时间序列预测的监督学习

如何将任何时间序列数据集转换为监督学习问题?数据科学家通常利用先前时间步值来预测后续时间步,这种方法被称为滑动窗口法。P18

第一章概述结束,第二章是如何在云上设计一个端到端的时间序列预测解决方案。