一、数据集介绍

  • 🌈 本专栏使用的数据集为 ​​风速预测的时间序列数据​​,该数据集包含一个气象站内嵌入的5个天气变量传感器阵列的 ​​6574​​ 个每日平均样本。该设备位于油田21M处的一个非常空旷的区域。
  • 🌈 数据记录时间为 ​​1961-01-01 - 1978-12-31​​,提供了Ground Truth日平均降水量、最高和最低温度以及草地最低温度。
  • 🌈 在这个数据集中,每天记录 ​​8​​ 个不同的天气统计量(比如气温、气压、湿度、风速等),时间间隔为1天,也就是每天的数据为1个样本,每个样本的特征维度为8。
  • 🌈 注意:如果没有特殊任务需求,专栏中的每个项目都使用这个数据集方便学习,建议初学者使用本文的数据集,方便项目调试,如果理解之后可以换成自己的数据集,例如股票类、电力负荷类这种时序数据集。

数据集样式如下:

WIND  IND.1 RAIN  IND.2 T.MAX IND.3 T.MIN T.MIN.G
DATE
1961-01-01 13.67 0 0.2 0.0 9.5 0.0 3.7 -1.0
1961-01-02 11.50 0 5.1 0.0 7.2 0.0 4.2 1.1
1961-01-03 11.25 0 0.4 0.0 5.5 0.0 0.5 -0.5
1961-01-04 8.63 0 0.2 0.0 5.6 0.0 0.4 -3.2
1961-01-05 11.92 0 10.4 0.0 7.2 1.0 -1.5 -7.5
... ... ... ... ... ... ... ... ...
1978-12-27 14.46 0 16.8 0.0 9.8 0.0 4.0 0.0
1978-12-28 14.33 0 16.0 0.0 9.1 0.0 8.5 8.0
1978-12-29 19.17 0 14.7 0.0 5.0 0.0 3.5 3.2
1978-12-30 18.08 0 4.9 0.0 2.9 0.0 0.3 -0.5
1978-12-31 19.25 0 0.5 0.0 1.2 1.0 -1.5 -3.0
6574 rows × 8 columns

二、特征介绍

对于本项目专栏,如果没有特殊说明,我们将 ​​WIND​​ 作为我们的预测目标,也就是基于数据去预测每一天的平均风速。

对于项目中我们使用的特征主要为后8个,第一个特征 ​​DATE​​ 是时间刻度,在数据处理及建模时我们是不使用的。

注意:🚨🚨🚨本数据集由于存在空值,为了方便,仅仅采用将带有空值的行删除的处理方式,用户可以根据自己的能力进行处理,可以采用人工经验填补或者是采用算法填补等等。

特征

特征含义

DATE

时间刻度

WIND

平均风速(节)

IND.1

第一个指标值

RAIN

降水量(mm)

IND.2

第二个指标值

T.MAX

每日最高温度(°C)

IND.3

第三个指标值

T.MIN

每日最低温度(°C)

T.MIN.G

09utc草最低温度(°C)

三、数据集来源

高精度、可靠的风速预报是气象学家面临的挑战。由对流风暴引起的强风,造成相当大的破坏(大规模森林破坏、停电、建筑物/房屋损坏等)。雷暴、龙卷风以及大冰雹、强风等对流事件是有可能扰乱日常生活的自然灾害,特别是在有利于对流启动的复杂地形上。即使是普通的对流事件也会产生强风,造成致命和昂贵的损失。因此,风速预测是一项重要的工作。

本数据集来源于🔥 ​​Kaggle​​​ 🔥上的风速预测竞赛,如果有需要的朋友可以到该竞赛网站下载 ​​https://www.kaggle.com/datasets/fedesoriano/wind-speed-prediction-dataset​​,由于有些用户的网络可能无法访问该网站,可以给我邮箱,私发给你。

该数据集源于以下文章,如有侵权,后台联系删除。

fedesoriano. (April 2022). Wind Speed Prediction Dataset. Retrieved [Date Retrieved] from https://www.kaggle.com/datasets/fedesoriano/wind-speed-prediction-dataset