一、数据集介绍
- 🌈 本专栏使用的数据集为
风速预测的时间序列数据
,该数据集包含一个气象站内嵌入的5个天气变量传感器阵列的 6574
个每日平均样本。该设备位于油田21M处的一个非常空旷的区域。 - 🌈 数据记录时间为
1961-01-01 - 1978-12-31
,提供了Ground Truth日平均降水量、最高和最低温度以及草地最低温度。 - 🌈 在这个数据集中,每天记录
8
个不同的天气统计量(比如气温、气压、湿度、风速等),时间间隔为1天,也就是每天的数据为1个样本,每个样本的特征维度为8。 - 🌈 注意:如果没有特殊任务需求,专栏中的每个项目都使用这个数据集方便学习,建议初学者使用本文的数据集,方便项目调试,如果理解之后可以换成自己的数据集,例如股票类、电力负荷类这种时序数据集。
数据集样式如下:
二、特征介绍
对于本项目专栏,如果没有特殊说明,我们将 WIND
作为我们的预测目标,也就是基于数据去预测每一天的平均风速。
对于项目中我们使用的特征主要为后8个,第一个特征 DATE
是时间刻度,在数据处理及建模时我们是不使用的。
注意:🚨🚨🚨本数据集由于存在空值,为了方便,仅仅采用将带有空值的行删除的处理方式,用户可以根据自己的能力进行处理,可以采用人工经验填补或者是采用算法填补等等。
特征 | 特征含义 |
DATE | 时间刻度 |
WIND | 平均风速(节) |
IND.1 | 第一个指标值 |
RAIN | 降水量(mm) |
IND.2 | 第二个指标值 |
T.MAX | 每日最高温度(°C) |
IND.3 | 第三个指标值 |
T.MIN | 每日最低温度(°C) |
T.MIN.G | 09utc草最低温度(°C) |
三、数据集来源
高精度、可靠的风速预报是气象学家面临的挑战。由对流风暴引起的强风,造成相当大的破坏(大规模森林破坏、停电、建筑物/房屋损坏等)。雷暴、龙卷风以及大冰雹、强风等对流事件是有可能扰乱日常生活的自然灾害,特别是在有利于对流启动的复杂地形上。即使是普通的对流事件也会产生强风,造成致命和昂贵的损失。因此,风速预测是一项重要的工作。
本数据集来源于🔥 Kaggle
🔥上的风速预测竞赛,如果有需要的朋友可以到该竞赛网站下载 https://www.kaggle.com/datasets/fedesoriano/wind-speed-prediction-dataset,由于有些用户的网络可能无法访问该网站,可以给我邮箱,私发给你。
该数据集源于以下文章,如有侵权,后台联系删除。
fedesoriano. (April 2022). Wind Speed Prediction Dataset. Retrieved [Date Retrieved] from https://www.kaggle.com/datasets/fedesoriano/wind-speed-prediction-dataset