在本文中,你将了解如何使用 Keras 深度学习库开发 用于多元时间序列预测的 LSTM 模型


文章目录

  • 技术提升
  • 1.空气污染预报
  • 2.基础数据准备
  • 3.多元LSTM预测模型
  • LSTM 数据准备
  • 定义和拟合模型
  • 评估模型
  • 示例
  • 4.训练多个滞后时间步示例


技术提升

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。


1.空气污染预报

在本文中,我们将使用空气质量数据集。

这是一个数据集,报告了五年来美国驻中国北京大使馆每小时的天气和污染程度。

数据包括日期时间、称为PM2.5浓度的污染以及天气信息,包括露点、温度、压力、风向、风速和雨雪累计小时数。原始数据中完整的特征列表如下:

  1. No:行号
  2. year : 该行数据的年份
  3. month : 该行数据的月份
  4. day : 该行数据的日期
  5. hour:该行数据的小时数
  6. pm2.5 : PM2.5 浓度
  7. DEWP : 露点
  8. TEMP:温度
  9. PRES:压力
  10. cbwd : 组合风向
  11. Iws : 累计风速
  12. Is:累积的降雪时间
  13. Ir : 累计降雨时间

2.基础数据准备

下面是原始数据集的前几行。

No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
1,2010,1,1,0,NA,-21,-11,1021,NW,1.79,0,0
2,2010,1,1,1,NA,-21,-12,1020,NW,4.92,0,0
3,2010,1,1,2,NA,-21,-11,1019,NW,6.71,0,0
4,2010,1,1,3,NA,-21,-14,1019,NW,9.84,0,0
5,2010,1,1,4,NA,-20,-12,1018,NW,12.97,0,0

第一步是将日期时间信息合并到一个日期时间中,以便我们可以将其用作 Pandas 中的索引。

快速检查会显示前 24 小时内 pm2.5 的 NA 值。因此,我们需要删除第一行数据。数据集中后面还有一些分散的“NA”值;我们现在可以用 0 值标记它们。

下面的脚本加载原始数据集并将日期时间信息解析为 Pandas DataFrame 索引。删除“No”列,然后为每列指定更清晰的名称。最后,将 NA 值替换为“0”值,并删除前 24 小时。

删除“No”列,然后为每列指定更清晰的名称。最后,将 NA 值替换为“0”值,并删除前 24 小时。

from pandas import read_csv
from datetime import datetime
# load data
def parse(x):
	return datetime.strptime(x, '%Y %m %d %H')
dataset = read_csv('raw.csv',  parse_dates = [['year', 'month', 'day', 'hour']], index_col=0, date_parser=parse)
dataset.drop('No', axis=1, inplace=True)
# manually specify column names
dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']
dataset.index.name = 'date'
# mark all NA values with 0
dataset['pollution'].fillna(0, inplace=True)
# drop the first 24 hours
dataset = dataset[24:]
# summarize first 5 rows
print(dataset.head(5))
# save to file
dataset.to_csv('pollution.csv')

运行该示例会打印转换后数据集的前 5 行,并将数据集保存到“ pollution.csv ”。

pollution  dew  temp   press wnd_dir  wnd_spd  snow  rain
date
2010-01-02 00:00:00      129.0  -16  -4.0  1020.0      SE     1.79     0     0
2010-01-02 01:00:00      148.0  -15  -4.0  1020.0      SE     2.68     0     0
2010-01-02 02:00:00      159.0  -11  -5.0  1021.0      SE     3.57     0     0
2010-01-02 03:00:00      181.0   -7  -5.0  1022.0      SE     5.36     1     0
2010-01-02 04:00:00      138.0   -7  -5.0  1022.0      SE     6.25     2     0

现在我们有了易于使用的数据,我们可以快速创建每个系列的图表并查看我们有什么。
下面的代码加载新的“ pollution.csv ”文件并将每个系列绘制为单独的子图,风速方向除外,它是分类的。

from pandas import read_csv
from matplotlib import pyplot
# load dataset
dataset = read_csv('pollution.csv', header=0, index_col=0)
values = dataset.values
# specify columns to plot
groups = [0, 1, 2, 3, 5, 6, 7]
i = 1
# plot each column
pyplot.figure()
for group in groups:
	pyplot.subplot(len(groups), 1, i)
	pyplot.plot(values[:, group])
	pyplot.title(dataset.columns[group], y=0.5, loc='right')
	i += 1
pyplot.show()

运行该示例会创建一个包含 7 个子图的图,显示每个变量 5 年的数据。

空气质量预测 lstm模型 python 空气质量预测代码_机器学习

3.多元LSTM预测模型

LSTM 数据准备

第一步是为 LSTM 准备污染数据集。这涉及将数据集构建为监督学习问题并对输入变量进行归一化。

我们将监督学习问题定义为在给定先前时间步长的污染测量和天气条件的情况下预测当前时间 (t) 的污染。

首先,加载“ _pollution.csv ”数据集。_风向特征是标签编码的(整数编码)。如果你有兴趣探索它,将来可能会进一步进行单热编码。

接下来,对所有特征进行归一化,然后将数据集转化为监督学习问题。然后删除要预测的小时 (t) 的天气变量。

# prepare data for lstm
from pandas import read_csv
from pandas import DataFrame
from pandas import concat
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler

# convert series to supervised learning
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):
	n_vars = 1 if type(data) is list else data.shape[1]
	df = DataFrame(data)
	cols, names = list(), list()
	# input sequence (t-n, ... t-1)
	for i in range(n_in, 0, -1):
		cols.append(df.shift(i))
		names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
	# forecast sequence (t, t+1, ... t+n)
	for i in range(0, n_out):
		cols.append(df.shift(-i))
		if i == 0:
			names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
		else:
			names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
	# put it all together
	agg = concat(cols, axis=1)
	agg.columns = names
	# drop rows with NaN values
	if dropnan:
		agg.dropna(inplace=True)
	return agg

# load dataset
dataset = read_csv('pollution.csv', header=0, index_col=0)
values = dataset.values
reframed = series_to_supervised(scaled, 1, 1)
# drop columns we don't want to predict
reframed.drop(reframed.columns[[9,10,11,12,13,14,15]], axis=1, inplace=True)
print(reframed.head())

运行该示例会打印转换数据集的前 5 行。我们可以看到 8 个输入变量(输入序列)和 1 个输出变量(当前小时的污染水平)。

var1(t-1)  var2(t-1)  var3(t-1)  var4(t-1)  var5(t-1)  var6(t-1)  \
1   0.129779   0.352941   0.245902   0.527273   0.666667   0.002290
2   0.148893   0.367647   0.245902   0.527273   0.666667   0.003811
3   0.159960   0.426471   0.229508   0.545454   0.666667   0.005332
4   0.182093   0.485294   0.229508   0.563637   0.666667   0.008391
5   0.138833   0.485294   0.229508   0.563637   0.666667   0.009912
 
   var7(t-1)  var8(t-1)   var1(t)
1   0.000000        0.0  0.148893
2   0.000000        0.0  0.159960
3   0.000000        0.0  0.182093
4   0.037037        0.0  0.138833
5   0.074074        0.0  0.109658

这种数据准备很简单,我们可以探索更多。你可以考虑的一些想法包括:

  • 单热编码风向。
  • 通过差分和季节性调整使所有系列静止。
  • 提供超过 1 小时的输入时间步长。

考虑到在学习序列预测问题时 LSTM 使用时间反向传播,最后一点可能是最重要的。

定义和拟合模型

在本节中,我们将在多元输入数据上拟合 LSTM。

首先,我们必须将准备好的数据集拆分为训练集和测试集。为了加快本次演示的模型训练,我们将只在第一年的数据上拟合模型,然后在剩余 4 年的数据上对其进行评估。如果你有时间,可以考虑探索这个测试工具的倒置版本。

下面的示例将数据集拆分为训练集和测试集,然后将训练集和测试集拆分为输入和输出变量。最后,输入 (X) 被重塑为 LSTM 期望的 3D 格式,即 [samples, timesteps, features]。

# split into train and test sets
values = reframed.values
n_train_hours = 365 * 24
train = values[:n_train_hours, :]
test = values[n_train_hours:, :]
# split into input and outputs
train_X, train_y = train[:, :-1], train[:, -1]
test_X, test_y = test[:, :-1], test[:, -1]
# reshape input to be 3D [samples, timesteps, features]
train_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))
test_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1]))
print(train_X.shape, train_y.shape, test_X.shape, test_y.shape)

运行此示例打印训练集和测试集,其中约有 9K 小时的训练数据和约 35K 小时的测试数据。

(8760, 1, 8) (8760,) (35039, 1, 8) (35039,)

现在我们可以定义和拟合我们的 LSTM 模型。

我们将定义 LSTM 在第一个隐藏层有 50 个神经元,在输出层有 1 个神经元用于预测污染。输入形状将是具有 8 个特征的 1 个时间步长。

# design network
model = Sequential()
model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2])))
model.add(Dense(1))
model.compile(loss='mae', optimizer='adam')

评估模型

模型拟合后,我们可以对整个测试数据集进行预测。

我们将预测与测试数据集结合起来并反转缩放比例。我们还使用预期的污染数量反转测试数据集的缩放比例。

有了原始规模的预测值和实际值,我们就可以计算模型的错误分数。在这种情况下,我们计算均方根误差 (RMSE),它以与变量本身相同的单位给出误差。

# make a prediction
yhat = model.predict(test_X)
test_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))
# invert scaling for forecast
inv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1)
inv_yhat = scaler.inverse_transform(inv_yhat)
inv_yhat = inv_yhat[:,0]
# invert scaling for actual
test_y = test_y.reshape((len(test_y), 1))
inv_y = concatenate((test_y, test_X[:, 1:]), axis=1)
inv_y = scaler.inverse_transform(inv_y)
inv_y = inv_y[:,0]
# calculate RMSE
rmse = sqrt(mean_squared_error(inv_y, inv_yhat))
print('Test RMSE: %.3f' % rmse)

示例

运行该示例首先创建一个图表,显示训练期间的训练和测试损失。

有趣的是,我们可以看到测试损失低于训练损失。该模型可能过度拟合训练数据。在训练期间测量和绘制 RMSE 可能会更清楚地说明这一点。

空气质量预测 lstm模型 python 空气质量预测代码_机器学习_02

训练和测试损失在每个训练时期结束时打印。在运行结束时,将打印模型在测试数据集上的最终 RMSE。

我们可以看到该模型实现了 26.496 的可观 RMSE,低于持久性模型的 30 RMSE。

Epoch 46/50
0s - loss: 0.0143 - val_loss: 0.0133
Epoch 47/50
0s - loss: 0.0143 - val_loss: 0.0133
Epoch 48/50
0s - loss: 0.0144 - val_loss: 0.0133
Epoch 49/50
0s - loss: 0.0143 - val_loss: 0.0133
Epoch 50/50
0s - loss: 0.0144 - val_loss: 0.0133
Test RMSE: 26.496

4.训练多个滞后时间步示例

首先,你必须在调用 series_to_supervised() 时适当地构建问题。我们将使用 3 小时的数据作为输入。

# specify the number of lag hours
n_hours = 3
n_features = 8
# frame as supervised learning
reframed = series_to_supervised(scaled, n_hours, 1)

接下来,我们需要更加小心地指定输入和输出的列。
我们的框架数据集中有 3 * 8 + 8 列。我们将采用 3 * 8 或 24 列作为过去 3 小时内所有特征的 obs 的输入。我们将在接下来的时间仅将污染变量作为输出,如下所示:

# split into input and outputs
n_obs = n_hours * n_features
train_X, train_y = train[:, :n_obs], train[:, -n_features]
test_X, test_y = test[:, :n_obs], test[:, -n_features]
print(train_X.shape, len(train_X), train_y.shape)

接下来,我们可以正确地重塑我们的输入数据以反映时间步长和特征。

# reshape input to be 3D [samples, timesteps, features]
train_X = train_X.reshape((train_X.shape[0], n_hours, n_features))
test_X = test_X.reshape((test_X.shape[0], n_hours, n_features))

拟合模型是一样的。

唯一的其他小变化是如何评估模型。具体来说,在我们如何重构具有 8 列的行以适合反转缩放操作以使 y 和 yhat 回到原始比例,以便我们可以计算 RMSE。

更改的要点是我们将 y 或 yhat 列与测试数据集的最后 7 个特征连接起来,以便反转缩放,如下所示:

# invert scaling for forecast
inv_yhat = concatenate((yhat, test_X[:, -7:]), axis=1)
inv_yhat = scaler.inverse_transform(inv_yhat)
inv_yhat = inv_yhat[:,0]
# invert scaling for actual
test_y = test_y.reshape((len(test_y), 1))
inv_y = concatenate((test_y, test_X[:, -7:]), axis=1)
inv_y = scaler.inverse_transform(inv_y)
inv_y = inv_y[:,0]

该模型在一两分钟内就和以前一样适合。

Epoch 45/50
1s - loss: 0.0143 - val_loss: 0.0154
Epoch 46/50
1s - loss: 0.0143 - val_loss: 0.0148
Epoch 47/50
1s - loss: 0.0143 - val_loss: 0.0152
Epoch 48/50
1s - loss: 0.0143 - val_loss: 0.0151
Epoch 49/50
1s - loss: 0.0143 - val_loss: 0.0152
Epoch 50/50
1s - loss: 0.0144 - val_loss: 0.0149

绘制了各个时期的训练和测试损失图。

空气质量预测 lstm模型 python 空气质量预测代码_python_03


最后,测试 RMSE 被打印出来,并没有真正显示出任何技能优势,至少在这个问题上是这样。

Test RMSE: 27.177

我要补充一点,LSTM似乎不适合解决自回归类型的问题,你最好探索具有大窗口的 MLP。

我希望这个例子能帮助你进行你自己的时间序列预测实验。