tensorflow多GPU并行计算
TensorFlow可以利用GPU加速深度学习模型的训练过程,在这里介绍一下利用多个GPU或者机器时,TensorFlow是如何进行多GPU并行计算的。
首先,TensorFlow并行计算分为:模型并行,数据并行。模型并行是指根据不同模型设计不同的并行方式,模型不同计算节点放在不同GPU或者机器上进行计算。数据并行是比较通用简便的实现大规模并行方式,同时使用多个硬件资源计算不同batch数据梯度,汇总梯度进行全局参数更新。
在这里我们主要介绍数据并行的多GPU并行方法。数据并行,多块GPU同时训练多个batch数据,运行在每块GPU上的模型基于同一神经网络,网络结构一样,共享模型参数。数据并行也分为两个部分,同步数据并行和异步数据并行。
在每一轮迭代中,前向传播算法会根据当前参数的取值,计算出在一小部分训练数据上的预测值,然后反向传播算法,根据loss function计算参数的梯度并且更新参数。而不同的数据并行模式的区别在于参数的更新方式不同。
1.数据异步并行
图一:数据异步并行模式流程图
从图一可以看出,在每一轮迭代时候,不同的设备会读取参数最新的取值。但是因为不同的设备,读取参数取值的时间不一样,得到的值也有可能不一样。
也就是说数据异步并行模式根据当前参数的取值和随机获取的一小部分数据数据在不同设备上各自运行,不等待所有GPU完成一次训练,哪个GPU完成训练,立即将梯度更新到共享模型参数。
2.数据同步并行
图二:数据同步并行模式流程图
与数据异步并行模式不同的是数据同步并行模式在所有设备完成反向传播的计算之后,需要计算出不同设备上参数梯度的平均值,最后在根据平均值对参数进行更新。
总结:
并行分为:模型并行和数据并行,数据并行又分为数据同步并行和数据异步并行。数据同步并行需要等所有的GPU都通过当前批次的训练语料求得损失值进而求得梯度之后对所有的GPU所得的梯度求均值,然后再以此均值进行参数的更新。而数据异步并行则不需要等待所有GPU完成一次训练,哪个GPU完成训练,立即将梯度更新到共享模型参数。
优缺点的比较:
主要应用的是数据的并行化处理,因此主要是对数据的并行化处理的两种方法进行比较。数据同步并行,同步更新的信息开销很大,有时并不一定比直接利用一个GPU进行运算快,同时存在短板效应,所需的时间是由性能最差的那个GPU所决定。虽然其每个批次的计算时间由于信息开销的原因会变大,但是其每次对参数更新相当于以batch_size*GPU个数这么多的数据对参数进行更新,实际上相当于应用了更大批次的数据,这样也能解决批次的大小限制(若批次数据过大可能显存不够的情况)。数据异步并行会存在过期梯度的问题。
并行化代码的实现:
先分析下一个NLP方面的神经网络分类任务大体的流程:
一般NLP任务会输入一个三维的向量第一维mini-batch的大小,第二维人为设定的句子的最大长度,第三维词向量,数据输入之后会经过各种类型的网络(相同于前馈神经网络的功能)得到的向量是对原文的特征表示。因为NLP任务属于对序列文本的处理一般使用的网络要能够获得上下文信息也即为能够很好的对序列信息进行处理,因为学到了上下文信息,例如用LSTM,得到LSTM的输出后要把0,1维进行转换,转换为时间批次优先的形式,取结果的[-1]得到一个二维的向量第一维是批次大小,第二维是隐藏节点的个数,此时这个二维数据就是对输入原文数据的表示,对于应用较多的分类任务,随后会把对原文的特征表示做为输入,经过一个线性变换进行分类。得到二维数据pred,第一维是批次大小,第二维是类别的个数。再用精度进行结果的评估代码为:
correct_pred=tf.equal(tf.argmax(pred,1),tf.argmax(y,1))
accuracy=tf.reduce_mean(tf.cast(correct_pred,tf.float32))
因为pred是二维的,第二维的数据表示预测为各个类别的概率大小,这里可以用个softmax进行概率归一化也可不用,tf.argmax(pred,1)其作用为得到第二维最大值的那个下脚标,返回的值是一维的[batch]即为预测的是何种类别,tf.equal用于对比预测类别和正确的类别标签,返回的也是一维的[batch]但是bool类型的,随后accuracy=tf.reduce_mean(tf.cast(correct_pred,tf.float32))是精度的计算,先把bool类型的转换为float类型数据,再求均值即可。直到这里正向传播结束,随后需要进行反向传播,对模型中的参数进行更新,使获得的对于原文的表示outputs(从训练文本中抽取的特征)越来越优,以便于分类的结果越来越精确。反向传播即为通过优化函数对网络模型中的参数进行更新,一般优化的过程都是通过设定的目标函数,对目标函数进行优化,对模型中的参数进行求导,以此来更新参数。对于分类问题损失函数一般选用交叉熵函数:
loss=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=pred))
通过如上代码获得损失值,交叉熵函数是用于求两个概率分布之间的距离,因此要对pred结果通过softmax转换为概率分布的数据。获得损失值传入优化函数对模型进行优化。这里的tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=pred)获得的数据是[batch]的,然后对其求均值得到损失值,这就体现了通过一个batch的数据对参数进行更新。
#反向传播优化函数
optimizer=tf.train.AdamOptimizer(learning_rate=FLAGS.init_learning_rate).minimize(loss)
优化函数会对参数进行优化,一般都是通过设置运行优化函数的次数epoch来控制何时停止对参数进行更新,epoch的设置可以根据精度值进行判断具体的大小。这里的minimize完成了计算梯度和应用梯度的过程,AdamOptimizer是确定选取何种方法对参数进行更新,因为它在对参数进行更新的过程中会自动调节学习率,故学习率可以不设置为衰减的(这一般在SGD中使用。)
主要代码的改变在于梯度的计算相关的方面:
平均梯度的计算:
1 def average_grident(tower_grads):
2 average_grads = []
3 for val_and_grad in zip(*tower_grads):
4 grads = []
5 for g,_ in val_and_grad:
6 grad = tf.expand_dims(g, 0)
7 grads.append(grad)
8 grad = tf.concat(grads, 0)
9 grad = tf.reduce_mean(grad, 0)
10 v = val_and_grad[0][1]
11 grad_and_var = (grad, v)
12 average_grads.append(grad_and_var)
13 return average_grads
需要更新的是反向传播的部分:
tower_grad = []
#计算损失值选择优化器
#反向传播优化函数
global_step = tf.Variable(0, name="global_step", trainable=False)
optimizer=tf.train.AdamOptimizer(learning_rate=FLAGS.init_learning_rate)
#以下默认使用的两个GPU,batch_size是128
for i in range(2):
with tf.device('/gpu:%d' % i):
if i==0:
cur_loss=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=y[:64],logits=pred[:64]))
grads = optimizer.compute_gradients(cur_loss)
tower_grad.append(grads)
else:
cur_loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=y[64:], logits=pred[64:]))
grads = optimizer.compute_gradients(cur_loss)
tower_grad.append(grads)
grads = average_grident(tower_grad)
train_op = optimizer.apply_gradients(grads,global_step=global_step)