激活函数大汇总
激活函数有什么用?
提到激活函数,最想问的一个问题肯定是它是干什么用的?激活函数的主要作用是提供网络的非线性表达建模能力,想象一下如果没有激活函数,那么神经网络只能表达线性映射,此刻即便是有再多的隐藏层,其整个网络和单层的神经网络都是等价的。因此正式由于激活函数的存在,深度神经网络才具有了强大的非线性学习能力。
激活函数可以大概分为两类:
饱和激活函数的存在的问题:
1) 在接近饱和区时,变化太缓慢,导数趋于0,容易出现梯度消失。
2) 反向传播求解误差梯度时,梯度趋于0,收敛速度慢。
非饱和激活函数的优势:
1) 没有饱和区,抑制了“梯度消失”问题。(梯度消失问题的原因是多方面的,不仅仅是激活函数的锅)
2) 收敛速度快
3) ReLU会使一部分神经元输出为0,使网络更加稀疏,从而降低了网络参数之间的相互依赖关系,缓解了过拟合问题。
- Sigmoid
Sigmoid函数也被称为Logistic函数,因为Sigmoid函数可以从Logistic回归(LR)中推理得到,也是LR模型指定的激活函数。
Sigmoid函数会将网络的输出值映射在(0,1)之间,方便分析。
优点:平滑、易于求导。
缺点:
1)激活函数计算量大(正反向传播时都要进行幂运算和除法)
2)梯度消失问题。Sigmoid导数值的范围是[0, 0.25],由于神经网络反向传播时的“链式反应”,很容易就会出现梯度消失的情况。例如对于一个深度网络,第n层的误差相对第一层卷积的参数的梯度将会是一个比0.25^n还小的值,随着网络层数的加深,梯度就越小,直至梯度为0,即梯度消失。
3)原始数据分布可能改变;Sigmoid的输出不是0均值,这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入,随着网络的加深,会改变数据的原始分布。
1、2 soft_max
将一个K维的向量均匀映射到(0,1)的区间,且各个映射后的元素之和为1。常用作多分类。
公式:
求导:
代码:
def soft_max(x,axis=1):
row_max = x.max(axis=axis)
row_max = row_max.reshape(-1,1)
#每行元素减去对应行的最大值,防止溢出
x = x-row_max
x_exp = np.exp(x)
x_sum = np.sum(x_exp,axis==axis=,keepdims=True)
s = x_exp/x_sum
return s
2. tanh
tanh为双曲正切函数,其映射值范围为(-1,1)。
tanh公式:
相比Sigmoid函数,tanh有以下几个特点:
1) 输出范围为(-1,1),解决了Sigmoid函数不是0均值的问题。
2) 幂运算仍然存在,计算量依旧很大。
3) 导数范围在(0,1)之间,梯度消失问题得到了缓解。
3. RelU(Rectified Linear Unit)
公式:relu(x) = max(0, x)
当输入值x>0时:
此时ReLU的导数为1,其在链式反应中不会出现梯度消失。但这也使得梯度下降的强度完全取决于权值的乘积,可能会出现梯度爆炸问题。解决这类问题的方法有:
1)将权值范围控制在(0,1)之间;
2)做梯度剪裁,即控制梯度下降的强度,例如ReLU6=min(6,max(0, x))
当输入值x<0时:
深度学习是根据大批量的样本数据,从错综复杂的数据关系中,找到关键信息(关键特征)。换句话说,就是把密集矩阵稀疏化,保留关键信息,去除噪声,使模型更具鲁棒性。而ReLU在x<0时的输出置为0,就是一个稀疏化矩阵的过程,并且在训练过程中,这种稀疏性是动态调节的,网络会自动调整稀疏比例,保证矩阵有最优的有效特征。
但是x一旦有一次是小于0的,那么这个神经元就会永久性关闭(为0,特征屏蔽),可能会导致模型无法学习到有效特征,如果学习率过大,就可能会导致大部分的神经元处于’dead’状态,所以使用ReLU的网络,学习率不能设置太大。
ReLU作为激活函数的特点:
1) 相比Sigmoid和tanh,ReLU没有幂运算、除法等复杂计算,提高了运算速度。
2) 解决了由激活函数带来的梯度消失问题,收敛速度大大提高,但要注意梯度爆炸问题的防范。
3) 矩阵的稀疏化更好,容易得到更好的模型,但是模型大量神经元‘dead’问题也要防止。
4.Leaky ReLU,PReLU(Parametric),RReLU(Random ReLU)
Leaky ReLU:仅对ReLU当x<0的输出值进行了修改,不再是直接为0,而是对x乘以一个很小的系数α(一般设为0.01),这是固定值。
特点:为了改善ReLU在时梯度为造成Dead ReLU,提出了Leaky ReLU使得这一问题得到了缓解。例如在我们耳熟能详的YOLOV3网络中就使用了Leaky ReLU这一激活函数,另外PReLU就是将Leaky ReLU公式里面的当成可学习参数参与到网络训练中。
PReLU:是对Leaky ReLU的一点修改,将α值作为一个可学习的参数,会在训练过程中进行更新。RReLU:也是Leaky ReLU的一个变体,在训练时随机对α值赋值(随机值服从均匀分布U(I,u)),测试时改成固定的。
- ELU
函数表达式: