前面看过了CNN的基本结构,经典的模式如下图:

cnn attention机制 cnn原理及推导_损失函数

 

上图经典的CNN模型主要可以概括为三个部分:

convolution层:convolution是将原来的输入向量映射成多个feature map,每个feature map的权重和偏移量都是一样的

sub-sampling层:sub-sampling 层将feature map进一步缩小,可以选择down-sampling的方法有很多,如max-pooling是选取所选区域的最大值,也有是选取所选区域的每个像素的输出值的平均                 值,当然也有是将所选区域的每个像素的输出值进行求和,但是目的只有一个,那就是进一步将feature map压缩

全连接层:CNN中卷积层和sub-sampling层可以多个组合使用,在最后面的sub-sampling层后面加入几个全连接层,最后连接到输出层中去

 

了解完这一点后,根据一般的神经网络BP算法,我们构造完损失函数L,然后在训练过程中就使用BP算法进行梯度下降求导了,本文就是介绍关于CNN求导过程。

整篇文章参考的论文为【1】Notes on Convolutional Neural Networks ,作者Jake Bourvie比较详细的介绍了CNN 的求导方法。

 

文章假设已经掌握了经典的BP算法,同时对于损失函数也有一定的了解,常用的平方损失函数或者cross-entropy函数等,所以下文不会给出从头到尾的推导公式,只是着重介绍在卷积层和sub-sampling层的求导过程。

 

一,首先来看卷积层的求导(求误差敏感项以及权重和偏置值):

 

从输入层到卷积层的feature map,我们使用的是如下计算公式:

 

cnn attention机制 cnn原理及推导_卷积_02

 其中Mj表示的是输入层的选中区域,而Kij核函数表示的是权重参数,也就是w参数,f(.)表示的是激励函数,一般使用sigmoid,也有资料【2】表示使用ReLU函数能够更好的训练深度神经网络,总之这个式子表示的是从上一输入层到卷积层的计算过程,feature map共享相同的Kernel和biase也就是w和b参数,不同的feature map 的w和b参数不一样

 

现在来计算一下卷积层的梯度下降公式:

 

目的:计算卷积层的各个参数的梯度,也就是计算上面式子的Kij和b的导数值

假设每个卷积层后面都跟着sub-sampling层,BP算法告诉我们,要想求得本层的参数,那么就需要求出损失函数对本层输出结果的导数,这里就出现了一个问题,卷积层的大小和sub-sampling层的大小不一样,这就对求导产生的难度。

为了求导,我们可以将sub-sampling层按照之前的卷积层到sub-sampling层的映射规则,将sub-sampling层展开成和卷积层一样的大小,我们看一下是如歌展开的:

 

假设卷积层为4*4大小,然后sub-sampling层为2*2大小,我们假设现在使用BP算法求得的sub-sampling敏感项大小是:

 

cnn attention机制 cnn原理及推导_损失函数_03

 

  • 使用均值的方法,那么可以将sub-sampling 的敏感项"up-sampling"到如下图:

 

 

cnn attention机制 cnn原理及推导_CNN_04

 

  • max-pooling方法,那么可以选择其他区域为0,其up-sampling的结果可能是下图:

 

cnn attention机制 cnn原理及推导_卷积神经网络_05

 之所以是使用“可能”两个字,是因为0的位置需要根据卷积层到sub-sampling层的最大值在卷积层的位置决定,因此还需要记住从convolution层到sub-sampling层的映射位置。

 

在得到卷积层output敏感项之后,就可以进行对卷积层的参数进行求导了:

 

 

cnn attention机制 cnn原理及推导_卷积_06

(1)

 

cnn attention机制 cnn原理及推导_损失函数_07

(2)

 

cnn attention机制 cnn原理及推导_损失函数_08

(3)

 

其中(1)式中的up(.)指的就是讲suB-sampling层按照之前说的规则“展开”,βl+1 表示的是sub-sampling“展开后”卷积层的output敏感项,f0(u` j)则是对卷积层的激励函数求导,这和BP算法是一致的

(2)式表示对卷积层参数b的求导,(3)式表示的是对卷积层参数Kij的求导,其实也就是对权重w进行求导,Pi表示的是卷积层上一层输入值块,也就是卷积区域的输入值矩阵,和BP算法保持一致。

在【1】这篇文章中,有一种新的方法计算这部分求导,其实是为了方便MATLAB编程,我们以求 L-1层的敏感项(δl-1)举例说明:

 

假设卷积层前面是一个3*3大小的通道,卷积核大小为2*2,那么在卷积层应该有2*2大小,我们假设现在已经求出的卷积层的敏感项为:

 

cnn attention机制 cnn原理及推导_卷积神经网络_09

 卷积核为:

cnn attention机制 cnn原理及推导_卷积_10

我们先将卷积层L的敏感项“FULL”化:(稍后解释为什么) 

 

cnn attention机制 cnn原理及推导_CNN_11

 

那么对卷积层的Xij(也就是前一层的敏感项)求导的结果就是

 

 

  

 

cnn attention机制 cnn原理及推导_CNN_11

  *

cnn attention机制 cnn原理及推导_卷积_10

=

cnn attention机制 cnn原理及推导_卷积神经网络_14

 

注意这里*表示的离散卷积,也就是先要将卷积核旋转180度然后进行卷积相乘。其实这里也是根据BP算法进行推导的,比如最中间的2.3是由矩阵[1,1,2,3]的 1的右下角,1的左下角,2的右上角,3的左上角的四个因子相乘所得,所以2.3=1*0.6+1*0.5+2*0.3+3*0.2得来

 

当然如果有多个feature map,只需要将所得到的3维矩阵相加即可

 

二,前面部分从convolution层到sub-sampling层没有考虑使用线性变换,也就是说可能从卷积层到sample层还可能有参数Biase和w参数,下面就这一点做个说明

 

计算公式:

cnn attention机制 cnn原理及推导_CNN_15

 其中down表示的是从卷积层到sub-sampling层使用的函数,例如max-pooling使用的是最大值,在论文【1】里面,作者使用的求和,也就是将卷基层的输出直接相加得到dowm(.)注意到这里使用的 βj `和(1) 式中使用的是一样的参数,之所以是这样,是因为如果从卷积层到sub-sampling层使用的是求和的话,那么卷积层的敏感项“展开项”都是一样的 βj ` ,所以(1)式中的 βj ` 就是这么来的

 

好了现在按照下面式子求出各个项的参数:

 

cnn attention机制 cnn原理及推导_CNN_16

(4)

 

cnn attention机制 cnn原理及推导_CNN_17

(5)

这个和一般的BP算法是一样的,这里求上一层的敏感项的时候,可以将down(.)当做一个整体求导,然后按照之前所说明的方式“展开”成和convolution层一样大小的去求卷积层各个参数导数

 

 

三,拓展

【1】还介绍了一下优化CNN的方法,如给不同的map不一样的比例参数ai,也说明了一些关于规范化(regulation)方面的内容,其求导过程大同小异,就不一一提及

 

 

参考文献:

【1】Notes on Convolutional Neural Networks,Jake Bouvrie

【2】Deep Sparse Rectifier Neural Network,Xavier Glorot..

【3】Deep learning:五十一(CNN的反向求导及练习)