卷积核,以及卷积核channel数的理解
每一个卷积核的大小,为长宽,深度。长,宽自定义,卷积核输入通道数由上一层卷积核的个数或者输入图片的channel数决定。例如:如果上一层就是输入,输入为灰度图像,卷积核的输入通道数为1。输入为rgb图像,卷积核的深度为3。如果上一层为卷积层,卷积核的个数,即channel数。
注:(1)经过一个卷积核的输出,必然为一个特征图。
(2)卷积核的深度只和上一层的channel数相关,卷积核的深度就等于上一层的channel数
(3)卷积核的个数,卷积核的channel数,是同一个概念,卷积核的个数,也就是滤波器的个数,就等于下一层的channel(通道)数。
(3)当卷积核的大小大于1,步进为1时,不会改变输入的分辨率,即最终输入的分辨率和卷积核输出特征图的分辨率相同。
(4)每个卷积核只有一个偏置,卷积核对上一层每个特征图分别进行卷积,然后卷积完成以后进行累加,然后添加偏置,形成一个特征图。
(5)当下一层为BN层时,当前层卷积核的偏置可以不用设置。
(6)卷积层的参数,不仅与当前层的通道数有关,也与输入层的通道数有关,权值共享只限于单独的通道,不同的通道无法进行权值共享。举例如下:
卷积核的大小一般有1x1,3x3和5x5的尺寸(一般是奇数x奇数)。卷积核的个数就对应输出的通道数(channels),这里需要说明的是对于输入的每个通道,输出每个通道上的卷积核是不一样的。比如输入是28x28x192(WxDxK,K代表通道数),然后在3x3的卷积核,卷积通道数为128,那么卷积的参数有3x3x192x128,其中前两个对应的每个卷积里面的参数,后两个对应的卷积总的个数(一般理解为,卷积核的权值共享只在每个单独通道上有效,至于通道与通道间的对应的卷积核是独立不共享的,所以这里是192x128)。
以下附出一张卷积的图表示卷积过程:
图上所示输入为一张5*5*3的图片,不过padding为1,也就是7*7*3的feture map,经过两个卷积核进行卷积操作,卷积核的维度为3(高)*3(宽)*3(维度),最终会得到3(高)*3(宽)*2(通道)的feature map。
(一般理解为,卷积核的权值共享只在每个单独通道上有效,至于通道与通道间的对应的卷积核是独立不共享的,所以这里是192x128)从上面可以看出,每一个7*7的feature map,只在当前通道上卷积核的权值是共享的,在不同的通道与通道间的对应的卷积核是独立不共享的。
对于滤波器(卷积核),4个维度分别是高度、宽度、输入通道(深度或者称之为维度)和输出通道。输入通道与输入张量相同;输出通道收集多个滤波器,每个滤波器可以不同。
代码如下所示:
input=torch.tensor([[[[1,2,1,1],
[0,-1,0,0],
[0,0,0,0],
[0,0,0,0]],[[1,1,1,1],
[0,0,0,0],
[0,0,0,0],
[0,0,0,0]],[[1,1,1,1],
[0,0,0,0],
[0,0,0,0],
[0,0,0,0]]]])weight=torch.tensor([[[[1,1],
[0,0]],
[[1,0],
[0,0]], [[0,0],
[0,0]]]])
input:输入一张1*3*4*4的图片,3表示channel数,4*4表示feature map 的大小,
weight表示输入一个卷积核1*3*2*2,卷积核的深度为3,大小为2*2,
output = F.conv2d(input, weight=weight, padding=0, stride=1)
output的结果为tensor([[[[ 4, 4, 3],
[-1, -1, 0],
[ 0, 0, 0]]]])