CNN

卷积神经网络是含有卷积层的神经网络,而卷积层则得名于卷积运算。

filter神经网络 神经网络中的filter_机器学习

Filter

在卷积层中,我们会用一个叫做filter的东西扫过一张图片。这些 filter 啊 它们的大小是,3 × 3 × Channel 的 Size。如果今天是彩色图片的话,那就是 RGB 三个 Channel,如果是黑白的图片的话,它的 Channel 就等於 1。一般而言,这个filter大小可以自己决定,我们这里用filter神经网络 神经网络中的filter_pytorch_02的filter来举例。

filter神经网络 神经网络中的filter_机器学习_03


上图显示了卷积运算的基本过程,用filter神经网络 神经网络中的filter_pytorch_02的filter这样扫过图片,filter跟图片对应位置的数值直接相乘,所有的都乘完以后再相加

filter神经网络 神经网络中的filter_卷积_05

其中每次移动的步幅为stride,如果超出范围你就做 Padding,Padding填充的数值可能为0或者均值等(一般补0)

理解filter扫过的过程

那么我们该怎么理解这样一个卷积的过程呢,可以做如下理解。我们用filter依次扫一片对应大小的区域时,我们将这片区域称为Receptive Field。这说明,我们只在这个区域找我们感兴趣的东西,很感性的认识就是一张图片如果我们要对其进行识别,我们可能会将一个鸟的识别分解为对其鸟嘴,翅膀等特征的分解,那么对鸟嘴这一特征,它可能仅仅出现在一个小的区域,所以我们完全可以缩小我们寻找的范围这样。

那么鸟嘴这样一个特征并不是说他只出现在一个地方,它可能出现在这张图的上方而出现在另一张图的中间这样,这也就需要我们说对不同区域都要找一找鸟嘴这一特征,那不同区域的鸟嘴是否意味着我们要设另外的一组参数去找呢,这便是我们用filter扫整张图的原因了,我们实际上完成了在不用区域用同一组参数去做这样一个特征检测的过程,我们称之为Parameter Sharing权值共享

引用之前看到过的一个评论:
什么是卷积操作呢?没法讲数学细节,我讲一个通俗的例子。

标准答题卡里的卷积操作

我上学的时候,有一次英语考试我们在下面做题,英语老师用烟头在一张答题卡上烫了一些洞。 考完试后,他把他的标准答題卡往我们的答题卡上一放,很显然哪位同学答题卡漏出的黑色铅笔标记越多,他的选择题的得分就越好。
实际我们可以把所有同学的答题卡平摊开来放在教室的地面上,所有的答题卡组成了一副图片。当我们把老师的标准答题卡滑过学生答题卡组成的图片时,根据重合部分的多寡,就可以得到每个学生的得分。
如果把标准答题卡看做一个向量,学生答题卡也组成向量,之间点积最高的学生得分最高。 这里也可以用图像很像来描述。
卷积操作不再单独的把标准答案的每一项和学生的每项逐一比较,而是把整个考试的答案看做一个整体。

Pooling

Pooling 来自於另外一个观察

我们把一张比较大的图片做 Subsampling,举例来说你把偶数的 Column 都拿掉,奇数的 Row 都拿掉,图片变成為原来的1/4,但是不会影响裡面是什麼东西,把一张大的图片缩小,这是一隻鸟,这张小的图片看起来还是一隻鸟

那所以呢 有了Pooling 这样的设计,那 Pooling 是怎麼运作的呢?刚才说每一个 Filter 都产生一把数字,要做 Pooling 的时候,我们就把这些数字几个几个一组,比如说在这个例子裡面就是 2×2 个一组,每一组裡面选一个代表,在 Max Pooling 裡面,我们选的代表就是最大的那一个

the whole CNN

filter神经网络 神经网络中的filter_深度学习_06